This research presents a production-ready automated code review system that integrates large language models with Retrieval-Augmented Generation to identify security vulnerabilities and code quality issues in software repositories. The system addresses computational resource constraints through quantization techniques and parameter-efficient fine-tuning using Low-Rank Adaptation (LoRA), enabling deployment on consumer-grade hardware while maintaining review quality. The study establishes technical requirements through comparative analysis of existing tools, including GitHub Copilot and Amazon CodeGuru. Performance targets include sub-30-second review latency and high precision in detecting OWASP Top 10 vulnerabilities. The architecture employs adapter mechanisms that allow model specialization for project-specific coding standards without full model retraining. The implementation features a RESTful API built on FastAPI with PostgreSQL persistence, integrated with GitHub through webhook-based automation. The core innovation lies in a RetrievalAugmented Generation pipeline that matches code modifications against a curated security knowledge base containing 25+ vulnerability patterns. This targeted retrieval mechanism achieves a 60% reduction in language model invocations compared to naive approaches, substantially lowering operational costs while improving feedback specificity. The system demonstrates modular extensibility through support for multiple inference backends: cloud-based providers, local deployment via Ollama, and high-performance serving through vLLM. Benchmark results show vLLM achieves 2-4x faster inference than standard local deployments for equivalent model sizes. The MLOps infrastructure, built on Kubeflow, enables automated model training pipelines, hyperparameter optimization via Katib, and production model serving through KServe with GPU-based autoscaling. Evaluation results indicate the system achieves performance comparable to human reviewers for well-defined vulnerability categories, including injection flaws and authentication weaknesses. However, limitations persist in detecting context-dependent vulnerabilities requiring architectural understanding. These findings support the deployment of such systems as augmentation tools that accelerate routine review tasks, enabling human experts to concentrate on complex architectural and design considerations.
Această cercetare prezintă un sistem automatizat de revizuire a codului pregătit pentru producție, care integrează modele lingvistice mari cu Retrieval-Augmented Generation (RAG) pentru a identifica vulnerabilitățile de securitate și problemele de calitate a codului în depozitele software. Sistemul abordează constrângerile de resurse computaționale prin tehnici de cuantizare și ajustare eficientă a parametrilor folosind Low-Rank Adaptation (LoRA), permițând implementarea pe hardware de consum, menținând în același timp calitatea revizuirii. Studiul stabilește cerințele tehnice printr-o analiză comparativă a instrumentelor existente, inclusiv GitHub Copilot și Amazon CodeGuru. Obiectivele de performanță includ o latență a revizuirii sub 30 de secunde și o precizie ridicată în detectarea vulnerabilităților din OWASP Top 10. Arhitectura utilizează mecanisme de adaptoare care permit specializarea modelului pentru standardele de codare specifice proiectului, fără a fi nevoie de reantrenarea completă a modelului. Implementarea include o API RESTful construită pe FastAPI cu persistență PostgreSQL, integrată cu GitHub prin automatizare bazată pe webhook-uri. Inovația centrală constă într-un pipeline de Retrieval Augmented Generation care compară modificările codului cu o bază de cunoștințe de securitate selectată, conținând peste 25 de tipare de vulnerabilități. Acest mecanism de căutare țintită realizează o reducere de 60% a invocărilor modelului lingvistic comparativ cu abordările naive, reducând semnificativ costurile operaționale și îmbunătățind specificitatea feedback-ului. Sistemul demonstrează extensibilitate modulară prin suport pentru multiple backend-uri de inferență: furnizori cloud, implementare locală prin Ollama și servire de înaltă performanță prin vLLM. Rezultatele benchmark arată că vLLM realizează o inferență de 2-4 ori mai rapidă decât implementările locale standard pentru dimensiuni de model echivalente. Infrastructura MLOps, construită pe Kubeflow, permite pipeline-uri automate de antrenare a modelelor, optimizarea hiperparametrilor prin Katib și servirea modelelor de producție prin KServe cu autoscaling bazat pe GPU. Rezultatele evaluării indică faptul că sistemul atinge performanțe comparabile cu revizorii umani pentru categorii de vulnerabilități bine definite, inclusiv defecte de tip injection și slăbiciuni în autentificare. Totuși, persistă limitări în detectarea vulnerabilităților dependente de context, care necesită înțelegerea arhitecturală. Aceste concluzii susțin implementarea unor astfel de sisteme ca instrumente de augmentare care accelerează sarcinile de revizuire de rutină, permițând experților umani să se concentreze pe considerații complexe de arhitectură și design.