Large Language Models have undergone rapid growth and development in recent years, with new models that are better and more performant than earlier versions, emerging continuously and constantly. However, when selecting the most suitable model for a specific task, persistent economic and architectural constraints arise, as no single model performs efficiently across all domains and benchmarks. Trying to leverage multiple large language models simultaneously introduces significant operational challenges, in- cluding increased decision latency and the ”communication tax” from token overhead in multi-agent system coordination. The present paper discusses the mitigation of these challenges by proposing a new, hybrid orchestra- tion architecture aimed at solving the existing failure to achieve optimal cost-accuracy-latency trade-offs in LLM production. The system relies on a non-generative Central Router to dynamically triage user requests using feature-driven ranking, presenting an approach beyond simple similarity to predict the best utility for each architectural path, such as Single-Agent for cost-efficiency or Multi-Agent for complex coordina- tion. Furthermore, it employs quantitative self-triage mechanisms, such as the Internal Confidence Score derived from log probabilities, to ensure the selection of the most reliable model and resource allocation. The practical implementation of a Proof of Concept demonstrated the feasibility of such a solution, per- forming accurate request routing across varied tasks, such as code generation and complex analysis. The research provides a robust baseline and motivation for future work in the field, demonstrating the necessity and utility of this resource-aware approach for sustainable LLM deployment.
Modelele Lingvistice Mari au avut parte de o creștere și o dezvoltare rapidă în ultimii ani, cu noi modele care sunt mai bune și mai performante decât versiunile anterioare, apărând în mod continuu și constant. Cu toate acestea, atunci când se selectează modelul cel mai potrivit pentru o anumită sarcină, apar constrângeri economice și arhitecturale persistente, deoarece niciun model unic nu functționeaza eficient în toate domeniile și criteriile de referintă. Încercarea de a antrena mai multe modele lingvistice mari introduce simultan și provocari operationale semnificative, inclusiv latenta sporită a deciziilor și ”taxa de comunicare” din cheltuielile generale ale token-urilor în coordonarea sistemelor multi-agent. Lucrarea de față discută atenuarea provocarilor mentionate prin propunerea unei noi arhitecturi de orchestratie hibridă ce vizează soluționarea eșecului existent de atingere a compromisurilor optime de cost-acuratete-latență în producția modelelor lingvistice mari. Sistemul se bazează pe un Router Central non-generativ pentru a tria dinamic cererile utilizatorilor folosind un clasament bazat pe caracteristici, prezentând o abordare mai complexă decât similitudinea de text pentru prezicerea celei mai bune utilități pentru fiecare cale arhitecturală, cum ar fi Agent-Unic pentru rentabilitate sau Multi-Agent pentru coor-donare complexă. În plus, sistemul propus utilizează mecanisme cantitative de auto-triaj, cum ar fi Scorul de Încredere Internă derivat din probabilitățile de înregistrare, pentru a asigura selectarea celui mai fiabil model și alocarea optimă a resurselor. Implementarea practică a unei dovezi a conceptului a demonstrat fezabilitatea unei astfel de soluții, efectuând o rutare eficientă a solicitărilor în diferite sarcini, cum ar fi generarea de cod și analiza complexă. Cercetarea oferă o bază solidă și o motivație pentru munca viitoare în domeniu, demonstrând necesitatea și utilitatea acestei abordări bazate pe resurse pentru implementarea durabilă a Modelelor Lingvistice Mari.