Home Nieuws Betaalt u een AI-zwermbelasting? Waarom individuele agenten vaak complexe systemen verslaan

Betaalt u een AI-zwermbelasting? Waarom individuele agenten vaak complexe systemen verslaan

5
0
Betaalt u een AI-zwermbelasting? Waarom individuele agenten vaak complexe systemen verslaan

Enterprise-teams die AI-systemen met meerdere agenten bouwen, kunnen een rekenpremie betalen voor winsten die onder gelijke budgetomstandigheden niet standhouden. Uit nieuw onderzoek van Stanford University blijkt dat systemen met één agent overeenkomen met of beter presteren dan multi-agent-architecturen bij complexe redeneringstaken wanneer beide hetzelfde denkbudget krijgen.

Multi-agentsystemen komen echter met de extra bagage van computationele overhead. Omdat ze doorgaans langere redeneerpaden en meer interacties gebruiken, is het vaak onduidelijk of de gerapporteerde voordelen voortkomen uit architectonische voordelen of eenvoudigweg uit het verbruiken van meer hulpbronnen.

Om de ware drijvende kracht achter prestaties te isoleren, hebben onderzoekers van Stanford University ontdekt vergeleek single-agent-systemen met multi-agent-architecturen op complexe multi-hop redeneringstaken onder gelijke “think token” -budgetten.

Uit hun experimenten blijkt dat systemen met één agent in de meeste gevallen overeenkomen met of beter presteren dan systemen met meerdere agenten als de berekening hetzelfde is. Multi-agentsystemen verkrijgen een concurrentievoordeel wanneer de context van een enkele agent te lang of corrupt wordt.

In de praktijk betekent dit dat een single-agent-model met voldoende denkbudget een efficiëntere, betrouwbaardere en kosteneffectievere multi-hop-redenering kan opleveren. Technische teams moeten systemen met meerdere agenten reserveren voor scenario’s waarin individuele agenten een prestatieplafond bereiken.

Begrijp het verschil tussen single- en multi-agent

Multi-agent-frameworks, zoals planner-agents, rollenspelsystemen of debatzwermen, ontleden een probleem door meerdere modellen in gedeeltelijke contexten te laten werken. Deze componenten communiceren met elkaar door hun antwoorden rond te sturen.

Hoewel multi-agentoplossingen sterke empirische prestaties vertonen, is het vergelijken ervan met single-agent basislijnen vaak een onnauwkeurige meting. Vergelijkingen worden sterk vertroebeld door verschillen in testtiming. Opstellingen met meerdere agenten vereisen meer interacties met agenten en genereren langere redeneerpaden, wat betekent dat ze aanzienlijk meer tokens gebruiken.

Single-agentsystemen (SAS) versus multi-agentsystemen (MAS)

dd Als een multi-agentsysteem een ​​hogere nauwkeurigheid rapporteert, is het dus moeilijk om te bepalen of de winst voortkomt uit een beter architectuurontwerp of uit het gebruik van extra berekeningen.

Recente onderzoeken laten zien dat wanneer het computationele budget vaststaat, ingewikkelde multi-agentstrategieën vaak ondermaats zullen presteren vergeleken met sterke single-agent basislijnen. Maar het zijn meestal zeer brede vergelijkingen die geen rekening houden met nuances zoals verschillende multi-agent-architecturen of het verschil tussen prompt- en redeneringstokens.

“Een belangrijk punt van ons artikel is dat veel vergelijkingen tussen single-agentsystemen (SAS) en multi-agentsystemen (MAS) geen appels met appels zijn”, vertelden de auteurs van het artikel Dat Tran en Douwe Kiela aan VentureBeat. “MAS krijgt vaak efficiëntere testtiming door extra oproepen, langere tracks of meer coördinatiestappen.”

Een nieuwe kijk op de uitdaging met meerdere agenten onder krappe budgetten

Om een ​​eerlijke vergelijking te maken, hebben de Stanford-onderzoekers een strikt ‘think-token’-budget vastgesteld. Deze statistiek bepaalt het totale aantal tokens dat uitsluitend wordt gebruikt voor tussentijds redeneren, met uitzondering van de initiële prompt en de uiteindelijke uitvoer.

De studie evalueerde single- en multi-agentsystemen op multi-hop redeneertaken, dat wil zeggen vragen waarbij verschillende stukjes ongelijksoortige informatie met elkaar moeten worden verbonden om tot een antwoord te komen.

Tijdens hun experimenten merkten de onderzoekers dat opstellingen met één agent soms hun interne redenering voortijdig stopzetten, waardoor het beschikbare rekenbudget ongebruikt blijft. Om dit tegen te gaan, introduceerden ze een techniek genaamd SAS-L (single-agent-systeem met langer denken).

In plaats van over te stappen op multi-agent-orkestratie wanneer een model het voortijdig opgeeft, suggereren de onderzoekers een eenvoudige, snelle en budgetvriendelijke verandering.

“Het technische idee is simpel”, zeiden Tran en Kiela. “Herstructureer eerst de single-agentprompt zodat het model expliciet wordt gevraagd om het beschikbare redeneringsbudget te gebruiken bij eerdere responsanalyse.”

Door het model te instrueren om expliciet dubbelzinnigheden te identificeren, kandidaat-interpretaties op te sommen en alternatieven te testen voordat ze tot een definitief antwoord komen, kunnen ontwikkelaars de voordelen van samenwerking binnen een single-agent-opstelling herwinnen.

De resultaten van hun experimenten bevestigen dat één enkele agent de sterkste standaardarchitectuur is voor multi-hop redeneringstaken. Het geeft de hoogst nauwkeurige antwoorden terwijl er minder redeneerfiches worden gebruikt. In combinatie met specifieke modellen zoals Googles Gemini 2.5 levert de langer nadenkende variant nog betere algehele prestaties.

De onderzoekers vertrouwen op een concept genaamd “Data Processing Inequality” om uit te leggen waarom een ​​enkele agent beter presteert dan een zwerm. Multi-agentframeworks introduceren inherente communicatieknelpunten. Telkens wanneer informatie wordt samengevat en tussen verschillende agenten wordt doorgegeven, bestaat het risico op gegevensverlies.

Daarentegen vermijdt het redeneren met één agent binnen een continue context deze fragmentatie. Het behoudt toegang tot de rijkste beschikbare representatie van de taak en is dus informatie-efficiënter met een vast budget.

De auteurs merken ook op dat bedrijven vaak de secundaire kosten van multi-agentsystemen over het hoofd zien.

“Wat bedrijven vaak onderschatten is dat orkestratie niet gratis is”, zeiden ze. “Elke extra agent introduceert communicatie-overhead, meer intertekst, meer mogelijkheden voor verliesgevende samenvattingen en meer plaatsen waar fouten kunnen ontstaan.”

Aan de andere kant ontdekten ze dat orkestratie door meerdere agenten superieur is wanneer de omgeving van één agent rommelig wordt. Als een bedrijfsapplicatie te maken krijgt met zeer gedegradeerde contexten, zoals luidruchtige gegevens, lange invoer vol afleiders of corrupte informatie, heeft een enkele agent het moeilijk. In deze scenario’s kan het gestructureerd filteren, ontleden en verifiëren van een multi-agentsysteem relevante informatie betrouwbaarder herstellen.

Het onderzoek waarschuwt ook voor verborgen evaluatievalkuilen die de prestaties van meerdere agenten ten onrechte verhogen. Als u uitsluitend vertrouwt op door de API gerapporteerde tokenaantallen, wordt de hoeveelheid rekenkracht die een architectuur daadwerkelijk gebruikt sterk verstoord. De onderzoekers ontdekten deze boekhoudkundige artefacten bij het testen van modellen als Gemini 2.5, wat bewijst dat dit tegenwoordig een actief probleem is voor bedrijfsapplicaties.

“Voor API-modellen is de situatie moeilijker omdat budgetboekhouding ondoorzichtig kan zijn”, aldus de auteurs. Om architecturen betrouwbaar te kunnen evalueren, adviseren ze ontwikkelaars om “alles te loggen, de zichtbare redeneersporen te meten waar beschikbaar, door de leverancier gerapporteerde redeneringstokentellingen te gebruiken wanneer ze worden blootgesteld, en die cijfers met zorg te behandelen.”

Wat het betekent voor ontwikkelaars

Als een systeem met één agent de prestaties van meerdere agenten onder dezelfde redeneringsbudgetten evenaart, wint het aan totale eigendomskosten door minder modelaanroepen, een lagere latentie en eenvoudiger debuggen aan te bieden. Tran en Kiela waarschuwen dat zonder deze basislijn “sommige bedrijven een grote ‘zwermbelasting’ zouden kunnen betalen voor architecturen waarvan het duidelijke voordeel feitelijk voortkomt uit het gebruik van meer berekeningen in plaats van efficiënter te redeneren.”

Een andere manier om naar de beslissingsgrens te kijken is niet hoe complex de totale taak is, maar eerder waar het precieze knelpunt ligt.

“Als het vooral om diepgang gaat, is SAS vaak genoeg. Als het om contextfragmentatie of decompositie gaat, wordt MAS beter verdedigbaar”, zegt Tran.

Technische teams moeten bij één agent blijven als een taak binnen één samenhangend contextvenster kan worden afgehandeld. Multi-agentsystemen worden noodzakelijk wanneer een applicatie zeer gedegradeerde contexten verwerkt.

In de toekomst zullen multi-agent-frameworks niet verdwijnen, maar hun rol zal evolueren naarmate grensmodellen hun interne redenering verbeteren.

“De belangrijkste conclusie uit ons artikel is dat de structuur met meerdere agenten moet worden behandeld als een gerichte technische keuze voor specifieke knelpunten, en niet als een standaardaanname dat meer agenten automatisch betere intelligentie betekenen,” zei Tran.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in