Onderzoekers van Google en MIT hebben een onderzoek uitgevoerd uitgebreide analyse van agentsystemen en de dynamiek tussen het aantal agenten, coördinatiestructuur, modelcapaciteit en taakkenmerken. Hoewel het heersende sentiment in de sector luidt: ‘meer agenten is alles wat je nodig hebt’, suggereert het onderzoek dat het opschalen van agententeams geen gegarandeerde weg is naar betere prestaties.
Op basis van hun resultaten hebben de onderzoekers een kwantitatief model gedefinieerd dat de prestaties van een computer kan voorspellen agent systeem op een ongekende taak. Uit hun werk blijkt dat het toevoegen van meer agenten en hulpmiddelen als een tweesnijdend zwaard werkt: hoewel het de prestaties bij specifieke problemen kan verbeteren, introduceert het vaak onnodige overhead en afnemende opbrengsten voor anderen.
Deze bevindingen bieden een cruciale routekaart voor ontwikkelaars en besluitvormers in ondernemingen die proberen te bepalen wanneer complexe multi-agent architecturen moeten worden geïmplementeerd in plaats van eenvoudigere, kosteneffectievere single-agent oplossingen.
De staat van agentsystemen
Om de implicaties van het onderzoek te begrijpen, is het noodzakelijk onderscheid te maken tussen de twee belangrijkste architecturen die tegenwoordig worden gebruikt. Single-agentsystemen (SAS) hebben een solitaire redeneerlocatie. In deze opzet vinden alle perceptie, planning en actie plaats binnen een enkele sequentiële lus die wordt bestuurd door één LLM-instantie, zelfs wanneer het systeem hulpmiddelen, zelfreflectie of gedachteketens (CoT) gebruikt. Omgekeerd omvat een multi-agentsysteem (MAS) meerdere door LLM ondersteunde agenten die communiceren via het gestructureerd doorgeven van berichten, gedeeld geheugen of georkestreerde protocollen.
Het bedrijfsleven heeft een toenemende belangstelling voor MASgedreven door het uitgangspunt dat gespecialiseerde samenwerking consequent beter kan presteren dan systemen met één agent. Naarmate taken steeds complexer worden en voortdurende interactie met omgevingen vereisen (bijvoorbeeld codeerassistenten of bots voor economische analyse), gaan ontwikkelaars er vaak van uit dat het verdelen van het werk tussen ‘gespecialiseerde’ agenten de superieure aanpak is.
Maar de onderzoekers beweren dat er ondanks deze snelle adoptie geen principieel kwantitatief raamwerk bestaat om te voorspellen wanneer het toevoegen van middelen de prestaties verbetert en wanneer het deze erodeert.
Een belangrijke bijdrage van het artikel is het onderscheid tussen “statische” en “agentische” taken. De onderzoekers gebruikten een ‘Agentic Benchmark Checklist’ om onderscheid te maken tussen taken die langdurige meerstapsinteracties, iteratieve informatieverzameling en adaptieve strategieverfijning vereisen, van taken waarvoor dat niet het geval is. Dit onderscheid is cruciaal omdat strategieën die werken voor het oplossen van statische problemen (zoals stemmen op een codeerquiz) vaak mislukken wanneer ze worden toegepast op echte agentische taken, waarbij ‘coördinatie-overhead’ en ‘foutpropagatie’ over het probleemoplossingsproces kunnen worden verspreid.
De grenzen van samenwerking testen
Om de specifieke effecten van systeemarchitectuur te isoleren, ontwierpen de onderzoekers een rigoureus experimenteel raamwerk. Ze testten 180 unieke configuraties met vijf verschillende architecturen, drie LLM-families (OpenAI, Google en Anthropic) en vier agentbenchmarks. De architecturen omvatten een controlegroep met één agent en vier varianten met meerdere agenten: onafhankelijk (parallelle agenten zonder communicatie), gecentraliseerd (agenten die rapporteren aan een orkestrator), gedecentraliseerd (peer-to-peer debat) en hybride (een mix van hiërarchie en peer-communicatie).
De studie was bedoeld om “implementatieverwarring” weg te nemen door tools, snelle structuren en symbolische budgetten te standaardiseren. Dit zorgde ervoor dat als een systeem met meerdere agenten beter presteerde dan een enkele agent, de winst kon worden toegeschreven aan de coördinatiestructuur in plaats van aan de toegang tot betere tools of meer computergebruik.
De resultaten dagen het ‘meer is beter’-verhaal uit. Uit de evaluatie blijkt dat de effectiviteit van multi-agentsystemen wordt bepaald door “kwantificeerbare afwegingen tussen architecturale eigenschappen en taakkenmerken.” De onderzoekers identificeerden drie dominante patronen die deze resultaten aansturen:
Afweging van gereedschapscoördinatie: Bij vaste rekenbudgetten hebben multi-agentsystemen last van contextfragmentatie. Wanneer een rekenbudget wordt gedeeld door meerdere agenten, beschikt elke agent niet over voldoende capaciteit voor toolorkestratie vergeleken met een enkele agent die een gepoolde geheugenstroom onderhoudt.
Als gevolg hiervan neemt de effectiviteit van multi-agentsystemen aanzienlijk af in omgevingen met veel tools met meer dan 10 tools. De onderzoeker constateerde dat bij het gebruik van systemen met meerdere agenten de efficiëntie twee tot zes maal lager uitvalt dan bij systemen met één agent. Paradoxaal genoeg worden eenvoudigere architecturen efficiënter omdat ze de coördinatieoverhead vermijden die gepaard gaat met de complexiteit van de omgeving.
Capaciteitsverzadiging: De gegevens wezen op een empirische drempel van ca. 45% nauwkeurigheid voor single-agentprestaties. Wanneer een basislijn met één agent dit niveau overschrijdt, zal het toevoegen van meer agenten doorgaans afnemende of negatieve rendementen opleveren.
Co-auteur Xin Liu, onderzoeker bij Google en co-auteur van het artikel, merkte echter een cruciale nuance op voor zakelijke gebruikers. “Bedrijven moeten in beide (single- en multi-agentsystemen) investeren”, vertelde hij aan VentureBeat. “Betere basismodellen verhogen de basislijn, maar voor taken met natuurlijke afbreekbaarheid en parallellisatiepotentieel (zoals onze Finance Agent-benchmark met een verbetering van +80,9%) blijft coördinatie tussen meerdere agenten aanzienlijke waarde bieden, ongeacht de modelcapaciteiten.”
Topologie-afhankelijke fout: De structuur van het agententeam bepaalt of fouten worden gecorrigeerd of vermenigvuldigd. In “onafhankelijke” systemen, waar agenten parallel werken zonder te communiceren, werden de fouten 17,2 keer groter dan in de basislijn met één agent. Gecentraliseerde architecturen beperkten deze versterking daarentegen tot 4,4 keer.
“De belangrijkste onderscheidende factor is het hebben van een speciaal validatieknelpunt dat fouten onderschept voordat ze zich verspreiden naar de uiteindelijke output”, zegt hoofdauteur Yubin Kim, een doctoraatsstudent aan het MIT. “Voor logische tegenstrijdigheden verlaagt ‘gecentraliseerd’ het basispercentage … (met) 36,4% … Voor fouten in verband met weglatingen in de context verlaagt ‘gecentraliseerd’ … (met) 66,8%.”
Bruikbare inzichten voor bedrijfsimplementatie
Voor ontwikkelaars en bedrijfsmanagers bieden deze bevindingen specifieke richtlijnen voor het bouwen van effectievere AI-systemen.
-
De regel van “sequentialiteit”: Voordat u een team van agenten samenstelt, analyseert u de afhankelijkheidsstructuur van uw taak. De sterkste voorspeller van het falen van meerdere agenten zijn strikt opeenvolgende taken. Als Stap B uitsluitend afhankelijk is van de perfecte uitvoering van Stap A, is een single-agentsysteem waarschijnlijk de betere keuze. In deze scenario’s vallen de fouten samen in plaats van gelijk te worden. Omgekeerd, als de taak parallel of ontleedbaar is (bijvoorbeeld het gelijktijdig analyseren van drie verschillende financiële rapporten), bieden multi-agentsystemen enorme voordelen.
-
Repareer niet wat niet kapot is: Bedrijven moeten altijd eerst met één enkele agent benchmarken. Als een systeem met één agent een succespercentage van meer dan 45% behaalt voor een specifieke taak die niet gemakkelijk kan worden gedegradeerd, zal het toevoegen van meer agenten waarschijnlijk de prestaties verminderen en de kosten verhogen zonder waarde te leveren.
-
Tel uw API’s: Wees uiterst voorzichtig bij het gebruik van multi-agentsystemen voor taken waarvoor veel verschillende tools nodig zijn. Het verdelen van een tokenbudget over meerdere agenten fragmenteert hun geheugen en context. “Voor integraties met veel tools met meer dan ongeveer tien tools hebben systemen met één agent waarschijnlijk de voorkeur”, zei Kim, en merkte op dat uit het onderzoek een “2 tot 6x efficiëntiestraf” werd waargenomen voor varianten met meerdere agenten in deze scenario’s.
-
Match topologie met doel: Als een multi-agentsysteem nodig is, moet de topologie overeenkomen met de specifieke doelstelling. Voor taken die een hoge nauwkeurigheid en precisie vereisen, zoals financiën of coderen, is gecentraliseerde coördinatie superieur omdat de orkestrator een noodzakelijke verificatielaag biedt. Voor taken die verkenning vereisen, zoals dynamisch surfen op het web, blinkt gedecentraliseerde coördinatie uit doordat agenten verschillende paden tegelijkertijd kunnen verkennen.
-
“Regel van 4”: Hoewel het verleidelijk kan zijn om enorme zwermen te bouwen, blijkt uit het onderzoek dat de effectieve teamgrootte momenteel beperkt is tot ongeveer drie of vier agenten. “De limiet van drie tot vier agenten die we identificeren, komt voort uit meetbare beperkte middelen”, zei Kim. Daarnaast groeien de kosten van communicatie superlineair (specifiek met een exponent van 1,724), wat betekent dat de kosten van coördinatie snel de waarde van de toegevoegde rechtvaardiging overschrijden.
Vooruitkijkend: de bandbreedtelimiet doorbreken
Hoewel de huidige architecturen bij kleine teamgroottes een plafond bereiken, is dit waarschijnlijk eerder een beperking van de huidige protocollen dan een fundamentele beperking van AI. De effectieve limiet van systemen met meerdere agenten komt voort uit het feit dat agenten momenteel op een dichte, resource-intensieve manier communiceren.
“Wij geloven dat dit een huidige beperking is, en geen permanente limiet”, zei Kim, wijzend op een paar belangrijke innovaties die het potentieel voor grootschalige samenwerking tussen agenten zouden kunnen ontsluiten:
Schaarse communicatieprotocollen: “Uit onze gegevens blijkt dat de berichtendichtheid verzadigd is met ongeveer 0,39 berichten per rit, waarna extra berichten redundantie toevoegen in plaats van nieuwe informatie. Slimmere routering zou de overhead kunnen verminderen”, zei hij.
Hiërarchische ontleding: In plaats van platte zwermen van 100 agenten zouden geneste coördinatiestructuren de communicatiegrafiek kunnen verdelen.
Asynchrone coördinatie: “Onze experimenten maakten gebruik van synchrone protocollen, en asynchrone ontwerpen kunnen de blokkeringsoverhead verminderen”, zei hij.
Kansbewuste routering: “Onze heterogeniteitsexperimenten suggereren dat het strategisch combineren van modelmogelijkheden de efficiëntie kan verbeteren,” zei Kim
Dit is iets om naar uit te kijken in 2026. Tot die tijd zijn de gegevens voor de enterprise architect helder: kleinere, slimmere en meer gestructureerde teams winnen.



