Nu het ecosysteem van agentische tools en raamwerken in omvang explodeert, wordt het steeds moeilijker om door de vele opties voor het bouwen van AI-systemen te navigeren, waardoor ontwikkelaars verward en verlamd raken bij het kiezen van de juiste tools en modellen voor hun toepassingen.
In één nieuwe studieonderzoekers van verschillende instellingen presenteren een alomvattend raamwerk voor het oplossen van dit complexe web. Ze categoriseren agentische raamwerken op basis van hun aandachtsgebied en afwegingen, en bieden ontwikkelaars een praktische gids bij het kiezen van de juiste tools en strategieën voor hun toepassingen.
Voor bedrijfsteams transformeert dit agent-AI van een modelselectieprobleem in een architecturale beslissing over waar het trainingsbudget aan moet worden besteed, hoeveel modulariteit ze moeten behouden en welke afwegingen ze bereid zijn te maken tussen kosten, flexibiliteit en risico.
Aanpassing van agent versus gereedschap
De onderzoekers verdelen het landschap in twee primaire dimensies: aanpassing van agenten En gereedschap aanpassing.
Agentaanpassing omvat het veranderen van het fundamentele model dat ten grondslag ligt aan het agentsysteem. Dit wordt gedaan door de interne parameters of het beleid van de agent bij te werken via methoden zoals fijnafstemming of versterkend leren om zich beter aan te passen aan specifieke taken.
Aan de andere kant verschuift het aanpassen van tools de focus naar de omgeving rondom de agent. In plaats van het grote, dure basismodel opnieuw te trainen, optimaliseren ontwikkelaars de externe tools zoals zoekophaalprogramma’s, geheugenmodules of subagenten. Bij deze strategie blijft de hoofdagent ‘bevroren’ (onveranderd). Dankzij deze aanpak kan het systeem evolueren zonder de enorme rekenkosten van het opnieuw trainen van het kernmodel.
De studie verdeelt deze verder in vier verschillende strategieën:
A1: Gereedschapsuitvoering gesignaleerd: Bij deze strategie leert de agent door te doen. Het wordt geoptimaliseerd met behulp van regelbare feedback die rechtstreeks voortvloeit uit de uitvoering van een tool, zoals een codecompiler die communiceert met een script of een database die zoekresultaten retourneert. Hierdoor leert de agent de “mechanismen” van het correct gebruiken van een hulpmiddel.
Een goed voorbeeld is DeepSeek-R1waarbij het model werd getraind door middel van versterkend leren met verifieerbare beloningen om code te genereren die met succes in een sandbox wordt uitgevoerd. Het feedbacksignaal is binair en objectief (is de code uitgevoerd of is deze gecrasht?). Deze methode bouwt sterke competentie op laag niveau op in stabiele, verifieerbare domeinen zoals codering of SQL.
A2: Agentuitgang gesignaleerd: Hierbij wordt de agent geoptimaliseerd op basis van de kwaliteit van zijn uiteindelijke reactie, ongeacht de tussenstappen en het aantal tool calls dat hij maakt. Dit leert de agent hoe hij verschillende tools moet orkestreren om tot de juiste conclusie te komen.
Een voorbeeld is Zoeken-R1een agent die meerdere stappen ophaalt om vragen te beantwoorden. Het model ontvangt alleen een beloning als het uiteindelijke antwoord juist is, waardoor het model impliciet wordt gedwongen betere zoek- en redeneerstrategieën te leren om die beloning te maximaliseren. A2 is ideaal voor orkestratie op systeemniveau, waardoor agenten complexe workflows kunnen afhandelen.
T1: Agent-agnostisch: In deze categorie worden tools onafhankelijk getraind op basis van brede gegevens en vervolgens ‘ingeplugd’ in een bevroren agent. Denk aan klassieke dichte retrievers die worden gebruikt in RAG-systemen. Een standaard retrievermodel wordt getraind op generieke zoekgegevens. Een krachtige bevroren LLM kan deze retriever gebruiken om informatie te vinden, zelfs als de retriever niet specifiek voor die LLM is ontworpen.
T2: Agent-gecontroleerd: Deze strategie omvat trainingsinstrumenten die specifiek zijn bedoeld voor het bedienen van een bevroren agent. Het supervisiesignaal komt van de eigen output van de agent, waardoor een symbiotische relatie ontstaat waarin de tool leert precies te bieden wat de agent nodig heeft.
Bijvoorbeeld s3logic traint een klein “zoeker”-model om documenten op te halen. Dit kleine model wordt beloond op basis van de vraag of een bevroren “redenaar” (een grote LLM) de vraag correct kan beantwoorden met behulp van deze documenten. De tool past zich effectief aan om de specifieke kennislacunes van de hoofdagent op te vullen.
Complexe AI-systemen kunnen een combinatie van deze aanpassingsparadigma’s gebruiken. Een diepgaand onderzoekssysteem kan bijvoorbeeld gebruik maken van retrievaltools in T1-stijl (vooraf getrainde, compacte retrievers), adaptieve zoekagenten in T2-stijl (getraind via bevroren LLM-feedback) en redeneermiddelen in A1-stijl (verfijnd met uitvoeringsfeedback) in een breder georkestreerd systeem.
De verborgen kosten en afwegingen
Voor zakelijke besluitvormers komt de keuze tussen deze strategieën vaak neer op drie factoren: kosten, generaliseerbaarheid en modulariteit.
Kosten versus flexibiliteit: Aanpassing van agenten (A1/A2) biedt maximale flexibiliteit omdat u het brein van de agent opnieuw bedraadt. De kosten zijn echter hoog. Search-R1 (een A2-systeem) vereiste bijvoorbeeld training over 170.000 voorbeelden om de zoekfuncties te internaliseren. Dit vereist enorme berekeningen en gespecialiseerde datasets. Aan de andere kant kunnen de modellen bij sluitingstijd veel efficiënter zijn omdat ze veel kleiner zijn dan generalistische modellen.
Gereedschapsaanpassing (T1/T2) is daarentegen veel effectiever. Het s3-systeem (T2) trainde een lichtgewicht zoeker met behulp van slechts 2.400 voorbeelden (ongeveer 70 keer minder gegevens dan Search-R1), terwijl vergelijkbare prestaties werden behaald. Door het ecosysteem te optimaliseren in plaats van de agent, kunnen bedrijven hoge prestaties behalen tegen lagere kosten. Dit gaat echter gepaard met een sluitingstijd voor overheadkosten, aangezien s3 coördinatie met een groter model vereist.
Generalisatie: Bij de A1- en A2-methoden bestaat het risico van “overfitting”, waarbij een agent zo gespecialiseerd raakt in een taak dat hij algemene vaardigheden verliest. Uit het onderzoek bleek dat Search-R1 weliswaar uitblonk in zijn trainingstaken, maar worstelde met gespecialiseerde medische QA en een nauwkeurigheid van slechts 71,8% bereikte. Dit is geen probleem als uw agent is ontworpen om een zeer specifieke reeks taken uit te voeren.
Omgekeerd generaliseerde het s3-systeem (T2), dat gebruik maakte van een algemeen bevroren middel, bijgestaan door een getraind hulpmiddel, beter en behaalde een nauwkeurigheid van 76,6% bij dezelfde medische taken. Het bevroren middel behield zijn brede wereldkennis, terwijl het hulpmiddel de specifieke herstelmechanismen behandelde. T1/T2-systemen zijn echter afhankelijk van kennis van de bevroren agent en als het onderliggende model de specifieke taak niet aankan, zullen ze nutteloos zijn.
Modulariteit: T1/T2-strategieën maken ‘hot-swapping’ mogelijk. U kunt een geheugenmodule of een zoekmachine upgraden zonder de centrale redenering aan te raken. bijv. Aandenken optimaliseert een geheugenmodule voor het ophalen van eerdere zaken; als de vereisten veranderen, update je de module, niet de planner.
A1- en A2-systemen zijn monolithisch. Het aanleren van een nieuwe vaardigheid (zoals coderen) aan een agent via verfijning kan ‘catastrofaal vergeten’ veroorzaken, waarbij eerder aangeleerde vaardigheden (zoals wiskunde) worden aangetast omdat de interne gewichten ervan worden overschreven.
Een strategisch raamwerk voor adoptie door ondernemingen
Op basis van het onderzoek zouden ontwikkelaars deze strategieën moeten zien als een progressieve ladder die zich beweegt van modulaire oplossingen met een laag risico naar afstemming met veel middelen.
Begin met T1 (agent-agnostische tools): Rust een bevroren, krachtig model (zoals Gemini of Claude) uit met kant-en-klare gereedschappen zoals een Dense Retriever of een MCP-connector. Dit vereist geen training en is perfect voor prototyping en algemene toepassingen. Het is het laaghangende fruit waarmee je voor de meeste taken heel ver kunt komen.
Ga naar T2 (door agenten bewaakte tools): Als de agent moeite heeft met het gebruik van generieke tools, train het hoofdmodel dan niet opnieuw. Train in plaats daarvan een kleine, gespecialiseerde subagent (zoals een zoekmachine of geheugenbeheerder) om gegevens precies zo te filteren en op te maken zoals de hoofdagent dat wil. Dit is zeer gegevensefficiënt en geschikt voor bedrijfseigen bedrijfsgegevens en -applicaties die een hoog volume en kostengevoelig zijn.
Gebruik A1 (gereedschapsuitvoering gesignaleerd) voor specialisatie: Als de agent fundamenteel faalt bij technische taken (bijvoorbeeld het schrijven van niet-functionele code of onjuiste API-aanroepen), moet u zijn begrip van de “mechanica” van de tool opnieuw creëren. A1 is het beste voor het creëren van specialisten in verifieerbare domeinen zoals SQL of Python of uw eigen tools. U kunt bijvoorbeeld een klein model optimaliseren voor uw specifieke toolkit en dit vervolgens gebruiken als T1-plug-in voor een generalistisch model.
Reserve A2 (agentuitgang gesignaleerd) als “nucleaire optie”: Train een monolithische agent alleen end-to-end als je hem nodig hebt om complexe strategie en zelfcorrectie te internaliseren. Dit is arbeidsintensief en zelden nodig voor standaard bedrijfsapplicaties. In werkelijkheid hoeft u zelden betrokken te raken bij het trainen van uw eigen model.
Naarmate het AI-landschap volwassener wordt, verschuift de focus van het bouwen van één gigantisch, perfect model naar het bouwen van een slim ecosysteem van gespecialiseerde tools rond een stabiele kern. Voor de meeste bedrijven is de meest effectieve weg naar agent AI niet het bouwen van een groter brein, maar het geven van betere tools aan het brein.



