Home Nieuws Het nieuwe raamwerk van Google helpt AI-agenten hun computer- en toolbudget verstandiger...

Het nieuwe raamwerk van Google helpt AI-agenten hun computer- en toolbudget verstandiger te besteden

14
0
Het nieuwe raamwerk van Google helpt AI-agenten hun computer- en toolbudget verstandiger te besteden

In één nieuw papier Door het gebruik van tools bij agenten voor grote taalmodellen (LLM) te bestuderen, hebben onderzoekers van Google en UC Santa Barbara een raamwerk ontwikkeld waarmee agenten efficiënter gebruik kunnen maken van tools en budgetten kunnen berekenen. De onderzoekers introduceren twee nieuwe technieken: een eenvoudige ‘Budget Tracker’ en een uitgebreider raamwerk genaamd ‘Budget Aware Test-time Scaling’. Deze technieken maken agenten expliciet bewust van hun resterende redenering en gereedschapsgebruik.

Omdat AI-agenten afhankelijk zijn van toolaanroepen om in de echte wereld te kunnen functioneren, gaat het schalen van testtijden minder over slimmere modellen en meer over het beheersen van kosten en latentie.

Voor bedrijfsmanagers en ontwikkelaars bieden budgetbewuste schaaltechnieken een praktisch pad om effectieve AI-agents in te zetten zonder te maken te krijgen met onvoorspelbare kosten of een afnemend rendement op computergebruik.

De uitdaging van het schalen van het gebruik van tools

Traditioneel Schaling van de testtijd richt zich op het langer laten ‘denken’ van de modellen. Voor agenttaken zoals surfen op het web bepaalt het aantal tooloproepen direct de diepte en breedte van de verkenning.

Dit brengt voor bedrijven aanzienlijke exploitatiekosten met zich mee. “Tooloproepen zoals surfen op webpagina’s resulteren in meer tokenverbruik, vergroten de contextlengte en introduceren extra tijdsvertraging”, vertelden Zifeng Wang en Tengxiao Liu, co-auteurs van het artikel, aan VentureBeat. “De tool roept zichzelf op en introduceert extra API-overhead.”

De onderzoekers ontdekten dat het simpelweg geven van meer testmiddelen aan agenten geen betere prestaties garandeert. “Als de agent bij een diepgaande onderzoekstaak geen gevoel voor budget heeft, wordt hij vaak blind”, leggen Wang en Liu uit. “Het vindt een enigszins verwante aanwijzing en besteedt vervolgens 10 of 20 tool calls om erin te graven, om vervolgens te beseffen dat het hele pad een doodlopende weg was.”

Resources optimaliseren met Budget Tracker

Om te evalueren hoe de budgetten voor gereedschapsgebruik kunnen worden geoptimaliseerd, probeerden de onderzoekers eerst een lichtgewicht aanpak genaamd ‘Budget Tracker’. Deze module fungeert als een plug-in die de agent een continu signaal geeft over de beschikbaarheid van resources, waardoor budgetbewust gebruik van tools mogelijk wordt gemaakt.

Het team veronderstelde dat “het geven van expliciete budgetsignalen het model in staat stelt de beperkingen van de middelen te internaliseren en de strategie aan te passen zonder dat aanvullende training nodig is.”

Budget Tracker werkt uitsluitend op promptniveau en is daardoor eenvoudig te implementeren. (Het artikel geeft volledige details van de aanwijzingen die voor de Budget Tracker worden gebruikt, waardoor het eenvoudig te implementeren is.)

Budget Tracker (bron: arXiv)

In de implementatie van Google biedt de tracker een korte beleidsrichtlijn die de budgetregimes beschrijft en bijbehorende aanbevelingen voor het gebruik van tools. Bij elke stap in het responsproces maakt Budget Tracker de agent expliciet bewust van zijn resourceverbruik en het resterende budget, waardoor hij de volgende redeneerstappen kan bepalen op basis van de bijgewerkte resourcestatus.

Om dit te testen experimenteerden de onderzoekers met twee paradigma’s: sequentiële schaling, waarbij het model iteratief zijn output verfijnt, en parallelle schaling, waarbij meerdere onafhankelijke runs worden uitgevoerd en geaggregeerd. Ze voerden experimenten uit met zoekagenten die waren uitgerust met zoek- en bladertools, volgens een ReAct-achtige lus. ReAct (Reasoning + Acting) is een populaire methode waarbij het model afwisselt tussen innerlijk denken en uiterlijk handelen. Om een ​​echte schaaltrend op het gebied van kosten en prestaties te volgen, hebben ze een algemene kostenstatistiek ontwikkeld die gezamenlijk rekening houdt met de kosten van zowel het interne tokenverbruik als de externe toolinteracties.

Ze testten Budget Tracker op drie informatiezoekende QA-datasets waarvoor extern zoeken nodig is, waaronder BrowseComp en HLE-Search, met behulp van modellen zoals Tweeling 2.5 ProGemini 2.5 Flitser en Claude Sonnet4. Uit de experimenten blijkt dat deze eenvoudige plug-in de prestaties verbetert bij verschillende budgetbeperkingen.

Prestaties van Budget Tracker

Budget Tracker blijft verbeteren, terwijl ReAct een plateau bereikt na een bepaalde budgetdrempel (bron: arXiv)

“Het toevoegen van Budget Tracker bereikt een vergelijkbare nauwkeurigheid door 40,4% minder zoekopdrachten te gebruiken, 19,9% minder browse-oproepen en de totale kosten te verlagen … met 31,3%”, vertelden de auteurs aan VentureBeat. Ten slotte bleef Budget Tracker opschalen naarmate het budget toenam, terwijl reguliere ReAct na een bepaalde drempel stagneerde.

BATS: een alomvattend raamwerk voor budgetbewuste schaling

Om de optimalisatie van het gebruik van tools verder te verbeteren, introduceerden de onderzoekers Budget Aware Test-time Scaling (BATS), een raamwerk dat is ontworpen om de prestaties van agenten binnen een bepaald budget te maximaliseren. BATS houdt een continu signaal bij van de resterende hulpbronnen en gebruikt deze informatie om het gedrag van de agent dynamisch aan te passen terwijl deze zijn reactie formuleert.

BATS gebruikt verschillende modules om de acties van de agent te orkestreren. Een planningsmodule past de inspanningen stapsgewijs aan om aan het huidige budget te voldoen, terwijl een verificatiemodule beslist of er “dieper moet worden gegraven” in een veelbelovende lead of moet worden “gepivot” naar alternatieve paden op basis van de beschikbaarheid van middelen.

KNUPPEL

Budgetbewust testtijdschaalframework (bron: arXiv)

Gewapend met een informatiezoekende vraag en een budget voor tool calls, begint BATS met het gebruik van de planningsmodule om een ​​gestructureerd actieplan te formuleren en te beslissen welke tools moeten worden ingezet. Wanneer tools worden aangeroepen, worden hun reacties toegevoegd aan de redeneervolgorde om context te bieden met nieuw bewijsmateriaal. Wanneer de agent een kandidaat-antwoord voorstelt, verifieert de verificatiemodule dit en beslist of de huidige reeks moet worden voortgezet of een nieuwe poging moet worden ondernomen met het resterende budget.

Het iteratieve proces eindigt wanneer de gebudgetteerde middelen zijn uitgeput, waarna een LLM-als-rechter het beste antwoord selecteert uit alle bevestigde antwoorden. Tijdens de gehele uitvoering werkt Budget Tracker bij elke iteratie voortdurend zowel het resourceverbruik als het resterende budget bij.

De onderzoekers testten BATS op de BrowseComp-, BrowseComp-ZH- en HLE-Search-benchmarks met basislijnen, waaronder standaard ReAct en verschillende op training gebaseerde agenten. Uit hun experimenten blijkt dat BATS hogere prestaties behaalt, minder tool calls gebruikt en lagere totale kosten met zich meebrengt dan concurrerende methoden. Met Gemini 2.5 Pro als ruggengraat behaalde BATS een nauwkeurigheid van 24,6% op BrowseComp vergeleken met 12,6% voor standaard ReAct en 27,0% op HLE-Search vergeleken met 20,5% voor ReAct.

BATS verbetert niet alleen de efficiëntie onder budgetbeperkingen, maar zorgt ook voor een betere afweging tussen kosten en prestaties. Op de BrowseComp-dataset behaalde BATS bijvoorbeeld een hogere nauwkeurigheid tegen een kostprijs van ongeveer 23 cent vergeleken met een parallelle schaling waarvoor meer dan 50 cent nodig was om een ​​vergelijkbaar resultaat te bereiken.

De prestaties en kosten van BAT

BATS is schaalbaar en biedt betere kosten/nauwkeurigheidsprestaties vergeleken met baselines (bron: arXiv)

Volgens de auteurs maakt deze efficiëntie voorheen dure workflows levensvatbaar. “Dit ontsluit een verscheidenheid aan langetermijn-, data-intensieve bedrijfsapplicaties… zoals complex codebase-onderhoud, due diligence-onderzoeken, onderzoek naar het concurrentielandschap, compliance-audits en meerstapsdocumentanalyse”, zeggen ze.

Terwijl bedrijven agenten proberen te implementeren die hun eigen middelen beheren, wordt het vermogen om nauwkeurigheid en kosten in evenwicht te brengen een kritische ontwerpvereiste.

“Wij geloven dat de relatie tussen redeneren en economie onlosmakelijk met elkaar verbonden zal worden”, aldus Wang en Liu. “In de toekomst zullen (modellen) moeten redeneren over waarde.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in