Home Nieuws Hoe de ‘interne RL’ van Google AI-agenten met een lange horizon zou...

Hoe de ‘interne RL’ van Google AI-agenten met een lange horizon zou kunnen ontgrendelen

15
0
Hoe de ‘interne RL’ van Google AI-agenten met een lange horizon zou kunnen ontgrendelen

Onderzoekers bij Google hebben een techniek ontwikkeld die het voor AI-modellen gemakkelijker maakt om complexe redeneertaken te leren die er normaal gesproken voor zorgen dat LLM’s hallucineren of uit elkaar vallen. In plaats van LLM’s te trainen door het volgende token te voorspellen, wordt hun techniek aangeroepen leren van interne versterking (interne RL), stuurt de interne activeringen van het model naar het ontwikkelen van een stapsgewijze oplossing op hoog niveau voor het invoerprobleem.

Uiteindelijk zou dit een schaalbaar pad kunnen bieden naar het creëren van autonome agenten die complexe redeneringen en real-world robotica aankunnen zonder de noodzaak van constante, handmatige begeleiding.

De grenzen van de volgende tokenvoorspelling

Versterkend leren speelt een sleutelrol bij LLM’s na de training, vooral voor complexe redeneertaken waarvoor planning over de lange horizon vereist is. Maar het probleem ligt in de architectuur van deze modellen. LLM’s zijn autoregressief, wat betekent dat ze reeksen per token genereren. Wanneer deze modellen tijdens de training nieuwe strategieën verkennen, doen ze dit door kleine, willekeurige wijzigingen aan te brengen in het volgende token of de volgende actie. Dit brengt een diepere beperking aan het licht: Next-token-voorspelling dwingt modellen om naar oplossingen op het verkeerde abstractieniveau te zoeken, waardoor redeneren over de lange horizon ineffectief wordt, zelfs als het model ‘weet’ wat het moet doen.

Deze token-voor-token-aanpak werkt goed voor basistaalmodellering, maar valt uiteen in taken met een lange horizon waarbij de beloningen schaars zijn. Als het model uitsluitend gebaseerd is op bemonstering op tokenniveau, is de kans dat je de juiste meerstapsoplossing tegenkomt oneindig klein, “in de orde van één op een miljoen”, aldus de onderzoekers.

Het probleem is niet alleen dat de modellen in de war raken; het is dat ze op het verkeerde niveau in de war raken. In commentaar aan VentureBeat merkt Yanick Schimpf, een co-auteur van het artikel, op dat een agent bij een taak van twintig stappen kan verdwalen in de kleine details van een enkele stap, of dat hij het algemene doel uit het oog kan verliezen.

“Wij beweren dat wanneer je wordt geconfronteerd met een probleem met een abstracte structuur… (doelgerichte verkenning) is wat je wilt,” zei Schimpf. Door het probleem eerst op abstract niveau op te lossen, legt de agent zich vast aan een pad, zodat hij niet “verdwaalt in een van de redeneerstappen” en er niet in slaagt de bredere workflow te voltooien.

Afbeelding tegoed: VentureBeat met NotebookLM

Om dit aan te pakken, heeft het veld lang gekeken naar hiërarchisch versterkend leren. HRL probeert complexe problemen op te lossen door ze op te splitsen in een hiërarchie van tijdelijk abstracte acties (subroutines op hoog niveau die verschillende stadia van de oplossing vertegenwoordigen) in plaats van een taak te beheren als een reeks tokens.

Het ontdekken van deze geschikte subroutines blijft echter een al lang bestaande uitdaging. De huidige HRL-methoden slagen er vaak niet in om het juiste beleid te vinden, en ze “convergeren vaak naar gedegenereerde opties” die geen zinvol gedrag vertegenwoordigen. Zelfs geavanceerde moderne methoden zoals GRPO (een populair RL-algoritme dat wordt gebruikt voor spaarzame beloningstaken) falen in complexe omgevingen omdat ze de kloof tussen uitvoering op laag niveau en planning op hoog niveau niet effectief kunnen overbruggen.

Beheer van de interne gedachten van de LLM

Om deze beperkingen te overwinnen, heeft het Google-team interne RL voorgesteld. Geavanceerde autoregressieve modellen ‘weten’ al hoe ze complexe, uit meerdere stappen bestaande taken intern moeten uitvoeren, zelfs als ze daar niet expliciet voor zijn opgeleid.

Omdat dit complexe gedrag verborgen is in de reststroom van het model (dat wil zeggen, de numerieke waarden die informatie door de lagen van het netwerk transporteren), introduceerden de onderzoekers een ‘interne neurale netwerkcontroller’ of metacontroller. In plaats van het uitvoertoken te monitoren en te wijzigen, bestuurt de metacontroller het gedrag van het model door wijzigingen toe te passen op de interne activeringen van het model in de middelste lagen.

metacontroller

De metacontroller die wordt gebruikt in Interne RL wordt tussen de belangrijkste modelblokken ingevoegd en regelt het gedrag van het model via de reststroom (bron: arXiv)

Deze duwtje in de rug stuurt het model in een bepaalde bruikbare staat. Het basismodel genereert vervolgens automatisch de reeks individuele stappen die nodig zijn om dit doel te bereiken, omdat het deze patronen al heeft gezien tijdens de initiële voortraining.

De metacontroller werkt via leren zonder toezicht en vereist geen door mensen gelabelde trainingsvoorbeelden. In plaats daarvan gebruiken de onderzoekers een zelfgecontroleerd raamwerk waarin het model een volledige reeks gedragingen analyseert en achteruit werkt om de verborgen intentie op hoog niveau af te leiden die de acties het beste verklaart.

Tijdens de interne RL-fase worden de updates toegepast op de metacontroller, waardoor de training verandert van het voorspellen van het volgende token naar het leren van acties op hoog niveau die tot de oplossing kunnen leiden.

Om de praktische waarde hiervan te begrijpen, kunt u een bedrijfsagent overwegen die belast is met het genereren van code. Tegenwoordig is er een moeilijke afweging: je hebt ‘lage temperatuur’ (voorspelbaarheid) nodig om de syntaxis goed te krijgen, maar ‘hoge temperatuur’ (creativiteit) om de logische puzzel op te lossen.

“Interne RL kan dit vergemakkelijken door het model de ruimte van abstracte acties te laten verkennen, dat wil zeggen door logica en methodeaanroepen te structureren, terwijl de realisatie van deze acties op tokenniveau wordt gedelegeerd aan de robuuste, lagere temperatuurverdeling van het basismodel, ” zei Schimpf. De agent onderzoekt de oplossing zonder de syntaxis te verbreken.

De onderzoekers onderzochten twee manieren om deze controller te gebruiken. In het eerste geval wordt het autoregressieve basismodel vooraf getraind op een gedragsdataset en vervolgens bevroren, terwijl de metacontroller wordt getraind om de reststroom van het bevroren model te controleren. In het tweede geval worden de metacontroller en het basismodel gezamenlijk geoptimaliseerd, waarbij de parameters voor beide netwerken gelijktijdig worden bijgewerkt.

Interne RL in actie

Om de effectiviteit van interne RL te evalueren, voerden de onderzoekers experimenten uit in hiërarchische omgevingen die waren ontworpen om traditionele leerlingen tegen te houden. Deze omvatten een discrete rasterwereld en een continue controletaak waarbij een vierpotige “mier” -robot gezamenlijke bewegingen moet coördineren. Beide omgevingen gebruikten schaarse beloningen met zeer lange actiescènes.

Terwijl baselines zoals GRPO en CompILE er niet in slaagden de taken binnen een miljoen afleveringen te leren vanwege de moeilijkheid om opdrachten over een lange horizon te crediteren, behaalde interne RL hoge succespercentages met een klein aantal trainingsepisodes. Door doelen op hoog niveau te kiezen in plaats van kleine stappen, verkleinde de metacontroller de zoekruimte drastisch. Hierdoor kon het model identificeren welke beslissingen op hoog niveau tot succes leidden, waardoor de krediettoewijzing efficiënt genoeg werd om het schaarse beloningsprobleem op te lossen.

Interne RL-prestaties

Modellen die zijn getraind met interne RL zien snelle verbeteringen bij redeneertaken met een lange horizon, terwijl andere basislijnen niets leren (bron: arXiv)

In het bijzonder vonden de onderzoekers de ‘bevroren’ aanpak superieur. Toen het basismodel en de metacontroller vanaf het begin samen werden getraind, slaagde het systeem er niet in betekenisvolle abstracties te ontwikkelen. Toegepast op een bevroren model detecteerde de metacontroller echter met succes belangrijke controlepunten zonder menselijke labels, waardoor het interne schakelmechanisme perfect werd aangepast aan de momenten in de echte wereld waarop een agent het ene subdoel afrondde en aan het volgende begon.

Terwijl de industrie momenteel gefixeerd is op redeneermodellen die uitgebreide ‘gedachteketens’ uitstralen om problemen op te lossen, wijst het onderzoek van Google op een andere, misschien efficiëntere toekomst.

“Onze studie sluit aan bij een groeiend oeuvre dat suggereert dat ‘intern redeneren’ niet alleen mogelijk is, maar potentieel effectiever dan op tokens gebaseerde benaderingen”, aldus Schimpf. “Bovendien kunnen deze stilzwijgende ‘gedachten’ worden losgekoppeld van specifieke inputmodaliteiten – een eigenschap die bijzonder relevant zou kunnen zijn voor de toekomst van multimodale AI.”

Als intern redeneren kan worden geleid zonder te worden geëxternaliseerd, zal de toekomst van AI-agenten minder afhangen van stimuleringsstrategieën en meer van hoe goed we toegang kunnen krijgen tot en kunnen controleren welke modellen intern al vertegenwoordigen. Voor bedrijven die inzetten op autonome systemen die over een lange horizon moeten plannen, zich moeten aanpassen en handelen, zou deze verschuiving meer kunnen betekenen dan welke nieuwe redeneringsbenchmark dan ook.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in