Recursieve taalmodellen (RLMs) is een inferentietechniek ontwikkeld door onderzoekers van MIT CSAIL en behandelt lange berichten als een externe omgeving voor het model. In plaats van de hele prompt in het contextvenster van het model te forceren, stelt het raamwerk LLM in staat programmatisch te onderzoeken, te ontleden en zichzelf recursief aan te roepen over fragmenten van de tekst.
In plaats van contextvensters uit te breiden of oude informatie samen te vatten, herformuleert het MIT-team lange-contextredeneringen als een systeemprobleem. Door modellen prompts te laten behandelen als iets dat ze met code kunnen inspecteren, zorgen recursieve taalmodellen ervoor dat LLM’s over miljoenen tokens kunnen redeneren zonder ze opnieuw te hoeven trainen. Dit geeft bedrijven een praktisch pad naar taken met een lange horizon, zoals analyse van de codebasis, juridische toetsing en redeneren in meerdere stappen, waardoor de huidige modellen routinematig worden doorbroken.
Omdat het raamwerk is ontworpen als een omhulsel rond bestaande modellen, kan het fungeren als een drop-in vervanging voor applicaties die rechtstreekse oproepen doen naar LLM’s.
Het LLM-contextprobleem
Hoewel grensmodellen steeds geavanceerder worden in hun redenering, groeit hun vermogen om grote hoeveelheden informatie te verwerken niet in hetzelfde tempo. Dit knelpunt wordt veroorzaakt door twee verschillende beperkingen: de harde fysieke limiet voor hoeveel tekst een model tegelijk kan verwerken (contextlengte) en “contextthreads”.
De uitdaging, zo stellen de onderzoekers, is of het mogelijk is om de effectieve contextomvang van LLM’s voor algemene doeleinden met ordes van grootte op te schalen zonder ze opnieuw te trainen. Deze mogelijkheid wordt steeds belangrijker voor bedrijfsapplicaties, waar LLM’s worden gebruikt voor taken met een lange horizon waarvoor miljoenen tokens moeten worden verwerkt – een uitdaging die volgens Zhang niet kan worden opgelost door simpelweg contextvensters uit te breiden.
“Er is een entropie-argument dat suggereert dat je exponentieel meer datamonsters nodig hebt naarmate je de effectieve contextvenstergrootte vergroot”, vertelde Alex Zhang, een co-auteur van het artikel, aan VentureBeat.
De huidige benaderingen voor het uitbreiden van de context zijn vaak gebaseerd op compressie, waarbij het model oudere delen van het gesprek samenvat om ruimte vrij te maken. Deze methode mislukt echter voor taken die willekeurige toegang vereisen tot specifieke details in eerdere delen van de prompt.
Hoe RLM’s werken
Het concept achter RLM’s is ontleend aan “out-of-core” algoritmen die worden gebruikt in klassiek computergebruik. Deze algoritmen zijn ontworpen om datasets te verwerken die te groot zijn om in het hoofdgeheugen van een computer te passen, door de gegevens op een harde schijf op te slaan en alleen de noodzakelijke delen op te halen als dat nodig is.
RLM’s passen deze logica toe op generatieve AI. In plaats van een lange prompt rechtstreeks in het neurale netwerk te sturen, laadt het raamwerk de tekst als een stringvariabele in een Python-coderingsomgeving. LLM krijgt algemene context over de gegevens (zoals het totale aantal tekens), maar ‘ziet’ de tekst in eerste instantie niet.
Wanneer de prompt als een variabele wordt opgeslagen, fungeert LLM als programmeur. Het schrijft Python-code voor interactie met de externe variabele, waarbij standaardopdrachten worden gebruikt om in de gegevens te kijken. Het model kan b.v. gebruik reguliere expressies om te zoeken naar specifieke trefwoorden zoals ‘Hoofdstuk 1’ of ‘financiële resultaten’.
Wanneer de code-uitvoering een relevant fragment vindt, haalt RLM alleen dat specifieke onderdeel naar het actieve contextvenster voor analyse.
Als de prompt bijvoorbeeld een enorm boek is, kan LLM een lus schrijven die de hoofdstukgrenzen identificeert en vervolgens een subcall activeert om elk hoofdstuk afzonderlijk samen te vatten.
Bij de architectuur zijn doorgaans twee agenten betrokken. Een “roottaalmodel”, vaak een model met veel capaciteit, zoals GPT-5, fungeert als orkestrator. Het plant de aanpak, schrijft de code en controleert de gegevensstroom in de REPL-omgeving. Een ‘recursief taalmodel’, vaak een sneller en goedkoper model, fungeert als werker. Root-LM roept deze werker op om de specifieke tekstfragmenten te verwerken die door de code worden geïsoleerd.
Omdat de prompt zich in het omgevingsgeheugen bevindt in plaats van in het contextvenster van het model, kan het systeem invoer verwerken die veel groter is dan de trainingslimiet van het model. Voor de eindgebruiker is het belangrijk dat de RLM zich precies als een standaardmodel gedraagt: hij accepteert een string en retourneert een antwoord. Hierdoor kunnen bedrijfsteams standaard API-aanroepen omruilen voor RLM’s.
Voor ontwikkelaars die willen experimenteren is de RLM-code momenteel beschikbaar op GitHub.
“Een belangrijk argument voor RLM’s is dat de meeste complexe taken kunnen worden opgesplitst in kleinere, ‘lokale’ subtaken,” zei Zhang. “Maar hoe deze context/probleem-decompositie moet worden uitgevoerd, is niet triviaal, en het model moet daartoe in staat zijn.”
RLM’s in actie
Om het raamwerk te valideren, testten de onderzoekers RLM’s met basismodellen en andere agentische benaderingen zoals CodeAct en samenvattende agenten voor een verscheidenheid aan taken met een lange context, waaronder het ophalen en beantwoorden van multi-hop-vragen.
De resultaten lieten sterke prestatieverbeteringen zien op de schaal van meer dan 10 miljoen tokens. Op Blader door Comp-Pluseen benchmark met inputs van 6 tot 11 miljoen tokens faalde volledig in de standaardbasismodellen en scoorde 0%. RLM wordt daarentegen mogelijk gemaakt door GPT-5 behaalde een score van 91,33%, wat duidelijk hoger was dan de CV-agent (70,47%) en CodeAct (51%).
Het raamwerk blonk ook uit in taken met een hoge rekencomplexiteit. Op OOLONG-Pairs, een informatie-dichte redeneerbenchmark waarbij de moeilijkheidsgraad vierkant is met de invoerlengte, faalden basis GPT-5-modellen catastrofaal met een score van slechts 0,04%. De RLM behaalde een F1-score (een evenwichtige maatstaf voor precisie en herinnering) van 58%, wat nieuwe mogelijkheden aantoont om compacte taken uit te voeren die standaardmodellen verlammen. Op dezelfde manier heeft RLM voor codebegripstaken (CodeQA-benchmark) de prestaties van het GPT-5-basismodel meer dan verdubbeld, van 24% naar 62%.
Met betrekking tot het probleem van contextrotting toonden de gegevens aan dat, hoewel de basis-GPT-5-prestaties snel afnemen naarmate de taakcomplexiteit toeneemt, de RLM-prestaties stabiel blijven en consistent beter presteren dan het basismodel op contexten langer dan 16.000 tokens.
Ondanks de toegenomen complexiteit van de workflow handhaafden RLM’s vaak vergelijkbare of lagere gemiddelde kosten dan de uitgangswaarden. Op de BrowseComp-Plus-benchmark was RLM tot drie keer goedkoper dan de samengevatte basislijn.
Maar de onderzoekers merkten op dat, hoewel de mediane kosten laag zijn, de RLM-trajecten ‘langdurig’ zijn. Uitschieters kunnen duur worden als het model vastloopt in lussen of redundante verificaties uitvoert. Terwijl GPT-5 conservatief was in zijn subroutines, was open source dat wel Qwen3-codes model probeerde soms duizenden suboproepen uit voor eenvoudige taken.
“Vandaag zul je waarschijnlijk je eigen vangrails en logica moeten implementeren om RLM-gedrag te controleren,” zei Zhang. Hij veronderstelt echter dat toekomstige modellen kunnen worden getraind om hun eigen computerbudgetten effectiever te beheren. Bedrijven als Prime Intellect zijn dat van plan RLM integreren in het trainingsproces van modellen, waarbij mogelijk de randgevallen worden aangepakt waarin het inferentiebudget van het model toeneemt.
Voor ondernemingsarchitecten die beslissen waar ze hun inspanningen moeten plaatsen, biedt het RLM-framework een nieuw hulpmiddel voor het omgaan met informatierijke problemen.
“Ik denk dat RLM’s nog steeds buitengewoon nuttig zijn voor chatbots (denk aan lange chatverhalen), maar uiteindelijk pleiten ze voor een alternatieve manier om LM’s te gebruiken,” zei Zhang. “Ik geloof dat RLM’s naast standaard herstelmethoden zoals RAG werken; ze dienen niet als vervanging en kunnen in verschillende omgevingen of samen worden gebruikt.”


