Een nieuwe studie van onderzoekers van Stanford University en Nvidia suggereert een manier waarop AI-modellen na de implementatie kunnen blijven leren – zonder de kosten van gevolgtrekking te verhogen. Voor bedrijfsagenten die lange documenten, tickets en logboeken moeten verwerken, is dit een poging om ‘lang geheugen’ te krijgen zonder aandacht te besteden aan de kosten die toenemen met de lengte van de context.
De aanpak, genaamd “End-to-end testuurtraining” (TTT-E2E), herschikt taalmodellering als een continu leerprobleem: in plaats van feiten uit het hoofd te leren tijdens voorafgaande training, leren de modellen zich in realtime aan te passen terwijl ze nieuwe informatie verwerken.
Het resultaat is een transformator die de lange-contextnauwkeurigheid van modellen met volledige aandacht kan evenaren en tegelijkertijd met een bijna RNN-efficiëntie kan werken – een potentiële doorbraak voor bedrijfsworkloads waarbij de contextlengte botst met de kosten.
De afweging tussen nauwkeurigheid en efficiëntie
Voor ontwikkelaars die AI-systemen bouwen voor lange documenttaken, brengt de keuze van de modelarchitectuur vaak een pijnlijke afweging tussen nauwkeurigheid en efficiëntie met zich mee.
Aan de ene kant zijn Transformers met volledig zelfbewustzijn momenteel de gouden standaard voor nauwkeurigheid. Ze zijn ontworpen om de sleutels en waarden van alle voorgaande tokens te scannen voor elk nieuw gegenereerd token, waardoor ze verliesvrij kunnen worden ingetrokken. Deze nauwkeurigheid heeft echter een hoge prijs: de berekeningskosten per token stijgen aanzienlijk met de contextlengte.
Aan de andere kant zijn er lineaire-tijdvolgordemodellen, die de inferentiekosten constant houden, maar moeite hebben om informatie over zeer lange contexten vast te houden.
Andere benaderingen proberen het verschil te splitsen (sliding-window-aandacht, hybriden die aandacht combineren met herhaling en andere efficiëntietrucs), maar het ontbreekt hen nog steeds aan de volledige aandacht voor harde taalmodellen.
De onderzoekers wedden dat het ontbrekende ingrediënt compressie is: in plaats van te proberen elk symbool nauwkeurig te herinneren, zouden modellen de zaken die belangrijk zijn in een compacte staat moeten destilleren.
Testuur training
De kerninnovatie van het artikel is de toepassing van Test-Time Training (TTT) op taalmodellering. Dit transformeert het model van een statische database naar een flexibele leerling.
Bij de standaard AI-implementatie worden modellen getraind om verliezen te minimaliseren en vervolgens ingezet als bevroren artefacten. Als u probeert een statisch model te laten leren tijdens de implementatie, presteert het doorgaans slecht omdat het nooit is getraind om zichzelf efficiënt bij te werken.
De onderzoekers lossen dit op door over te stappen van standaard voortraining (het model de feiten leren) naar meta-learning (het model leren hoe te leren). Het doel is om de “initialisatie” van het model te optimaliseren, zodat het snel nieuwe informatie kan absorberen wanneer het live gaat.
Het proces omvat het simuleren van leren op basis van inferentietijd tijdens de trainingsfase:
-
Binnenlus (leer): Tijdens de training behandelt het model tekst als een stroom en voert het kleine, tijdelijke updates uit terwijl het het volgende token voorspelt, waarbij wordt gesimuleerd hoe het zich zou aanpassen door middel van gevolgtrekkingen.
-
Buitenste lus (leer het om te leren): Het systeem werkt vervolgens de initialisatie van het model bij, zodat de volgende ronde van streamingaanpassing sneller en nauwkeuriger zal zijn.
Hoewel het idee van een model dat tijdens de implementatie van gewicht verandert misschien riskant klinkt voor op betrouwbaarheid gerichte bedrijfsleiders, stelt coauteur Yu Sun dat het wiskundig gezien veiliger is dan het lijkt.
“Je moet het model zien als een RNN met een enorme verborgen staat”, zegt Sun. Hij merkt op dat als een bedrijf er vertrouwen in heeft om standaard Transformers of RNN’s in te zetten, het stabiliteitsprofiel van TTT vergelijkbaar is.
Dual-memory-architectuur
Om TTT-E2E te implementeren, hebben de onderzoekers de standaard Transformer-architectuur aangepast om dit nieuwe leerparadigma te ondersteunen en een hiërarchie gecreëerd die goedkoop kortetermijncontextbeheer scheidt van selectieve langetermijngeheugenupdates.
-
Thet model gebruikt Sliding Window Attention in plaats van volledige aandacht. Dit fungeert als het “werkgeheugen” van het model en kijkt alleen terug naar een vast venster met recente tokens om onmiddellijke syntaxis en lokale referenties te verwerken. Dit zorgt ervoor dat de kosten voor het verwerken van een nieuw token constant blijven en niet stijgen naarmate de context groter wordt.
-
Het model maakt gebruik van ‘gerichte gewichtsupdates’. Terwijl standaardmodellen volledig bevroren gewichten gebruiken, wijst de TTT-E2E specifieke secties (meerlaagse Perceptron-lagen in de laatste 25% van de modelblokken) aan als veranderlijk.
-
De architectuur maakt gebruik van een “dual-track storage” om te voorkomen dat het model vergeet zijn algemene training tijdens het leren van een nieuw document. Elk bijwerkbaar blok bevat twee MLP-componenten: een statische laag die algemene vooraf getrainde kennis bevat, en een dynamische laag die in realtime wordt bijgewerkt om de context van het huidige document op te slaan.
De innovatie ligt in de manier waarop het model omgaat met informatie die uit het schuifvenster valt. Bij een standaardmodel met schuiframen wordt het vergeten als een muntje uit het zicht verdwijnt. TTT-E2E voorkomt dit via compressie. Terwijl het venster beweegt, gebruikt het model de volgende tokenvoorspelling om de geavanceerde informatie rechtstreeks in de gewichten van de dynamische MLP-lagen te “comprimeren”. Dit consolideert de kern en feiten van de voorgaande delen van het document in de structuur van het model, en dient als langetermijngeheugen.
TTT-E2E in actie
Het belangrijkste resultaat: TTT-E2E blijft verbeteren naarmate de contextlengte toeneemt (de volledige aandacht evenaren of overschrijden), terwijl de effectieve basislijnen na ~32.000 tokens plat worden.
Om hun aanpak te valideren, trainden de onderzoekers modellen van 125 miljoen tot 3 miljard parameters. Ze gebruikten een trainingsproces in twee fasen: pre-training op 8.000 tokencontexten en afstemming op 128.000 tokencontexten. Deze modellen werden getest aan de hand van robuuste basislijnen, waaronder volledige aandachtstransformatoren, schuifraamaandachtstransformatoren (SWA), hybride modellen (Mamba 2 en Gated DeltaNet) en TTT-KVB (een eerdere vorm van testuurtraining).
De resultaten benadrukken een significante doorbraak in schaalvergroting. Het meest kritische experiment testte de prestaties toen het invoerdocument groeide van 8.000 naar 128.000 tokens. De Full Attention Transformer, de gouden standaard, bleef zijn prestaties verbeteren (lager verlies) naarmate de context groeide. Daarentegen bereiken efficiënte basislijnen zoals Mamba 2, Gated DeltaNet en SWA een plafond waar hun prestaties na 32.000 tokens afnemen of afvlakken.
De nieuwe TTT-E2E-methode schaalt met succes met de contextlengte en bootst het gedrag van Volledige aandacht na. In de experimenten met 3D-parametermodellen handhaafde TTT-E2E feitelijk minder verwarring (betere prestaties) dan Volledige aandacht gedurende het hele contextvenster.
Cruciaal is dat deze prestatie niet ten koste ging van de snelheid. Wat de beëindigingsvertraging betreft, kwam TTT-E2E overeen met de prestaties van RNN’s. Bij een contextlengte van 128.000 tokens was TTT-E2E 2,7x sneller dan de Full-Attention Transformer op Nvidia H100-hardware.
Cruciaal voor adoptie is dat Sun opmerkt dat TTT-modellen vandaag de dag kunnen worden ingezet voor beëindiging van de standaard Transformer-infrastructuur om deze versnellingen te bereiken. Hij waarschuwt echter dat de trainingskant van de vergelijking (met name de buitenste lus) momenteel complexer en langzamer is dan standaardmethoden, wat een obstakel vormt dat nog steeds technische optimalisatie vereist.
De voordelen worden zelfs nog drastischer naarmate de gegevens groter worden. Sun betoogt dat het voordeel verder zou moeten toenemen in contexten van miljoenen tokens, hoewel deze cijfers eerder projecties zijn dan de huidige gebenchmarkte implementaties.
De aanpak heeft echter specifieke beperkingen die geworteld zijn in de ontwerpfilosofie. De onderzoekers voerden een ‘naald in een hooiberg’-test uit, waarbij het model een specifiek, geïsoleerd stukje informatie (zoals een wachtwoord) moet ophalen dat verborgen is in een groot tekstblok. In deze evaluatie presteerde Volledige Aandacht dramatisch beter dan alle andere methoden, inclusief TTT-E2E.
Dit komt omdat Volledige aandacht afhankelijk is van een cache die het vrijwel verliesloos oproepen van specifieke details mogelijk maakt, terwijl TTT-E2E afhankelijk is van compressie. Compressie legt de intuïtie en kerninformatie perfect vast, maar kan specifieke, willekeurige details verliezen die niet passen in de aangeleerde patronen.
Dit onderscheid heeft grote gevolgen voor bedrijfsdatapijplijnen, met name RAG. Sun suggereert dat TTT RAG niet overbodig zal maken, maar het opnieuw zal definiëren. Hij vergelijkt TTT met ‘het bijwerken van het menselijk brein’ met algemene kennis, terwijl RAG een noodzakelijk instrument voor precisie zal blijven, ‘vergelijkbaar met hoe mensen nog steeds dingen in een notitieblok moeten opschrijven.’ Voor bedrijfsteams is de conclusie dat TTT het aantal keren dat u gegevens moet ophalen vermindert, maar de behoefte aan nauwkeurig extern geheugen niet elimineert.
Hoewel de techniek werd gedemonstreerd op de Transformer-architectuur, merken de onderzoekers op dat “TTT in principe kan worden toegepast op elke basisarchitectuur” die een scheiding van langetermijn- en kortetermijngeheugencomponenten mogelijk maakt.
“Wij geloven dat deze twee geheugenklassen elkaar zullen blijven aanvullen”, concludeerden de onderzoekers.
Vooruitkijkend voorziet Sun een paradigmaverschuiving waarbij de primaire vorm van AI-geheugen sterk gecomprimeerd zal zijn in plaats van nauwkeurig. Hoewel modellen een ‘redelijk’ perfect herinneringsvenster van ongeveer 128.000 tokens zullen behouden, gelooft hij dat TTT-architecturen uiteindelijk een ‘gecomprimeerd geheugen van miljarden tokens’ zullen ontsluiten. verander de manier waarop bedrijfsagenten herinnering, kosten en contextlengte balanceren.



