Terwijl bedrijven LLM’s afstemmen op nieuwe taken, lopen ze het risico alles te verbreken wat de modellen al weten. Dit dwingt bedrijven om voor elke vaardigheid aparte modellen te hanteren.
Onderzoekers van MIT, het Improbable AI Lab en ETH Zürich hebben een nieuwe techniek ontwikkeld waarmee grote taalmodellen nieuwe vaardigheden en kennis kunnen leren zonder hun eerdere vaardigheden te vergeten.
Hun techniek, genaamd verfijning van zelfdistillatie (SDFT), stelt modellen in staat rechtstreeks te leren van demonstraties en hun eigen experimenten, waarbij gebruik wordt gemaakt van de inherente leermogelijkheden van moderne LLM’s. Experimenten tonen aan dat SDFT consequent beter presteert dan traditionele supervisie-fine-tuning (SFT), terwijl de beperkingen van versterkende leeralgoritmen worden aangepakt.
Voor bedrijfstoepassingen maakt de methode het mogelijk dat een enkel model in de loop van de tijd meerdere vaardigheden verzamelt zonder te lijden onder prestatieverlies bij eerdere taken. Dit biedt een potentieel pad voor het bouwen van AI-agenten die zich kunnen aanpassen aan dynamische zakelijke omgevingen en waar nodig nieuwe eigen kennis en vaardigheden kunnen verzamelen, zonder dat daarvoor dure omscholingscycli nodig zijn of hun algemene redeneervermogen verloren gaat.
De uitdaging van continu leren
Zodra een LLM is getraind en ingezet, blijft deze statisch. Het werkt zijn parameters niet bij om nieuwe vaardigheden te verwerven, nieuwe kennis te internaliseren of om door ervaring te verbeteren. Om echt adaptieve AI te bouwen, moet de industrie “continu leren”, stelt systemen in staat kennis te vergaren op dezelfde manier als mensen dat gedurende hun hele loopbaan doen.
De meest effectieve manier waarop modellen kunnen leren is door middel van ‘beleidsmatig leren’. Bij deze benadering leert het model van de gegevens die het zelf genereert, zodat het zijn eigen fouten en redeneerprocessen kan corrigeren. Dit staat in contrast met leren door simpelweg statische datasets te imiteren. Zonder beleidsleren hebben modellen de neiging om “catastrofale vergetelheid”, een fenomeen waarbij het leren van een nieuwe taak ervoor zorgt dat het model zijn voorkennis en vermogen om eerdere taken uit te voeren verliest.
Maar het leren over politiek vereist meestal dat je dat wel doet versterkend leren (RL), die afhankelijk is van een expliciete beloningsfunctie om de uitvoer van het model te scoren. Dit werkt goed voor problemen met duidelijke uitkomsten, zoals wiskunde en coderen. In veel praktijkscenario’s (bijvoorbeeld het schrijven van een juridisch document of het samenvatten van een vergadering) is het definiëren van een wiskundige beloningsfunctie echter moeilijk of onmogelijk.
RL-methoden falen ook vaak als ze proberen een model volledig nieuwe informatie te leren, zoals een specifiek bedrijfsprotocol of een nieuwe productlijn. Zoals Idan Shenfeld, een promovendus aan het MIT en co-auteur van het artikel, tegen VentureBeat zei: “Hoe vaak het basismodel het ook probeert, het kan geen correcte antwoorden genereren voor een onderwerp waar het geen kennis van heeft”, wat betekent dat het nooit een positief signaal krijgt om van te leren.
Het standaardalternatief is supervisie fine-tuning (SFT), waarbij het model wordt getraind op een vaste dataset van expertdemonstraties. Hoewel SFT duidelijke waarheid biedt, valt het inherent buiten het beleid. Omdat het model eenvoudigweg gegevens nabootst in plaats van te leren van zijn eigen experimenten, slaagt het er vaak niet in om te generaliseren naar voorbeelden buiten de distributie en lijdt het sterk onder catastrofaal vergeten.
SDFT probeert deze kloof te overbruggen door de voordelen van beleidsgericht leren mogelijk te maken door alleen vooraf opgenomen demonstraties te gebruiken zonder de noodzaak van een beloningsfunctie.
Hoe SDFT werkt
SDFT lost dit probleem op door gebruik te maken van ‘destillatie’, een proces waarbij een leerlingmodel een leraar leert imiteren. Het inzicht van de onderzoekers was om de eigen ‘in-context learning’ (ICL)-mogelijkheden van het model te gebruiken om een feedbacklus binnen één enkel model te creëren.
In-context leren is het fenomeen waarbij je de LLM een moeilijke taak geeft en een of meer demonstraties geeft van hoe soortgelijke problemen worden opgelost. De meeste geavanceerde LLM’s zijn ontworpen om nieuwe problemen met ICL-voorbeelden op te lossen zonder enige parameterupdates.
Tijdens de trainingscyclus gebruikt SDFT het model in twee rollen.
De leraar: Een bevroren versie van het model wordt samen met deskundige demonstraties in de query ingevoerd. Met behulp van ICL leidt de leraar het juiste antwoord af en de redenering die nodig is om tot dit antwoord te komen.
De leerling: Deze versie ziet alleen dat de query een real-world implementatiescenario simuleert waarin geen antwoordsleutel beschikbaar is.
Wanneer de leerling een antwoord genereert, geeft de docent, die toegang heeft tot deskundige demonstraties, feedback. De leerling werkt vervolgens de parameters bij, zodat deze beter aansluiten bij de distributie van de leraar.
Dit proces creëert effectief een leerlus op het gebied van beleid door elementen van SFT en RL te combineren. Het toezicht komt niet voort uit een statische dataset, maar uit de eigen interactie en output van het model. Het stelt het model in staat zijn eigen redeneerpaden te bepalen zonder dat daarvoor een extern beloningssignaal nodig is. Dit proces werkt zelfs voor nieuwe kennis die RL zou missen.
SDFT in actie
Om de aanpak te valideren, testten de onderzoekers de SDFT met behulp van de open schaal Qwen 2.5-model op drie complexe vaardigheden van zakelijke kwaliteit: wetenschappelijke vragen en antwoorden, gebruik van softwaretools en medisch redeneren.
De resultaten toonden aan dat SDFT nieuwe taken effectiever leerde dan standaardmethoden. Op de Science Q&A-benchmark behaalde het SDFT-model een nauwkeurigheid van 70,2%, vergeleken met 66,2% voor de standaard SFT-benadering.
Belangrijker voor de acceptatie door ondernemingen is de impact op catastrofaal vergeten. Toen het standaard SFT-model de wetenschappelijke taak leerde, stortte zijn vermogen om algemene vragen (zoals logica of geesteswetenschappen) te beantwoorden in. Het SDFT-model verbeterde daarentegen op het gebied van de wetenschappelijke taak, terwijl de score voor ‘Vorige taken’ stabiel bleef op 64,5%. Deze stabiliteit suggereert dat bedrijven modellen kunnen specialiseren voor specifieke afdelingen (bijvoorbeeld HR of Legal) zonder afbreuk te doen aan het fundamentele gezond verstand of de redenering van het model.
Het team simuleerde ook een scenario voor kennisinjectie en creëerde een dataset van fictieve ‘natuurrampen in 2025’ om het model nieuwe feiten te leren. Ze testten het model op indirecte redeneervragen, zoals “Welke landen hadden, gezien de overstromingen in 2025, waarschijnlijk humanitaire hulp nodig?”
Standaard SFT resulteerde in een model dat feiten herinnerde, maar moeite had om ze te gebruiken in redeneerscenario’s. Het SDFT-model scoorde, na het internaliseren van de logica tijdens de training, 98% op dezelfde vragen.
Ten slotte voerden de onderzoekers een sequentieel leerexperiment uit, waarbij ze het model achter elkaar trainden op wetenschap, gereedschapsgebruik en medische taken. Terwijl de prestaties van het standaardmodel fluctueerden en eerdere vaardigheden verloren gingen toen het nieuwe leerde, verzamelde het SDFT-model alle drie de vaardigheden zonder regressie.
Deze mogelijkheid pakt een groot pijnpunt aan voor bedrijven die momenteel ‘modeldierentuinen’ van afzonderlijke adapters voor verschillende taken beheren.
“Wij bieden de mogelijkheid om slechts één model te onderhouden voor alle behoeften van het bedrijf”, aldus Shenfeld. Deze consolidatie “kan leiden tot een aanzienlijke verlaging van de sluitingskosten” omdat organisaties niet meerdere modellen tegelijk hoeven te hosten.
SDFT-beperkingen en beschikbaarheid
De code voor SDFT is beschikbaar op GitHub en klaar om te worden geïntegreerd in bestaande modeltrainingsworkflows.
“De SDFT-pijplijn lijkt meer op de RL-pijplijn, omdat deze tijdens de training online responsgeneratie vereist”, aldus Shenfeld. Ze werken samen met Hugging Face om SDFT in laatstgenoemde te integreren Transformatorversterking leren (TRL)-bibliotheek, voegde hij eraan toe en merkte op dat er al een pull-verzoek openstaat voor ontwikkelaars die de integratie willen testen.
Voor teams die SDFT overwegen, komen de praktische afwegingen neer op modelgrootte en berekening. De techniek vereist modellen die sterk genoeg zijn om in de context te leren om als hun eigen leraren te fungeren – momenteel ongeveer 4 miljard parameters met nieuwere architecturen zoals Qwen 3, hoewel Shenfeld verwacht dat modellen met 1 miljard parameters binnenkort zullen werken. Het vereist ongeveer 2,5 keer de berekening van standaard verfijning, maar is het meest geschikt voor organisaties die één enkel model nodig hebben om in de loop van de tijd meerdere vaardigheden te verzamelen, vooral in domeinen waar het moeilijk of onmogelijk is om een beloningsfunctie voor versterkend leren te definiëren.
Hoewel efficiënt, gaat de methode gepaard met computationele afwegingen. SDFT is ongeveer vier keer langzamer en vereist 2,5 keer meer rekenkracht (FLOP’s) dan standaard fijnafstemming, omdat het model tijdens de training actief zijn eigen reacties (“rollouts”) moet genereren om te vergelijken met de leraar. De onderzoekers merken echter op dat organisaties, omdat het model kennis beter vasthoudt, de dure, uit meerdere fasen bestaande herscholingsprocessen kunnen vermijden die vaak nodig zijn om modellen te repareren die lijden onder catastrofaal vergeten.
De techniek is er ook van afhankelijk dat het onderliggende model groot genoeg is om te profiteren van leren in context. Het artikel merkt op dat kleinere modellen (bijvoorbeeld 3 miljard parameters) het aanvankelijk moeilijk hadden omdat ze niet over de ‘intelligentie’ beschikten om als hun eigen leraren op te treden.
Shenfeld zei echter dat de snelle verbetering van kleine modellen deze dynamiek verandert. “De Qwen 2.5 3B-modellen waren te zwak, maar bij sommige experimenten die we momenteel doen, hebben we ontdekt dat het Qwen 3 4B-model sterk genoeg is”, zei hij. “Ik zie een toekomst waarin zelfs 1B-modellen voldoende ICL-mogelijkheden hebben om SDFT te ondersteunen.”
Uiteindelijk is het doel om verder te gaan dan statische momentopnamen naar systemen die verbeteren door gebruik.
“Een leven lang leren, samen met de mogelijkheid om leersignalen uit ongestructureerde gebruikersinteracties te halen… zullen modellen opleveren die gewoon doorgaan en in de loop van de tijd blijven verbeteren”, aldus Shenfeld.
“Denk eens aan het feit dat de meerderheid van de computers over de hele wereld al bezig is met gevolgtrekkingen in plaats van met trainen. We moeten manieren vinden om deze computer te gebruiken om onze modellen te verbeteren.”



