Home Nieuws De nieuwe AI-trainingsmethode van Microsoft elimineert opgeblazen systeemprompts zonder dat dit ten...

De nieuwe AI-trainingsmethode van Microsoft elimineert opgeblazen systeemprompts zonder dat dit ten koste gaat van de modelprestaties

Door

maart 1, 2026

Bij het bouwen van LLM-applicaties moeten bedrijven vaak zeer lange systeemprompts maken om het gedrag van het model voor hun applicaties aan te passen. Deze aanwijzingen bevatten bedrijfskennis, voorkeuren en toepassingsspecifieke instructies. Op ondernemingsniveau kunnen deze relaties de sluitingsvertraging tot voorbij aanvaardbare drempels brengen en de kosten per aanvraag aanzienlijk verhogen.

Contextdistillatie binnen het beleid (OPCD), een nieuw leerraamwerk voorgesteld door onderzoekers van Microsoft, helpt toepassingskennis en -voorkeuren rechtstreeks in een model te verwerken. OPCD gebruikt de eigen reacties van het model tijdens de training, waardoor enkele valkuilen van andere trainingstechnieken worden vermeden. Dit verbetert de mogelijkheden van de modellen voor op maat gemaakte toepassingen, terwijl hun algemene mogelijkheden behouden blijven.

Waarom lange systeemprompts een probleem worden

Leren in context stelt ontwikkelaars in staat het gedrag van een model tijdens de inferentietijd bij te werken zonder de onderliggende parameters te wijzigen. Het bijwerken van parameters is doorgaans een langzaam en duur proces. Maar kennis in context is van voorbijgaande aard. Deze kennis brengt geen verschillende gesprekken met het model met zich mee, wat betekent dat u het model elke keer exact dezelfde enorme set instructies of documenten moet invoeren. Voor een zakelijke toepassing kan dit betekenen dat u herhaaldelijk bedrijfsbeleid, klanttickets of uitgebreide technische handleidingen in de prompt moet invoegen. Dit vertraagt uiteindelijk het model, verhoogt de kosten en kan het systeem in verwarring brengen.

“Bedrijven gebruiken vaak lange systeemprompts om beveiligingsbeperkingen af te dwingen (bijvoorbeeld detectie van haatzaaiende uitlatingen) of om domeinspecifieke expertise te bieden (bijvoorbeeld medische kennis)”, zei Tianzhu Ye, co-auteur van het artikel en onderzoeker bij Microsoft Research Asia, in een reactie aan VentureBeat. “Lange prompts verhogen echter aanzienlijk de rekenoverhead en de latentie bij de inferentietijd.”

Het belangrijkste idee achter contextdistillatie is het trainen van een model om de informatie die u herhaaldelijk in de context invoegt, te internaliseren. Net als anderen destillatie techniekenhet volgt een leraar-leerling-paradigma. De leraar is een AI-model dat de enorme, gedetailleerde prompt ontvangt. Omdat het alle instructies en referentiedocumenten bevat, genereert het zeer op maat gemaakte antwoorden. De leerling is een model dat wordt getraind en dat alleen de hoofdvraag ziet en geen toegang heeft tot de volledige context. Het doel is simpelweg om de reactie van de leraar te observeren en zijn gedrag te leren imiteren.

Door dit trainingsproces comprimeert het leerlingmodel op effectieve wijze de complexe instructies van de instructie van de leraar rechtstreeks in de parameters ervan. Bij een bedrijf vindt de primaire waarde plaats op het sluitingstijdstip. Omdat het leermodel de context heeft geïnternaliseerd, kunt u deze in uw toepassing implementeren zonder dat u de lange instructies opnieuw hoeft in te voegen. Dit maakt het model aanzienlijk sneller en met veel minder rekenkundige overhead.

Maar klassieke contextdistillatie is gebaseerd op een gebrekkige trainingsmethode die ‘off-policy training’ wordt genoemd, waarbij het model wordt getraind op vaste datasets die vóór het trainingsproces zijn verzameld. Dit is op verschillende manieren problematisch. Tijdens de training wordt de leerling alleen blootgesteld aan waarheidsgegevens en door de leraar gegenereerde reacties, waardoor wat Ye ‘blootstellingsbias’ noemt ontstaat. Tijdens de productie moet het model zijn eigen tokenreeksen bedenken om deze antwoorden te bereiken. Omdat hij nooit heeft geoefend met het nemen van eigen beslissingen of het herstellen van zijn eigen fouten tijdens de training, kan hij gemakkelijk ontsporen als hij zelfstandig opereert. Het is alsof je een student video’s laat zien van een professionele chauffeur en verwacht dat hij zonder vallen en opstaan leert autorijden.

Een ander probleem is “vooruit”. Kullback-Leibler (KL) divergentieBij deze methode wordt het model beoordeeld op basis van de mate waarin de antwoorden overeenkomen met die van de leraar, wat ‘mode-wide’ gedrag aanmoedigt, zegt Ye. Het studentenmodel is vaak kleiner of mist de rijke context die de leraar had, wat betekent dat het eenvoudigweg het vermogen mist om de complexe redenering van de leraar perfect te repliceren. Omdat de student gedwongen wordt alle opties uit te proberen, overweldigende en onverwachte mogelijkheden. Breed en ongericht.

In toepassingen in de echte wereld kan dit resulteren in hallucinaties, waarbij de AI in de war raakt en zelfverzekerd dingen verzint, omdat hij probeert een diepgaande kennis na te bootsen die hij eigenlijk niet bezit. Dit betekent ook dat het model niet goed kan generaliseren naar nieuwe taken.

Hoe OPCD het leraar-leerlingprobleem oplost

Om de kritieke problemen met de oude leraar-leerling-dynamiek aan te pakken, introduceerden Microsoft-onderzoekers On-Policy Context Distillation (OPCD). De belangrijkste verschuiving in OPCD is dat het leerlingmodel leert van zijn eigen generatietrajecten, in tegenstelling tot een statische dataset (waarom dit ook wel ‘on-policy’ wordt genoemd). In plaats van passief een dataset te bestuderen met de perfecte output van de leraar, krijgt de leerling een opdracht zonder de enorme instructieprompt te zien en moet hij helemaal zelf een antwoord genereren.

Terwijl de leerling zijn antwoord genereert, fungeert de leraar als een levende instructeur. De docent heeft toegang tot de volledige, aangepaste prompt en evalueert de resultaten van de leerling. Bij elke stap in de generatie van de leerling vergelijkt het systeem de tokenverdeling van de leerling met wat de contextbewuste leraar zou doen.

distillatie in de politieke context — Contextdestillatie binnen het beleid

OPCD gebruikt “inverse KL-divergentie” om de leerling te beoordelen. “Door het minimaliseren van de inverse KL-divergentie bevordert het ‘mode-zoekend’ gedrag. Het richt zich op regio’s met een hoge waarschijnlijkheid van de distributie van de leerling, ” zei Ye. “Het onderdrukt tokens die de leerling als onwaarschijnlijk beschouwt, zelfs als de overtuigingen van de leraar deze een hoge waarschijnlijkheid toekennen. Deze aanpassing helpt de leerling zijn eigen fouten te corrigeren en de brede, hallucinante distributies van standaarddestillatie te vermijden.”

Omdat het leerlingmodel actief oefent met het nemen van zijn eigen beslissingen en tijdens de training leert zijn eigen fouten te corrigeren, gedraagt het zich betrouwbaarder wanneer het in een live toepassing wordt ingezet. Het slaat met succes complexe bedrijfsregels, beveiligingsbeperkingen of gespecialiseerde kennis rechtstreeks in het permanente geheugen op.

Wat OPCD levert: de benchmarkresultaten

De onderzoekers testten OPCD op twee belangrijke gebieden: distillatie van ervaringskennis en systeempromptdistillatie. Voor de destillatie van ervaringskennis wilden de onderzoekers zien of een LLM kon leren van zijn eigen successen uit het verleden en die lessen permanent kon overnemen. Ze testten dit op modellen van verschillende groottes met behulp van wiskundige redeneerproblemen.

Ten eerste loste het model problemen op en werd gevraagd algemene regels op te schrijven die het van zijn successen had geleerd. Vervolgens hebben ze met behulp van OPCD deze geschreven lessen rechtstreeks in de parameters van het model ingebakken. De resultaten toonden aan dat de modellen dramatisch verbeterden zonder dat de geleerde ervaring meer in de prompts hoefde te worden ingevoegd. Bij complexe wiskundige problemen verbeterde een model met 8 miljard parameters van een basislijn van 75,0% naar 80,9%. In het navigatiespel Frozen Lake had een klein parametermodel van 1,7 miljard aanvankelijk bijvoorbeeld een succespercentage van 6,3%. Nadat OPCD de geleerde ervaring had ingebakken, steeg de nauwkeurigheid naar 38,3%.

De tweede reeks experimenten vond plaats met lange systeemprompts. Bedrijven maken vaak gebruik van massale systeemoproepen om strikte gedragsrichtlijnen af te dwingen, zoals het handhaven van een professionele toon, het garanderen van medische nauwkeurigheid of het filteren van giftige taal. De onderzoekers testten of OPCD deze dichte gedragsregels permanent in de modellen kon inbouwen, zodat ze niet bij elk gebruikersverzoek hoefden te worden meegestuurd. Uit hun experimenten blijkt dat OPCD deze complexe regels met succes heeft geïnternaliseerd en de prestaties enorm heeft verbeterd. Bij het testen van een Lama-model met 3 miljard parameters op het gebied van veiligheids- en toxiciteitsclassificatie scoorde het basismodel 30,7%. Nadat OPCD was gebruikt om de veiligheidsprompt te internaliseren, nam de nauwkeurigheid ervan toe tot 83,1%. Bij het beantwoorden van medische vragen verbeterde hetzelfde model van 59,4% naar 76,3%.

Een van de grootste uitdagingen bij het verfijnen van modellen is catastrofale vergetelheidwaarbij het model te veel gefocust raakt op de verfijningstaak en slechter op algemene taken. De onderzoekers volgden de prestaties buiten de distributie om deze tunnelvisie te testen. Toen ze strikte veiligheidsregels in een model destilleerden, testten ze onmiddellijk het vermogen ervan om niet-gerelateerde medische vragen te beantwoorden. OPCD handhaafde met succes de algemene medische kennis van het model en presteerde ongeveer 4 procentpunten beter dan de oude methoden buiten het beleid. Het specialiseerde zich zonder zijn bredere intelligentie te verliezen.

Waar OPCD past – en waar niet

Hoewel OPCD een krachtig hulpmiddel is voor het internaliseren van statische kennis en complexe regels, vervangt het niet alle externe contextmethoden. “RAG is beter als de vereiste informatie zeer dynamisch is of als er sprake is van een enorme, regelmatig bijgewerkte externe database die niet kan worden gecomprimeerd tot modelgewichten”, zegt Ye.

Voor bedrijfsteams die hun pijplijnen evalueren, vereist de adoptie van OPCD geen revisie van bestaande systemen of investeringen in gespecialiseerde hardware. “OPCD kan zonder problemen in bestaande workflows worden geïntegreerd”, aldus Ye. “Elk team dat al standaard RLVR-pijplijnen (Reinforcement Learning from Verifiable Rewards) gebruikt, kan OPCD adopteren zonder grote architectonische veranderingen.”

In de praktijk fungeert het studentenmodel als beleidsmodel dat de implementatie uitvoert, terwijl het bevroren lerarenmodel fungeert als referentie die logits levert. De hardwarevereisten zijn zeer toegankelijk. Volgens Ye kunnen bedrijfsteams de experimenten van de onderzoekers reproduceren met behulp van ongeveer acht A100 GPU’s.

De gegevensvereisten zijn ook licht. Voor de distillatie van ervaringskennis hebben ontwikkelaars slechts ongeveer 30 zaadvoorbeelden nodig om oplossingssporen te genereren. Omdat de techniek wordt toegepast op voorheen niet-geoptimaliseerde omgevingen, zorgt zelfs een kleine hoeveelheid gegevens voor het grootste deel van de prestatieverbetering. Voor de distillatie van systeemprompts zijn bestaande geoptimaliseerde prompts en standaard taakgegevenssets voldoende.

De onderzoekers bouwden er hun eigen implementatie op kwijteen open source RLVR-codebase die bewijst dat de techniek perfect past in conventionele raamwerken voor versterkend leren. Ze zijn van plan hun implementatie na interne beoordelingen vrij te geven als open source.

Het zelfverbeteringsmodel: wat daarna komt

Vooruitkijkend baant OPCD de weg voor echte zelfverbeterende modellen die zich voortdurend aanpassen aan op maat gemaakte zakelijke omgevingen. Eenmaal geïmplementeerd kan een model lessen trekken uit interacties in de echte wereld en OPCD gebruiken om deze eigenschappen geleidelijk te internaliseren zonder dat handmatige monitoring of gegevensannotatie door modeltrainers nodig is.

“Dit vertegenwoordigt een fundamentele paradigmaverschuiving in modelverbetering: de kernverbeteringen aan het model zullen verschuiven van trainingstijd naar testtijd”, zei Ye. “Het gebruik van het model – en het laten opdoen van ervaring – zou de belangrijkste motor van de vooruitgang worden.”

Nieuwsbron

De nieuwe AI-trainingsmethode van Microsoft elimineert opgeblazen systeemprompts zonder dat dit ten koste gaat van de modelprestaties

Waarom lange systeemprompts een probleem worden

Hoe OPCD het leraar-leerlingprobleem oplost

Wat OPCD levert: de benchmarkresultaten

Waar OPCD past – en waar niet

Het zelfverbeteringsmodel: wat daarna komt

LAAT EEN REACTIE ACHTER Annuleer reactie

EDITOR PICKS

Piloot van Alaska Airlines veroordeelt Boeing omdat hij ‘hem tot zondebok probeert te maken’...

61 procent van de Canadezen keurt de Amerikaanse militaire actie in Iran af: opiniepeiling...

Hoe de dochter van Tommy Lee stierf – Hollywood Life

5 sciencefictionfilms uit de jaren 70 die de toekomst voorspelden