Home Nieuws Nvidia’s nieuwe techniek verlaagt de kosten van LLM-redeneren met 8x zonder de...

Nvidia’s nieuwe techniek verlaagt de kosten van LLM-redeneren met 8x zonder de nauwkeurigheid te verliezen

4
0
Nvidia’s nieuwe techniek verlaagt de kosten van LLM-redeneren met 8x zonder de nauwkeurigheid te verliezen

Onderzoekers van Nvidia hebben een techniek ontwikkeld die de geheugenkosten van het redeneren in grote taalmodellen tot acht keer kan verlagen. Hun techniek, genaamd dynamische geheugentoewijzing (DMS), comprimeert de sleutelwaardecache (KV) die de tijdelijke geheugen-LLM’s genereren en opslaan tijdens het verwerken van aanwijzingen, redeneerproblemen en documenten.

Hoewel onderzoekers al eerder verschillende methoden hebben voorgesteld om deze cache te comprimeren, hebben de meesten moeite om dit te doen zonder de intelligentie van het model aan te tasten. De aanpak van Nvidia slaagt erin een groot deel van de cache weg te gooien, terwijl de redeneermogelijkheden van het model behouden blijven (en in sommige gevallen worden verbeterd).

Experimenten tonen aan dat DMS LLM’s in staat stelt langer na te denken en meer oplossingen te verkennen zonder de gebruikelijke boetes in snelheid of geheugenkosten.

Het knelpunt van de rede

LLM’s verbeteren hun prestaties bij complexe taken door het genereren van “keten van gedachtenTokens die in wezen hun redeneerstappen uitschrijven voordat ze tot een definitief antwoord komen. Inferentie-tijdschaaltechnieken maken hiervan gebruik door het model een groter budget te geven om deze denktokens te genereren of om meerdere potentiële redeneerpaden parallel te verkennen.

Deze verbeterde rechtvaardiging brengt echter aanzienlijke rekenkosten met zich mee. Naarmate het model meer tokens genereert, bouwt het een KV-cache.

Voor toepassingen in de echte wereld is de KV-cache een groot knelpunt. Naarmate de redeneringsketen groeit, groeit de cache lineair en verbruikt deze enorme hoeveelheden geheugen op GPU’s. Dit dwingt de hardware om meer tijd te besteden aan het lezen van gegevens uit het geheugen dan aan het daadwerkelijk computeren, wat de generatie vertraagt ​​en de latentie verhoogt. Het beperkt ook het aantal gebruikers dat een systeem tegelijkertijd kan bedienen, omdat een tekort aan VRAM ervoor zorgt dat het systeem crasht of langzamer gaat lopen.

Nvidia-onderzoekers noemen dit niet alleen een technische hindernis, maar ook een fundamentele financiële hindernis voor het bedrijf.

“De vraag gaat niet alleen over de hoeveelheid hardware; het gaat erom of uw infrastructuur 100 redeneringsthreads of 800 threads tegen dezelfde kosten verwerkt”, vertelde Piotr Nawrot, Senior Deep Learning Engineer bij Nvidia, aan VentureBeat.

Eerdere pogingen om dit op te lossen waren gericht op op heuristieken gebaseerde benaderingen. Deze methoden gebruiken strenge regels, zoals een ‘schuifvenster’ dat alleen de meest recente tokens in de cache opslaat en de rest verwijdert. Hoewel dit het geheugengebruik vermindert, dwingt het het model vaak om kritische informatie die nodig is om het probleem op te lossen, weg te gooien, waardoor de nauwkeurigheid van de uitvoer afneemt.

“Standaard stakingmethoden proberen oude en ongebruikte tokens te selecteren voor staking met behulp van heuristieken”, aldus de onderzoekers. “Ze vereenvoudigen het probleem en hopen dat als ze de interne werking van het model benaderen, het antwoord correct zal blijven.”

Andere oplossingen maken gebruik van paging om de ongebruikte delen van de KV-cache over te brengen naar langzamer geheugen, maar het voortdurend uitwisselen van gegevens introduceert latentie-overhead waardoor real-time applicaties traag worden.

Dynamische geheugentoewijzing

DMS hanteert een andere aanpak door bestaande LLM’s “aan te passen” om hun eigen geheugen op intelligente wijze te beheren. In plaats van een vaste regel toe te passen voor wat er moet worden verwijderd, traint DMS het model om te identificeren welke tokens essentieel zijn voor toekomstig redeneren en welke wegwerpbaar zijn.

“Het raadt niet alleen het belang; het leert een beleid dat expliciet de uiteindelijke outputverdeling van het model behoudt”, zei Nawrot.

Het proces transformeert een standaard, vooraf getrainde LLM zoals Llama 3 of Qwen 3 in een zelfverdichtend model. Cruciaal is dat dit niet vereist dat het model helemaal opnieuw moet worden getraind, wat onbetaalbaar zou zijn. In plaats daarvan hergebruikt DMS bestaande neuronen binnen de aandachtslaag van het model om voor elk token een “bewaar”- of “uitzet”-signaal uit te zenden.

Voor teams die zich zorgen maakten over de complexiteit van het achteraf inbouwen, merkten de onderzoekers op dat het proces is ontworpen om licht van gewicht te zijn. “Om de efficiëntie van dit proces te verbeteren, kunnen de gewichten van het model worden bevroren, waardoor het proces vergelijkbaar wordt met Low-Rank Adaptation (LoRA)”, zei Nawrot. Dit betekent dat een standaard bedrijfsmodel zoals de Qwen3-8B “binnen enkele uren achteraf kan worden uitgerust met DMS op een enkele DGX H100.”

Een van de belangrijke onderdelen van DMS is een mechanisme dat ‘uitgestelde uitzetting’ wordt genoemd. Als een token bij standaard sparsificatie als onbelangrijk wordt beschouwd, wordt het onmiddellijk verwijderd. Dit is riskant omdat het model mogelijk een fractie van een seconde nodig heeft om de context van dat token in zijn huidige staat te integreren.

DMS mitigeert dit door een token voor uitstel te markeren, maar deze voor een korte periode (bijvoorbeeld een paar honderd stappen) beschikbaar te houden. Door deze vertraging kan het model alle resterende noodzakelijke informatie uit het token “extraheren” en deze samenvoegen met de huidige context voordat het token uit de KV-cache wordt verwijderd.

“Het ‘uitgestelde uitzettingsmechanisme’ is cruciaal omdat niet alle tokens eenvoudigweg ‘belangrijk’ (voor altijd bewaren) of ‘nutteloos’ (onmiddellijk verwijderen) zijn. Velen vallen er tussenin – ze bevatten wat informatie, maar niet genoeg om te rechtvaardigen dat ze een hele ruimte in het geheugen in beslag nemen, “zei Nawrot. “Dit is waar de redundantie ligt. Door deze tokens een korte tijd in een lokaal venster te bewaren voordat ze worden uitgezet, zorgen we ervoor dat het model voor ze zorgt en hun informatie opnieuw distribueert naar toekomstige tokens.”

De onderzoekers ontdekten dat dit retrofitproces zeer efficiënt is. Ze konden een vooraf getrainde LLM uitrusten met DMS in slechts 1.000 trainingsstappen, een klein deel van de berekening die nodig was voor de oorspronkelijke training. De resulterende modellen maken gebruik van standaardkernels en kunnen direct in bestaande krachtige inferentiestapels passen zonder aangepaste hardware of complex herschrijven van software.

DMS in actie

Om de techniek te valideren, pasten de onderzoekers DMS toe op verschillende redeneermodellen, waaronder de Qwen-R1-serie (gedistilleerd uit DeepSeek R1) en Llama 3.2, en testten ze deze op moeilijke benchmarks zoals AIME 24 (wiskunde), GPQA Diamond (wetenschap) en LiveCodeBench (codering).

De resultaten laten zien dat DMS effectief de Pareto-grens verlegt, de optimale afweging tussen kosten en prestaties. Op de AIME 24 wiskundebenchmark behaalde een Qwen-R1 32B-model uitgerust met DMS een score die 12,0 punten hoger was dan een standaardmodel wanneer het werd beperkt tot hetzelfde geheugenbandbreedtebudget. Door de cache te comprimeren, kon het model zichzelf veel dieper en breder laten ‘denken’ dan het standaardmodel met hetzelfde geheugen en hetzelfde computerbudget.

Screenshot 2026-02-12 om 21.40.39

DMS verbetert de modelprestaties bij redeneringstaken ten opzichte van gewone LLM’s voor een gelijk rekenbudget (bron: arXiv)

Misschien wel het meest verrassend was dat DMS de conventionele wijsheid tartte dat compressie het begrip op lange termijn schaadt. Bij ‘naald-in-een-hooiberg’-tests, waarbij wordt gemeten in hoeverre een model een bepaald stukje informatie in een groot document kan vinden, presteerden DMS-varianten zelfs beter dan de standaardmodellen. Door het geheugen actief te beheren in plaats van passief ruis te verzamelen, behield het model een schonere, nuttiger context.

Voor de infrastructuur van het bedrijf vertalen de efficiëntiewinsten zich rechtstreeks in doorvoer- en hardwarebesparingen. Omdat de geheugencache aanzienlijk kleiner is, besteedt de GPU minder tijd aan het ophalen van gegevens, waardoor de gebruikerslatentie wordt verminderd. In tests met het Qwen3-8B-model evenaarde DMS de nauwkeurigheid van het vanillemodel en leverde het een tot 5x hogere doorvoer. Dit betekent dat een enkele server vijf keer zoveel klantverzoeken per seconde kan verwerken zonder kwaliteitsverlies.

De toekomst van het geheugen

Nvidia heeft DMS uitgebracht als onderdeel van zijn KVPress-bibliotheek. Wat betreft de manier waarop bedrijven met DMS aan de slag kunnen, benadrukt Nawrot dat de toetredingsdrempel laag is. “De ‘minimaal levensvatbare infrastructuur’ bestaat uit standaard Hugging Face-pijplijnen – er zijn geen aangepaste CUDA-kernels vereist”, zei Nawrot, erop wijzend dat de code volledig compatibel is met standaard FlashAttention.

Vooruitkijkend ziet het team DMS als onderdeel van een grotere verschuiving waarbij geheugenbeheer een aparte, intelligente laag van de AI-stapel wordt. Nawrot bevestigde ook dat DMS “volledig compatibel” is met nieuwere architecturen zoals Latente aandacht met meerdere hoofden (MLA) gebruikt in de modellen van DeepSeek, wat suggereert dat een combinatie van deze benaderingen nog grotere efficiëntiewinsten kan opleveren.

Naarmate bedrijven overstappen van eenvoudige chatbots naar complexe agentsystemen die uitgebreide redeneringen vereisen, worden de kosten van gevolgtrekkingen een primaire zorg. Technieken als DMS bieden een manier om deze mogelijkheden duurzaam te schalen.

“We hebben nog maar nauwelijks de oppervlakte bereikt van wat mogelijk is”, zei Nawrot, “en we verwachten dat de schaalvergroting van de gevolgtrekkingstijd zich verder zal ontwikkelen.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in