Home Nieuws De nieuwe KV-cachecompressietechniek vermindert het LLM-geheugen 50x zonder verlies van nauwkeurigheid

De nieuwe KV-cachecompressietechniek vermindert het LLM-geheugen 50x zonder verlies van nauwkeurigheid

6
0
De nieuwe KV-cachecompressietechniek vermindert het LLM-geheugen 50x zonder verlies van nauwkeurigheid

Enterprise AI-applicaties die grote documenten of taken met een lange horizon verwerken, worden geconfronteerd met een ernstig geheugenknelpunt. Naarmate de context langer wordt, groeit ook de KV-cache, het gebied waar het werkgeheugen van het model wordt opgeslagen.

Een nieuwe techniek ontwikkeld door onderzoekers van MIT lost deze uitdaging op met een snelle compressiemethode voor de KV-cache. De techniek, genaamd Aandacht Matchingslaagt erin de context tot 50x te comprimeren met zeer weinig kwaliteitsverlies.

Hoewel dit niet de enige beschikbare geheugencompressietechniek is, valt Attention Matching op door zijn uitvoeringssnelheid en indrukwekkende eigenschappen voor het bewaren van informatie.

Het geheugenknelpunt in de KV-cache

Grote taalmodellen genereren hun antwoorden opeenvolgend, één token tegelijk. Om te voorkomen dat de hele gespreksgeschiedenis voor elk voorspeld woord opnieuw moet worden berekend, slaat het model een wiskundige weergave op van elk eerder verwerkt token, ook wel sleutel-waardeparen genoemd. Dit kritische werkgeheugen staat bekend als de KV-cache.

De KV-cache schaalt met de gesprekslengte omdat het model gedwongen wordt deze sleutels en waarden te behouden voor alle voorgaande tokens in een bepaalde interactie. Dit maakt gebruik van dure hardwarebronnen. “In de praktijk is KV-cachegeheugen het grootste knelpunt voor het bedienen van modellen in een ultralange context”, vertelde Adam Zweiger, co-auteur van het artikel, aan VentureBeat. “Het beperkt de gelijktijdigheid, dwingt kleinere batches af en/of vereist agressievere ontlading.”

In moderne bedrijfsgebruikssituaties, zoals het parseren van enorme juridische contracten, het onderhouden van klantdialogen over meerdere sessies of het uitvoeren van autonome coderingsagenten, kan de KV-cache oplopen tot vele gigabytes aan geheugen voor een enkel gebruikersverzoek.

Om dit enorme knelpunt aan te pakken heeft de AI-industrie verschillende strategieën uitgeprobeerd, maar deze methoden schieten tekort als ze worden ingezet in bedrijfsomgevingen waar extreme compressie nodig is. Eén klasse van technische oplossingen omvat het optimaliseren van de KV-cache door een van beide uitgifte van tokens het model minder belangrijk acht of soortgelijke tokens samenvoegt tot één enkele representatie. Deze technieken werken bij milde compressie, maar “degraderen snel bij hoge reductieverhoudingen”, aldus de auteurs.

Toepassingen in de echte wereld vertrouwen vaak op eenvoudigere technieken, waarbij de meest gebruikelijke aanpak erin bestaat de oudere context te laten vallen wanneer de geheugenlimiet is bereikt. Maar deze aanpak zorgt ervoor dat het model oudere informatie verliest naarmate de context langer wordt. Een ander alternatief is contextsamenvatting, waarbij het systeem pauzeert, een korte tekstsamenvatting van de oudere context schrijft en het oorspronkelijke geheugen door die samenvatting vervangt. Hoewel dit een industriestandaard is, gaat samenvatting gepaard met veel verlies en verslechtert de prestatie verderop in de keten aanzienlijk, omdat relevante informatie uit de context kan worden gehaald.

Uit recent onderzoek is gebleken dat het technisch mogelijk is dit geheugen sterk te comprimeren met behulp van een methode genaamd Cartridges. Deze aanpak vereist echter het trainen van latente KV-cachemodellen via langzame, end-to-end wiskundige optimalisatie. Deze op gradiënten gebaseerde training kan op dure GPU’s enkele uren duren om slechts één enkele context te comprimeren, waardoor deze volledig onhoudbaar wordt voor realtime bedrijfstoepassingen.

Hoe aandachtsmatching wordt gecomprimeerd zonder de kosten

Attention Matching bereikt compressieverhoudingen en kwaliteit op hoog niveau en is tegelijkertijd ordes van grootte sneller dan op gradiënten gebaseerde optimalisatie. Het omzeilt het langzame trainingsproces door middel van slimme wiskundige trucs.

De onderzoekers realiseerden zich dat ze, om perfect na te bootsen hoe een AI met zijn geheugen interageert, twee wiskundige eigenschappen moeten behouden bij het comprimeren van de originele sleutel en waardevector in een kleinere footprint. De eerste is ‘aandachtsoutput’, de feitelijke informatie die de AI extraheert wanneer deze zijn geheugen bevraagt. De tweede is de ‘aandachtsmassa’, die fungeert als het wiskundige gewicht dat een token heeft ten opzichte van al het andere in het werkgeheugen van het model. Als het gecomprimeerde geheugen aan deze twee eigenschappen kan voldoen, zal het zich precies hetzelfde gedragen als het enorme, originele geheugen, zelfs als er later nieuwe, onvoorspelbare gebruikersberichten worden toegevoegd.

“Attention Matching is in sommige opzichten het ‘juiste’ doel van latente contextcompressie, in die zin dat het direct tot doel heeft het gedrag van elke aandachtskop na compressie te behouden, ” zei Zweiger. Hoewel token-dropping en gerelateerde heuristieken kunnen werken, leidt expliciet matching-aandachtsgedrag eenvoudigweg tot betere resultaten.

Voordat het geheugen wordt gecomprimeerd, genereert het systeem een ​​kleine set “referentiequery’s” die fungeren als proxy voor de soorten interne zoekopdrachten die het model waarschijnlijk zal uitvoeren bij het redeneren over de specifieke context. Als het gecomprimeerde geheugen deze referentievragen nauwkeurig kan beantwoorden, is de kans groot dat het er later in zal slagen de feitelijke vragen van de gebruiker te beantwoorden. De auteurs stellen verschillende methoden voor om deze referentiequery’s te genereren, waaronder het toevoegen van een verborgen prompt aan het document die het model vertelt de vorige context te herhalen, ook wel de “repeat-prefill” -techniek genoemd. Ze suggereren ook een ’tutorial’-benadering waarbij het model wordt gevraagd een paar snelle synthetische taken op het document uit te voeren, zoals het verzamelen van alle belangrijke feiten of het structureren van datums en cijfers in een JSON-formaat.

Met deze zoekopdrachten in de hand selecteert het systeem een ​​set sleutels om in de gecomprimeerde KV-cache te bewaren op basis van signalen zoals de hoogste attentiewaarde. Vervolgens gebruikt het de sleutels en referentiequery’s om de overeenkomende waarden te berekenen, samen met een scalaire bias-term. Deze bias zorgt ervoor dat relevante informatie behouden blijft, waardoor elke bewaarde sleutel de massa van veel verwijderde sleutels kan vertegenwoordigen.

Deze formulering maakt het mogelijk om de waarden aan te passen met eenvoudige algebraïsche technieken, zoals gewone kleinste kwadraten en niet-negatieve kleinste kwadraten, waardoor computationeel zware, op gradiënten gebaseerde optimalisatie volledig wordt vermeden. Dit is wat Attention Matching supersnel maakt in vergelijking met compressiemethoden die veel optimalisatie vereisen. De onderzoekers maken ook gebruik van chunk-compressie, waarbij aaneengesloten stukken invoer onafhankelijk worden verwerkt en aaneengeschakeld om de prestaties over lange runs verder te verbeteren.

Aandachtsmatching in actie

Om te begrijpen hoe deze methode in de echte wereld werkt, hebben de onderzoekers een reeks stresstests uitgevoerd met behulp van populaire open source-modellen zoals Llama 3.1 en Qwen-3 op twee verschillende soorten bedrijfsdatasets. De eerste was KWALITEIT, een standaardbenchmark voor begrijpend lezen waarbij documenten van 5.000 tot 8.000 woorden worden gebruikt. De andere, die een echte uitdaging voor ondernemingen vormde, was LongHealth, een zeer dichte dataset van 60.000 tokens die complexe medische dossiers van meerdere patiënten bevatten.

Het belangrijkste resultaat was het vermogen van Attention Matching om de KV-cache van het model 50x te comprimeren zonder de nauwkeurigheid te verminderen, terwijl de documenten binnen enkele seconden werden verwerkt. Om voorheen hetzelfde kwaliteitsniveau te bereiken, hadden Cartridges uren intensieve GPU-berekening per context nodig.

Aandachtswedstrijd op Qwen 3

Aandachtsmatching met Qwen-3 (bron: arXiv)

Als het om de dichte medische dossiers ging, stortten de standaardoplossingen voor de industrie volledig in elkaar. De onderzoekers merkten dat toen ze probeerden standaard tekstsamenvattingen op deze patiëntendossiers te gebruiken, de nauwkeurigheid van het model zo laag daalde dat het overeenkwam met de ‘geen context’-basislijn, wat betekende dat de AI presteerde alsof hij het document helemaal niet had gelezen.

Attention Matching presteert aanzienlijk beter dan samenvattingen, maar ondernemingsarchitecten zullen de compressieverhouding voor compacte taken moeten verlagen in vergelijking met eenvoudigere tests voor begrijpend lezen. Zoals Zweiger uitlegt: “De belangrijkste praktische afweging is dat als je bijna alles in context probeert te houden bij taken met een zeer informatierijke achtergrond, je over het algemeen een mildere compressieverhouding nodig hebt om een ​​sterke nauwkeurigheid te behouden.”

De onderzoekers onderzochten ook wat er gebeurt in gevallen waarin absolute precisie niet nodig is, maar extreme geheugenbesparingen wel. Ze voerden Attention Matching uit bovenop een standaardtekstsamenvatting. Deze gecombineerde aanpak bereikte een compressie van 200x. Het evenaarde met succes de nauwkeurigheid van alleen standaardsamenvatting, maar met een zeer kleine geheugenvoetafdruk.

Een van de interessante experimenten voor bedrijfsworkflows was het testen van online compressie, hoewel ze opmerken dat dit een proof of concept is en niet grondig is getest in productieomgevingen. De onderzoekers testten het model op de AIME-test voor geavanceerd wiskundig redeneren. Ze dwongen de AI een probleem op te lossen met een strikt beperkte fysieke geheugenlimiet. Telkens wanneer het geheugen van het model vol raakte, pauzeerde het systeem, comprimeerde het werkgeheugen onmiddellijk met 50 procent met behulp van Attention Matching en liet het verder nadenken. Zelfs nadat het model de geheugenmuur had geraakt en de KV-cache tot zes keer achter elkaar in het midden van de tank was gekrompen, loste het model de wiskundige problemen met succes op. De prestaties kwamen overeen met een model dat een enorm, onbeperkt geheugen had gekregen.

Er zijn kanttekeningen waarmee rekening moet worden gehouden. Met een compressieverhouding van 50x is Attention Matching de duidelijke winnaar in de balans tussen snelheid en kwaliteit. Maar als een bedrijf de compressie voor zeer complexe gegevens tot extreme 100x-limieten probeert te drijven, presteert de langzamere, op gradiënten gebaseerde Cartridge-methode zelfs beter.

Dat hebben de onderzoekers vrijgegeven de code voor Attention Matching. Ze merken echter op dat dit momenteel geen eenvoudige plug-and-play software-update is. “Ik denk dat latente compressie het beste kan worden gezien als een modellaagtechniek”, merkt Zweiger op. “Hoewel het bovenop elk bestaand model kan worden toegepast, vereist het toegang tot modelschalen.” Dit betekent dat bedrijven die uitsluitend afhankelijk zijn van gesloten API’s dit niet zelf kunnen implementeren; ze hebben open modellen nodig.

De auteurs merken op dat het integreren van deze KV-compressie in de latente ruimte in bestaande, sterk geoptimaliseerde commerciële inferentie-engines nog steeds aanzienlijke inspanningen vergt. De moderne AI-infrastructuur maakt gebruik van complexe trucs zoals prefix-caching en geheugenverpakking met variabele lengte om servers efficiënt te laten werken. Er zal speciale techniek nodig zijn om deze nieuwe compressietechniek in bestaande systemen te integreren. Er zijn echter directe zakelijke toepassingen. “Wij zijn van mening dat compressie na opname een veelbelovende toepassing is waarbij grote tooloproepen of lange documenten direct na verwerking worden gecomprimeerd”, aldus Zweiger.

Uiteindelijk komt de verschuiving naar mechanische, latente ruimtecompressie overeen met de toekomstige productroutekaarten van grote AI-spelers, betoogt Zweiger. “We zien een compressieverschuiving van iets dat bedrijven zelf implementeren naar iets dat modelaanbieders bieden”, aldus Zweiger. “Dit geldt zelfs nog meer voor latente compressie, waarbij toegang tot modelgewichten nodig is. OpenAI stelt nu bijvoorbeeld een black-box-compressie-eindpunt bloot dat een ondoorzichtig object retourneert in plaats van een samenvatting in platte tekst.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in