Home Nieuws IndexCache, een nieuwe aandachtsarme optimalisatie, levert 1,82x snellere gevolgtrekkingen op AI-modellen met...

IndexCache, een nieuwe aandachtsarme optimalisatie, levert 1,82x snellere gevolgtrekkingen op AI-modellen met lange context

2
0
IndexCache, een nieuwe aandachtsarme optimalisatie, levert 1,82x snellere gevolgtrekkingen op AI-modellen met lange context

Het verwerken van 200.000 tokens via een groot taalmodel is duur en traag: hoe langer de context, hoe sneller de kosten stijgen. Onderzoekers van de Tsinghua Universiteit en Z.ai hebben dat gedaan bouwde een techniek genaamd IndexCache Dat vermindert tot 75% van de redundante berekeningen in spaarzame aandachtsmodellen, wat tot 1,82x snellere tijd tot het eerste token en 1,48x snellere generatiedoorvoer oplevert bij die contextlengte.

De techniek is van toepassing op modellen die de DeepSeek Sparse Attention-architectuur gebruiken, inclusief de nieuwste DeepSeek- en GLM-families. Het kan bedrijven helpen snellere gebruikerservaringen te leveren voor lange-coherentiemodellen op productieschaal, een mogelijkheid die al is bewezen in voorlopige tests op het GLM-5-model met 744 miljard parameters.

Het DSA-knelpunt

Grote taalmodellen vertrouwen op het zelfaandachtsmechanisme, een proces waarbij het model de relatie tussen elk token in zijn context en alle voorgaande berekent om het volgende token te voorspellen.

Zelfaandacht heeft echter een ernstige beperking. De computationele complexiteit schaalt kwadratisch met de reekslengte. Voor toepassingen die uitgebreide contextvensters vereisen (bijvoorbeeld het verwerken van grote documenten, agentworkflows met meerdere stappen of een lange gedachtegang), leidt deze kwadratische schaalvergroting tot trage gevolgtrekkingssnelheden en aanzienlijke reken- en geheugenkosten.

Spaarzame aandacht biedt een principiële oplossing voor dit schaalprobleem. In plaats van de relatie tussen elk token en alle voorgaande te berekenen, optimaliseert spaarzame aandacht het proces door elke query alleen de meest relevante subset van tokens te laten selecteren en verwerken.

DeepSeek Sparse Attention (DSA)-architectuur (bron: arXiv)

Diep Zoek spaarzame aandacht (DSA) is een zeer efficiënte implementatie van dit concept, voor het eerst geïntroduceerd in DeepSeek-V3.2. Om te bepalen welke tokens er het meest toe doen, introduceert DSA een lichtgewicht ‘bliksemindexeringsmodule’ in elke laag van het model. Deze indexer scoort alle voorgaande tokens en selecteert een kleine batch die het belangrijkste aandachtsmechanisme moet verwerken. Door dit te doen, reduceert DSA de zware kernaandachtsberekening van kwadratisch naar lineair, waardoor het model dramatisch wordt versneld terwijl de uitvoerkwaliteit behouden blijft.

Maar de onderzoekers ontdekten een al lang bestaande fout: de DSA-indexer zelf werkt nog steeds met een kwadratische complexiteit op elke laag. Hoewel de indexeerder computationeel goedkoper is dan het primaire aandachtsproces, neemt de tijd die het model besteedt aan het uitvoeren van deze indexeerders toe naarmate de context langer wordt. Dit vertraagt ​​het model aanzienlijk, vooral tijdens de initiële fase van “prefill”, wanneer de prompt voor het eerst wordt verwerkt.

DSA-indexbelasting

De kosten voor DSA-indexering nemen toe met de lengte van de context (bron: arXiv)

Aandacht cachen met IndexCache

Om het indexeringsknelpunt op te lossen, ontdekte het onderzoeksteam een ​​cruciale eigenschap van de manier waarop DSA-modellen gegevens verwerken. De subset van belangrijke tokens die een indexeerder kiest, blijft opmerkelijk stabiel terwijl gegevens door opeenvolgende transformatielagen bewegen. Uit empirische tests op DSA-modellen bleek dat aangrenzende lagen tussen 70% en 100% van de door hen gekozen tokens delen.

Om te profiteren van deze redundantie over meerdere lagen, ontwikkelden de onderzoekers IndexCache. De techniek verdeelt de lagen van het model in twee categorieën. Een klein aantal volledige (F)-lagen behouden hun indexeerders, scoren actief tokens en selecteren de belangrijkste voor cache. De overige lagen worden gesplitst (S), waardoor er geen indexering plaatsvindt en de in de cache opgeslagen indexen van de dichtstbijzijnde voorgaande F-laag worden hergebruikt.

IndexCache

IndexCache verdeelt lagen in volledige en gesplitste lagen

Tijdens de inferentie controleert het model eenvoudigweg het laagtype. Als het een F-laag bereikt, berekent het de nieuwe indices en slaat deze op in de cache. Als het een S-laag is, slaat het de berekeningen over en kopieert het de gegevens in de cache.

Er bestaat een grote verscheidenheid aan optimalisatietechnieken die proberen het aandachtsknelpunt aan te pakken het comprimeren van de KV-cachewaar de berekende attentiewaarden worden opgeslagen. In plaats van de geheugenvoetafdruk te verkleinen, zoals bij standaard KV-cachecompressie, valt IndexCache het computerknelpunt aan.

“IndexCache is geen traditionele KV-cache-compressie- of partitietechniek”, vertelde Yushi Bai, co-auteur van het artikel, aan VentureBeat. “Het elimineert deze redundantie door indexen over de lagen heen te hergebruiken, waardoor de berekening wordt verminderd in plaats van alleen de geheugenvoetafdruk. Het is een aanvulling op bestaande benaderingen en kan ermee worden gecombineerd.”

De onderzoekers ontwikkelden twee implementatiebenaderingen voor IndexCache. (Het is vermeldenswaard dat IndexCache alleen van toepassing is op modellen die de DSA-architectuur gebruiken, zoals de nieuwste DeepSeek-modellen en de nieuwste familie van GLM-modellen.)

Voor ontwikkelaars die werken met kant-en-klare DSA-modellen waarbij herscholing onmogelijk of te duur is, hebben ze een trainingsvrije methode ontwikkeld op basis van een algoritme voor ‘hebzuchtige laagselectie’. Door een kleine set kalibratiegegevens door het model te laten lopen, bepaalt dit algoritme automatisch de optimale plaatsing van F- en S-lagen zonder enige gewichtsupdates. Empirisch bewijs toont aan dat het hebzuchtige algoritme veilig 75% van de indices kan verwijderen en tegelijkertijd de downstream-prestaties van het oorspronkelijke model kan evenaren.

Voor teams die hun eigen fundamentele modellen vooraf trainen of nauwkeurig afstemmen, stellen de onderzoekers een trainingsbewuste versie voor die netwerkparameters optimaliseert om het delen tussen lagen te ondersteunen. Deze aanpak introduceert een “meerlaags destillatieverlies” tijdens de training. Het dwingt elke behouden index om te leren hoe een consensus-subset van tokens moet worden geselecteerd die zeer relevant zal zijn voor alle volgende lagen die hij bedient.

Real-world versnellingen op productiemodellen

Om de effectiviteit van IndexCache te testen, pasten de onderzoekers het toe op de parameter 30 miljard GLM-4.7 flitser model en vergeleek het met de standaardbasislijn.

Bij een contextlengte van 200.000 verminderde het verwijderen van 75% van de indexen de prefetch-vertraging van 19,5 seconden naar slechts 10,7 seconden, wat een versnelling van 1,82x opleverde. De onderzoekers merken op dat deze versnellingen naar verwachting zelfs nog groter zullen zijn in langere contexten.

Tijdens de decoderingsfase, waarin het model zijn antwoord genereert, verhoogde IndexCache de doorvoer per verzoek van 58 tokens per seconde naar 86 tokens per seconde bij de 200K contexttag, wat een versnelling van 1,48x opleverde. Wanneer het geheugen van de server volledig verzadigd is met verzoeken, steeg de totale decoderingsdoorvoer tot 51%.

IndexCache-prestaties

IndexCache versnelt de fasen van vooraf invullen en decoderen aanzienlijk (bron: arXiv)

Voor ondernemingsteams vertalen deze efficiëntieverbeteringen zich rechtstreeks in kostenbesparingen. “In termen van ROI biedt IndexCache consistente voordelen in alle scenario’s, maar de winst is het meest merkbaar bij werklasten met een lange context, zoals RAG, documentanalyse en agentpijplijnen”, aldus Bai. “In deze gevallen zien we een reductie van ten minste ongeveer 20% in de implementatiekosten en soortgelijke verbeteringen in de door de gebruiker waargenomen latentie.” Hij voegde eraan toe dat voor taken met een zeer korte context de voordelen rond de 5% schommelen.

Deze efficiëntieverbeteringen brachten de redenering niet in gevaar. Door gebruik te maken van de aanpak zonder training om 75% van de indexeerders te elimineren, kwam het 30B-model overeen met de oorspronkelijke gemiddelde basisscore op de lange-contextbenchmarks, met een score van 49,9 versus de oorspronkelijke 50,2. Op de zeer complexe AIME 2025 Mathematical Reasoning-benchmark presteerde het geoptimaliseerde model feitelijk beter dan de oorspronkelijke basislijn, met een score van 92,6 vergeleken met 91,0.

Het team voerde ook voorbereidende experimenten uit met het GLM-5-model op productieschaal met 744 miljard parameters. Ze ontdekten dat het elimineren van 75% van de indexers met de trainingsvrije methode een versnelling van minstens 1,3x opleverde voor contexten van meer dan 100.000 tokens. Tegelijkertijd handhaafde het model een vrijwel identiek kwaliteitsgemiddelde voor taken met een lange context.

IndexCache GLM-5

IndexCache verhoogt de snelheid van GLM-5 met 20% terwijl de nauwkeurigheid behouden blijft (bron: arXiv)

Breng IndexCache in productie

Voor ontwikkelingsteams die vandaag de dag de aanpak zonder training willen implementeren, is het proces eenvoudig, maar vereist het een zorgvuldige opzet. Terwijl het hebzuchtige zoekalgoritme automatisch de optimale laagconfiguratie vindt, hangt de kwaliteit van deze configuratie af van de gegevens die het verwerkt.

“We raden aan domeinspecifieke gegevens als kalibratieset te gebruiken, zodat het ontdekte gelaagdheidspatroon overeenkomt met de echte werklast”, aldus Bai.

Eenmaal gekalibreerd is de optimalisatie zeer toegankelijk voor productieomgevingen. Open source-patches zijn dat al beschikbaar op GitHub voor grotere servicemotoren. “Integratie is relatief eenvoudig: ontwikkelaars kunnen de patch toepassen op bestaande inferentiestapels, zoals vLLM of SGLang, en IndexCache inschakelen met minimale configuratiewijzigingen”, aldus Bai.

Hoewel IndexCache een onmiddellijke oplossing biedt voor de huidige computerknelpunten, wijst de onderliggende filosofie op een bredere verschuiving in de manier waarop de AI-industrie modelontwerp zal benaderen.

“Toekomstige funderingsmodellen zullen waarschijnlijk vanaf het begin worden gebouwd met de beperkingen van de stroomafwaartse eindfase in gedachten”, concludeerde Bai. “Dit betekent ontwerpen die niet alleen schaalbaar zijn in termen van modelgrootte, maar ook geoptimaliseerd zijn voor real-world doorvoer en latentie, in plaats van deze als post-hoc-problemen te behandelen.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in