Home Nieuws Onderzoekers hebben 3x inferentiesnelheden rechtstreeks in LLM-gewichten verwerkt – zonder speculatieve decodering

Onderzoekers hebben 3x inferentiesnelheden rechtstreeks in LLM-gewichten verwerkt – zonder speculatieve decodering

2
0
Onderzoekers hebben 3x inferentiesnelheden rechtstreeks in LLM-gewichten verwerkt – zonder speculatieve decodering

Terwijl agentische AI-workflows de kosten en latentie van lange redeneerketens vermenigvuldigen, heeft een team van de Universiteit van Maryland, Lawrence Livermore National Labs, Columbia University en TogetherAI een manier gevonden om de doorvoerwinst drie keer zo hoog te maken rechtstreeks in de weegschaal van een model.

In tegenstelling tot speculatieve decodering, waarvoor een afzonderlijk uitwerkingsmodel vereist is, vereist deze aanpak geen extra infrastructuur; slechts een enkel speciaal token dat wordt toegevoegd aan de bestaande architectuur van het model.

De grenzen voor de volgende tokenvoorspelling

Voorspelling van het volgende token – het genereren van één token per voorwaartse passage – creëert een doorvoerlimiet die pijnlijk duur wordt wanneer modellen duizenden tokens moeten produceren. Dit knelpunt is vooral problematisch bij redeneermodellen, die vaak duizenden ‘keten van gedachten”-tokens voordat het definitieve antwoord wordt geproduceerd, wat leidt tot een trage en dure gebruikerservaring.

Multi-token voorspelling (MTP) biedt een alternatief trainingsparadigma waarmee een taalmodel meerdere tokens tegelijk kan produceren in één enkele voorwaartse doorgang. Het model kan bijvoorbeeld worden getraind om een ​​blok tokens in één keer te voorspellen in plaats van alleen het direct volgende token.

John Kirchenbauer, een promovendus in computerwetenschappen aan de Universiteit van Maryland en co-auteur van het artikel, vertelde VentureBeat dat naarmate we richting agentische workflows evolueren, de focus verschuift van de algehele doorvoer naar de snelheid van één gebruiker. “Vandaag de dag, nu de norm en de agentische buitenste lussen deze kosten nog verder vermenigvuldigen, wordt latentie een even belangrijke dimensie van de algehele operationele efficiëntie als bruto tokens per seconde per hardware-eenheid (tps/GPU)”, aldus Kirchenbauer. Hij zei dat hoewel de standaard batch-voorspelling van de volgende token al optimaal is voor de algehele doorvoer, de nieuwe aanpak(en) ernaar streeft de GPU te verzadigen met slechts de zoekopdracht van een enkele gebruiker om de latentie voor de individuele gebruiker te verminderen.

Er zijn andere methoden, maar deze hebben nadelen. “Het is vermeldenswaard dat speculatieve decodering en diffusie-LLM’s, als een op efficiëntie gericht alternatief voor next token forecast (NTP), beide op latentie gerichte versnellingstechnieken zijn”, aldus Kirchenbauer. Maar speculatieve decodering vereist de implementatie en het beheer van een aanvullend “teken”-model, dat meer absolute berekeningen gebruikt om het op te stellen en te verifiëren. MTP daarentegen “maakt gebruik van een soortgelijk soort afweging, het is gewoon gemakkelijker te bedienen en op zichzelf wetenschappelijk interessant.”

De huidige MTP-paradigma’s hebben echter beperkingen. Het standaarddoel van het trainen van een taalmodel voor MTP is het vergelijken van de voorspellingen met de grondwaarheidstekst uit een dataset. De valkuil is dat deze standaardtraining het model leert om onafhankelijk de waarschijnlijkheid van een token op een specifieke positie te voorspellen, in plaats van zich zorgen te maken over de gezamenlijke relatie tussen een reeks tokens.

Als een model meerdere tokens tegelijk probeert te voorspellen met behulp van deze standaardmethode, ontstaan ​​er twee grote problemen. De eerste is grammaticale inconsistentie. Als een model bijvoorbeeld twee woorden voorspelt na het voorvoegsel ‘De dierenverzorger heeft hem gevoerd’, kan het zelfstandig proberen een niet-overeenkomende zin te produceren, zoals ‘pandavlees’ of ‘leeuwenbamboe’ in plaats van ‘pandabamboe’ en ‘leeuwenvlees’.

Het tweede probleem is gedegenereerde herhaling. Omdat typische tekst onvoorspelbaar is, zal een model dat een token 100 posities in de toekomst probeert te voorspellen op basis van een standaard dataset alleen maar ‘de’ voorspellen, aangezien dat het meest voorkomende woord in de Engelse taal is. Dit resulteert erin dat het model onzin als “…die ene…” weergeeft voor posities in de verre toekomst.

Voorspelling van meerdere tokens via zelfdistillatie

Om de problemen bij het genereren van meerdere tokens op te lossen, stellen de onderzoekers een nieuwe trainingstechniek voor die gebruik maakt van een leerling-leraarschema. Een leerlingmodel, het model dat leert meerdere tokens te voorspellen, genereert een deterministisch multi-tokenblok. Een lerarenmodel dat fungeert als een sterk standaard next-token-voorspellingstaalmodel evalueert dit blok. De leraar treedt op als criticus en berekent hoe waarschijnlijk en coherent de door de leerling voorgestelde volgorde is. Als de leerling een niet-overeenkomende zin suggereert, zoals “leeuwbamboe”, kent de leraar deze als een groot verlies toe en leert hij de leerling deze constructie te vermijden.

Afbeelding tegoed: VentureBeat met Nano Banana Pro

Het paradigma is geïnspireerd door leren ter versterking van het beleid, omdat het studentenmodel niet alleen maar statische tekst uit het hoofd leert. Het genereert onmiddellijk parallel een volledige inzet (actiereeks in RL-taalgebruik) bij een enkele voorwaartse pass en ontvangt een beloning op basis van hoe goed de leraar denkt dat het is. In tegenstelling tot statisch gecontroleerde methoden, waarbij trainingsparen vooraf worden vastgelegd, is de feedback hier dynamisch en in realtime gegenereerd op basis van de eigen output van de leerling. De sterke leerling verifieert ook de samenhang van tokens, waardoor wordt voorkomen dat het leerlingmodel gedegenereerde resultaten zoals herhaalde woorden leert.

Voor ontwikkelaars ligt de schoonheid van deze aanpak in de eenvoud ervan. “Er zijn eigenlijk geen veranderingen aan de architectuur behalve de toevoeging van een speciaal token”, zei Kirchenbauer. Door een ongebruikte ruimte in de bestaande inbeddingsmatrix van een model te coöpteren om als een de mask token-techniek converteert opeenvolgende bewerkingen naar parallelle bewerkingen. “Elk standaard next-token-voorspellingstaalmodel kan op deze manier worden aangepast… de interne implementatie – MoE, windowed aandacht, SSM-laag, enz. – blijft onaangeroerd en vormt geen obstakel voor aanpassing.”

Voor technische teams betekent dit dat de aanpassing kan worden toegepast op modellen die al in productie zijn, zonder dat de pijpleidingen opnieuw hoeven te worden opgebouwd.

ConfAdapt

Afbeelding tegoed: VentureBeat met Nano Banana Pro

Het tegelijkertijd genereren van meerdere tokens kan nog steeds de nauwkeurigheid van het antwoord op het moment van inferentie schaden. Om de generatiesnelheid te maximaliseren zonder de kwaliteit van de uitvoer op te offeren, introduceren de auteurs een adaptieve decoderingsstrategie genaamd ConfAdapt.

ConfAdapt evalueert bij elke stap een betrouwbaarheidslimiet, zoals 90%. Het model genereert een blok tokens, maar bewaart alleen de tokens die aan deze hoge beveiligingsdrempel voldoen of deze overschrijden. Wanneer de komende tekst zeer voorspelbaar of structureel is, is de betrouwbaarheid van het model zeer hoog. Het accepteert en geeft een groot aantal tokens tegelijk uit, waardoor er aanzienlijke rekentijd wordt bespaard op eenvoudige tokens. Vervolgens richt het zijn dure overdrachten van één token op hardere tokens die meer rekeninspanning vereisen.

Stelt multi-token voorspelling op de proef

Om te zien hoe het trainingsparadigma in de praktijk werkte, pasten de onderzoekers hun methode toe op populaire, voor instructie aangepaste modellen met open gewicht. Ze testten het sterke model Llama-3.1-8B-Magpie voor algemene doeleinden en de kleinere, efficiënte Qwen3-4B-Instruct-2507, die vaak worden gekozen voor kostengevoelige bedrijfsimplementaties. Beide modellen zijn aangepast aan MetaMathQA, een dataset van synthetische wiskundeproblemen op de basisschool die sterk afhankelijk zijn van redeneersporen.

MTP met ConfAdapt

Voorbeeld van multi-token bocks gegenereerd met ConfAdapt (bron: arXiv)

De experimenten brachten een duidelijk evenwicht tussen snelheid en nauwkeurigheid aan het licht. Met behulp van de ConfAdapt-strategie behaalde het Llama-3.1-8B-model een versnelling van 3x met een daling van minder dan 3% in nauwkeurigheid op wiskundige benchmarks. Het Qwen3-4B-model behaalde dezelfde 3x versnelling met een iets grotere nauwkeurigheidsdaling van 7%. Agressievere instellingen konden een snelheid van 5x opleveren, hoewel ze hogere nauwkeurigheidsboetes met zich meebrachten.

Hoe dit zich vertaalt naar taken in de echte wereld, hangt af van de voorspelbaarheid. “Aangezien de ConfAdapt-aanpak de versnelling op natuurlijke wijze afstemt op de intrinsieke entropie van het domein, kan het model, wanneer het precies ‘weet’ wat er daarna komt, dit in één keer uitvoeren”, merkte hij op, wat leidde tot een enorme versnelling van voorspelbare taken terwijl meer stappen werden gebruikt voor onzekere uitvoer.

De versnellingen werden ook overgedragen naar domeinen die niet waren opgenomen in de multi-token voorspellingstrainingsfase. Dit omvatte taken in hetzelfde domein als de trainingsgegevens, zoals wiskunde en redeneren, maar ook taken met een open einde, zoals creatief schrijven en samenvatten.

Screenshot 20-02-2026 om 21.22.58

Sweetspot van MTP met ConfAdapt is ongeveer 3x versnelling (bron: arXiv)

Ondanks dit transferleren mogen bedrijven die deze modellen voor gespecialiseerde taken implementeren, er niet volledig op vertrouwen. “Onze aanbeveling zou zijn om het model af te stemmen/aan te passen aan MTP met behulp van monsters uit het speciale industriële domein”, aldus Kirchenbauer. “De beste prestaties worden waarschijnlijk bereikt als de MTP-aanpassing wordt uitgevoerd met behulp van aanwijzingen uit het implementatiedomein.”

Servercompatibiliteit en de weg voorwaarts

Het onderzoeksteam publiceerde hun getrainde modellen op knuffelgezicht en zal binnenkort worden gepubliceerd de code voor hun MTP-frame. Infrastructuurteams die deze modellen integreren in vLLM of SGLang moeten rekening houden met veranderingen in de manier waarop batching en KV-caching worden afgehandeld, maar dat is een eenmalige technische investering en geen voortdurende last. Kirchenbauer ziet echter “geen duidelijke barrières voor integratie” en bevestigde dat het team “met een aantal systeemexperts samenwerkt om de kortste weg naar integratie te identificeren.”

Het advies van Kirchenbauer aan teams die de vrijgegeven modellen willen testen: Begin met speelgoedaanwijzingen zoals het tellen of herhalen van een zin om de winst van ConfAdapt in actie te zien, en pas het model vervolgens aan met voorbeelden uit uw specifieke implementatiedomein om de beste resultaten te krijgen. “Over het geheel genomen verwachten we dat een productieklare implementatie van onze aanpak de levenscyclus van het bouwen en inzetten van agentmodellen met lage latentie kan vereenvoudigen”, besluit Kirchenbauer. “Terwijl bestaande versnellingstechnieken voor NTP-modellen zich bijna uitsluitend richten op gevolgtrekking en logica, bakt onze aanpak slechts een deel van de complexiteit in het model zelf, waardoor het in grote lijnen complementair wordt aan bestaand werk.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in