Home Nieuws Het voorwaardelijke geheugen van DeepSeek herstelt stilletjes LLM-verspilling: GPU-cycli verloren als gevolg...

Het voorwaardelijke geheugen van DeepSeek herstelt stilletjes LLM-verspilling: GPU-cycli verloren als gevolg van statische zoekopdrachten

15
0
Het voorwaardelijke geheugen van DeepSeek herstelt stilletjes LLM-verspilling: GPU-cycli verloren als gevolg van statische zoekopdrachten

Wanneer de LLM van een bedrijf een productnaam, technische specificatie of standaardcontractclausule ophaalt, gebruikt het dure GPU-berekeningen die zijn ontworpen voor complexe redeneringen, alleen maar om toegang te krijgen tot statische informatie. Dit gebeurt miljoenen keren per dag. Elke zoekopdracht verspilt cycli en verhoogt de infrastructuurkosten.

DeepSeek’s nieuw gepubliceerd onderzoek naar “voorwaardelijk geheugen” pakt deze architecturale beperking rechtstreeks aan. Het werk introduceert Engram, een module die het ophalen van statische patronen scheidt van dynamisch redeneren. Het levert resultaten op die aannames uitdagen over waar geheugen eigenlijk voor dient in neurale netwerken. De krant is mede-auteur van Diepzoeken oprichter Liang Wenfeng.

Door middel van systematische experimenten vond DeepSeek de optimale balans tussen berekeningen en geheugen, waarbij 75% van de schaarse modelcapaciteit werd toegewezen aan dynamisch redeneren en 25% aan statische zoekopdrachten. Dit geheugensysteem verbeterde het redeneren meer dan het ophalen van kennis.

Benchmarks voor complex redeneren stegen van 70% naar 74% nauwkeurigheid, terwijl kennisgerichte tests verbeterden van 57% naar 61%. Deze verbeteringen kwamen voort uit tests als Big-Bench Hard, ARC-Challenge en MMLU.

Het onderzoek komt omdat bedrijven steeds meer onder druk staan ​​om capabelere AI-systemen in te zetten en tegelijkertijd om te gaan met GPU-geheugenbeperkingen en infrastructuurkosten. De aanpak van DeepSeek biedt een mogelijke weg vooruit door fundamenteel te heroverwegen hoe modellen moeten worden gestructureerd.

Hoe voorwaardelijk geheugen een ander probleem oplost dan agentisch geheugen en RAG

Agentische geheugensystemen, ook wel contextueel geheugen genoemd – b.v Achteraf gezien, MemoOSof Mem – focus op episodisch geheugen. Ze slaan gegevens op van eerdere gesprekken, gebruikersvoorkeuren en interactiegeschiedenis. Deze systemen helpen agenten de context tijdens sessies te behouden en van ervaringen te leren. Maar ze staan ​​buiten de voorwaartse beweging van het model en optimaliseren niet hoe het model intern statische taalpatronen verwerkt.

Voor Chris Latimer, oprichter en CEO van Vectorize, die Hindsight ontwikkelde, lost de voorwaardelijke geheugenbenadering die in Engram wordt gebruikt een ander probleem op dan agentisch AI-geheugen.

“Het lost het probleem van het verbinden van agenten met extern geheugen, zoals gespreksgeschiedenis en kennisopslag, niet op”, vertelde Latimer aan VentureBeat. “Het is er meer op gericht de prestaties uit kleinere modellen te halen en meer kilometers te halen uit schaarse GPU-bronnen.”

Voorwaardelijk geheugen pakt een fundamenteel probleem aan: Transformers missen een native kennisopslag. Bij het verwerken van tekst moeten ze het ophalen van statische patronen simuleren via dure neurale berekeningen over meerdere lagen. Deze patronen omvatten benoemde entiteiten, technische terminologie en algemene zinsneden.

Het DeepSeek-artikel illustreert dit met een concreet voorbeeld. Het herkennen van “Diana, prinses van Wales” vereist het gebruik van meerdere aandachtslagen en feed-forward-netwerken om geleidelijk kenmerken samen te stellen. Het model maakt in wezen gebruik van diepe, dynamische logische circuits om een ​​eenvoudige hashtabel-opzoekopdracht uit te voeren. Het is alsof u een rekenmachine gebruikt om uw telefoonnummer te onthouden in plaats van het alleen maar op te zoeken.

“Het probleem is dat Transformer geen mogelijkheid heeft om ‘native kennis op te zoeken'”, schrijven de onderzoekers. “Veel taken die in O(1) tijd moeten worden opgelost, zoals het ophalen, moeten worden ‘gesimuleerd voor ophalen’ door middel van een grote hoeveelheid berekeningen, wat erg inefficiënt is.”

Hoe voorwaardelijk geheugen werkt

Engram introduceert “voorwaardelijk geheugen” om te werken met de voorwaardelijke berekening van MoE.

Het mechanisme is eenvoudig. De module neemt reeksen van twee tot drie tokens en gebruikt hash-functies om ze op te zoeken in een enorme inbeddingstabel. Het verzamelen vindt plaats op een constant tijdstip, ongeacht de tafelgrootte.

Maar opgehaalde patronen moeten worden gefilterd. Een hash-zoekopdracht naar ‘Apple’ kan botsen met niet-gerelateerde inhoud, of het woord kan de vrucht betekenen in plaats van het bedrijf. Engram lost dit op met een poortmechanisme. Het huidige begrip van de context van het model (verzameld door eerdere aandachtslagen) fungeert als een filter. Als het opgehaalde geheugen de huidige context tegenspreekt, onderdrukt de poort dit. Als het past, laat het hek het door.

De module wordt niet op elke laag toegepast. Strategische plaatsing balanceert prestatiewinst tegen systeemlatentie.

Dit ontwerp met twee systemen roept een kritische vraag op: hoeveel capaciteit moet elk systeem hebben? De belangrijkste bevinding van DeepSeek: de optimale verdeling is 75-80% voor rekenkracht en 20-25% voor geheugen. Uit tests bleek dat pure MoE (100% berekening) suboptimaal bleek te zijn. Te veel berekeningen verspillen diepte bij het reconstrueren van statische patronen; te veel geheugen verliest het redeneervermogen.

Infrastructuurefficiëntie: GPU-geheugenbypass

Misschien wel de meest pragmatische bijdrage van Engram is het infrastructuurbewuste ontwerp. In tegenstelling tot de dynamische routering van MoE, die afhankelijk is van verborgen statussen tijdens de runtime, is de ophaalindex van Engram volledig afhankelijk van invoertokenreeksen. Deze deterministische aard maakt een prefetch-and-overlap-strategie mogelijk.

“De uitdaging is dat het GPU-geheugen beperkt en duur is, waardoor het gebruik van grotere modellen duur en moeilijker te implementeren wordt”, aldus Latimer. “Het slimme idee achter Engram is om het hoofdmodel op de GPU te houden, maar een groot deel van de opgeslagen informatie van het model over te zetten naar een apart geheugen op regulier RAM dat het model just-in-time kan gebruiken.”

Tijdens de inferentie kan het systeem via PCIe asynchroon insluitingen ophalen uit het CPU-geheugen van de host. Dit gebeurt terwijl de GPU voorgaande transformatieblokken berekent. Strategische laagplaatsing maakt gebruik van vroege laagberekening als buffer om communicatievertraging te maskeren.

De onderzoekers demonstreerden dit met een parameterinbeddingstabel van 100 miljard die volledig werd ontladen om DRAM te hosten. Ze behaalden doorvoerboetes van minder dan 3%. Deze ontkoppeling van opslag en rekenkracht lost een kritieke bedrijfsbeperking op, aangezien GPU-geheugen met hoge bandbreedte duur en schaars blijft.

Wat dit betekent voor de implementatie van AI in ondernemingen

Voor bedrijven die AI-infrastructuurstrategieën evalueren, suggereren de bevindingen van DeepSeek verschillende bruikbare inzichten:

1. Hybride architecturen presteren beter dan pure benaderingen. De 75/25-allocatiewet geeft aan dat optimale modellen de schaarse capaciteit moeten verdelen tussen rekenkracht en geheugen.

2. Infrastructuurkosten kunnen verschuiven van GPU naar geheugen. Als architecturen in Engram-stijl levensvatbaar blijken te zijn in de productie, kunnen investeringspatronen in infrastructuur veranderen. De mogelijkheid om meer dan 100 miljard parameters in het CPU-geheugen op te slaan met minimale overhead suggereert dat geheugenrijke, computergemodereerde configuraties betere prestaties per dollar kunnen bieden dan pure GPU-schaling.

3. Verbeteringen in het redeneren overtreffen de kenniswinst. De verrassende bevinding dat redeneren meer voordelen oplevert dan het ophalen van kennis suggereert dat de waarde van geheugen verder reikt dan voor de hand liggende gebruiksscenario’s.

Voor bedrijven die de adoptie van AI leiden, laat Engram zien dat de volgende grens wellicht niet alleen maar grotere modellen zullen zijn. Dit zijn slimmere architecturale keuzes die het fundamentele onderscheid tussen statische kennis en dynamisch redeneren respecteren. Het onderzoek suggereert dat optimale AI-systemen steeds meer op hybride architecturen zullen gaan lijken.

Organisaties die wachten om AI later in de cyclus te adopteren, moeten in de gaten houden of grotere modelaanbieders principes van voorwaardelijk geheugen in hun architecturen opnemen. Als de 75/25-allocatiewet geldt voor alle schalen en domeinen, kan de volgende generatie fundamentele modellen aanzienlijk betere redeneerprestaties leveren tegen lagere infrastructuurkosten.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in