Home Nieuws Open source Mamba 3 overtreft de Transformer-architectuur met bijna 4% verbeterde taalmodellering...

Open source Mamba 3 overtreft de Transformer-architectuur met bijna 4% verbeterde taalmodellering en verminderde latentie

2
0
Open source Mamba 3 overtreft de Transformer-architectuur met bijna 4% verbeterde taalmodellering en verminderde latentie

Het generatieve AI-tijdperk begon voor de meeste mensen met lancering van OpenAI’s ChatGPT eind 2022maar de onderliggende technologie – de neurale netwerkarchitectuur ’transformeren’ waarmee AI-modellen de betekenis van verschillende woorden in een zin (of pixels in een afbeelding) anders kunnen wegen en parallel kunnen trainen op informatie – gaat terug op de baanbrekende taak van Google uit 2017 “Aandacht is het enige dat je nodig hebt.”

Hoewel Transformers een uitzonderlijke modelkwaliteit biedt en de meeste van de belangrijkste generatieve AI-modellen die tegenwoordig in gebruik zijn, heeft ondersteund, zijn ze op rekengebied vraatzuchtig. Ze worden belast door kwadratische berekeningen en lineaire geheugenvereisten die grootschalige gevolgtrekkingen tot een dure, vaak onbetaalbare onderneming maken. Daarom is de wens van sommige onderzoekers om deze te verbeteren door in 2023 een nieuwe architectuur te ontwikkelen, Mamba, die geleidelijk is opgenomen in hybride Mamba-Transformer-modellen zoals Nvidia’s Nemotron 3 Super.

Dezelfde onderzoekers achter de oorspronkelijke Mamba-architectuur, waaronder de leiders Albert Gu van Carnegie Mellon en Tri Dao van Princeton, heeft de nieuwste versie van hun nieuwe architectuur, Mamba-3, uitgebrachtals taalmodel onder een tolerante Apache 2.0 open source-licentie – waardoor het direct beschikbaar is voor ontwikkelaars, inclusief bedrijven voor commerciële doeleinden. Er is ook een technisch document zijn gepubliceerd op arXiv.org.

Dit model signaleert een paradigmaverschuiving van de effectiviteit van training naar een ‘inference-first’-ontwerp. Zoals Gu opmerkte in de officiële aankondiging, terwijl Mamba-2 zich concentreerde op het opheffen van knelpunten in de vooropleiding, streeft Mamba-3 ernaar het probleem van de “koude GPU” op te lossen: de realiteit dat moderne hardware tijdens het decoderen vaak inactief blijft, wachtend op geheugenbeweging in plaats van berekeningen uit te voeren.

Verwarring (nee, niet het bedrijf) en de hernieuwde efficiëntie van de Mamba 3

Mamba, inclusief Mamba 3, is een type State Space Model (SSM).

Dit zijn eigenlijk een snelle ‘samenvattingsengine’ voor AI. Terwijl veel populaire modellen (zoals die achter ChatGPT) elk woord dat ze al hebben gezien opnieuw moeten onderzoeken om te begrijpen wat er gaat gebeuren – wat langzamer en duurder wordt naarmate het gesprek langer duurt – handhaaft een SSM een compacte, voortdurend veranderende interne toestand. Deze toestand is in wezen een digitale ‘mentale momentopname’ van de hele geschiedenis van de gegevens.

Naarmate er nieuwe informatie binnenstroomt, werkt het model eenvoudigweg deze momentopname bij, in plaats van alles vanaf het begin opnieuw te lezen. Hierdoor kan AI enorme hoeveelheden informatie verwerken, zoals hele bibliotheken met boeken of lange DNA-strengen, met ongelooflijke snelheid en veel lagere geheugenvereisten.

Om de sprong te begrijpen die Mamba-3 vertegenwoordigt, moet je eerst de verwarring begrijpen, de belangrijkste maatstaf die in onderzoek wordt gebruikt om de modelkwaliteit te meten.

In de context van taalmodellering is verwarring een maatstaf voor hoe ‘verrast’ een model is door nieuwe gegevens.

Beschouw een model als een professionele gokker. Als een model veel verwarring kent, weet het niet zeker waar het moet inzetten; het beschouwt veel mogelijke volgende woorden als even waarschijnlijk.

Een lagere verwarringsscore geeft aan dat het model ‘zelfverzekerder’ is: het heeft een beter begrip van de onderliggende patronen van de menselijke taal. Voor AI-bouwers dient verwarring als een high-fidelity proxy voor intelligentie.

De doorbraak die in het Mamba-3-onderzoek wordt gerapporteerd, is dat het vergelijkbare verwarring veroorzaakt als zijn voorganger, Mamba-2, terwijl het slechts de helft van de staat gebruikt. Dit betekent dat een model net zo slim kan zijn en tegelijkertijd twee keer zo efficiënt kan rijden.

Een nieuwe filosofie

Mamba 3 architectuurdiagram. Krediet: Tri Dao

De filosofie achter Mamba-3 is een fundamentele verschuiving in de manier waarop we denken over AI-‘intelligentie’ versus de snelheid van de hardware waarop het draait. Terwijl de vorige generatie, Mamba-2, was ontworpen om met recordsnelheden te worden getraind, is Mamba-3 een ‘inference-first’-architectuur: gevolgtrekkingen die verwijzen naar de manier waarop AI-modellen aan eindgebruikers worden aangeboden, via websites als ChatGPT of Google Gemini, of via application programming interfaces (API’s).

Het primaire doel van Mamba 3 is om elke seconde dat de computerchip (GPU) actief is te maximaliseren, zodat het model zo hard mogelijk nadenkt zonder de gebruiker op een reactie te laten wachten.

In de wereld van taalmodellen is elk punt van nauwkeurigheid moeilijk te winnen. Op de schaal van 1,5 miljard parameters behaalde de meest geavanceerde “MIMO”-variant van de Mamba-3 een gemiddelde nauwkeurigheid van 57,6% over de benchmarks heen, wat neerkomt op een sprong van 2,2 procentpunt ten opzichte van de industriestandaard Transformer.

Mamba 3 nauwkeurigheidsbenchmarkgrafiek

Mamba 3 benchmark-vergelijkingstabel. Credits: Aakash Lahoti, Kevin Y. Li, Berlin Chen, Caitlin Wang, Aviv Bick, J. Zico Kolter, Tri Dao, Albert Gu

Hoewel een sprong van twee punten misschien bescheiden klinkt, vertegenwoordigt deze feitelijk een relatieve toename van bijna 4% in taalmodelleringsvermogen vergeleken met de basislijn van Transformer. Nog indrukwekkender is dat, zoals hierboven vermeld, Mamba-3 de voorspellende kwaliteit van zijn voorganger kan evenaren, terwijl hij slechts de helft van de interne “statusgrootte” gebruikt, waardoor hij effectief hetzelfde niveau van intelligentie levert met aanzienlijk minder geheugenlatentie.

Jarenlang leden efficiënte alternatieven voor Transformers onder een ‘logische kloof’: ze faalden vaak in eenvoudige redeneertaken, zoals het bijhouden van patronen of het oplossen van basisrekenkunde, omdat hun interne wiskunde te rigide was. Mamba-3 lost dit op door toestanden met complexe waarden te introduceren.

Deze wiskundige upgrade fungeert als een intern kompas waarmee het model “rotatielogica” kan weergeven. Met behulp van deze ‘roterende’ benadering kan Mamba-3 bijna perfect logische puzzels en statustrackingtaken oplossen waar zijn voorgangers alleen maar naar konden raden, waardoor de redenering van lineaire modellen eindelijk op één lijn komt met de meest geavanceerde systemen.

Het laatste stukje van de puzzel is hoe de Mamba-3 samenwerkt met fysieke hardware. De meeste AI-modellen van vandaag zijn ‘geheugengebonden’, wat betekent dat de computerchip het grootste deel van zijn tijd inactief is, wachtend tot de gegevens van het geheugen naar de processor worden verplaatst.

Mamba-3 introduceert een Multi-Input, Multi-Output (MIMO)-formulering die deze dynamiek fundamenteel verandert. Door tijdens elke stap tot vier keer meer wiskundige bewerkingen parallel uit te voeren, gebruikt Mamba-3 het eerdere “inactieve vermogen”. Hierdoor kan het model aanzienlijk meer “nadenken” voor elk woord dat het genereert, zonder dat de werkelijke tijd die een gebruiker besteedt aan het wachten op een antwoord toeneemt. Meer hierover hieronder.

Drie nieuwe technologische sprongen

De aantrekkingskracht van lineaire modellen is altijd hun constante geheugenbehoefte en lineaire computationele schaling geweest.

Maar zoals de auteurs van Mamba 3 opmerken, bestaat er “geen gratis lunch”. Door de staatsgrootte vast te leggen om efficiëntie te garanderen, worden deze modellen gedwongen om alle historische context in één enkele representatie te comprimeren – precies het tegenovergestelde van de steeds groter wordende KV-cache van een Transformer. Mamba-3 gebruikt drie specifieke hendels om de stabiele toestand meer werk te laten doen.

1. Exponentiële trapeziumvormige discretisatie

State Space Models zijn fundamenteel continue tijdsystemen die moeten worden “gediscretiseerd” om de discrete reeksen digitale gegevens te kunnen verwerken.

Eerdere iteraties waren gebaseerd op “Exponentiële-Euler”-discretisatie – een heuristiek die alleen een eerste-orde benadering van het systeem opleverde.

Mamba-3 introduceert een gegeneraliseerde trapeziumregelwat de exacte benadering van de tweede orde oplevert. Dit is niet alleen een wiskundige verfijning; het induceert een “impliciete vouwing” binnen de kernherhaling.

Door dit te combineren met expliciete B- en C-bias-termen, konden de onderzoekers de korte causale convolutie verwijderen die al jaren een hoofdbestanddeel van terugkerende architecturen is.

2. Complexe waarde-SSM’s en de “RoPE-truc”

Een van de meest hardnekkige kritiekpunten op lineaire modellen is hun onvermogen om eenvoudige statustraceringstaken op te lossen, zoals het bepalen van de pariteit van een bitreeks.

Deze fout komt voort uit het beperken van de overgangsmatrix tot reële getallen, waardoor het model de “rotatiedynamiek” niet kan weergeven. Mamba-3 ondervangt dit door het onderliggende SSM als complex en waardevol te beschouwen.

Gebruikmakend van wat het team noemt “RoPE-truc”, laten ze zien dat een statusupdate met complexe waarden wiskundig gelijkwaardig is aan een data-afhankelijke roterende inbedding (RoPE) toegepast op de input- en outputprojecties.

Hierdoor kan Mamba-3 synthetische redeneringstaken oplossen die onmogelijk waren voor Mamba-2.

3. MIMO: verhoging van de rekenintensiteit

De belangrijkste sprong in de inferentie-efficiëntie komt van de overgang van Single-Input, Single-Output (SISO) naar Meerdere ingangen, meerdere uitgangen (MIMO) SSM’s.

In een standaard-SSM is de statusupdate een uiterlijke productbewerking die sterk geheugengebonden is. Door over te schakelen naar een op matrixvermenigvuldiging gebaseerde statusupdate verhoogt Mamba-3 de “rekenkundige intensiteit” van het model: de verhouding tussen FLOP’s en geheugenverkeer.

Hierdoor kan het model meer berekeningen uitvoeren tijdens de geheugengebonden decoderingsfase. In wezen gebruikt Mamba-3 de “gratis” rekenkernen in de GPU om het modelvermogen “gratis” te vergroten, waarbij dezelfde decoderingssnelheid wordt gehandhaafd als zijn eenvoudigere voorgangers.

Wat Mamba 3 betekent voor bedrijven en AI-bouwers

Voor ondernemingen vertegenwoordigt Mamba-3 een strategische verschuiving in de totale eigendomskosten (TCO) voor AI-implementaties.

  • Kosten versus prestaties: Met behulp van overeenkomende parameters komt Mamba-3 (MIMO) overeen met de verwarring van Mamba-2, terwijl de helft van de modusgrootte wordt gebruikt. Voor bedrijfsimplementaties verdubbelt dit effectief de inferentiedoorvoer voor dezelfde hardwarevoetafdruk.

  • Agentworkflows: Naarmate organisaties evolueren naar parallelle, agentische workflows (zoals geautomatiseerde codering of realtime klantenservice-agenten), neemt de vraag naar generatie met lage latentie exponentieel toe. Mamba-3 is speciaal ontworpen om te voorkomen dat GPU-hardware tijdens deze taken “koud” blijft staan.

  • Het hybride voordeel: De onderzoekers voorspellen dat de toekomst van enterprise AI in ligt hybride modellen. Door Mamba-3 te verweven met zelfbewustzijn kunnen organisaties het efficiënte ‘geheugen’ van SSM’s combineren met de nauwkeurige ‘database’-opslag van Transformers.

Beschikbaarheid, licenties en gebruik

Mamba-3 is niet alleen een theoretisch onderzoekspaper; het is een volledig gerealiseerde open source-release die onmiddellijk kan worden gebruikt met de gepubliceerde modelcode Github.

Het project is vrijgegeven onder de Apache-2.0-licentie. Dit is een tolerante, bedrijfsvriendelijke licentie die gratis gebruik, wijziging en commerciële distributie mogelijk maakt zonder dat de openbaarmaking van de bedrijfseigen broncode vereist is.

Deze release is goed voor ontwikkelaars die applicaties bouwen met een lange context en realtime redenering, of voor ontwikkelaars die de GPU-kosten willen verlagen in productieomgevingen met grote volumes.

Het leiden van de revolutie van State Space Models (SSM).

De release werd op sociale media met enthousiasme ontvangen, vooral vanwege het “door studenten geleide” karakter van het project. God, als X/Twitter bio Door hem te omschrijven als “leider van de ssm-revolutie”, werden de studentenleiders, inclusief Akash Lahoti En Kevin Y. Li

.Gu’s draad onderstreepte de tevredenheid van het team over het ontwerp:

“We zijn best tevreden met het uiteindelijke modelontwerp! De drie fundamentele methodologische veranderingen zijn geïnspireerd door (imo) een aantal elegante wiskunde en methoden.”

Terwijl agentische workflows de vraag naar gevolgtrekkingen ‘door het dak’ duwen, suggereert de komst van Mamba-3 dat de toekomst van AI misschien niet alleen gaat over het hebben van het grootste model, maar ook over het hebben van het meest efficiënte model.

Mamba-3 heeft SSM met succes opnieuw afgestemd op de realiteit van moderne hardware, wat bewijst dat zelfs in het tijdperk van de Transformer de principes van de klassieke controletheorie nog steeds een cruciale rol spelen.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in