Home Nieuws Alibaba’s Qwen 3.5 397B-A17 verslaat zijn grotere model met biljoen parameters –...

Alibaba’s Qwen 3.5 397B-A17 verslaat zijn grotere model met biljoen parameters – tegen een fractie van de kosten

2
0
Alibaba’s Qwen 3.5 397B-A17 verslaat zijn grotere model met biljoen parameters – tegen een fractie van de kosten

Alibaba liet Qwen3.5 vallen eerder deze week, getimed om samen te vallen met het nieuwe maanjaar, en de krantenkoppen alleen al zijn genoeg om zakelijke AI-kopers te laten stoppen en kennis te nemen.

Het nieuwe vlaggenschipmodel met open gewicht – Qwen3.5-397B-A17B – bevat in totaal 397 miljard parameters, maar activeert slechts 17 miljard per token. Het beweert dat de benchmark wint Alibaba’s eigen vorige vlaggenschip, de Qwen3-Maxeen model waarvan het bedrijf zelf erkende dat het een biljoen parameters overschreed.

De release markeert een betekenisvol moment in de AI-inkoop voor ondernemingen. Voor IT-leiders die de AI-infrastructuur voor 2026 evalueren, presenteert Qwen 3.5 een ander soort argument: dat het model dat je daadwerkelijk kunt uitvoeren, bezitten en controleren nu klappen kan uitdelen met de modellen die je moet huren.

Een nieuwe architectuur gebouwd voor snelheid op schaal

De technische geschiedenis van Qwen3.5 begint met zijn afkomst. Het model is een directe opvolger van het experimentele Qwen3-Next van afgelopen september, een uiterst schaars MoE-model waarvan een preview was gemaakt, maar algemeen als half-getraind werd beschouwd. Qwen3.5 neemt die architecturale richting en schaalt deze agressief op, van 128 experts in de vorige Qwen3 MoE-modellen naar 512 experts in de nieuwe release.

De praktische implicatie hiervan en een beter aandachtsmechanisme is een dramatisch lagere eindvertraging. Omdat slechts 17 miljard van deze 397 miljard parameters actief zijn voor een gegeven voorwaartse doorgang, ligt de computationele voetafdruk veel dichter bij een model met een dichtheid van 17 miljard dan bij een model van 400 miljard, terwijl het model voor gespecialiseerd redeneren gebruik kan maken van de volledige diepte van zijn expertpool.

Deze snelheidsverhogingen zijn aanzienlijk. Bij een contextlengte van 256K decodeert Qwen 3.5 19 keer sneller dan Qwen3-Max en 7,2 keer sneller dan het 235B-A22B-model van Qwen 3.

Alibaba beweert ook dat het model 60% goedkoper in gebruik is dan zijn voorganger en acht keer beter in staat is om grote gelijktijdige werklasten aan te kunnen, cijfers die veel betekenen voor elk resultaatbewust team. Het gaat ook om 1/18. de prijs van Google’s Gemini 3 Pro.

Twee andere architecturale beslissingen versterken deze winst:

  1. Qwen3.5 maakt gebruik van multi-token-voorspelling – een aanpak die is ontwikkeld in verschillende gepatenteerde modellen – die de convergentie vóór training versnelt en de doorvoer verhoogt.

  2. Dat ook erft het aandachtssysteem van Qwen3-Volgende vorig jaar uitgebracht, specifiek ontworpen om de geheugendruk bij zeer lange contextlengtes te verminderen.

Het resultaat is een model dat comfortabel kan werken binnen een contextvenster van 256K in de open gewichtsversie en tot 1 miljoen tokens in de gehoste Qwen3.5-Plus-variant op Alibaba Cloud Model Studio.

Native multimodaal, niet vastgeschroefd

Jarenlang hanteerde Alibaba de standaardaanpak van de sector: bouw een taalmodel en sluit vervolgens een vision-coder aan om een ​​afzonderlijke VL-variant te creëren. Qwen3.5 laat dat patroon volledig varen. Het model wordt vanaf het begin getraind op tekst, afbeeldingen en video tegelijk, wat betekent dat visuele redenering is verweven in de kernrepresentaties van het model in plaats van erop te worden geënt.

Dit is in de praktijk belangrijk. Native multimodale modellen presteren doorgaans beter dan hun op adapters gebaseerde tegenhangers bij taken die een strikte redenering tussen tekst en beeld vereisen, denk aan het parseren van een technisch diagram en de bijbehorende documentatie, het verwerken van UI-screenshots voor agenttaken of het extraheren van gestructureerde gegevens uit complexe visuele lay-outs. Op MathVista scoort het model 90,3; bij MMMU, 85,0. Het loopt achter op de Gemini 3 op verschillende visiespecifieke benchmarks, maar presteert beter dan de Claude Opus 4.5 op multimodale taken en plaatst concurrerende cijfers ten opzichte van de GPT-5.2, allemaal met een fractie van de parameters.

De benchmarkprestaties van de Qwen3.5 ten opzichte van grotere eigen modellen zijn het getal dat zakelijke gesprekken zal stimuleren.

Volgens de door Alibaba gepubliceerde evaluaties presteert het 397B-A17B-model beter dan Qwen3-Max – een model met meer dan een biljoen parameters – bij verschillende redeneer- en codeertaken.

Qwen3.5-397B-A17B benchmarkgrafiek. Krediet: Alibaba Qwen

Het claimt ook concurrerende resultaten ten opzichte van GPT-5.2, Claude Opus 4.5 en Gemini 3 Pro op het gebied van algemene redeneer- en codeerbenchmarks.

Taaldekking en Tokenizer-efficiëntie

Een onderschat detail van de Qwen3.5-release is het uitgebreide meertalige bereik. De woordenschat van het model is gegroeid tot 250.000 tokens, vergeleken met 150.000 in eerdere Qwen-generaties, en is nu vergelijkbaar met de ~256K tokenizer van Google. Taalondersteuning breidt zich uit van 119 talen in Qwen 3 naar 201 talen en dialecten.

De Tokenizer-upgrade heeft directe kostenimplicaties voor wereldwijde implementaties. Grotere vocabulaires coderen niet-Latijnse schriften (Arabisch, Thais, Koreaans, Japans, Hindi en andere) efficiënter, waardoor het aantal tokens met 15-40% wordt verminderd, afhankelijk van de taal. Voor IT-organisaties die AI op grote schaal gebruiken voor meertalige gebruikersbestanden is dit geen academisch detail. Dat vertaalt zich direct in lagere sluitingskosten en snellere responstijden.

Agentmogelijkheden en de OpenClaw-integratie

Alibaba positioneert Qwen3.5 expliciet als een agentmodel – een model dat niet alleen is ontworpen om op vragen te reageren, maar ook om in meerdere stappen autonome actie te ondernemen namens gebruikers en systemen. Het bedrijf beschikt over open source Qwen Code, een opdrachtregelinterface waarmee ontwikkelaars complexe codeertaken in natuurlijke taal aan het model kunnen delegeren, ongeveer analoog aan Claude Code van Anthropic.

De release benadrukt ook de compatibiliteit met OpenClaw, het open source agentframework dat dit jaar sterk in ontwikkeling is. Met 15.000 verschillende leeromgevingen voor versterking die worden gebruikt om de redenering en taakprestaties van het model aan te scherpen, heeft het Qwen-team bewust gekozen voor op RL gebaseerde training om de praktische prestaties van agenten te verbeteren – een trend die consistent is met wat MiniMax demonstreerde met M2.5.

De gehoste Qwen3.5-Plus-variant maakt ook adaptieve inferentiemodi mogelijk: een snelle modus voor latentiegevoelige applicaties, een denkmodus die uitgebreide chain-of-mind-redenering voor complexe taken mogelijk maakt, en een automatische (adaptieve) modus die dynamisch selecteert. Deze flexibiliteit is belangrijk voor bedrijfsimplementaties waarbij hetzelfde model mogelijk zowel realtime klantinteracties als diepgaande analytische workflows moet bedienen.

Implementatierealiteit: wat IT-teams echt moeten weten

Het intern draaien van de open weegschalen van Qwen3.5 vereist serieuze hardware. Terwijl een gekwantiseerde versie ongeveer 256 GB RAM vereist, en realistisch gezien 512 GB voor comfortabele hoofdruimte. Dit is geen model voor een werkstation of een bescheiden server op locatie. Waar het geschikt voor is, is een GPU-knooppunt: een configuratie die veel bedrijven al gebruiken om de werklast bij te houden, en die nu een aantrekkelijk alternatief biedt voor API-afhankelijke implementaties.

Alle Qwen 3.5-modellen met open gewicht worden uitgebracht onder de Apache 2.0-licentie. Dit is een betekenisvol onderscheid met modellen met door de gebruiker gedefinieerde of beperkte licenties: Apache 2.0 staat commercieel gebruik, wijziging en herdistributie toe zonder royalty’s, zonder noemenswaardige voorwaarden. Voor juridische en inkoopteams die open modellen evalueren, vereenvoudigt deze pure licentiepositie het gesprek enorm.

Wat komt er daarna

Alibaba heeft bevestigd dat dit de eerste release in de Qwen3.5-familie is, en niet de volledige release. Op basis van het patroon uit Qwen3 – dat modellen bevatte tot 600 miljoen parameters – verwacht de industrie dat er de komende weken en maanden minder compacte gedestilleerde modellen en aanvullende MoE-configuraties zullen volgen. Het Qwen3-Next 80B-model van afgelopen september werd over het algemeen als te weinig krachtig beschouwd, wat suggereert dat een 3,5-variant op die schaal waarschijnlijk op korte termijn zal verschijnen.

Voor IT-beslissers is het pad duidelijk. Alibaba heeft laten zien dat modellen met open gewicht aan de grens niet langer een compromis zijn. Qwen3.5 is een echte winkeloptie voor teams die grensoverschrijdend redeneren, native multimodale mogelijkheden en een contextvenster van 1 miljoen tokens willen, zonder zichzelf op te sluiten in een eigen API. De volgende vraag is niet of deze modellenfamilie bekwaam genoeg is. Het gaat erom of uw infrastructuur en uw team er klaar voor zijn om hiervan te profiteren.


Qwen 3.5 wel nu beschikbaar op Knuffelgezicht onder model-ID Qwen/Qwen3.5-397B-A17B. De gehoste Qwen3.5-Plus-variant is beschikbaar via Alibaba Cloud Model Studio. Qwen Chat op chat.qwen.ai biedt gratis publieke toegang voor evaluatie.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in