Home Nieuws Alibaba’s nieuwe open source Qwen3.5 medium-modellen bieden Sonnet 4.5-prestaties op lokale computers

Alibaba’s nieuwe open source Qwen3.5 medium-modellen bieden Sonnet 4.5-prestaties op lokale computers

2
0
Alibaba’s nieuwe open source Qwen3.5 medium-modellen bieden Sonnet 4.5-prestaties op lokale computers

Alibaba’s inmiddels beroemde Qwen AI-ontwikkelingsteam heeft het opnieuw gedaan: iets meer dan een dag geleden hebben ze het vrijgegeven Qwen3.5 Medium Model-serie bestaande uit vier nieuwe grote taalmodellen (LLM’s) met ondersteuning voor agenttoolaanroepen, waarvan er drie beschikbaar zijn voor commercieel gebruik door ondernemingen en indie-ontwikkelaars onder de standaard open source Apache 2.0-licentie:

  • Qwen3.5-35B-A3B

  • Qwen3.5-122B-A10B

  • Qwen3.5-27B

Ontwikkelaars kunnen ze nu downloaden op Knuffel gezicht En Modelbereik. Een vierde model, Qwen3.5-Flash, lijkt eigendom te zijn en alleen verkrijgbaar via Alibaba Cloud Model Studio-APImaar biedt nog steeds een sterk kostenvoordeel in vergelijking met andere modellen in het Westen (zie prijsvergelijkingstabel hieronder).

Maar het grote verschil met de open source-modellen is dat ze op benchmarktests van derden vergelijkbare hoge prestaties leveren als eigen modellen van vergelijkbare grootte van grote Amerikaanse startups als OpenAI of Anthropic, en feitelijk beter zijn dan OpenAI’s GPT-5-mini en Anthropic’s Claude Sonnet 4.5 – het laatste model dat net vijf maanden geleden vrijgelaten.

En het Qwen-team zegt het heeft deze modellen zo ontworpen dat ze zeer nauwkeurig blijven, zelfs als ze worden ‘gekwantiseerd’, een proces dat hun voetafdruk verder verkleint door het aantal waarmee de instellingen van het model worden opgeslagen te verkleinen, van veel waarden naar veel minder.

Cruciaal is dat deze release “borderline”-contextvensters naar de desktop-pc brengt. Het vlaggenschip Qwen3.5-35B-A3B kan nu een contextlengte van 1 miljoen tokens overschrijden op GPU’s van consumentenkwaliteit met 32 ​​GB VRAM. Hoewel dit niet iets is waar iedereen toegang toe heeft, is dit qua rekenkracht veel minder duur dan veel andere, vergelijkbaar efficiënte opties.

Deze sprong wordt mogelijk gemaakt door een vrijwel verliesvrije nauwkeurigheid van minder dan 4 bits en KV-cachekwantisering, waardoor ontwikkelaars enorme datasets kunnen verwerken zonder infrastructuur van serverkwaliteit.

Technologie: Deltakracht

De kern van de prestaties van Qwen 3.5 wordt gevormd door een geavanceerde hybride architectuur. Hoewel veel modellen uitsluitend afhankelijk zijn van standaardtransformatorblokken, integreert Qwen 3.5 Gated Delta Networks in combinatie met een schaars Mixture-of-Experts (MoE)-systeem. De technische specificaties van de Qwen3.5-35B-A3B onthullen een zeer efficiënt ontwerp:

  • Parameterefficiëntie: Hoewel het model in totaal 35 miljard parameters bevat, wordt het alleen geactiveerd 3 miljard voor een bepaald teken.

  • Deskundige diversiteit: De MoE-laag maakt gebruik van 256 experts, waarbij 8 gerouteerde experts en 1 gedeelde expert helpen de prestaties op peil te houden en tegelijkertijd de inferentielatentie te verminderen.

  • Bijna verliesloze kwantisering: De array behoudt een hoge nauwkeurigheid, zelfs wanneer deze wordt gecomprimeerd tot 4-bits gewichten, waardoor de geheugenvoetafdruk voor lokale implementatie aanzienlijk wordt verminderd.

  • Uitgave van basismodel: In een poging om de onderzoeksgemeenschap te ondersteunen, heeft Alibaba open source Qwen3.5-35B-A3B-basis model samen met de geïnstrueerde versies.

Product: Intelligentie die eerst ‘denkt’

Qwen 3.5 introduceert een ingebouwde “Thinking Mode” als standaardmodus. Voordat het een definitief antwoord geeft, genereert het model een interne redeneerketen – begrensd door tags – om door complexe logica te werken. Het productassortiment is afgestemd op verschillende hardwareomgevingen:

  • Qwen3.5-27B: Geoptimaliseerd voor hoge efficiëntie en ondersteunt een contextlengte van meer dan 800.000 tokens.

  • Qwen3.5 Flitser: De gehoste versie van productiekwaliteit met een standaard contextlengte van 1 miljoen tokens en ingebouwde officiële tools.

  • Qwen3.5-122B-A10B: Dit model is ontworpen voor GPU’s van serverkwaliteit (80 GB VRAM) en ondersteunt contextlengtes van meer dan 1 miljoen, terwijl het de kloof met ’s werelds grootste frontier-modellen dicht.

Benchmarkresultaten valideren deze architecturale verschuiving. Het 35B-A3B-model presteert aanzienlijk beter dan veel grotere voorgangers, zoals de Qwen3-235B, evenals de eerder genoemde eigen GPT-5 mini en Sonnet 4.5 in categorieën zoals kennis (MMMLU) en visueel redeneren (MMMMU-Pro).

Alibaba Qwen3.5 Medium modellen benchmark-vergelijkingstabel. Krediet: Alibaba

Prijzen en API-integratie

Voor degenen die niet hun eigen gewichten hosten, biedt Alibaba Cloud Model Studio een concurrerende API voor Qwen3.5-Flash.

  • Invoer: $0,1 per 1 miljoen tokens

  • Productie: $0,4 per 1 miljoen tokens

  • Cache-creatie: $0,125 per 1 miljoen tokens

  • Cache lezen: $0,01 per 1 miljoen tokens

De API heeft ook een gedetailleerd Tool Calling-prijsmodel met internetzoekopdrachten voor $ 10 per 1.000 oproepen en een codetolk die momenteel voor een beperkte tijd gratis wordt aangeboden.

Dit maakt Qwen3.5-Flash een van de meest betaalbare API’s van alle grote LLM’s ter wereld. Bekijk hieronder een tabel waarin ze worden vergeleken:

Model

Invoer

Productie

Totale kosten

Bron

Qwen3 Turbo

$ 0,05

$ 0,20

$ 0,25

Alibaba-wolk

Qwen3.5 Flitser

$ 0,10

$ 0,40

$ 0,50

Alibaba-wolk

deepseek-chat (V3.2-Exp)

$ 0,28

$ 0,42

$ 0,70

Diepzoeken

diepgaande redenen (V3.2-Exp)

$ 0,28

$ 0,42

$ 0,70

Diepzoeken

Grok 4.1 Snel (redeneren)

$ 0,20

$ 0,50

$ 0,70

xAI

Grok 4.1 Snel (niet redenerend)

$ 0,20

$ 0,50

$ 0,70

xAI

MiniMax M2.5

$ 0,15

$ 1,20

$ 1,35

MiniMax

MiniMax M2.5 Bliksem

$ 0,30

$ 2,40

$ 2,70 USD

MiniMax

Gemini 3 Flash-voorbeeld

$ 0,50

$ 3,00

$ 3,50

Googlen

Kimi-k2.5

$ 0,60

$ 3,00

$ 3,60

Maanschot

GLM-5

$ 1,00

$ 3,20

$ 4,20

Z.ai

ERNIE 5.0

$ 0,85

$ 3,40

$ 4,25

Baidu

Claude Haiku 4.5

$ 1,00

$ 5,00

$ 6,00

Antropisch

Qwen3-Max (23-01-2026)

$ 1,20

$ 6,00

$ 7,20

Alibaba-wolk

Gemini 3 Pro (≤200K)

$ 2,00

$ 12,00

$ 14,00

Googlen

GPT-5.2

$ 1,75

$ 14,00

$ 15,75

Open AI

Claude Sonnet 4.5

$ 3,00

$ 15,00

$ 18,00

Antropisch

Gemini 3 Pro (>200K)

$ 4,00

$ 18,00

$ 22,00

Googlen

Werk afsluiten 4.6

$ 5,00

$ 25,00

$ 30,00

Antropisch

GPT-5.2 Pro

$ 21,00

$ 168,00 USD

$ 189,00 USD

Open AI

Wat het betekent voor de technische managers en besluitvormers van het bedrijf

Met de lancering van de Qwen3.5 Medium-modellen is de snelle iteratie en verfijning die ooit was voorbehouden aan goed gefinancierde laboratoria nu beschikbaar voor on-site ontwikkeling bij veel niet-technische bedrijven, waardoor geavanceerde AI effectief wordt losgekoppeld van enorme kapitaaluitgaven.

In de hele organisatie transformeert deze architectuur de manier waarop gegevens worden verwerkt en beveiligd. De mogelijkheid om enorme documentopslagplaatsen of video’s op uurschaal lokaal op te nemen, maakt diepgaande institutionele analyse mogelijk zonder de privacyrisico’s van API’s van derden.

Door deze gespecialiseerde ‘Mixture-of-Experts’-modellen binnen een privéfirewall te draaien, kunnen organisaties de hoogste controle over hun gegevens behouden, terwijl ze native ‘denk’-modi en officiële belhulpmiddelen gebruiken om betrouwbaardere, autonomere agenten te bouwen.

Early adopters van Hugging Face hebben specifiek het vermogen van het model geprezen om “de kloof te verkleinen” in agentscenario’s waarin voorheen alleen de grootste gesloten modellen konden concurreren.

Deze verschuiving naar architecturale efficiëntie versus ruwe schaal zorgt ervoor dat AI-integratie kostenbewust, veilig en flexibel genoeg blijft om gelijke tred te houden met de veranderende operationele behoeften.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in