Home Nieuws Alibaba’s kleine, open source Qwen3.5-9B verslaat OpenAI’s gpt-oss-120B en kan op standaardlaptops...

Alibaba’s kleine, open source Qwen3.5-9B verslaat OpenAI’s gpt-oss-120B en kan op standaardlaptops draaien

1
0
Alibaba’s kleine, open source Qwen3.5-9B verslaat OpenAI’s gpt-oss-120B en kan op standaardlaptops draaien

Ondanks politieke onrust in de Amerikaanse AI-sectorin China gaat de vooruitgang op het gebied van AI zonder problemen door.

Eerder vandaag onthulde het Qwen-team van AI-onderzoekers van e-commercegigant Alibaba, voornamelijk gericht op het ontwikkelen en vrijgeven aan de wereld van een groeiende familie van krachtige en capabele Qwen open source-talen en multimodale AI-modellen, zijn nieuwste batch, Qwen3.5 kleine modelseriedie bestaat uit:

  • Qwen3,5-0,8B & 2B: Twee modellen, beide geoptimaliseerd voor “kleine” en “snelle” prestaties, bedoeld voor prototyping en implementatie op edge-apparaten waarbij de levensduur van de batterij voorop staat.

  • Qwen3.5-4B: Een sterke multimodale basis voor lichtgewicht activa die native een contextvenster van 262.144 tokens ondersteunt.

  • Qwen3.5-9B een compact redeneermodel dat beter presteert dan de 13,5x grotere Open source gpt-oss-120B van de Amerikaanse rivaal OpenAI op belangrijke benchmarks van derden, waaronder meertalige kennis en redenering op graduate niveau

Om dit in perspectief te plaatsen: deze modellen zijn in de orde van grootte van de kleinste modellen voor algemene doeleinden die onlangs door welk laboratorium dan ook ter wereld zijn verzonden, meer vergelijkbaar met de MIT-aansporing LiquidAI’s LFM2-seriedie ook honderden miljoenen of miljarden meer parameters hebben dan de geschatte biljoenen parameters (modelinstellingen) die naar verluidt worden gebruikt voor de vlaggenschipmodellen uit OpenAI, Anthropic en Google’s Gemini-serie.

De gewichten voor de modellen zijn nu wereldwijd beschikbaar onder Apache 2.0-licenties – perfect voor zakelijk en commercieel gebruik, inclusief maatwerk indien nodig – op Knuffel gezicht En Modelbereik.

De technologie: hybride efficiëntie en ingebouwde multimodaliteit

De technische basis van de kleine Qwen3.5-serie wijkt af van de standaard Transformer-architecturen. Alibaba is op weg naar een efficiënte hybride architectuur die Gated Delta Networks (een vorm van lineaire aandacht) combineert met een schaarse Mixture-of-Experts (MoE).

Deze hybride aanpak pakt de ‘geheugenmuur’ aan die doorgaans kleine modellen beperkt; door gebruik te maken van Gated Delta Networks bereiken de modellen een hogere doorvoer en een aanzienlijk lagere latentie tijdens inferentie.

Bovendien zijn deze modellen van oorsprong multimodaal. In tegenstelling tot eerdere generaties die een vision-encoder aan een tekstmodel hebben gekoppeld, werd Qwen3.5 getraind met behulp van vroege fusie op multimodale tokens. Hierdoor kunnen de 4B- en 9B-modellen een niveau van visueel begrip vertonen – zoals het lezen van UI-elementen of het tellen van objecten in een video – waarvoor voorheen modellen nodig waren die tien keer zo groot waren.

Benchmarking van de “kleine” series: prestaties die de schaal tarten

Nieuw vrijgegeven benchmarkgegevens illustreren hoe agressief deze compacte modellen concurreren met – en vaak overtreffen – veel grotere industriestandaarden. De varianten Qwen3.5-9B en Qwen3.5-4B laten een sprong in prestaties tussen generaties zien, vooral bij multimodale taken en redeneringen.

De Qwen3.5 Small Models Series vergelijkt andere modellen van dezelfde grootte/klasse. Krediet: Alibaba Qwen

Multimodale dominantie: In de MMMU-Pro visuele redeneringsbenchmark behaalde de Qwen3.5-9B een score van 70,1, waarmee hij de Gemini 2.5 Flash-Lite (59,7) en zelfs de gespecialiseerde Qwen3-VL-30B-A3B (63,0) overtrof.

Redeneren op graduate niveau: Op de GPQA Diamond-benchmark behaalde het 9B-model een score van 81,7, wat beter presteert dan de gpt-oss-120b (80,1), een model met meer dan tien keer zoveel parameters.

Videobegrip: De serie toont topprestaties op het gebied van videoredeneren. Op de Video-MME-benchmark (met ondertitels) scoorde de Qwen3.5-9B 84,5 en de 4B 83,5, aanzienlijk hoger dan de Gemini 2.5 Flash-Lite (74,6).

Wiskundige vaardigheid: In de HMMT-evaluatie (Harvard-MIT Math Tournament) van februari 2025 scoorde het 9B-model 83,2, terwijl de 4B-variant 74,0 scoorde, wat bewijst dat STEM-redenering op hoog niveau niet langer enorme computerclusters vereist.

Documenten en meertalige kennis: De 9B-variant leidt in documentherkenning op OmniDocBench v1.5 met een score van 87,7. Ondertussen is het meertalig aanwezig op MMMLU met een score van 81,2, waarmee het gpt-oss-120b (78,2) overtreft.

Reacties van de gemeenschap: “meer intelligentie, minder computer”

Dit volgt op de release van vorige week van een toch al vrij kleine, krachtige open source Qwen3,5 gemiddeld De aankondiging van de Qwen3.5-Small Models Series en hun nog kleinere footprint en verwerkingsvereisten, die op één GPU kunnen draaien, wekten onmiddellijke belangstelling bij ontwikkelaars die zich concentreerden op “local-first” AI.

“Meer intelligentie, minder berekeningen” vond weerklank bij gebruikers die op zoek waren naar alternatieven voor cloudgebaseerde modellen.

AI- en technologieleraar Paul Couvert van Blueshell AI heeft de schok van de industrie met betrekking tot deze sprong in efficiëntie vastgelegd.

“Hoe is dat überhaupt mogelijk?!” Envelop schreef X. “Qwen heeft vier nieuwe modellen uitgebracht en de 4B-versie is bijna net zo capabel als de vorige 80B A3B. En de 9B is net zo goed als de GPT OSS 120b, maar is toch 13x kleiner!”

De analyse van Couvert benadrukt de praktische implicaties van deze architecturale voordelen:

  • “Ze kunnen op elke laptop draaien”

  • “0,8B en 2B voor je telefoon”

  • “Offline en open source”

Als ontwikkelaar Karan Kendre van Kargul Studio zei dat: “deze modellen (kunnen) gratis lokaal op mijn M1 MacBook Air draaien.”

Dit gevoel van ‘geweldige’ toegankelijkheid wordt weerspiegeld in het ecosysteem van ontwikkelaars. Eén gebruiker merkte op dat een 4B-model dat dient als een “sterke multimodale basis” een “game changer is voor mobiele ontwikkelaars” die schermleesmogelijkheden nodig hebben zonder hoge CPU-overhead.

Inderdaad, Hugging Face-ontwikkelaar merkte Xenova op dat de nieuwe Qwen3.5 Small Model-serie zelfs rechtstreeks in de webbrowser van een gebruiker kan draaien en zulke geavanceerde en voorheen veeleisendere bewerkingen kan uitvoeren als video-analyse.

Wetenschappers prezen ook de publicatie Basismodellen samen met de Instruct-versiesen merkt op dat het aanzienlijke steun biedt voor ‘echte industriële innovatie’.

Het vrijgeven van basismodellen wordt bijzonder gewaardeerd door bedrijfs- en onderzoeksteams omdat het een ‘schone lei’ oplevert die niet is beïnvloed door een specifieke reeks RLHF- (Reinforcement Learning from Human Feedback) of SFT-gegevens (Supervised Fine-Tuning), wat vaak kan leiden tot ‘afwijzingen’ of specifieke gespreksstijlen die moeilijk ongedaan kunnen worden gemaakt.

Met de basismodellen hebben degenen die geïnteresseerd zijn in het aanpassen van het model aan specifieke taken en doeleinden een eenvoudiger startpunt, omdat ze nu hun eigen instructie-afstemming en post-training kunnen toepassen zonder die van Alibaba te hoeven verwijderen.

Licenties: een overwinning voor het open ecosysteem

Alibaba heeft gewichten en configuratiebestanden vrijgegeven voor de Qwen3.5-serie onder de Apache 2.0-licentie. Deze permissieve licentie maakt commercieel gebruik, wijziging en distributie mogelijk zonder royalty’s, waardoor de “leveranciersvergrendeling” die verband houdt met propriëtaire API’s wordt opgeheven.

  • Commercieel gebruik: Ontwikkelaars kunnen modellen kosteloos in commerciële producten integreren.

  • Wijziging: Teams kunnen verfijnen (SFT) of RLHF gebruiken om gespecialiseerde versies te maken.

  • Verdeling: Modellen kunnen opnieuw worden gedistribueerd in local-first AI-applicaties zoals Ollama.

Het nieuws contextualiseren: waarom kleine dingen op dit moment zo belangrijk zijn

De release van de Qwen3.5 Small Series komt op een moment van “Agentic Realignment”. We zijn verder gegaan dan eenvoudige chatbots; het doel is nu autonomie. Een autonome agent moet ‘denken’ (redeneren), ‘zien’ (multimodaliteit) en ‘handelen’ (gereedschapgebruik). Hoewel het onbetaalbaar is om dit te doen met modellen met biljoenen parameters, kan een lokale Qwen3.5-9B deze lussen voor een fractie van de kosten uitvoeren.

Door Reinforcement Learning (RL) te schalen in omgevingen met miljoenen agenten, heeft Alibaba deze kleine modellen uitgerust met ‘menselijk adaptief oordeel’, waardoor ze meerstapsdoelen kunnen realiseren, zoals het organiseren van een desktop of het reverse-engineeren van gameplay-opnames in code. Of het nu een 0,8B-model is dat op een smartphone draait of een 9B-model dat een codeerterminal aanstuurt, de Qwen3.5-serie democratiseert effectief het ‘agentic-tijdperk’.

De verschuiving van de Qwen3.5-serie van ‘chatbits’ naar ‘native multimodale agenten’ verandert de manier waarop bedrijven intelligentie kunnen distribueren. Door geavanceerde redeneringen naar de ‘edge’ te verplaatsen (individuele apparaten en lokale servers) kunnen organisaties taken automatiseren waarvoor voorheen dure cloud-API’s of verwerking met hoge latentie nodig waren.

Strategische bedrijfstoepassingen en overwegingen

De 0,8B tot en met 9B-modellen zijn opnieuw ontworpen voor efficiëntie, waarbij gebruik wordt gemaakt van een hybride architectuur die voor elke taak alleen de noodzakelijke delen van het netwerk activeert.

  • Visuele workflowautomatisering: Met behulp van ‘gronding op pixelniveau’ kunnen deze modellen door desktop- of mobiele gebruikersinterfaces navigeren, formulieren invullen en bestanden ordenen op basis van instructies in natuurlijke taal.

  • Complexe documentparsering: Ze scoren meer dan 90% op de benchmarks voor het begrijpen van documenten en kunnen afzonderlijke OCR- en layout-parsing-pijplijnen vervangen om gestructureerde gegevens uit verschillende formulieren en grafieken te extraheren.

  • Autonome codering en refactoring: Bedrijven kunnen volledige opslagplaatsen (tot 400.000 coderegels) in het 1M-contextvenster plaatsen voor productieklare refactoren of geautomatiseerde probleemoplossing.

  • Realtime Edge-analyse: De 0.8B- en 2B-modellen zijn ontworpen voor mobiele apparaten en maken offline video-samenvattingen (tot 60 seconden bij 8 FPS) en ruimtelijk redeneren mogelijk zonder de levensduur van de batterij te belasten.

In de onderstaande tabel wordt uiteengezet welke bedrijfsfuncties het meest zullen profiteren van de lokale implementatie van kleine modellen.

Functie

Primair voordeel

Belangrijkste gebruikscasus

Software-engineering

Lokale code-intelligentie

Refactoring en terminalgebaseerde agentcodering voor de gehele repository.

Operatie & IT

Veilige automatisering

Automatiseer systeeminstellingen in meerdere stappen en bestandsbeheertaken lokaal.

Product- en gebruikerservaring

Randinteractie

Integratie van native multimodaal redeneren rechtstreeks in mobiele/desktop-apps.

Gegevens en analyses

Efficiënte extractie

High-fidelity OCR en gestructureerde gegevensextractie uit complexe visuele rapporten.

Hoewel deze modellen zeer capabel zijn, introduceren hun kleinschaligheid en ‘agentische’ aard specifieke operationele ‘vlaggen’ die teams in de gaten moeten houden.

  • De hallucinatiecascade: In ‘agentische’ workflows die uit meerdere stappen bestaan, kan een kleine fout in een vroege stap leiden tot een ‘cascade’ van fouten waarbij de agent een onjuist of zinloos plan nastreeft.

  • Foutopsporing versus Greenfield-codering: Hoewel deze modellen uitblinken in het schrijven van nieuwe ‘greenfield’-code, kunnen ze moeite hebben met het debuggen of aanpassen van bestaande, complexe oudere systemen.

  • Geheugen- en VRAM-vereisten: Zelfs “kleine” modellen (zoals de 9B) hebben aanzienlijke VRAM nodig voor gevolgtrekking met hoge doorvoer; de “geheugenvoetafdruk” blijft hoog omdat het totale aantal parameters nog steeds GPU-ruimte in beslag neemt.

  • Regelgeving en gegevensbewaring: Het gebruik van modellen van een in China gevestigde provider kan in bepaalde rechtsgebieden vragen oproepen over de datalocatie, hoewel de Apache 2.0 open-weight-versie hosting op ‘soevereine’ lokale clouds mogelijk maakt.

Bedrijven moeten prioriteit geven aan ‘verifieerbare’ taken – zoals coderen, wiskunde of het volgen van instructies – waarbij de uitvoer automatisch kan worden gecontroleerd aan de hand van vooraf gedefinieerde regels om ‘beloninghacking’ of stille fouten te voorkomen.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in