Chinese AI-startup Zipu AI oftewel Z.ai heeft zijn GLM-4.6V-serie uitgebrachteen nieuwe generatie open source vision-taalmodellen (VLM’s) geoptimaliseerd voor multimodaal redeneren, front-end automatisering en zeer efficiënte implementatie.
De release bevat twee modellen in “grote” en “kleine” maten:
-
GLM-4,6V (106B)een groter parametermodel van 106 miljard, gericht op gevolgtrekking op cloudschaal
-
GLM-4.6V-flitser (9B)een kleiner model met slechts 9 miljard parameters, ontworpen voor lokale toepassingen met lage latentie
Houd er rekening mee dat modellen met meerdere parameters (of interne instellingen die hun gedrag bepalen) over het algemeen modellen zijn die hun gedrag bepalen, dwz. gewichten en vooroordelen – krachtiger, efficiënter en in staat om op een hoger algemeen niveau te presteren bij meer gevarieerde taken.
Kleinere modellen kunnen echter een betere efficiëntie bieden voor edge- of realtime-applicaties waarbij latentie en resourcebeperkingen van cruciaal belang zijn.
De beslissende innovatie in deze serie is de introductie van native functieaanroepen in een visietaalmodel – waardoor direct gebruik mogelijk is van tools zoals zoeken, bijsnijden of diagramherkenning met visuele invoer.
Met een contextlengte van 128.000 tokens (equivalent aan de tekst van een roman van 300 pagina’s die wordt uitgewisseld in een enkele input/output-interactie met de gebruiker) en state-of-the-art (SoTA) resultaten over meer dan 20 benchmarks, positioneert de GLM-4.6V-serie zichzelf als een zeer competitief alternatief voor zowel gesloten als open bronnen. Het is beschikbaar in de volgende formaten:
Licenties en zakelijk gebruik
GLM‑4.6V en GLM‑4.6V-Flash worden hieronder verdeeld MIJN licentieeen permissieve open source-licentie die gratis commercieel en niet-commercieel gebruik, wijziging, herdistributie en lokale implementatie mogelijk maakt zonder verplichting om afgeleide werken te openen.
Dit licentiemodel maakt de serie geschikt voor adoptie door ondernemingen, inclusief scenario’s die volledige controle over de infrastructuur, naleving van de interne governance of ‘air-gapped’-omgevingen vereisen.
Modelgewichten en documentatie worden openbaar gehost op Knuffel gezichtmet ondersteunende code en tools beschikbaar op GitHub.
De MIT-licentie garandeert maximale flexibiliteit voor integratie in bedrijfseigen systemen, inclusief interne tools, productiepijplijnen en edge-implementaties.
Architectuur en technische vaardigheden
De GLM-4.6V-modellen volgen een conventionele encoder-decoder-architectuur met aanzienlijke aanpassingen voor multimodale invoer.
Beide modellen zijn voorzien van een Vision Transformer (ViT)-encoder – gebaseerd op AIMv2-Huge – en een MLP-projector om visuele kenmerken uit te lijnen met een Large Language Model (LLM)-decoder.
Video-invoer profiteert van 3D-convoluties en temporele compressie, terwijl ruimtelijke codering wordt afgehandeld met behulp van 2D-RoPE en bicubische interpolatie van absolute positionele inbedding.
Een belangrijk technisch kenmerk is de ondersteuning van het systeem voor willekeurige beeldresoluties en beeldformaten, inclusief brede panoramische ingangen tot 200:1.
Naast het parseren van statische afbeeldingen en documenten, kan GLM-4.6V tijdelijke reeksen videoframes met expliciete tijdstempeltokens opnemen, waardoor robuust temporeel redeneren mogelijk wordt.
Aan de decoderingskant ondersteunt het model het genereren van tokens die zijn afgestemd op protocollen voor het aanroepen van functies, waardoor gestructureerde redenering over tekst-, beeld- en tooluitvoer mogelijk is. Dit wordt ondersteund door een uitgebreide tokenizer-vocabulaire en uitvoeropmaaksjablonen om uniforme API- of agent-compatibiliteit te garanderen.
Native multimodaal gereedschapsgebruik
GLM-4.6V introduceert native multimodale functieaanroepen waarmee visuele assets, zoals schermafbeeldingen, afbeeldingen en documenten, rechtstreeks als parameters aan tools kunnen worden doorgegeven. Dit elimineert de noodzaak van tussentijdse conversies van alleen tekst, die historisch gezien verlies aan informatie en complexiteit met zich meebrachten.
Het toolaanroepmechanisme werkt op twee manieren:
-
Met invoertools kunnen afbeeldingen of video’s rechtstreeks worden verzonden (bijvoorbeeld documentpagina’s om bij te snijden of te analyseren).
-
Uitvoertools zoals grafiekrenderers of websnapshottools retourneren visuele gegevens die GLM-4.6V rechtstreeks in de redeneringsketen integreert.
In de praktijk betekent dit dat de GLM-4.6V taken kan uitvoeren zoals:
-
Genereren van gestructureerde rapporten uit documenten met gemengd formaat
-
Visuele beoordeling van kandidaat-afbeeldingen uitvoeren
-
Automatisch bijsnijden van vormen uit papier tijdens het genereren
-
Visuele zoekopdrachten op internet uitvoeren en multimodale vragen beantwoorden
Hoge prestatiebenchmarks vergeleken met andere modellen van vergelijkbare grootte
GLM-4.6V werd geëvalueerd op basis van meer dan twintig openbare benchmarks die betrekking hadden op algemene VQA, diagrambegrip, OCR, STEM-redenering, front-end-replicatie en multimodale agenten.
Volgens de benchmarkgrafiek gepubliceerd door Zhipu AI:
-
GLM-4.6V (106B) behaalt SoTA- of bijna-SoTA-scores onder open source-modellen van vergelijkbare grootte (106B) op MMBench, MathVista, MMLongBench, ChartQAPro, RefCOCO, TreeBench en meer.
-
De GLM-4.6V-Flash (9B) presteert beter dan andere lichtgewicht modellen (bijv. Qwen3-VL-8B, GLM-4.1V-9B) in bijna alle geteste categorieën.
-
Dankzij het 128K-tokenvenster van het 106B-model kan het beter presteren dan grotere modellen zoals de Step-3 (321B) en Qwen3-VL-235B op het gebied van documenttaken met een lange context, video-samenvatting en gestructureerd multimodaal redeneren.
Voorbeelden van scores op het scorebord zijn onder meer:
-
MathVista: 88,2 (GLM-4.6V) versus 84,6 (GLM-4,5V) versus 81,4 (Qwen3-VL-8B)
-
WebVoyager: 81,0 versus 68,4 (Qwen3-VL-8B)
-
Ref-L4-test: 88,9 versus 89,5 (GLM-4,5V) maar met betere aarding bij 87,7 (Flash) versus 86,8
Beide modellen zijn geëvalueerd met behulp van de vLLM-inferentiebackend en ondersteunen SGLang voor op video gebaseerde taken.
Front-end automatisering en workflows met lange context
Zhipu AI benadrukte het vermogen van de GLM-4.6V om front-end ontwikkelingsworkflows te ondersteunen. Het model kan:
-
Repliceer pixelnauwkeurige HTML/CSS/JS van UI-screenshots
-
Accepteer bewerkingsopdrachten in natuurlijke taal om de lay-out te wijzigen
-
Identificeer en manipuleer specifieke UI-componenten visueel
Deze functie is geïntegreerd in een end-to-end visuele programmeerinterface waarin het model de lay-out, ontwerpintentie en uitvoercode herhaalt met behulp van het oorspronkelijke begrip van schermafbeeldingen.
In scenario’s met lange documenten kan de GLM-4.6V tot 128.000 tokens verwerken, waardoor één enkele gevolgtrekking mogelijk is:
Zhipu AI rapporteerde een succesvol gebruik van het model bij financiële analyses in corpora met meerdere documenten en voor het samenvatten van volledige sportuitzendingen met tijdstempeldetectie van gebeurtenissen.
Training en versterkingsleren
Het model werd getraind met behulp van pre-training in meerdere fasen, gevolgd door gesuperviseerde fijnafstemming (SFT) en versterkend leren (RL). Belangrijke innovaties zijn onder meer:
-
Curriculum Sampling (RLCS): Past dynamisch de moeilijkheidsgraad van trainingsvoorbeelden aan op basis van de voortgang van het model
-
Multi-domein beloningssystemen: taakspecifieke verificaties voor STEM, diagrammatisch redeneren, GUI-agents, video-QA en ruimtelijke aarding
-
Functiebewuste training: maakt gebruik van gestructureerde tags (bijv.
, , <|begin_of_box|>) om de redenering en antwoordopmaak aan te passen
De versterkingsleerpijplijn legt de nadruk op verifieerbare beloningen (RLVR) boven menselijke feedback (RLHF) voor schaalbaarheid en vermijdt KL/entropieverlies om training in multimodale domeinen te stabiliseren
Prijzen (API)
Zhipu AI biedt concurrerende prijzen voor de GLM-4.6V-serie, waarbij zowel het vlaggenschipmodel als de lichtgewicht variant zijn gepositioneerd voor hoge beschikbaarheid.
Vergeleken met grote vision-compatibele en tekst-eerste LLM’s is GLM-4.6V een van de meest kosteneffectieve voor multimodaal redeneren op schaal. Hieronder vindt u een vergelijkende momentopname van de prijzen van verschillende aanbieders:
USD per 1 miljoen tokens – gesorteerd op laagste → hoogste totaalprijs
|
Model |
Invoer |
Productie |
Totale kosten |
Bron |
|
Qwen3 Turbo |
$ 0,05 |
$ 0,20 |
$ 0,25 |
|
|
ERNIE 4.5 Turbo |
$ 0,11 |
$ 0,45 |
$ 0,56 USD |
|
|
GLM-4,6V |
$ 0,30 |
$ 0,90 |
$ 1,20 |
|
|
Grok 4.1 Snel (redeneren) |
$ 0,20 |
$ 0,50 |
$ 0,70 |
|
|
Grok 4.1 Snel (niet redenerend) |
$ 0,20 |
$ 0,50 |
$ 0,70 |
|
|
deepseek-chat (V3.2-Exp) |
$ 0,28 |
$ 0,42 |
$ 0,70 |
|
|
diepgaande redenen (V3.2-Exp) |
$ 0,28 |
$ 0,42 |
$ 0,70 |
|
|
Qwen3 Plus |
$ 0,40 |
$ 1,20 |
$ 1,60 |
|
|
ERNIE 5.0 |
$ 0,85 |
$ 3,40 |
$ 4,25 |
|
|
Qwen-Max |
$ 1,60 |
$ 6,40 |
$ 8,00 |
|
|
GPT-5.1 |
$ 1,25 |
$ 10,00 |
$ 11,25 |
|
|
Gemini 2.5 Pro (≤200K) |
$ 1,25 |
$ 10,00 |
$ 11,25 |
|
|
Gemini 3 Pro (≤200K) |
$ 2,00 |
$ 12,00 |
$ 14,00 |
|
|
Gemini 2.5 Pro (>200K) |
$ 2,50 |
$ 15,00 |
$ 17,50 |
|
|
Grok 4 (0709) |
$ 3,00 |
$ 15,00 |
$ 18,00 |
|
|
Gemini 3 Pro (>200K) |
$ 4,00 |
$ 18,00 |
$ 22,00 |
|
|
Werk afsluiten 4.1 |
$ 15,00 |
$ 75,00 |
$ 90,00 |
Eerdere releases: GLM-4.5-serie en Enterprise-applicaties
Vóór GLM-4.6V bracht Z.ai medio 2025 de GLM-4.5-familie uit, waarmee het bedrijf een serieuze concurrent werd op het gebied van open source LLM-ontwikkeling.
Het vlaggenschip GLM-4.5 en zijn kleinere broer, de GLM-4.5-Air, ondersteunen beide redenering, tooling, codering en agentgedrag, terwijl ze sterke prestaties bieden in standaard benchmarks.
De modellen introduceerden twee manieren van redeneren (“denken” en “niet-denken”) en konden automatisch volledige PowerPoint-presentaties genereren op basis van één enkele prompt – een functie die geschikt was voor gebruik in bedrijfsrapportage, training en interne communicatieworkflows. Z.ai breidde de GLM-4.5-serie ook uit met extra varianten zoals GLM-4.5-X, AirX en Flash, gericht op ultrasnelle gevolgtrekkingen en goedkope scenario’s.
Samen positioneren deze functies de GLM-4.5-serie als een kosteneffectief, open en productieklaar alternatief voor ondernemingen die behoefte hebben aan autonomie op het gebied van modelimplementatie, levenscyclusbeheer en integratiepijplijn.
Implicaties voor het ecosysteem
De GLM-4.6V-release vertegenwoordigt een opmerkelijke vooruitgang in open source multimodale AI. Hoewel de belangrijkste visietaalmodellen het afgelopen jaar in opkomst zijn, zijn er maar een paar die het volgende bieden:
-
Geïntegreerd gebruik van visuele hulpmiddelen
-
Gestructureerde multimodale opwekking
-
Agent-georiënteerd geheugen en beslissingslogica
De nadruk van Zhipu AI op het ‘sluiten van de cirkel’ van perceptie naar actie via native functieaanroepen markeert een stap in de richting van agentische multimodale systemen.
De architectuur en de trainingspijplijn van het model laten een voortdurende evolutie van de GLM-familie zien, waardoor deze concurrerend wordt gepositioneerd naast aanbiedingen als OpenAI’s GPT-4V en Google DeepMind’s Gemini-VL.
Afhaalmaaltijden voor bedrijfsleiders
Met GLM-4.6V introduceert Zhipu AI een open source VLM die in staat is tot ingebouwde visuele tools, lange coherente redeneringen en front-end automatisering. Het zet nieuwe prestatiebenchmarks voor modellen van vergelijkbare grootte en biedt een schaalbaar platform voor het bouwen van agentische, multimodale AI-systemen.



