De twee grote verhalen over AI in 2026 tot nu toe zijn de ongelooflijke opkomst van gebruik en lof voor Claude Code van Anthropic en een soortgelijke enorme lift bij gebruikersacceptatie Google’s Gemini 3 AI-modelfamilie eind vorig jaar gepubliceerd – waarvan de laatste omvat Nano Banaan Pro (ook bekend als Gemini 3 Pro Image), een krachtig, snel en flexibel model voor het genereren van afbeeldingen dat complexe, tekstrijke infographics snel en nauwkeurig weergeeft, waardoor het uitstekend geschikt is voor zakelijk gebruik (denk aan: onderpand, training, onboarding, desktop, etc.).
Maar dit zijn natuurlijk allebei eigen aanbiedingen. En toch, open source-rivalen is niet geweest ver achter.
Deze week hebben we een nieuw open source alternatief voor Nano Banana Pro gekregen in de categorie van nauwkeurige, tekstrijke afbeeldingsgeneratoren: GLM-afbeeldingeen nieuw open source-model met 16 miljard parameters van ronlangs openbare Chinese startup Z.ai.
Door de industriestandaard ‘pure diffusie’-architectuur achterwege te laten die de meeste toonaangevende modellen voor beeldgeneratoren drijft ten gunste van een hybride auto-regressief (AR) + diffusie-ontwerp, heeft GLM-Image bereikt wat voorheen werd beschouwd als het domein van gesloten, eigen modellen: geavanceerde prestaties bij het genereren van tekstrijke, informatierijke technische grafieken, afbeeldingen, infographics, technische grafieken en grafieken.
Het verslaat zelfs Google’s Nano Banana Pro op het gebied van dat gedeeld door z.ai – hoewel mijn eigen snelle praktische gebruik vond dat het veel minder nauwkeurig was bij het volgen van instructies en het weergeven van tekst (en andere gebruikers lijken het daarmee eens te zijn).
Voor bedrijven die op zoek zijn naar kosteneffectieve en aanpasbare, gebruiksvriendelijke gelicentieerde alternatieven voor propriëtaire AI-modellen, kan z.ai’s GLM-Image echter “goed genoeg” zijn om de taak van een primaire beeldgenerator over te nemen, afhankelijk van hun specifieke gebruiksscenario’s, behoeften en vereisten.
Benchmark: het omverwerpen van de gepatenteerde reus
Het meest overtuigende argument voor GLM-Image is niet de esthetiek, maar de precisie. Daarin CVTG-2k-benchmark (complexe visuele tekstgeneratie), die het vermogen van een model evalueert om tekst nauwkeurig weer te geven over meerdere delen van een afbeelding, GLM-Image scoorde een woordnauwkeurigheidsgemiddelde van 0,9116.
Om dat aantal in perspectief te plaatsen: De Nano Banana 2.0 oftewel Pro – vaak aangehaald als de benchmark van het bedrijf voor betrouwbaarheid – scoorde 0,7788. Dit is geen marginale winst; het is een generatiesprong in semantische controle.
Hoewel Nano Banana Pro een kleine voorsprong behoudt bij het genereren van lange tekst in één stream in het Engels (0,9808 versus GLM-Images 0,9524), hapert het aanzienlijk naarmate de complexiteit toeneemt.
Naarmate het aantal tekstgebieden groeit, blijft de nauwkeurigheid van Nano Banana in de jaren ’70, terwijl GLM-Image een nauwkeurigheid van >90% behoudt, zelfs met verschillende tekstelementen.
In het geval van zakelijk gebruik – waarbij een marketingdia tegelijkertijd een titel, drie opsommingstekens en een bijschrift moet hebben – is deze betrouwbaarheid het verschil tussen een productieklaar item en een hallucinatie.
Helaas, mijn eigen gebruik van een demo-einde van GLM-Image op Hugging Face bleek minder betrouwbaar dan de benchmarks zouden doen vermoeden.
Mijn oproep om een ‘infographic te genereren waarin alle belangrijke sterrenbeelden die nu op 14 januari 2026 zichtbaar zijn vanaf het noordelijk halfrond in de Verenigde Staten worden gelabeld en vervaagde afbeeldingen van hun naamgenoten achter de sterverbindingslijndiagrammen worden geplaatst’ resulteerde niet in wat ik vroeg, maar voldeed in plaats daarvan misschien aan 20% of minder van de gespecificeerde inhoud.
Maar Google’s Nano Banana Pro behandelde het als een kampioen, zoals je hieronder zult zien:
Natuurlijk is een groot deel hiervan ongetwijfeld te danken aan het feit dat Nano Banana Pro is geïntegreerd met Google Search, zodat het informatie op internet kan opzoeken als reactie op mijn vraag, terwijl GLM-Image dat niet is, en daarom waarschijnlijk veel specifiekere instructies vereist over de daadwerkelijke tekst en andere inhoud die de afbeelding zou moeten bevatten.
Maar toch, als je eraan gewend bent enkele eenvoudige instructies te kunnen schrijven en via deze laatste een volledig onderzocht en goed gevuld beeld te krijgen, is het moeilijk voor te stellen dat je een ondermaats alternatief implementeert, tenzij je zeer specifieke eisen hebt op het gebied van kosten, gegevensretentie en beveiliging – of de behoefte van je organisatie aan maatwerk zo groot is.
In aanvulling De Nano Banana Pro viel qua pure esthetiek nog steeds buiten GLM-Image — met behulp van de OneIG-benchmark, Nano Banana 2.0 staat op 0,578 versus het GLM-beeld van 0,528 – en inderdaad, zoals de bovenste kopafbeelding van dit artikel aangeeft, geeft GLM-Image niet altijd een even scherp, fijn gedetailleerd en aangenaam beeld weer als de generator van Google.
De architecturale verschuiving: waarom ‘hybride’ ertoe doet
Waarom slaagt GLM-Image waar pure diffusiemodellen falen? Het antwoord ligt in de beslissing van Z.ai om het genereren van beelden eerst als een redeneerprobleem en als tweede als schilderprobleem te beschouwen.
Standaard latente diffusiemodellen (zoals Stable Diffusion of Flux) proberen tegelijkertijd de globale compositie en fijnkorrelige textuur te verwerken.
Dit leidt vaak tot “semantische drift”, waarbij het model specifieke instructies vergeet (zoals “plaats de tekst linksboven”) omdat het zich erop richt de pixels er realistisch uit te laten zien.
GLM-Image ontkoppelt deze metingen in twee gespecialiseerde ‘hersenen’ met in totaal 16 miljard parameters:
-
De autoregressieve generator (“De Architect”): Deze module met 9 miljard parameters, geïnitialiseerd vanuit het GLM-4-9B-taalmodel van Z.ai, verwerkt de prompt op logische wijze. Het genereert geen pixels; in plaats daarvan zendt het “visuele tokens” uit, met name semantische VQ-tokens. Deze tokens fungeren als een gecomprimeerde blauwdruk van de afbeelding, waarbij de lay-out, tekstplaatsing en objectrelaties worden vastgelegd voordat er een enkele pixel wordt getekend. Dit maakt gebruik van de redenering van een LLM, waardoor het model complexe instructies (bijvoorbeeld “Een instructie met vier panelen”) kan “begrijpen” op een manier die voorspellers van diffusieruis niet kunnen.
-
De diffusiedecoder (“De schilder”): Zodra de lay-out is vergrendeld door de AR-module, neemt een Diffusion Transformer (DiT)-decoder met 7 miljard parameters het over. Gebaseerd op de CogView4-architectuur, vult deze module de hoogfrequente details in: textuur, verlichting en stijl.
Door het ‘wat’ (AR) te scheiden van het ‘hoe’ (diffusie), lost GLM-Image het probleem van ‘dichte kennis’ op. De AR-module zorgt ervoor dat de tekst correct wordt gespeld en nauwkeurig wordt gepositioneerd, terwijl de Diffusion-module ervoor zorgt dat het eindresultaat er fotorealistisch uitziet.
De hybride trainen: een evolutie in meerdere fasen
De geheime saus van de prestaties van GLM-Image is niet alleen de architectuur; het is een heel specifiek, uit meerdere stappen bestaand trainingsplan dat het model dwingt om structuur te leren vóór details.
Het trainingsproces begon met het bevriezen van de tekstwoordinbeddingslaag van het originele GLM-4-model, terwijl een nieuwe ‘visiewoordinbedding’-laag en een gespecialiseerd vision LM-hoofd werden getraind.
Hierdoor kon het model visuele tokens in dezelfde semantische ruimte als tekst projecteren, waardoor LLM effectief leerde ‘spreken’ in afbeeldingen. Cruciaal was dat Z.ai MRoPE (Multidimensional Rotary Positional Embedding) implementeerde om de complexe verweving van tekst en afbeeldingen aan te kunnen die nodig is voor gemengd-modale generatie.
Het model werd vervolgens onderworpen aan een progressieve resolutiestrategie:
-
Stap 1 (256px): Het model werd getraind op sequenties met 256 tokens met een lage resolutie met behulp van een eenvoudige rasterscansequentie.
-
Stap 2 (512px – 1024px): Naarmate de resolutie toenam naar een gemengde stap (512px naar 1024px), constateerde het team een afname van de bestuurbaarheid. Om dit te verhelpen, hebben ze het eenvoudige scannen opgegeven voor een progressieve generatiestrategie.
In deze geavanceerde stap genereert het model eerst ongeveer 256 “lay-outtokens” uit een gedownsampelde versie van de doelafbeelding.
Deze tokens fungeren als structureel anker. Door het trainingsgewicht van deze voorlopige tokens te vergroten, dwong het team het model om prioriteit te geven aan de globale lay-out (waar de dingen zijn) voordat details met een hoge resolutie werden gegenereerd. Dit is de reden waarom GLM-Image uitblinkt in posters en diagrammen: het “schetst” eerst de lay-out en zorgt ervoor dat de compositie wiskundig verantwoord is voordat de pixels worden weergegeven.
Licentieanalyse: een tolerante, zij het enigszins dubbelzinnige, winst voor het bedrijf
Voor zakelijke CTO’s en juridische teams is de licentiestructuur van GLM-Image een aanzienlijk concurrentievoordeel ten opzichte van propriëtaire API’s, hoewel er een klein voorbehoud geldt met betrekking tot de documentatie.
De dubbelzinnigheid: er is een kleine discrepantie in de releasematerialen. De Hugging Face-voorraad van het model expliciet merk de weegschaal met de MIT-licentie.
De bijbehorende GitHub-repository en documentatie rEffect Apache-licentie 2.0.
Waarom dit nog steeds goed nieuws is: ondanks de discrepantie zijn beide licenties de “gouden standaard” voor ondernemingsvriendelijke open source.
-
Commerciële levensvatbaarheid: Zowel MIT als Apache 2.0 maken onbeperkt commercieel gebruik, aanpassing en distributie mogelijk. In tegenstelling tot de “open rail”-licenties die gebruikelijk zijn in andere beeldmodellen (die vaak specifieke gebruiksscenario’s beperken) of “research only”-licenties (zoals vroege LLaMA-releases), is GLM-Image feitelijk onmiddellijk “open for business”.
-
Het Apache-voordeel (indien van toepassing): Als de code onder Apache 2.0 valt, is dit vooral voor grote organisaties gunstig. Apache 2.0 bevat een expliciete clausule voor het verlenen van patenten, wat betekent dat bijdragers door bij te dragen aan of gebruik te maken van de software een patentlicentie aan gebruikers verlenen. Dit verkleint het risico op toekomstige octrooigeschillen – een grote zorg voor bedrijven die producten bouwen bovenop open source codebases.
-
Geen “infectie”: Geen van beide licenties is “copyleft” (zoals de GPL). U kunt GLM-Image integreren in een eigen workflow of product zonder dat u gedwongen wordt uw eigen intellectuele eigendom open te sourcen.
Voor ontwikkelaars is de aanbeveling eenvoudig: behandel de gewichten als MIT (volgens de repository die ze host) en de uiteindelijke code als Apache 2.0. Hoe dan ook maakt de weg vrij voor interne hosting, het verfijnen van gevoelige gegevens en het bouwen van commerciële producten zonder een leverancierscontract.
‘Waarom nu’ voor de bedrijfsvoering
Voor de beslisser van het bedrijf komt GLM-Image op een cruciaal keerpunt. Bedrijven gaan verder dan het gebruik van generatieve AI voor abstracte blogkoppen en begeven zich naar functioneel terrein: meertalige advertentielokalisatie, geautomatiseerde generatie van UI-mockups en dynamisch leermateriaal.
In deze workflows is een foutenpercentage van 5% bij het weergeven van tekst een blok. Als een model een mooie dia genereert maar de productnaam verkeerd spelt, is het asset nutteloos. Benchmarks suggereren dat GLM-Image het eerste open source-model is dat de betrouwbaarheidsdrempel voor deze complexe taken overschrijdt.
Bovendien verandert de permissieve licentie fundamenteel de economische aspecten van de implementatie. Terwijl Nano Banana Pro bedrijven vastlegt in een per-call API-kostenstructuur of restrictieve cloudcontracten, kan GLM-Image zelf worden gehost, worden afgestemd op eigen merkactiva en worden geïntegreerd in veilige pijpleidingen met luchtopeningen, zonder zorgen over datalekken.
Het addertje onder het gras: zware computervereisten
De wisselwerking voor dit redeneervermogen is de rekenintensiteit. De architectuur met twee modellen is zwaar. Het genereren van één enkele afbeelding van 2048 x 2048 duurt ongeveer 252 seconden op een H100 GPU. Dit is aanzienlijk langzamer dan sterk geoptimaliseerde, kleinere diffusiemodellen.
Maar voor waardevolle assets (waarbij het alternatief een menselijke ontwerper is die uren in Photoshop doorbrengt) is deze latentie acceptabel.
Z.ai biedt er ook een aan beheerde API voor $ 0,015 per afbeeldingdat biedt een brug voor teams die de mogelijkheden willen testen zonder meteen in H100-clusters te investeren.
GLM-Image is een signaal dat de open source-gemeenschap niet langer alleen maar snelle propriëtaire laboratoria is; in specifieke sectoren met een hoge waarde, zoals het genereren van kennis, bepalen zij nu het tempo. Voor het bedrijf is de boodschap duidelijk: als uw operationele knelpunt de betrouwbaarheid van complexe visuele inhoud is, is de oplossing niet langer noodzakelijkerwijs een gesloten Google-product – het kan een open source-model zijn dat u zelf kunt uitvoeren.



