Home Nieuws Google brengt Gemma 4 uit onder Apache 2.0 – en die licentiewijziging...

Google brengt Gemma 4 uit onder Apache 2.0 – en die licentiewijziging zou meer kunnen betekenen dan benchmarks

2
0
Google brengt Gemma 4 uit onder Apache 2.0 – en die licentiewijziging zou meer kunnen betekenen dan benchmarks

De afgelopen twee jaar zijn bedrijven die open-gewichtsmodellen evalueren geconfronteerd met een lastige afweging. De Gemma-lijn van Google leverde consistent sterke prestaties, maar de aangepaste licentie – met gebruiksbeperkingen en voorwaarden die Google naar believen kon bijwerken – duwde veel teams in de richting van Mistral of Alibaba’s Qwen. Juridische beoordeling zorgde voor extra wrijving. Complianceteams hebben randgevallen gemarkeerd. En hoe capabel Gemma 3 ook was, ‘open’ met sterren is niet hetzelfde als open.

Gemma 4 elimineert die wrijving volledig. De nieuwste open modelfamilie van Google DeepMind wordt geleverd onder een standaard Apache 2.0-licentie – dezelfde tolerante uitdrukkingen die worden gebruikt door Qwen, Mistral, Arcee en het grootste deel van het open ecosysteem.

Geen aangepaste clausules, geen uitzonderingen op het gebied van “schadelijk gebruik” die juridische interpretatie vereisten, geen beperkingen op herverdeling of commerciële implementatie. Voor zakelijke teams die hadden gewacht tot Google onder dezelfde licentievoorwaarden zou spelen als de rest van het veld, is het wachten voorbij.

De timing is opmerkelijk. Nu sommige Chinese AI-laboratoria (met name de nieuwste Qwen-modellen van Alibaba, de Qwen3.5 Omni en Qwen 3.6 Plus) zich beginnen terug te trekken van volledig open releases voor hun nieuwste modellen, beweegt Google zich in de tegenovergestelde richting: ze openen de meest capabele Gemma-release tot nu toe, terwijl ze expliciet de architectuur vermelden die voortkomt uit de commerciële Tweeling 3 onderzoek.

Vier modellen, twee niveaus: van rand tot werkstation in één familie

Gemma 4 wordt geleverd als vier verschillende modellen, georganiseerd in twee implementatieniveaus. De laag “Werkstation” omvat een Dicht model met 31B-parameters en één 26B A4B Mix van experts-model — ondersteunt zowel tekst- als beeldinvoer met 256K-token contextvensters. De “rand”-laag bestaat uit E2B En E4Bcompacte modellen ontworpen voor telefoons, embedded apparaten en laptops die tekst, afbeeldingen en audio ondersteunen met 128K-token contextvensters.

De naamgevingsconventie vereist wat uitpakken. Het voorvoegsel ‘E’ geeft ‘effectieve parameters’ aan – E2B heeft 2,3 miljard effectieve parameters, maar 5,1 miljard in totaal omdat elke decoderlaag zijn eigen kleine inbeddingstabel heeft via een techniek die Google aanroept Inbedding per laag (PLE). Deze tabellen zijn groot op schijf, maar goedkoop om te berekenen. Daarom werkt het model als een 2B terwijl het technisch gezien meer weegt.

De “A” in 26B A4B staat voor “actieve parameters” – slechts 3,8 miljard van de in totaal 25,2 miljard parameters van het MoE-model worden geactiveerd tijdens gevolgtrekking, wat betekent dat het ruwweg intelligentie van de 26B-klasse levert tegen rekenkosten die vergelijkbaar zijn met die van een 4B-model.

Voor IT-managers die de GPU-vereisten bepalen, vertaalt dit zich rechtstreeks in implementatieflexibiliteit. Het MoE-model kan draaien op GPU’s van consumentenkwaliteit en zou snel moeten worden weergegeven in tools als Ollama en LM Studio. Het 31B-dichte model vereist meer hoofdruimte – denk aan een NVIDIA H100 of RTX 6000 Pro voor niet-gekwantiseerde gevolgtrekking – maar Google stuurt ook Quantization-Aware Training (QAT)-controlepunten om de kwaliteit met lagere precisie te behouden. Op Google Cloud kunnen beide werkstationmodellen nu in een volledig serverloze configuratie draaien via Cloud-run met NVIDIA RTX Pro 6000 GPU’s die bij inactiviteit naar nul terugdraaien.

De MoE-weddenschap: 128 kleine experts om te besparen op sluitingskosten

De architecturale keuzes binnen het 26B A4B-model verdienen speciale aandacht van teams die de bedrijfsresultaten evalueren. In plaats van het patroon te volgen van recente grote MoE-modellen die gebruik maken van een handvol grote experts, ging Google mee 128 kleine expertsactivering van acht per token plus één gedeelde altijd-aan-expert. Het resultaat is een model dat concurrerend presteert met vergelijkbare modellen in het 27B-31B-bereik, terwijl het tijdens gevolgtrekking op ongeveer dezelfde snelheid draait als een 4B-model.

Dit is niet alleen maar een nieuwsgierigheidsonderzoek; het heeft rechtstreeks invloed op de servicekosten. Een model dat redenering van 27B-klasse levert bij een doorvoer van 4B-klasse betekent minder GPU’s, lagere latentie en goedkopere gevolgtrekkingen per token in de productie. Voor organisaties die codeerassistenten, documentverwerkingspijplijnen of multi-turn agentworkflows gebruiken, is de MoE-variant wellicht de meest praktische keuze in de familie.

Beide werkstationmodellen gebruiken een hybride aandachtsmechanisme dat de lokale aandacht door het schuifvenster verweven met volledige mondiale aandacht, waarbij de laatste laag altijd globaal is. Dit ontwerp maakt het 256K-contextvenster mogelijk terwijl het geheugengebruik beheersbaar blijft: een belangrijke overweging voor teams die lange documenten, codebases of gesprekken met meerdere agenten verwerken.

Ingebouwde multimodaliteit: visuele, audio- en functieoproepen vanaf de basis ingebouwd

Eerdere generaties open modellen behandelden multimodaliteit doorgaans als een add-on. Vision-encoders werden op de tekstrug geschroefd. Voor audio was een externe ASR-pijplijn zoals Whisper vereist. Functieaanroepen waren afhankelijk van een snelle constructie en de hoop dat het model zou samenwerken. Gemma 4 integreert al deze opties op architectuurniveau.

Alle vier de modellen hanteren beeldinvoer met variabele beeldverhouding met configureerbare visuele tokenbudgetten – een betekenisvolle verbetering ten opzichte van de oudere vision-encoder van de Gemma 3, die moeite had met OCR en documentbegrip. De nieuwe encoder ondersteunt budgetten van 70 tot 1.120 tokens per afbeelding, waardoor ontwikkelaars details en computergebruik kunnen balanceren, afhankelijk van de taak.

Lagere budgetten werken voor classificatie en ondertiteling; hogere budgetten kunnen OCR, documentparsing en fijnmazige visuele analyse aan. Multi-beeld- en video-invoer (behandeld als framereeksen) wordt standaard ondersteund, waardoor visueel redeneren over meerdere documenten of schermen mogelijk is.

De twee randmodellen voegen toe inheemse geluidsverwerking — automatische spraakherkenning en spraak-naar-vertaalde tekst, allemaal op het apparaat. De audio-encoder is gecomprimeerd tot 305 miljoen parameters, vergeleken met 681 miljoen in de Gemma 3n, terwijl de frameduur is gedaald van 160 ms naar 40 ms voor een responsievere transcriptie. Voor teams die voice-first-applicaties bouwen die data lokaal moeten houden – denk aan gezondheidszorg, buitendienst of meertalige klantinteractie – is het uitvoeren van ASR-, vertaling-, redeneer- en functieoproepen in één model op een telefoon of edge-apparaat een echte architecturale vereenvoudiging.

Functie oproep is ook in alle vier de modellen terug te vinden, op basis van onderzoek van Google FunctieGemma release eind vorig jaar. In tegenstelling tot eerdere benaderingen die vertrouwden op instructiesequenties om modellen te verleiden tot gestructureerd toolgebruik, werden de functieaanroepen van Gemma 4 vanaf het begin in het model getraind – geoptimaliseerd voor multi-turn agentstromen met meerdere tools. Dit komt naar voren in agentbenchmarks, maar wat nog belangrijker is, het vermindert de snelle technische overhead die bedrijfsteams doorgaans investeren bij het bouwen van toolgebruikende agenten.

Benchmarks in context: waar Gemma 4 in een druk veld belandt

De benchmarkcijfers vertellen een duidelijk verhaal over generatieverbetering. Het strakke model 31B scoort 89,2%, wij houden van 2026 (een rigoureuze test voor wiskundig redeneren), 80,0% op LiveCodeBench v6en slaat er één Codeforce’s ELO van 2.150 – cijfers die niet zo lang geleden verboden terrein zouden zijn geweest voor eigen modellen. Op visie bereikt MMMU Pro 76,9% en MATH-Vision 85,6%.

Google Gemma 4 ELO-scorebenchmarkgrafiek. Krediet: Google

Ter vergelijking: de Gemma 3 27B scoorde 20,8% op AIME en 29,1% op LiveCodeBench zonder denkmodus.

Het MoE-model volgt dit op de voet: 88,3% op AIME 2026, 77,1% op LiveCodeBench en 82,3% op GPQA Diamond – een maatstaf voor wetenschappelijk redeneren op universitair niveau. De prestatiekloof tussen MoE en compacte varianten is bescheiden gezien het aanzienlijke kostenvoordeel van de MoE-architectuur.

De edge-modellen versloegen hun gewichtsklasse. De E4B haalt 42,5% op AIME 2026 en 52,0% op LiveCodeBench – sterk voor een model dat op een T4 GPU draait. E2B, nog kleiner, beheert respectievelijk 37,5% en 44,0%. Beiden presteren aanzienlijk beter dan de Gemma 3 27B (zonder na te denken) op de meeste benchmarks, ondanks dat ze een fractie van de grootte zijn, dankzij de ingebouwde redenering.

Deze cijfers moeten worden gelezen tegen de achtergrond van een steeds competitiever open landschap. De Qwen 3.5, GLM-5 en Kimi K2.5 concurreren allemaal agressief in dit parameterbereik en het veld beweegt snel. Wat Gemma 4 onderscheidt is niet zozeer een enkele benchmark, maar meer de combinatie: sterke redenering, ingebouwde multimodaliteit voor tekst, beeld en audio, functieaanroepen, 256K-context en een echte tolerante licentie – alles in één modelfamilie met implementatieopties van edge-apparaten tot serverloos in de cloud.

Wat ondernemingsteams nu moeten zien

Google brengt zowel vooraf getrainde basismodellen als op instructies afgestemde varianten uit, wat belangrijk is voor organisaties die zich willen afstemmen op specifieke domeinen. De Gemma-basismodellen zijn historisch gezien een sterke basis geweest voor training op maat, en de Apache 2.0-licentie neemt nu elke onduidelijkheid weg over de vraag of verfijnde derivaten commercieel kunnen worden ingezet.

De serverloze implementatieoptie via Cloud Run met GPU-ondersteuning is het bekijken waard voor teams die behoefte hebben aan inferentiecapaciteit die naar nul kan worden geschaald. Alleen betalen voor daadwerkelijke berekeningen tijdens de inferentie (in plaats van het altijd aanhouden van GPU-instanties) zou de economische aspecten van het inzetten van open modellen in de productie op betekenisvolle wijze kunnen veranderen, vooral voor interne tools en toepassingen met minder verkeer.

Google heeft laten doorschemeren dat dit misschien niet de volledige Gemma 4-familie is, en dat er waarschijnlijk nog meer modelgroottes zullen volgen. Maar de combinatie die vandaag beschikbaar is – redeneermodellen van werkstationklasse en multimodale modellen van edge-klasse, allemaal onder Apache 2.0, allemaal afkomstig uit Gemini 3-onderzoek – vertegenwoordigt de meest complete open modelrelease die Google heeft uitgebracht. Voor bedrijfsteams die hadden gewacht op de open modellen van Google om te concurreren op zowel licentievoorwaarden als prestaties, kan de evaluatie eindelijk beginnen zonder eerst de juridische afdeling te raadplegen.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in