Eind vorig jaar pakte Google kortstondig de kroon voor het krachtigste AI-model ter wereld lancering van Gemini 3 Pro – om binnen enkele weken te worden ingehaald door OpenAI en Anthropic die nieuwe modellen uitbrengen, wat gebruikelijk is in de fel competitieve AI-race.
Nu is Google terug om de troon terug te winnen met één bijgewerkte versie van het vlaggenschipmodel: Gemini 3.1 Progepositioneerd als een slimmere basislijn voor taken waarbij een eenvoudig antwoord onvoldoende is – gericht op wetenschappelijke, onderzoeks- en technische workflows die diepgaande planning en synthese vereisen.
Al, evaluaties van het externe bedrijf Artificial Analysis laat zien dat Google’s Gemini 3.1 Pro een voorsprong heeft genomen op de rest en opnieuw het krachtigste en meest presterende AI-model ter wereld is.
Een grote sprong in de kernredenering
De belangrijkste vooruitgang in Gemini 3.1 Pro ligt in de prestaties op strenge logische benchmarks. Het meest opvallende was dat het model een geverifieerde score van 77,1% behaalde op de ARC-AGI-2.
Deze specifieke benchmark is ontworpen om het vermogen van een model te evalueren om volledig nieuwe logische patronen op te lossen die het tijdens de training niet is tegengekomen.
Dit resultaat vertegenwoordigt meer dan het dubbele van dat van het vorige Gemini 3 Pro-model.
Naast abstracte logica geven interne benchmarks aan dat 3.1 Pro zeer concurrerend is op gespecialiseerde domeinen:
-
Wetenschappelijke kennis: Het scoorde 94,3% op GPQA Diamond.
-
Codering: Het bereikte een Elo van 2887 op LiveCodeBench Pro en scoorde 80,6% op SWE-Bench Verified.
-
Multimodaal begrip: Het scoorde 92,6% bij MMMLU.
Deze technische voordelen zijn niet slechts incrementeel; ze vertegenwoordigen een verfijning in de manier waarop het model omgaat met ‘denkende’ tokens en lange-horizontaken, waardoor een betrouwbaardere basis wordt geboden voor ontwikkelaars die autonome agenten bouwen.
Verbeterde sfeercodering en 3D-synthese
Google demonstreert het nut van het model door middel van ’toegepaste intelligentie’, waarbij de focus wordt verlegd van chatinterfaces naar functionele output.
Een van de meest opvallende kenmerken is de mogelijkheid van het model om “vibe-gecodeerde” geanimeerde SVG’s rechtstreeks vanuit tekstprompts te genereren. Omdat deze op code zijn gebaseerd in plaats van op pixels, blijven ze schaalbaar en behouden ze kleine bestandsgroottes in vergelijking met traditionele video, en bieden ze veel gedetailleerdere, representatieve en professionele afbeeldingen voor websites, presentaties en andere zakelijke toepassingen.
Andere tentoongestelde toepassingen zijn onder meer:
-
Complexe systeemsynthese: Het model heeft met succes een openbare telemetriestroom geconfigureerd om een live luchtvaartelektronica-dashboard te bouwen dat de baan van het internationale ruimtestation visualiseert.
-
Interactief ontwerp: In een demo codeerde 3.1 Pro een complex 3D-spreeuwgemompel dat gebruikers kunnen manipuleren via handtracking, vergezeld van een generatieve audioscore.
-
Creatieve codering: Het model vertaalde de sfeervolle thema’s van Emily Brontë Wuthering Hoogten voor een functioneel, modern webontwerp dat blijk geeft van het vermogen om te redeneren via toon en stijl in plaats van alleen maar letterlijke tekst.
Zakelijke impact en reacties van de gemeenschap
Enterprise-partners zijn al begonnen met het integreren van de preview-versie van 3.1 Pro en melden merkbare verbeteringen in betrouwbaarheid en efficiëntie.
Vladislav Tankov, directeur AI bij JetBrains, merkte een kwaliteitsverbetering van 15% op ten opzichte van eerdere versies, en stelde dat het model “sterker, sneller … en efficiënter is, en minder uitvoertokens vereist”. Andere reacties uit de sector zijn onder meer:
-
Databricks: CTO Hanlin Tang meldde dat het model “best-in-class resultaten” behaalde op OfficeQA, een maatstaf voor beredeneerd redeneren over tabellarische en ongestructureerde gegevens.
-
wagenwiel: Mede-oprichter Andrew Carr benadrukte het “aanzienlijk verbeterde begrip van 3D-transformaties” van het model, en merkte op dat het al lang bestaande rotatievolgordefouten in 3D-animatiepijplijnen oploste.
-
Hostinger-horizonten: Productmanager Dainius Kavoliunas merkte op dat het model het ‘sentiment’ achter een prompt begrijpt en de intentie vertaalt in stijlnauwkeurige code voor niet-ontwikkelaars.
Prijzen, licenties en beschikbaarheid
Voor ontwikkelaars is het meest opvallende aspect van de 3.1 Pro-release de verhouding tussen redenering en dollar. Toen Gemini 3 Pro werd gelanceerd, bevond het zich in de middenhoge prijsklasse met $ 2,00 per miljoen invoertokens voor standaardprompts. Gemini 3.1 Pro handhaaft deze exacte prijsstructuur en biedt effectief een enorme prestatie-upgrade zonder extra kosten voor API-gebruikers.
-
Invoerprijs: $ 2,00 per 1 miljoen tokens voor prompts tot 200.000; $ 4,00 per 1 miljoen tokens voor prompts boven de 200.000.
-
Outputprijs: $ 12,00 per 1 miljoen tokens voor prompts tot 200.000; $ 18,00 per 1 miljoen tokens voor prompts van meer dan 200.000.
-
Contextcaching: Gefactureerd tegen $ 0,20 tot $ 0,40 per 1 miljoen tokens, afhankelijk van de promptgrootte, plus opslagkosten van $ 4,50 per 1 miljoen tokens per uur.
-
Zoekgronding: 5.000 zoekopdrachten per maand zijn gratis, gevolgd door $ 14 per zoekopdracht. 1.000 zoekopdrachten.
Voor consumenten wordt het model uitgerold in de Gemini-app en NotebookLM met hogere limieten voor Google AI Pro- en Ultra-abonnees.
Gevolgen van licentie
Als een eigen model aangeboden via Vertex Studio i Google Cloud en dat Gemini-API3.1 Pro volgt een standaard commercieel SaaS-model (Software as a Service) in plaats van een open source-licentie.
Voor zakelijke gebruikers biedt dit ‘beredeneerd redeneren’ binnen de beveiligingsperimeter van Vertex AI, waardoor bedrijven met vertrouwen op hun eigen gegevens kunnen werken.
Met de status ‘Preview’ kan Google de beveiliging en prestaties van het model verfijnen voordat het algemeen beschikbaar komt, een gangbare praktijk bij AI-implementaties met hoge inzet.
Door de kernredenering en gespecialiseerde benchmarks zoals ARC-AGI-2 te verdubbelen, geeft Google aan dat de volgende fase van de AI-race zal worden gewonnen door modellen die een probleem kunnen doordenken, en niet alleen het volgende woord kunnen voorspellen.


