Home Nieuws Google Gemini 3.1 Pro eerste indrukken: een ‘Deep Think Mini’ met aanpasbare...

Google Gemini 3.1 Pro eerste indrukken: een ‘Deep Think Mini’ met aanpasbare redenering indien nodig

2
0
Google Gemini 3.1 Pro eerste indrukken: een ‘Deep Think Mini’ met aanpasbare redenering indien nodig

De afgelopen drie maanden heeft Googles Gemini 3 Pro zijn plaats ingenomen als een van de meest capabele grensmodellen die er zijn. Maar in de snelle AI-wereld is drie maanden een leven lang – en de concurrenten hebben niet stilgestaan.

Dat heeft Google eerder vandaag bekendgemaakt Tweeling 3.1 Proeen update die een belangrijke innovatie brengt in het Workhorse-model van het bedrijf: drie niveaus van aanpasbaar denken die het in feite tot een lichtgewicht versie maken van Google’s gespecialiseerde Deep Think-redeneersysteem.

De release markeert de eerste keer dat Google een ‘punt één’-update voor een Gemini-model heeft uitgebracht, wat een verschuiving in de releasestrategie van het bedrijf aangeeft van periodieke lanceringen van de volledige versie naar frequentere incrementele upgrades. Belangrijker voor AI-teams van ondernemingen die hun modelstapels evalueren, is dat het nieuwe drieledige denksysteem van 3.1 Pro (laag, gemiddeld en hoog) ontwikkelaars en IT-managers één enkel model biedt waarmee hun redeneringsinspanningen dynamisch kunnen worden geschaald, van snelle antwoorden op routinevragen tot diep redeneren in enkele minuten voor complexe problemen.

Het model wordt nu als preview uitgerold in de Gemini API via Google AI StudioGemini CLI, Google’s agent-ontwikkelingsplatform Antigravity, Vertex AI, Gemini Enterprise, Android Studio, de Gemini-app voor consumenten en NotebookLM.

Het ‘Deep Think Mini’-effect: aanpasbare redenering indien nodig

Het belangrijkste kenmerk van Gemini 3.1 Pro is niet één enkel benchmarknummer; het is de introductie van een drielaags denkniveausysteem dat gebruikers nauwkeurige controle geeft over hoeveel rekenkracht het model in elke reactie investeert.

De Gemini 3 Pro bood slechts twee denkmodi: laag en hoog. De nieuwe 3.1 Pro voegt een medium instelling toe (vergelijkbaar met de vorige high) en herziet kritisch wat “high” betekent. Als de 3.1 Pro op de hoogste stand staat, gedraagt ​​hij zich als een “miniatuurversie van Gemini Deep Think”: het gespecialiseerde redeneermodel van het bedrijf dat vorige week bijgewerkt.

De gevolgen voor de implementatie in ondernemingen kunnen aanzienlijk zijn. In plaats van verzoeken door te sturen naar verschillende gespecialiseerde modellen op basis van taakcomplexiteit – een gebruikelijk maar operationeel belastend patroon – kunnen organisaties nu één enkel modeleindpunt gebruiken en de diepgang van de redenering aanpassen op basis van de taak die voorhanden is. Het routinematig samenvatten van documenten kan op een laag denkniveau met snelle responstijden worden uitgevoerd, terwijl complexe analytische taken tot een hoog denkvermogen kunnen worden verheven voor redeneringen van het Deep Think-kaliber.

Benchmarkprestaties: meer dan dubbel redeneren over 3 Pro

De gepubliceerde benchmarks van Google vertellen een verhaal van dramatische verbeteringen, vooral op gebieden die verband houden met redeneren en de capaciteiten van agenten.

Google Gemini 3.1 Pro benchmarkgrafiek. Krediet: Google

Op ARC-AGI-2een benchmark die het vermogen van een model evalueert om nieuwe abstracte redeneerpatronen op te lossen, scoorde 3,1 Pro 77,1% – meer dan het dubbele van de 31,1% behaald door Gemini 3 Pro en aanzienlijk hoger dan Anthropics Sonnet 4.6 (58,3%) en Opus 4.6 (68,8%). Dit resultaat overtreft ook de GPT-5.2 van OpenAI (52,9%).

De winsten strekken zich over de hele linie uit. Op Het eindexamen van de mensheideen rigoureuze maatstaf voor academisch redeneren, de 3.1 Pro scoorde 44,4% zonder gereedschap, tegen 37,5% voor de 3 Pro en vóór zowel de Claude Sonnet 4.6 (33,2%) als de Opus 4.6 (40,0%). Op GPQA-diamanteen wetenschappelijke kennisevaluatie behaalde 3.1 Pro 94,3% en overtrof daarmee alle genoemde concurrenten.

Waar de resultaten vooral relevant worden voor zakelijke AI-teams zijn de agentische benchmarks: de evaluaties die meten hoe goed modellen presteren wanneer ze tools en uit meerdere stappen bestaande taken krijgen, het soort werk dat in toenemende mate de productie-AI-implementaties definieert.

Op Terminalbank 2.0die agentterminalcodering evalueert, scoorde de 3.1 Pro 68,5% vergeleken met 56,9% voor zijn voorganger. Op MCP-atlaseen benchmark die meerstapsworkflows meet met behulp van het Model Context Protocol, behaalde de 3.1 Pro 69,2% – een verbetering van 15 punten ten opzichte van de 54,1% van de 3 Pro en bijna 10 punten voorsprong op zowel Claude als GPT-5.2. En verder BladerenCompwaarin de zoekmogelijkheden van agenten op internet worden getest, scoorde 3.1 Pro 85,9% en overtrof daarmee de 59,2% van 3 Pro.

Waarom Google voor een ‘0.1’-release heeft gekozen – en wat deze aangeeft

Het versiebesluit is op zichzelf opmerkelijk. Eerdere Gemini-releases volgden een patroon van gedateerde previews, bijvoorbeeld verschillende 2.5-previews voordat ze algemeen verkrijgbaar waren. De keuze om deze update aan te duiden als 3.1 in plaats van nog een 3 Pro-preview suggereert dat Google de verbeteringen als significant genoeg beschouwt om een ​​versie-uitbreiding te rechtvaardigen, terwijl de “punt één”-framing de verwachting wekt dat dit een evolutie is, en geen revolutie.

In de blogpost van Google staat dat 3.1 Pro rechtstreeks voortbouwt op lessen uit de Gemini Deep Think-serie, waarbij technieken uit zowel eerdere als nieuwere versies zijn verwerkt. Benchmarks suggereren sterk dat versterkend leren een centrale rol speelde in de winst, vooral bij taken als ARC-AGI-2, codeerbenchmarks en agentevaluaties – precies de domeinen waar op RL gebaseerde trainingsomgevingen duidelijke beloningssignalen kunnen geven.

Het model wordt uitgebracht als een preview in plaats van als een lancering voor algemene beschikbaarheid, waarbij Google zegt dat het vooruitgang zal blijven boeken op gebieden zoals agentworkflows voordat het overgaat naar volledige GA.

Concurrentie-implicaties voor de AI-stack van uw bedrijf

Voor IT-beslissers die aanbieders van frontier-modellen evalueren, zou de release van Gemini 3.1 Pro hen niet alleen moeten doen heroverwegen welke modellen ze moeten kiezen, maar ook hoe ze zich moeten aanpassen aan zo’n snel tempo van veranderingen voor hun eigen producten en diensten.

De vraag is nu of deze release een reactie van concurrenten zal oproepen. De eerste lancering van de Gemini 3 Pro afgelopen november veroorzaakte een golf van modelreleases in zowel eigen als open ecosystemen.

Nu 3.1 Pro opnieuw toonaangevend is in verschillende kritieke categorieën, staat de druk op Anthropic, OpenAI en de open gemeenschap om te reageren – en in het huidige AI-landschap zal die reactie waarschijnlijk binnen weken in plaats van maanden worden gemeten.

Beschikbaarheid

Gemini 3.1 Pro is nu beschikbaar als preview via Gemini-API in Google AI Studio, Gemini CLI, Google Antigravity en Android Studio voor ontwikkelaars. Zakelijke klanten kunnen er terecht via Hoekpunt AI En Gemini onderneming. Consumenten met een Google AI Pro- en Ultra-abonnement hebben er toegang toe via de Gemini-app en NotebookLM.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in