Bedrijven kunnen nu de kracht benutten van een groot taalmodel dat dicht bij het geavanceerde ligt Google’s Gemini 3 Promaar tegen een fractie van de kosten en met verhoogde snelheid, bedankt onlangs uitgebrachte Gemini 3 Flash.
Het model voegt zich bij het vlaggenschip Gemini 3 Pro, Gemini 3 Deep Think en Gemini Agent, die allemaal vorige maand werden aangekondigd en uitgebracht.
Gemini 3 Flash, nu beschikbaar op Gemini Enterprise, Google Antigravity, Gemini CLI, AI Studio en in preview in Vertex AI, verwerkt informatie vrijwel in realtime en helpt bij het bouwen van snelle, responsieve agentapplicaties.
Het bedrijf zei in een blogpost dat Gemini 3 Flash “bouwt op de modelreeks waar ontwikkelaars en bedrijven al van houden, geoptimaliseerd voor hoogfrequente workflows die snelheid vereisen, zonder in te boeten aan kwaliteit.
Het model gebruikt ook standaard de AI-modus op Google Zoeken en de Gemini-applicatie.
Tulsee Doshi, senior directeur productmanagement bij het Gemini-team, zei in een aparte blogpost dat het model “aantoont dat snelheid en schaal niet ten koste hoeven te gaan van intelligentie.”
“Gebouwd voor iteratieve ontwikkeling, biedt Gemini 3 Flash de professionele coderingsprestaties van Gemini 3 met lage latentie. Het is in staat om taken snel te redeneren en op te lossen in hoogfrequente workflows”, aldus Doshi. “Het heeft een ideale balans voor agentcodering, productieklare systemen en responsieve interactieve toepassingen.”
De vroege toepassing ervan door gespecialiseerde bedrijven bewijst de betrouwbaarheid van het model op gebieden waar veel op het spel staat. Harvey, een AI-platform voor advocatenkantoren, rapporteerde een stijging van 7% in de redenering op hun interne ‘BigLaw Bench’, terwijl Resemble AI ontdekte dat Gemini 3 Flash complexe forensische gegevens voor deepfake-detectie 4x sneller kon verwerken dan Gemini 2.5 Pro. Dit zijn niet alleen snelheidswinsten; ze maken ‘near real-time’ workflows mogelijk die voorheen onmogelijk waren.
Efficiënter tegen een lagere prijs
Enterprise AI-bouwers zijn zich hiervan bewuster geworden de kosten van het uitvoeren van AI-modellenvooral omdat ze stakeholders ervan proberen te overtuigen meer budget te steken in de workflows van bureaus die op dure modellen draaien. Organisaties zijn benaderd kleinere of gedistilleerde modellen, met een focus op open modellen of anders onderzoeks- en stimuleringstechnieken om de opgeblazen AI-kosten te helpen beheersen.
Voor ondernemingen is de grootste waardepropositie van Gemini 3 Flash dat het hetzelfde niveau aan geavanceerde multimodale mogelijkheden biedt, zoals complexe videoanalyse en data-extractie, als zijn grotere Gemini-tegenhangers, maar dat het veel sneller en goedkoper is.
Terwijl de interne materialen van Google een drievoudige snelheidsverhoging ten opzichte van de 2.5 Pro-serie aanprijzen, zijn gegevens van onafhankelijke bronnen de kunstmatige analyse van het benchmarkbedrijf voegt een laag van beslissende nuance toe.
In de pre-releasetests van laatstgenoemde organisatie registreerde Gemini 3 Flash Preview een ruwe doorvoer van 218 uitvoertokens per seconde. seconde. Dit maakt het 22% langzamer dan de vorige ‘niet-redenerende’ Gemini 2.5 Flash, maar het is nog steeds aanzienlijk sneller dan de concurrentie, inclusief OpenAI’s GPT-5.1 high (125 t/s) en DeepSeek V3.2-redenering (30 t/s).
Het meest opvallend is dat Artificial Analysis Gemini 3 Flash heeft gekroond tot de nieuwe leider in hun AA-Omniscience kennisbenchmark, waar het de hoogste kennisnauwkeurigheid behaalde van alle tot nu toe geteste modellen. Deze intelligentie gaat echter gepaard met een ‘redeneringsbelasting’: het model verdubbelt zijn tokenverbruik ruimschoots in vergelijking met de 2.5 Flash-serie bij het aanpakken van complexe indexen.
Deze hoge tokendichtheid wordt gecompenseerd door de agressieve prijzen van Google: toegankelijk via de Gemini API kost Gemini 3 Flash $ 0,50 per token. 1 miljoen invoertokens vergeleken met $1,25/1M invoertokens voor Gemini 2.5 Pro en $3/1M uitvoertokens vergeleken met $10/1M uitvoertokens voor Pro Gemini 2.5. Hierdoor kan Gemini 3 Flash de titel claimen van het meest kosteneffectieve model vanwege zijn intelligentieniveau, ondanks dat het een van de meest ‘pratende’ modellen is in termen van onbewerkt tokenvolume. Hier ziet u hoe het zich verhoudt tot concurrerende LLM-aanbiedingen:
|
Model |
Invoer (/1M) |
Uitgang (/1M) |
Totale kosten |
Bron |
|
Qwen3 Turbo |
$ 0,05 |
$ 0,20 |
$ 0,25 |
|
|
Grok 4.1 Snel (redeneren) |
$ 0,20 |
$ 0,50 |
$ 0,70 |
|
|
Grok 4.1 Snel (niet redenerend) |
$ 0,20 |
$ 0,50 |
$ 0,70 |
|
|
deepseek-chat (V3.2-Exp) |
$ 0,28 |
$ 0,42 |
$ 0,70 |
|
|
diepgaande redenen (V3.2-Exp) |
$ 0,28 |
$ 0,42 |
$ 0,70 |
|
|
Qwen3 Plus |
$ 0,40 |
$ 1,20 |
$ 1,60 |
|
|
ERNIE 5.0 |
$ 0,85 |
$ 3,40 |
$ 4,25 |
|
|
Gemini 3 Flash-voorbeeld |
$ 0,50 |
$ 3,00 |
$ 3,50 |
|
|
Claude Haiku 4.5 |
$ 1,00 |
$ 5,00 |
$ 6,00 |
|
|
Qwen-Max |
$ 1,60 |
$ 6,40 |
$ 8,00 |
|
|
Gemini 3 Pro (≤200K) |
$ 2,00 |
$ 12,00 |
$ 14,00 |
|
|
GPT-5.2 |
$ 1,75 |
$ 14,00 |
$ 15,75 |
|
|
Claude Sonnet 4.5 |
$ 3,00 |
$ 15,00 |
$ 18,00 |
|
|
Gemini 3 Pro (>200K) |
$ 4,00 |
$ 18,00 |
$ 22,00 |
|
|
Werk afsluiten 4.5 |
$ 5,00 |
$ 25,00 |
$ 30,00 |
|
|
GPT-5.2 Pro |
$ 21,00 |
$ 168,00 USD |
$ 189,00 USD |
Meer manieren om te besparen
Maar zakelijke ontwikkelaars en gebruikers kunnen de kosten verder verlagen door de latentie die de meeste grotere modellen vaak hebben te elimineren, waardoor het tokengebruik toeneemt. Google zei dat het model “in staat is om te moduleren hoeveel het denkt”, dus gebruikt het meer denkwerk en dus meer tokens voor complexere taken dan voor snelle aanwijzingen. Het bedrijf merkte op dat Gemini 3 Flash 30% minder tokens gebruikt dan Gemini 2.5 Pro.
Om deze nieuwe redenering in evenwicht te brengen met strenge latentievereisten voor ondernemingen, heeft Google een ‘Thinking Level’-parameter geïntroduceerd. Ontwikkelaars kunnen schakelen tussen ‘Laag’ – om de kosten en latentie voor eenvoudige chattaken te minimaliseren – en ‘Hoog’ – om de redeneerdiepte voor complexe gegevensextractie te maximaliseren. Dankzij deze gedetailleerde controle kunnen teams ‘variabele snelheid’-applicaties bouwen die alleen dure ‘gedachten’ gebruiken wanneer een probleem daadwerkelijk een PhD-niveau vereist
Het economische verhaal gaat verder dan alleen maar symbolische prijzen. Met de standaard toevoeging van Context Caching kunnen bedrijven die enorme, statische datasets verwerken – zoals hele juridische bibliotheken of codebase-opslagplaatsen – een reductie van 90% zien in de kosten van repetitieve zoekopdrachten. Gecombineerd met de 50% korting van Batch API vallen de totale eigendomskosten voor een door Gemini aangedreven agent aanzienlijk onder de drempel van concurrerende grensmodellen
“Gemini 3 Flash levert uitzonderlijke prestaties op het gebied van coderen en agenttaken, gecombineerd met een lagere prijs, waardoor teams geavanceerde redeneerkosten kunnen inzetten in processen met een hoog volume zonder op barrières te stuiten”, aldus Google.
Door een model aan te bieden dat sterke multimodale prestaties levert tegen een meer betaalbare prijs, pleit Google ervoor dat bedrijven die zich bezighouden met het beheersen van hun AI-uitgaven hun modellen moeten kiezen, vooral de Gemini 3 Flash.
Sterke benchmarkprestaties
Maar hoe presteert de Gemini 3 Flash qua prestaties ten opzichte van andere modellen?
Doshi zei dat het model een score van 78% behaalde op de SWE-Bench Verified benchmark-test voor codeeragenten, waarmee het zowel de vorige Gemini 2.5-familie als de nieuwere Gemini 3 Pro zelf overtreft!
Voor bedrijven betekent dit dat grootschalige softwareonderhouds- en foutopsporingstaken nu kunnen worden overgedragen naar een model dat zowel sneller als goedkoper is dan eerdere vlaggenschipmodellen, zonder dat dit ten koste gaat van de codekwaliteit.
Het model presteerde ook sterk op andere benchmarks en scoorde 81,2% op de MMMU Pro-benchmark, vergeleken met de Gemini 3 Pro.
Hoewel de meeste Flash-modellen expliciet zijn geoptimaliseerd voor korte, snelle taken zoals het genereren van code, beweert Google dat de prestaties van Gemini 3 Flash “op het gebied van redeneren, tooling en multimodale mogelijkheden ideaal zijn voor ontwikkelaars die complexere videoanalyses, data-extractie en visuele vragen en antwoorden willen doen, wat betekent dat het intelligentere toepassingen mogelijk kan maken, zoals in-game assistenten of A/B-testexperimenten, die zowel snelle als snelle experimenten vereisen.”
Eerste indrukken van early adopters
Tot nu toe zijn early adopters grotendeels onder de indruk van het model, vooral van de benchmarkprestaties.
Wat dit betekent voor Enterprise AI-gebruik
Nu Gemini 3 Flash nu fungeert als de standaardengine voor Google Zoeken en de Gemini-app, zijn we getuige van de ‘Flashificatie’ van grensverleggende intelligentie. Door redeneren op pro-niveau tot de nieuwe basislijn te maken, zet Google een val voor langzamere gevestigde exploitanten.
De integratie in platforms als Google Antigravity suggereert dat Google niet alleen maar een model verkoopt; zij verkoopt de infrastructuur aan het onafhankelijke bedrijf.
Nu ontwikkelaars aan de slag gaan met drie keer hogere snelheden en 90% korting op de contextcache, wordt de ‘Gemini-first’-strategie een overtuigend economisch argument. In de snelle race om AI-dominantie kan Gemini 3 Flash het model zijn dat ‘vibe coding’ eindelijk transformeert van een experimentele hobby naar een productieklare realiteit.



