Nogmaals hallo, en welkom terug bij Snel bedrijf‘S Aangesloten.
Op 18 november kondigde Google een nieuw product aan. Om precies te zijn: het verklaard dat het ‘een nieuw tijdperk’ inluidde – en dat is wat technologiebedrijven hebben Doen wanneer zij Echt wil dat je oplet.
Het product in kwestie is Tweeling 3 Prode nieuwste versie van Google’s LLM. Het is niet alleen de basis voor Google’s ChatGPT-achtige chatbot, ook wel Gemini genoemd. Het ligt ten grondslag aan enorme hoeveelheden functies in vlaggenschipaanbiedingen zoals Google Search, Gmail en Android. Het drijft Antigravity aan, een nieuwe Google AI codeerplatform dat debuteerde dezelfde dag. En dankzij Google Cloud is het model ook beschikbaar voor externe ontwikkelaars als ingrediënt voor hun apps.
Kortom, de Gemini 3 Pro kan nauwelijks cruciaaler zijn voor de ambitie van Google om de belangrijkste speler op het gebied van AI te zijn. Naad Google DeepMind-CEO Demis Hassabis zei in de aankondiging dat het bedrijf het ziet als “een grote stap op weg naar AGI” – AI die minstens zo capabel is als mensen bij de meeste cognitieve taken. In de aankondiging stond al dat Gemini 3 Pro “redenering op PhD-niveau demonstreert.”
Google ondersteunde zijn beweringen met een tabel met twintig AI-benchmarks, waarbij de Gemini 3 Pro de Gemini 2 Pro, OpenAI’s GPT-5.1 en Anthropic’s Claude Sonnet 4.5 versloeg (en vaak net achterbleef). Het eindexamen van de mensheidis bijvoorbeeld een test van 2.500 vragen over wiskunde, natuurkunde, geesteswetenschappen en andere onderwerpen. Het is ontworpen om opmerkelijk moeilijk te zijn (vandaar de naam), en dat is het ook geweest debat over de vraag of het zo vaag is dat sommige van de theoretisch correcte antwoorden genuanceerd of verkeerd zijn. Volgens de tabel van Google behaalde GPT-5.1 een score van 26,5%, terwijl Claude Sonnet 4.5 slechts 13,7% behaalde. De Gemini 3 Pro scoorde daarentegen 37,5% en deed het zelfs nog beter als hij code mocht zoeken en uitvoeren, met een score van 45,8%.
Buiten het laboratorium werd de Gemini 3 Pro net zo enthousiast ontvangen als elk nieuw AI-model dat ik me kan herinneren. Ethan Mollick, een van mijn favoriete aanbieders van AI-analyses op basis van praktisch gebruik, uitgesproken het is “zeer goed”. Ander gezegd het voldeed aan de hoge verwachtingen van OpenAI’s GPT-5 opgewonden, maar kon niet bevredigen.
Terwijl ik dit schrijf, speel ik al een paar dagen met de Gemini-chatbot. Een groot deel van die ervaringen was positief. Twee schrijfopdrachten die ik eraan gaf, zijn bijzonder goed gelukt: een artikel over de toekomst van de centen een gedetailleerd rapport over de prijzen voor de minicomputers van Digital Equipment Corp. uit de jaren zestig. De eerste walkthrough van een eenvoudig vibe-coderingsproject: het bouwen van een zoekmachine voor Snel bedrijf‘S Het volgende grote ding in de technologie– was een beetje een puinhoop, maar toen ik het expliciet in de “Build” -modus zette, deed het de klus binnen enkele minuten. Het blonk ook uit in het uitzoeken wat er aan de hand was in een selectie van foto’s die ik heb geüpload.
Maar ondanks alles wat tot nu toe goed is gegaan, ben ik vanaf het moment dat ik het probeerde ook aanzienlijke bugs tegengekomen met de Gemini 3 Pro. Ze zorgden ervoor dat ik vooral op mijn hoede was voor de algemene beweringen van Google dat LLM bereid is gebruikers te helpen ‘alles te leren’ en antwoorden te geven die ‘slim, beknopt en direct zijn, in clichés handelen en vleiend zijn voor echt inzicht’.
Mijn interacties die fout gingen, gingen vooral over animatie en strips, onderwerpen waar ik me op richt als ik met nieuwe AI aan het rommelen ben, omdat ik ze goed genoeg ken om bugs op te sporen. Gevraagd naar deze onderwerpen, spuugde Gemini herhaaldelijk hallucinaties uit.
Toen ik bijvoorbeeld vroeg of Walt Disney er zelf ooit aan had gewerkt Mickey Mouse cartoon, LLM gaf een juist antwoord (ja, slechts kort), maar bood toen vrijwillig een aantal feiten aan waar ik niet om had gevraagd en die eigenlijk niet feitelijk waren. Er stond bijvoorbeeld dat toen de oude artiest van de show met pensioen ging, op zijn laatste paneel Mickey en Minnie naar een zonsondergang staarden, een subtiele manier om zijn vertrek te markeren. (Een dergelijke streak verscheen niet.) In een andere chat produceerde het een uitgebreid, volledig fictief achtergrondverhaal over een andere cartoonist die ook een bekend animatiehistoricus was, waarvan het mij vertelde dat het ‘goed gedocumenteerd’ en ‘herkend’ was.
Het was niet alleen dat Gemini hallucineerde. ChatGPT en Claude doen het nog steeds ook. Maar meer dan andere modellen had de Gemini de neiging zijn fouten te verergeren door mij op te winden. Het behulpzaam wijzen op de blunders leidde tot enkele van de vreemdste gesprekken die ik met AI heb gehad sinds februari 2023, toen Microsofts Bing gezegd het wilde niet meer met mij praten.
(Volledige openbaarmaking: ik begrijp dat de AI gewoon een reeks woorden aan elkaar rijgt die hij niet begrijpt. Alle menselijke kenmerken, of ze nu indrukwekkend of irritant zijn, worden gesimuleerd. Maar het is moeilijk om erover te schrijven zonder in een zekere mate van antropomorfisering te vervallen!)
Herhaaldelijk erkende Gemini de onnauwkeurigheden ervan, maar hield vol dat het ‘overlevering’, ‘algemene misvattingen’ of voorbeelden van mijn eigen verwarring waren. In één geval gaf het uiteindelijk toe: ‘Ik heb je in dit gesprek in de steek gelaten door details te verzinnen om fouten uit het verleden te verdoezelen.’ In een ander geval bleef het volhouden dat het waar was, en kwam het met citaten waarin het onderwerp niet eens werd genoemd.
Ik beweer niet dat het lot van AI afhangt van hoeveel de technologie weet over oude tekenfilms. Maar als er één bedrijf de verantwoordelijkheid heeft om ervoor te zorgen dat zijn LLM een betrouwbare bron van algemene informatie is, dan is het Google wel. Dat ik zo snel in de afgrond van door AI gegenereerde desinformatie terechtkwam, is geen bemoedigend teken.
Een deel van het probleem is dat de Gemini 3 Pro twee modi biedt: ‘Snel’ en ‘Denken’. De eerste is de standaard en was verantwoordelijk voor de onzekerheden die ik tegenkwam, waarvan er tenminste één inhield dat twee afzonderlijke onderwerpen die ik ter sprake had gebracht door elkaar gehaald werden. Tot nu toe heeft de Denkmodus beter gewerkt in mijn experimenten. Maar zelfs de snelste AI-modellen moeten voldoen aan een basislijn van nauwkeurigheid en goed gedrag, tenminste als ze worden gepresenteerd als een manier om ‘iets te leren’. (Net als veel AI-tools heeft de Gemini-chatbot een foutgevoelige disclaimer.)
Om mezelf te herhalen, Gemini 3 Pro is indrukwekkend in veel opzichten. Toch is de lancering ervan het zoveelste voorbeeld van hoe de AI-industrie een al te rooskleurig portret schetst van wat zij heeft bereikt. Het benadrukt ook dat benchmarks ons slechts een beperkte hoeveelheid vertellen over de prestaties van een model in de echte wereld.
Toen OpenAI deze maand drie jaar geleden ChatGPT introduceerde, deed het dat in één keer korte blogpost die moeite deed om de beperkingen van de bot in detail te beschrijven en geen grote uitspraken te doen over zijn toekomst. Zijn baanbrekende nieuwe product voor zichzelf laten spreken bleek behoorlijk effectief marketing strategie. Zelfs als de AI-giganten strijden om opscheppen in wat misschien wel de meest hypercompetitieve technologiecategorie ooit is, moeten ze die les niet vergeten.
Je hebt gelezen Verbonden, snel bedrijf’s wekelijkse technische nieuwsbrief van mij, mondiaal technologieredacteur Harry McCracken. Als een vriend of collega dit probleem naar u heeft doorgestuurd, of als u het leest op fastcompany.com, kunt u dat doen bekijk eerdere uitgaven en meld u aan om het zelf te krijgen elke vrijdagochtend. Ik hoor graag van je: Ping me hmccracken@fastcompany.com met uw feedback en ideeën voor toekomstige nieuwsbrieven. Ik doe ook mee Blauwe lucht, MastodontEn Draaden dat kan volgen Aangesloten op flipboard.
Meer toptechverhalen van Fast Company
In deze welvarende wijk in New York woedt een strijd tegen de AI-oligarchie
Twee congreskandidaten hebben van AI een belangrijk onderwerp in de campagne gemaakt. Lees meer →
De weg van Crypto naar legitimiteit hangt af van de industrie zelf, en niet alleen van politici
Alleen een interne cultuuromslag en strikte zelfcontrole kunnen voor mainstream goedkeuring zorgen. Lees meer →
AI-chatbots redden de media niet. Maar wat zou hen kracht kunnen geven
Door uitgevers gebouwde agenten op basis van vertrouwde archieven kunnen jarenlange rapportage omzetten in echte producten in plaats van alleen maar een chatwidget. Lees meer →
Dit enorme nieuwe datacenter wordt aangedreven door gebruikte EV-batterijen
Een nieuw project van startup Redwood Materials en datacenterbouwer Crusoe laat zien dat het mogelijk is om datacenters goedkoper en sneller te bouwen en tegelijkertijd de uitstoot te verminderen.Lees meer →
Waarom de AI-diplomatie van Trump gedoemd is te mislukken
Deze week stond er chips op het menu in het Witte Huis Lees meer →
Zelfs (vooral) in het AI-tijdperk is dit de reden waarom ik mensen aanneem vanwege karakter boven vaardigheid
Want dat is wat echt talent onthult. Lees meer →
De uiterste deadline voor Fast Company’s Wereldveranderende ideeënprijzen is vrijdag 12 december om 23:59 uur PT. Solliciteer vandaag nog.



