Home Nieuws Gemini 3 Pro behaalt 69% vertrouwen in blinde tests, een stijging ten...

Gemini 3 Pro behaalt 69% vertrouwen in blinde tests, een stijging ten opzichte van 16% voor Gemini 2.5: de argumenten voor het evalueren van AI op basis van vertrouwen uit de echte wereld, niet op academische benchmarks

17
0
Gemini 3 Pro behaalt 69% vertrouwen in blinde tests, een stijging ten opzichte van 16% voor Gemini 2.5: de argumenten voor het evalueren van AI op basis van vertrouwen uit de echte wereld, niet op academische benchmarks

Nog maar een paar weken geleden debuteerde Google met zijn Tweeling 3 model, en beweerde dat het een leidende positie had verworven in verschillende AI-benchmarks. Maar de uitdaging met door leveranciers geleverde benchmarks is dat ze precies dat zijn: door de leverancier geleverd.

Een nieuwe leveranciersneutrale evaluatie van Productiefwaardoor Gemini 3 echter bovenaan de ranglijst staat. Dit is niet gebaseerd op een reeks academische benchmarks; het gaat eerder om een ​​reeks kenmerken uit de echte wereld waar daadwerkelijke gebruikers en organisaties om geven.

Prolific is opgericht door onderzoekers van de Universiteit van Oxford. Het bedrijf levert betrouwbare, hoogwaardige menselijke gegevens om rigoureus onderzoek en ethische AI-ontwikkeling te stimuleren. Het bedrijf”MENSELIJKE maatstaf” hanteert deze aanpak door gebruik te maken van representatieve menselijke steekproeven en blinde tests om AI-modellen nauwkeurig te vergelijken in een reeks gebruikersscenario’s, waarbij niet alleen de technische prestaties worden gemeten, maar ook het vertrouwen van de gebruiker, het aanpassingsvermogen en de communicatiestijl.

De nieuwste HUMAINE-test evalueerde 26.000 gebruikers in een blinde test van modellen. In de evaluatie steeg de betrouwbaarheidsscore van Gemini 3 Pro van 16% naar 69%, de hoogste ooit gemeten door Prolific. De Gemini 3 staat nu 69% van de tijd op de eerste plaats op het gebied van vertrouwen, ethiek en veiligheid in demografische subgroepen, vergeleken met zijn voorganger, de Gemini 2.5 Pro, die slechts 16% van de tijd de eerste plaats bekleedde.

Over het geheel genomen stond Gemini 3 op de eerste plaats in drie van de vier evaluatiecategorieën: prestaties en redenering, interactie en aanpassingsvermogen, en vertrouwen en veiligheid. Het verloor alleen qua communicatiestijl, waarbij DeepSeek V3 met 43% bovenaan de voorkeuren stond. De HUMAINE-test toonde ook aan dat Gemini 3 consistent goed presteerde in 22 verschillende demografische gebruikersgroepen, inclusief variaties in leeftijd, geslacht, etniciteit en politieke oriëntatie. Uit de evaluatie bleek ook dat de kans dat gebruikers nu vijf keer vaker voor het model kiezen bij onderlinge blinde vergelijkingen.

Maar de locatie doet er minder toe Waarom het heeft gewonnen.

“Het gaat om de consistentie in een zeer breed scala aan verschillende gebruiksscenario’s, en een persoonlijkheid en een stijl die aantrekkelijk is voor een breed scala aan gebruikerstypen”, vertelde Phelim Bradley, medeoprichter en CEO van Prolific, aan VentureBeat. “Hoewel andere modellen in sommige specifieke gevallen de voorkeur hebben van kleine subgroepen of van een bepaald gesprekstype, is het de breedte van de kennis en de flexibiliteit van het model voor een verscheidenheid aan gebruiksscenario’s en doelgroeptypen die ervoor hebben gezorgd dat het deze specifieke benchmark heeft kunnen winnen.”

Hoe blind testen onthult wat academische benchmarks missen

De methodologie van HUMAINE onthult hiaten in de manier waarop de industrie modellen evalueert. Gebruikers communiceren gelijktijdig met twee modellen in multi-turn gesprekken. Ze weten niet welke leveranciers elk antwoord sturen. Ze bespreken de onderwerpen die voor hen belangrijk zijn, niet vooraf bepaalde testvragen.

Het is de test zelf die telt. HUMAINE maakt gebruik van representatieve steekproeven uit de Amerikaanse en Britse populaties en controleert op leeftijd, geslacht, etniciteit en politieke oriëntatie. Dit onthult iets dat statische benchmarks niet kunnen vastleggen: de prestaties van modellen variëren per doelgroep.

“Als je een AI-leaderboard neemt, kan de meerderheid nog steeds een vrij statische lijst hebben”, zegt Bradley. “Maar voor ons, als je kijkt naar het publiek, krijgen we een iets ander scorebord, of je nu kijkt naar een links-neigende steekproef, een rechts-neigende steekproef, de VS of het VK. En ik denk dat leeftijd eigenlijk de meest verschillend aangegeven voorwaarde was in ons experiment.”

Voor bedrijven die AI inzetten bij diverse werknemerspopulaties is dit belangrijk. Een model dat goed presteert voor de ene doelgroep, kan ondermaats presteren voor een andere.

De methode gaat ook in op een fundamentele vraag bij AI-evaluatie: waarom überhaupt menselijke rechters gebruiken als AI zichzelf zou kunnen evalueren? Bradley merkte op dat zijn bedrijf in bepaalde gebruikssituaties AI-scheidsrechters gebruikt, hoewel hij benadrukte dat menselijke evaluatie de kritische factor blijft.

“We zien het grootste voordeel van slimme orkestratie van zowel LLM-juryleden als menselijke gegevens; beide hebben sterke en zwakke punten die, wanneer ze slim worden gecombineerd, samen beter presteren”, aldus Bradley. “Maar we denken nog steeds dat menselijke data de alfa is. We zijn nog steeds extreem optimistisch dat menselijke data en menselijke intelligentie op de hoogte moeten zijn.”

Wat vertrouwen betekent bij AI-evaluatie

Vertrouwen, Ethiek en Veiligheid meten het vertrouwen van gebruikers in betrouwbaarheid, feitelijke juistheid en verantwoordelijk gedrag. In de methode van HUMAINE is vertrouwen geen claim van een leverancier of een technische maatstaf – het is wat gebruikers melden na blinde interviews met concurrerende modellen.

Het cijfer van 69% vertegenwoordigt de waarschijnlijkheid voor demografische groepen. Deze correlatie is belangrijker dan de totale scores, omdat organisaties verschillende populaties kunnen bedienen.

“Er was geen besef dat ze Gemini in dit scenario gebruikten”, zei Bradley. “Het was gewoon gebaseerd op de verblinde multi-turn respons.”

Dit maakt onderscheid tussen waargenomen vertrouwen en verdiend vertrouwen. Gebruikers beoordeelden modeluitvoer zonder te weten welke leverancier deze produceerde, waardoor het merkvoordeel van Google werd geëlimineerd. Voor klantgerichte implementaties waarbij de AI-leverancier onzichtbaar blijft voor eindgebruikers is dit onderscheid belangrijk.

Wat bedrijven nu moeten doen

Een van de cruciale dingen die bedrijven nu moeten doen bij het overwegen van verschillende modellen, is het omarmen van een evaluatiekader dat werkt.

“Het wordt steeds uitdagender om modellen uitsluitend op basis van vibraties te evalueren”, zegt Bradley. “Ik denk dat we steeds meer rigoureuze, wetenschappelijke benaderingen nodig hebben om echt te begrijpen hoe deze modellen presteren.”

De HUMAINE-gegevens bieden een raamwerk: testen op consistentie tussen gebruiksscenario’s en gebruikersdemografieën, en niet alleen op topprestaties bij specifieke taken. Blinde test om modelkwaliteit te scheiden van merkperceptie. Gebruik representatieve voorbeelden die overeenkomen met uw werkelijke gebruikerspopulatie. Plan voor continue evaluatie naarmate de modellen veranderen.

Voor bedrijven die kunstmatige intelligentie op grote schaal willen inzetten, betekent dit dat ze verder moeten gaan dan ‘welk model het beste is’ naar ‘welk model het beste is voor onze specifieke gebruiksscenario’s, gebruikersdemografie en vereiste kenmerken’.

De nauwkeurigheid van representatieve steekproeven en blinde tests levert de gegevens op om deze vaststelling te maken – iets wat technische benchmarks en op vibraties gebaseerde evaluatie niet kunnen bieden.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in