Home Nieuws De belangrijkste benchmark van AI in 2026? Vertrouwen

De belangrijkste benchmark van AI in 2026? Vertrouwen

Door

januari 2, 2026

In 2026 (en daarna) zal de beste maatstaf voor grote taalmodellen niet MMLU, AgentBench of GAIA zijn. Het zal zo zijn vertrouwen-iets AI zal opnieuw moeten worden opgebouwd voordat het in grote lijnen nuttig en waardevol kan zijn voor zowel consumenten als bedrijven.

Onderzoekers identificeren er verschillende vormen van AI-vertrouwen. Bij mensen die chatbots als metgezellen of vertrouwelingen gebruiken, meten ze het gevoel dat de AI welwillend of integer is. Bij mensen die AI gebruiken productiviteit of zakelijk, ze meten iets dat ‘competentievertrouwen’ wordt genoemd, of de overtuiging dat de AI accuraat is en de feiten niet hallucineert. Ik zal me concentreren op de tweede soort.

Het vertrouwen in competentie kan groeien of krimpen. Een gebruiker van een AI-tool begint heel rationeel met het geven van eenvoudige taken aan de AI – misschien feiten opzoeken of lange documenten samenvatten. Als de AI het goed doet met deze dingen, denkt de gebruiker natuurlijk ‘wat kan ik hier nog meer mee doen?’ Ze kunnen de AI een iets moeilijkere taak geven. Als AI de zaken goed blijft doen, groeit het vertrouwen. Als de AI faalt of een antwoord van lage kwaliteit geeft, zal de gebruiker twee keer nadenken over het proberen de taak de volgende keer te automatiseren.

Stap vooruit, stap achteruit

De huidige AI-chatbots, aangedreven door grote generatieve AI-modellen, zijn veel beter dan de chatbots die we in 2023 en 2024 hadden. Maar AI-tools beginnen nog maar net vertrouwen op te bouwen bij de meeste gebruikers en de meeste C-suite managers, die hopen dat de tools de bedrijfsfuncties zullen stroomlijnen. Mijn eigen vertrouwen in chatbots is in 2025 gegroeid. Maar het is ook afgenomen.

Voorbeeld: Ik ging een lang gesprek aan met een van de populaire chatbots over de inhoud van een lang document. De AI maakte een aantal interessante observaties over het werk en stelde een aantal verstandige manieren voor om lacunes op te vullen. Toen maakte het een opmerking die iets leek tegen te spreken waarvan ik wist dat het in het document stond.

Toen ik op de ontbrekende gegevens wees, gaf het onmiddellijk zijn fout toe. Toen ik hem (opnieuw) vroeg of hij het hele document had verwerkt, bleef hij volhouden dat dit het geval was. Een andere AI-chatbot stuurde een onderzoeksrapport terug dat volgens hem gebaseerd was op twintig bronnen. Maar er waren geen citaten in de tekst die specifieke uitspraken aan specifieke bronnen koppelden. Nadat het de citaten in de tekst had toegevoegd, merkte ik dat de AI op twee plaatsen voor een belangrijk feit had vertrouwd op een enkele, niet erg geloofwaardige bron.

Ik heb geleerd dat AI-modellen nog steeds moeite hebben met lange chats met grote hoeveelheden informatie, en niet goed zijn in het vertellen aan de gebruiker wanneer ze zich in een gesprek bevinden. De ervaring heeft mijn vertrouwen in de tools aangepast.

Worstelen met onduidelijkheid

Nu we 2026 ingaan, bevindt het verhaal van generatieve AI zich nog in de beginfase. Het verhaal begon met AI-laboratoria die modellen ontwikkelden die konden converseren, schrijven en samenvatten. Nu lijken de grote AI-laboratoria erop te vertrouwen dat AI-agenten autonoom complexe taken kunnen uitvoeren, tools kunnen gebruiken en hun werk kunnen controleren aan de hand van deskundige gegevens. Ze lijken er vertrouwen in te hebben dat de agenten binnenkort met menselijk oordeel om kunnen gaan met dubbelzinnigheid.

Als grote bedrijven erop gaan vertrouwen dat deze agenten dergelijke taken op betrouwbare wijze uitvoeren, zou dit enorme inkomsten betekenen voor het AI-bedrijf dat ze heeft ontwikkeld. Op basis van hun huidige investeringen van honderden miljarden in AI-infrastructuur lijken de AI-bedrijven en hun financiers te geloven dat deze uitkomst dichtbij is.

Zelfs als AI morgen intellect op menselijk niveau zou kunnen toevoegen aan zakelijke scenario’s, kan het nog steeds enige tijd duren om vertrouwen op te bouwen onder besluitvormers en werknemers. Tegenwoordig is het vertrouwen in kunstmatige intelligentie niet groot. Adviesbureau KPMG ondervroeg 48.000 mensen in 47 landen (waarvan twee derde regelmatig AI gebruikt) en gevonden dat hoewel 83% gelooft dat AI nuttig zal zijn, slechts 46% daadwerkelijk de resultaten van AI-tools vertrouwt. Sommigen hebben misschien een vals vertrouwen in de technologie: tweederde van de respondenten zegt soms de output van AI te vertrouwen zonder de nauwkeurigheid ervan te evalueren.

Maar ik betwijfel of AI-agenten klaar zijn om complexe taken uit te voeren en met dubbelzinnigheid om te gaan zoals menselijke experts dat kunnen. Naarmate AI door meer mensen en bedrijven wordt gebruikt, zullen ze in verschillende contexten een universum van unieke problemen tegenkomen die ze nog nooit eerder hebben gezien. Ik betwijfel of de huidige AI-agenten de manieren van mensen en de wereld goed genoeg begrijpen om zich een weg door dergelijke situaties te banen. Nog niet in ieder geval.

Beperkingen van de modellen

Feit is dat AI-bedrijven dezelfde soort (op transformatoren gebaseerde) AI-modellen gebruiken om de redenering te ondersteunen die ze gebruikten voor vroege chatbots die in wezen woordgeneratoren waren. De kernfunctie van dergelijke modellen, en het doel van al hun trainingen, is het voorspellen van het volgende woord (of pixel of audiobit) in een reeks, CEO van Microsoft AI (en medeoprichter van Google DeepMind) Mustafa Süleyman uitgelegd in een recente podcast. “Het gebruikt de zeer eenvoudige functie voor het voorspellen van de waarschijnlijkheid van woorden om te simuleren hoe het is om een goed gesprek te voeren of complexe vragen te beantwoorden,” zei hij.

Suleyman en anderen betwijfelen het. Suleyman is van mening dat de huidige modellen geen rekening houden met enkele van de belangrijkste drijfveren achter de dingen die mensen zeggen en doen. “Natuurlijk zouden we verwachten dat iets dat de kenmerken van intelligentie heeft, ook de onderliggende synthetische fysiologie heeft die wij hebben, maar dat is niet het geval”, zei Suleyman. “Er is geen pijnnetwerk. Er is geen emotioneel systeem. Er is geen innerlijke wil, drang of verlangen.”

AI-pionier (en Turing Award-winnaar) Yann LeCun zegt dat de huidige LLM’s nuttig genoeg zijn om op waardevolle manieren te worden gebruikt, maar gelooft dat ze nooit de algemene of menselijke intelligentie zullen bereiken die nodig is om het werkelijk waardevolle werk te doen waar AI-bedrijven op hopen. Om paden door de echte wereld te leren aanvoelen, zou de AI een trainingsprogramma met een veel grotere bandbreedte nodig hebben dan alleen woorden, afbeeldingen en computercode, zegt LeCun. Misschien moeten ze de wereld leren kennen via iets dat meer lijkt op de multisensorische ervaring die baby’s hebben, en moeten ze het griezelige vermogen bezitten om al die informatie snel te verwerken en op te slaan, zoals baby’s dat kunnen, zegt hij.

Suleyman en LeCun hebben het misschien mis. Bedrijven als OpenAI en Anthropic kunnen intelligentie op menselijk niveau bereiken met behulp van modellen waarvan de oorsprong in taal ligt.

AI-beheer is belangrijk

Ondertussen is competentie slechts één factor in het AI-vertrouwen onder zakelijke gebruikers. Bedrijven gebruiken governanceplatforms om te controleren of en hoe AI-systemen bijvoorbeeld problemen met de naleving van de regelgeving kunnen veroorzaken of het bedrijf kunnen blootstellen aan het risico van cyberaanvallen. “Als het gaat om kunstmatige intelligentie, willen grote ondernemingen het vertrouwen van klanten, investeerders en toezichthouders”, zegt Navrina Singh, oprichter en CEO van bestuursplatform Credo AI. “AI-governance vertraagt ons niet, het is het enige dat meetbaar vertrouwen mogelijk maakt en intelligentie in staat stelt op te schalen zonder de wereld te vernietigen.”

Ondertussen zal het tempo waarin mensen taken delegeren aan AI worden gematigd door vertrouwen. AI-tools moeten worden ingezet voor taken waar ze goed in zijn, zodat het vertrouwen in de resultaten groeit. Het zal tijd vergen, en het is een bewegend doelwit omdat AI voortdurend verbetert. Het ontdekken en delegeren van nieuwe taken aan kunstmatige intelligentie, het monitoren van de resultaten en het bijstellen van de verwachtingen zal in de 21e eeuw hoogstwaarschijnlijk een routineonderdeel van het werk worden.

Nee, kunstmatige intelligentie zal het bedrijfsleven volgend jaar niet plotseling in één keer opnieuw uitvinden. 2026 zal niet “het jaar van de agent” zijn. Het zal tien jaar duren voordat AI-tools zichzelf bewijzen en gehard zijn in de strijd. Vertrouwen is het genezende middel.

Nieuwsbron

De belangrijkste benchmark van AI in 2026? Vertrouwen

Stap vooruit, stap achteruit

Worstelen met onduidelijkheid

Beperkingen van de modellen

AI-beheer is belangrijk

LAAT EEN REACTIE ACHTER Annuleer reactie

EDITOR PICKS

Hoe managers een cultuur van hoge agency kunnen opbouwen

Te midden van de horror in Iran onthult een expert hoe moslims Jezus in...

MORNING GLORY: Legacy-media leren op de harde manier dat gratis beats geen nieuws zijn

Hoeveel samenwerking de creativiteit vernietigt – en hoe je dit kunt oplossen