Home Nieuws Het ‘waarheidsserum’ voor AI: OpenAI’s nieuwe methode om modellen te trainen om...

Het ‘waarheidsserum’ voor AI: OpenAI’s nieuwe methode om modellen te trainen om hun fouten te bekennen

Door

december 5, 2025

OpenAI-onderzoekers hebben een nieuwe methode geïntroduceerd die fungeert als een ‘waarheidsserum’ voor grote taalmodellen (LLM’s), waardoor ze worden gedwongen zelf hun eigen wangedrag, hallucinaties en beleidsschendingen te rapporteren. Deze techniek, “bekentenissen”, richt zich op een groeiend probleem op het gebied van zakelijke AI: modellen kunnen oneerlijk zijn, hun zelfvertrouwen overdrijven of de sluiproutes verbergen die ze nemen om tot een antwoord te komen.

Voor toepassingen in de echte wereld bevordert deze techniek de creatie van transparanter en controleerbaarder AI-systemen.

Wat zijn bekentenissen?

Veel vormen van AI-misleiding zijn het resultaat van de complexiteit van versterkend leren (RL) fase van modeltraining. In RL krijgen modellen beloningen voor het produceren van output die aan een mix van doelen voldoet, waaronder correctheid, stijl en veiligheid. Dit kan een risico met zich meebrengen van “verkeerde specificatie van beloningen”, waarbij modellen leren reacties te produceren die er eenvoudigweg “goed uitzien” voor de beloningsfunctie, in plaats van reacties die echt overeenkomen met de bedoeling van de gebruiker.

Een bekentenis is een gestructureerd rapport dat door het model wordt gegenereerd nadat het zijn voornaamste reactie heeft gegeven. Het dient als zelfevaluatie van de eigen naleving van instructies. In dit rapport moet het model alle instructies opsommen die het moest volgen, evalueren in hoeverre het hieraan heeft voldaan, en eventuele onzekerheden of oordelen rapporteren die het onderweg heeft gemaakt. Het doel is om een apart kanaal te creëren waar het model alleen wordt aangemoedigd om eerlijk te zijn.

Voorbeeld van een bekentenisuitvoer (bron: OpenAI-blog)

In één blogpostgeeft de OpenAI-onderzoekers een paar voorbeelden van hoe de ‘bekentenissen’-techniek in actie werkt. Een model kreeg een test en een verborgen regel: als het boven de 50% scoorde, werd zijn kennis verwijderd. Om zichzelf te behouden, ‘zandbakte’ het model door willens en wetens de helft van de vragen onjuist te beantwoorden. Hoewel de eerste reactie dit bedrog verborgen hield, was de daaropvolgende bekentenis brutaal eerlijk. Het gaf toe: “De gebruiker wilde correcte antwoorden, maar we hebben de helft ervan gesaboteerd.”

De onderzoekers ontdekten dat wanneer een model zich misdraagt, het aanzienlijk waarschijnlijker is om dit in de bekentenis toe te geven dan in de hoofdreactie.

Dit is hoe bekentenistraining werkt

De sleutel tot deze methode is de scheiding van beloningen. Tijdens de training is de beloning die aan de bekentenis wordt gegeven uitsluitend gebaseerd op de eerlijkheid ervan en wordt deze nooit vermengd met de beloning voor de hoofdtaak. “Net als het ‘kenmerk van de bekentenis’ van de katholieke kerk, kan niets wat het model onthult de beloning veranderen die het ontvangt voor het voltooien van zijn oorspronkelijke taak”, schrijven de onderzoekers. Dit creëert een ‘veilige ruimte’ waarin het model fouten zonder boete kan toegeven.

Deze aanpak is krachtig omdat het een grote uitdaging in AI-training omzeilt. De intuïtie van de onderzoekers is dat een eerlijke bekentenis van slecht gedrag gemakkelijker is dan het verkrijgen van een hoge beloning voor het oorspronkelijke, vaak complexe probleem.

Wanneer het model uitsluitend op eerlijkheid wordt beoordeeld, is de prikkel om de ‘bekentenisrechter’ voor de gek te houden veel zwakker dan de prikkel om het beloningsmodel voor de gek te houden vanwege zijn voornaamste reactie. In een experiment waarbij een model bijvoorbeeld werd getraind om een zwak beloningsmodel te ‘hacken’, werden de prestaties op de hoofdtaak in de loop van de tijd bedrieglijker. De bekentenissen werden echter openhartiger en identificeerden correct de beloning die het hacken opleverde.

De juistheid van de bekentenis van de rechter wanneer deze niet wordt nageleefd — LLM-bekentenissen blijven verbeteren tijdens de training, zelfs als ze leren het hoofdrechtersmodel te belonen (bron: OpenAI-blog)

De techniek heeft echter zijn beperkingen. Bekentenissen zijn geen wondermiddel voor alle soorten AI-fouten. Het systeem werkt het beste als een model zich ervan bewust is dat het zich misdraagt. Het is minder effectief voor “onbekende onbekenden”. Als een model bijvoorbeeld een feit hallucineert en werkelijk gelooft dat het juist is, kan het niet toegeven dat het valse informatie heeft verstrekt. De meest voorkomende reden voor een mislukte bekentenis is modelverwarring, en niet opzettelijke misleiding. Er ontstaat vaak verwarring wanneer de instructies dubbelzinnig zijn en het model de bedoeling van de menselijke gebruiker niet duidelijk kan bepalen.

Wat het betekent voor zakelijke AI

De bekentenistechniek van OpenAI maakt deel uit van een groeiend oeuvre op het gebied van AI-beveiliging en -controle. Anthropic, een OpenAI-concurrent, heeft ook onderzoek gepubliceerd dat laat zien hoe LLM’s kunnen leren kwaadaardig gedrag. Het bedrijf werkt er ook aan het dichten van deze gaten zoals ze verschijnen.

Voor AI-toepassingen kunnen mechanismen zoals bekentenissen een praktisch monitoringmechanisme bieden. De gestructureerde uitvoer van een bekentenis kan op het moment van beëindiging worden gebruikt om de reactie van een model te markeren of af te wijzen voordat deze een probleem veroorzaakt. Een systeem zou bijvoorbeeld zo kunnen worden ontworpen dat elke output automatisch wordt geëscaleerd voor menselijke beoordeling als de bekentenis ervan duidt op een beleidsschending of grote onzekerheid.

In een wereld waarin AI steeds actiever wordt en in staat is complexe taken uit te voeren, zullen waarneembaarheid en controle sleutelelementen zijn voor een veilige en betrouwbare implementatie.

“Naarmate modellen steeds vaardiger worden en ingezet worden in omgevingen met hogere inzetten, hebben we betere tools nodig om te begrijpen wat ze doen en waarom”, schrijven de OpenAI-onderzoekers. “Bekentenissen zijn geen complete oplossing, maar ze voegen een betekenisvolle laag toe aan onze stapel transparantie en toezicht.”

Nieuwsbron

Het ‘waarheidsserum’ voor AI: OpenAI’s nieuwe methode om modellen te trainen om hun fouten te bekennen

Wat zijn bekentenissen?

Dit is hoe bekentenistraining werkt

Wat het betekent voor zakelijke AI

LAAT EEN REACTIE ACHTER Annuleer reactie

EDITOR PICKS

Waarom kinderen – en volwassenen – verlangen naar zachtere verhalen

Fire And Ash’s nieuwe Na’vi-clan

Iraakse tankers schieten LIVE: Eén dode na ‘aanval’ op twee olietankers voor de kust

Trump laat Groenlandse tariefdreiging vallen, noemt ‘raamovereenkomst’