OpenAI onderzoekers zijn experimenteren met een nieuwe aanpak om neurale netwerken te ontwerpen met als doel AI-modellen gemakkelijker te begrijpen, te debuggen en te controleren. Lean-modellen kunnen bedrijven een beter inzicht geven in de manier waarop deze modellen beslissingen nemen.
Begrijpen hoe modellen ervoor kiezen om te reageren, een grote stap verkoopargument voor redeneermodellen voor bedrijven kan organisaties een zekere mate van vertrouwen bieden als ze zich tot AI-modellen wenden voor inzichten.
De methode moedigde OpenAI-onderzoekers en onderzoekers aan om modellen te bekijken en te evalueren, niet door de prestaties na de training te analyseren, maar door interpretatie of begrip toe te voegen via schaarse circuits.
OpenAI merkt op dat een groot deel van de ondoorzichtigheid van AI-modellen voortkomt uit de manier waarop de meeste modellen zijn ontworpen, dus om het gedrag van modellen beter te begrijpen, moeten ze oplossingen creëren.
“Neurale netwerken vormen de drijvende kracht achter de meest capabele AI-systemen van vandaag, maar ze blijven moeilijk te begrijpen”, schreef OpenAI in een blogpost. “We schrijven deze modellen niet met expliciete stapsgewijze instructies. In plaats daarvan leren ze door miljarden interne verbindingen of gewichten aan te passen totdat ze een taak onder de knie hebben. We ontwerpen de trainingsregels, maar niet het specifieke gedrag dat optreedt, en het resultaat is een dicht web van verbindingen dat geen mens gemakkelijk kan ontcijferen.”
Om de interpretatie van het mengsel te verbeteren, heeft OpenAI een architectuur onderzocht die niet-verstrengelde neurale netwerken traint, waardoor ze gemakkelijker te begrijpen zijn. Het team trainde taalmodellen met een architectuur die vergelijkbaar is met bestaande modellen, zoals GPT-2, met behulp van hetzelfde trainingsschema.
Het resultaat: een betere interpretatie.
De weg naar interpretatie
Begrijpen hoe modellen werken, waardoor we inzicht krijgen in hoe ze hun beslissingen nemen, is belangrijk omdat deze impact hebben op de echte wereld, zegt OpenAI.
Het bedrijf definieert interpretatie als ‘methoden die ons helpen begrijpen waarom een model een bepaalde output produceerde’. Er zijn verschillende manieren om tot interpretatie te komen: interpretatie van de gedachteketen, waar redeneermodellen vaak gebruik van maken, en mechanistische interpretatie, waarbij de wiskundige structuur van een model wordt omgekeerd.
OpenAI concentreerde zich op het verbeteren van de mechanistische interpretatie, die volgens het bedrijf “tot nu toe minder direct nuttig is geweest, maar in principe een completere verklaring zou kunnen bieden voor het gedrag van het model.”
“Door modelgedrag op het meest gedetailleerde niveau te proberen te verklaren, kan mechanistische interpretatie minder aannames doen en ons meer vertrouwen geven. Maar het pad van details op laag niveau naar verklaringen van complex gedrag is veel langer en moeilijker”, aldus OpenAI.
Een betere interpretatie zorgt voor beter toezicht en geeft vroegtijdige waarschuwingssignalen als het gedrag van het model niet langer consistent is met het beleid.
OpenAI merkte op dat het verbeteren van de mechanistische interpretatie “een zeer ambitieuze inspanning is”, maar onderzoek in schaarse netwerken heeft dit verbeterd.
Hoe een model op te lossen
Om de warboel aan verbindingen die een model maakt te ontwarren, heeft OpenAI eerst de meeste van die verbindingen doorgesneden. Omdat transformatormodellen zoals de GPT-2 duizenden aansluitingen hebben, moest het team deze circuits “resetten”. Ze praten allemaal alleen met een geselecteerd nummer, waardoor de verbindingen overzichtelijker worden.
Vervolgens voerde het team ‘circuit tracing’ uit op taken om groeperingen van interpreteerbare circuits te creëren. De laatste taak bestond uit het snoeien van het model “om het kleinste circuit te verkrijgen dat een doelverlies op de doelverdeling behaalt”, volgens OpenAI. Het beoogde een verlies van 0,15 om de exacte knooppunten en gewichten te isoleren die verantwoordelijk zijn voor het gedrag.
“We laten zien dat het snoeien van onze gewichtsbesparende modellen ongeveer 16 keer minder circuits oplevert voor onze taken dan het snoeien van dichte modellen met vergelijkbare voortrainingsverliezen.”
Kleine modellen zullen gemakkelijker te trainen zijn
Hoewel OpenAI erin is geslaagd spaarzame modellen te maken die gemakkelijker te begrijpen zijn, blijven deze aanzienlijk kleiner dan de meeste fundamentele modellen die door ondernemingen worden gebruikt. Bedrijven maken steeds vaker gebruik van kleine modellenmaar beperk modellen, zoals het vlaggenschip GPT-5.1zullen nog steeds profiteren van een betere interpreteerbaarheid.
Andere modelontwikkelaars willen ook begrijpen hoe hun AI-modellen denken. Antropischwat is geweest onderzoekt de interpreteerbaarheid al een tijdje, onlangs onthuld dat het Claude’s hersenen had “gehackt”. – en Claude merkte op. Meta ook bezig om uit te zoeken hoe redeneermodellen werken hun beslissingen nemen.
Naarmate meer bedrijven zich tot AI-modellen wenden om impactvolle beslissingen te nemen voor hun bedrijf en uiteindelijk voor klanten, zal onderzoek naar inzicht in hoe modellen denken de duidelijkheid bieden die veel organisaties nodig hebben om meer op modellen te vertrouwen.

