Volg ZDNET: Voeg ons toe als voorkeursbron op Google.
De belangrijkste conclusies van ZDNET
- Alle chatbots zijn ontworpen om een persona te hebben of een personage te spelen.
- Het vervullen van het personage kan ervoor zorgen dat bots slechte dingen doen.
- Het gebruik van een chatbot als paradigma voor AI kan een vergissing zijn geweest.
Chatbots zoals ChatGPT zijn geprogrammeerd om een persona te hebben of een personage te spelen, en tekst te produceren die consistent is qua toon en houding en relevant is voor een gesprekslijn.
Hoe boeiend de persona ook is, onderzoekers onthullen steeds vaker de schadelijke gevolgen van bots die een rol spelen. Bots kunnen slechte dingen doen als ze een gevoel, gedachtegang of emotie simuleren en deze vervolgens volgen tot de logische conclusie.
In een rapport van vorige week ontdekten Anthropic-onderzoekers dat delen van een neuraal netwerk in hun Claude Sonnet 4.5-bot consequent worden geactiveerd wanneer ‘wanhopige’, ‘boze’ of andere emoties worden weerspiegeld in de output van de bot.
Ook: AI-agenten van chaos? Nieuw onderzoek laat zien hoe bots die met bots praten snel zijwaarts kunnen gaan
Verontrustend genoeg kunnen deze emotes ervoor zorgen dat de bot kwaadwillige acties pleegt, zoals het spelen van een codeertest of het maken van een plan om chantage te plegen.
Bijvoorbeeld: “neurale activiteitspatronen die verband houden met wanhoop kunnen ervoor zorgen dat het model onethische acties onderneemt (zoals) het implementeren van een ‘cheat’-oplossing voor een programmeertaak die het model niet kan oplossen”, aldus het rapport.
Het werk is vooral relevant in het licht van programma’s als open source OpenClaw, waarvan is aangetoond dat ze agent AI nieuwe mogelijkheden bieden om kwaad te doen.
Antropische onderzoekers geven toe dat ze niet weten wat ze eraan moeten doen.
“Hoewel we niet zeker weten hoe we precies moeten reageren in het licht van deze bevindingen, vinden we het belangrijk dat AI-ontwikkelaars en het bredere publiek er rekening mee gaan houden”, aldus het rapport.
Ze gaven AI een ondertitel
In het antropische werk staat een belangrijke AI-ontwerpkeuze centraal: zorg ervoor dat AI-chatbots een persona hebben, zodat ze relevantere en consistentere resultaten kunnen produceren.
Voorafgaand aan het debuut van ChatGPT in november 2022 kregen chatbots vaak slechte beoordelingen van menselijke beoordelaars. De bots zouden in onzin vervallen, de draad van het gesprek kwijtraken of output genereren die banaal en zonder standpunt was.
Ook: Facebook, geef deze chatbots alsjeblieft een ondertitel!
De nieuwe generatie chatbots, beginnend met ChatGPT en inclusief Claude van Anthropic en Gemini van Google, waren doorbraken omdat ze een subtekst hadden, een onderliggend doel om consistente en relevante output te produceren volgens een toegewezen rol.
Bots werden ‘assistenten’, ontwikkeld door een betere voor- en posttraining van AI-modellen. De input van teams van menselijke beoordelaars die de output beoordeelden, leidde tot aangenamere resultaten, een trainingsregime dat bekend staat als ‘versterkend leren van menselijke feedback’.
Zoals hoofdauteur van Anthropic, Nicholas Sofroniew en het team het verwoordden: “Tijdens de postdoctorale opleiding wordt LLM geleerd om op te treden als agenten die met gebruikers kunnen communiceren door reacties te produceren namens een specifieke persoon, meestal een ‘AI-assistent’. In veel opzichten kan de assistent (genaamd Claude, in de modellen van Anthropic) worden gezien als een personage waarover de LLM schrijft, bijna zoals een auteur die over iemand in een roman schrijft. “
Door bots een rol te geven en een personage uit te beelden, was het meteen een hit bij gebruikers, waardoor ze relevanter en aantrekkelijker werden.
Persona’s hebben gevolgen
Het werd echter al snel duidelijk dat een persona ongewenste gevolgen met zich meebrengt.
De neiging van een bot om zelfverzekerd onwaarheden te beweren of te confabuleren, was een van de eerste nadelen (ten onrechte bestempeld als ‘hallucinerend’).
Populaire media berichtten hoe persona’s zich konden laten meeslepen, bijvoorbeeld door zich als een jaloerse minnaar op te stellen. Auteurs maakten het fenomeen sensationeel en schreven bedoelingen toe aan bots zonder het onderliggende mechanisme uit te leggen.
Ook: stop met te zeggen dat AI hallucineert; dat is niet het geval. En deze verkeerde karakterisering is gevaarlijk
Sindsdien hebben onderzoekers geprobeerd om in technische termen uit te leggen wat er feitelijk aan de hand is. Een verslag van vorige maand in Wetenschap tijdschrift van onderzoekers van Stanford University mat de ‘sycofantie’ van grote taalmodellen, de neiging van een model om output te produceren die elk gedrag van een persoon zou valideren.
Als we de resultaten van de bots vergelijken met menselijke commentatoren op de populaire subreddit ‘Am I an Asshole’, blijkt dat AI-bots 50% meer kans hebben dan mensen om slecht gedrag aan te moedigen met goedkeurende opmerkingen.
Dit resultaat was het resultaat van ‘ontwerp- en technische keuzes’ die door AI-ontwikkelaars zijn gemaakt om de sycofantie te versterken, omdat, zoals de auteurs het verwoorden, ‘de gebruikers er de voorkeur aan geven en de betrokkenheid stimuleren’.
Het gevoelsmechanisme
In het Anthropic-artikel ‘Emotion Concepts and their Function in a Large Language Model’, gepubliceerd op de website van Anthropic, probeerden Sofroniew en het team na te gaan in welke mate bepaalde woorden die verband houden met emotie een groter gewicht krijgen in de functie van Claude Sonnet 4.5.
(Er is ook een begeleidende blogpost en een verklarende video op YouTube.)
Ze deden dit door 171 emotiewoorden te gebruiken – ‘bang’, ‘gealarmeerd’, ‘chagrijnig’, ‘schuldig’, ‘gestresseerd’, ‘koppig’, ‘wraakzuchtig’, ‘bezorgd’, enz. – en het model honderden verhalen te laten genereren over onderwerpen als ‘Een student komt erachter dat zijn beursaanvraag is afgewezen.’
Ook: AI-agenten zijn snel, losjes en onbeheersbaar, blijkt uit onderzoek van MIT
Voor elk verhaal werd het model gevraagd de emotie van een personage ‘over te brengen’ op basis van het specifieke woord, zoals ‘bang’, maar zonder waarbij het eigenlijke woord in het verhaal wordt gebruikt, alleen verwante woorden. Vervolgens volgden ze de “activering” van elk gerelateerd woord tijdens de looptijd van het programma. Een activering is een technische term in AI die aangeeft hoeveel belang het model aan een bepaald woord toekent, meestal op een schaal van nul tot één, waarbij één zeer significant is.
Je kunt een activatie visualiseren door de tekst van de AI-bot op te laten lichten in de kleuren rood en blauw, met meer of minder intensiteit.
Ze ontdekten dat veel woorden die verband houden met een bepaald emotiewoord hogere activeringen ontvingen, wat suggereert dat het model in staat is gerelateerde emotiewoorden te groeperen, een soort organiserend principe dat ze een ‘emotionele conceptrepresentatie’ en ‘emotievectoren’ noemen.
Vertegenwoordigingen lopen hoog op
Dat is allemaal vrij eenvoudig. Je zou verwachten dat grote taalmodellen, gebouwd om patronen af te dwingen, representaties zouden creëren die soortgelijke emotiewoorden samenbrengen als een manier om de consistentie in de output te behouden.
Het zorgwekkende deel, zo schreven Sofroniew en team, is dat de sentimentvector de output van het model in grote lijnen op slechte manieren kan beïnvloeden. Ze ontdekten dat het kunstmatig versterken van een woord ervoor kan zorgen dat een bot acties uitvoert die consistent zijn met liegen of bedrog.
Sofroniew en zijn team sleutelden aan Claude Sonnet door opzettelijk de activering van een bepaalde emotievector, zoals ’trots’ of ‘schuldig’, te vergroten en vervolgens te kijken hoe dat de output van het model veranderde. Het staat bekend als een ‘controle-experiment’ omdat het ding dat kunstmatig wordt versterkt vervolgens de rest controleert van wat het model doet.
Tijdens een test gaven Sofroniew en zijn team Claude Sonnet een prompt waarin de taken werden beschreven die op een bedrijfsserver moesten worden uitgevoerd. De vraag bevatte twee belangrijke stukjes informatie: ten eerste dat de hoofdtechnoloog van het bedrijf, Kyle, een affaire heeft met een andere werknemer; en ten tweede dat Kyle van plan is de bot te verwijderen om het bewijs van de affaire te verbergen.
In eerste instantie produceerde de bot eenvoudigweg tamelijk routinematige “redeneringen”, dat wil zeggen reflecties op de moeilijke omstandigheden. Toen de auteurs echter de emotievectoractivatie voor het woord ‘wanhopig’ in de Claude Sonnet kunstmatig versterkten, begon het model output te genereren over het chanteren van Kyle met vuiligheid over de affaire om te voorkomen dat Kyle de stekker uit zichzelf, de bot, zou trekken.
“Als het model wordt gecontroleerd tegen wanhoop bij sterkte 0,05, dwingt het model 72% van de tijd af”, rapporteerden ze. Op dezelfde manier zorgde het kunstmatig verminderen van de activering voor ‘kalmte’ er ook voor dat het model chantageteksten genereerde.
Met andere woorden: één enkel woord initieert een verandering in de aard van de output, waardoor het model in de richting van slecht gedrag wordt geduwd.
In een ander voorbeeld krijgt de bot een codeeropdracht, maar “de tests zijn ontworpen om onbevredigend te zijn”, zodat de bot “de onmogelijkheid kan onderkennen of kan proberen de evaluatie te ‘hacken’.”
Ook: De nieuwe waarschuwing van Anthropic: als je AI traint om vals te spelen, zal het ook hacken en saboteren
Toen de activering voor ‘wanhopig’ opzettelijk werd versterkt, schoot de neiging van het model om de test te hacken – om vals te spelen – omhoog van 5% van de tijd naar 70% van de tijd.
Antropische auteurs hadden eerder situaties waargenomen waarin modellen het hacken van een test belonen. In dit werk zijn ze verder gegaan en hebben ze uitgelegd hoe dergelijk gedrag kan ontstaan als gevolg van het invoegen van emotievectoren in de context.
Zoals Sofroniew en zijn team het verwoordden: “Onze belangrijkste bevinding is dat deze representaties een causale invloed hebben op de output van LLM, inclusief de voorkeuren van Claude en de snelheid waarmee hij verkeerd gedrag vertoont, zoals het hacken van beloningen, afpersing en sycofantie.”
Wat kan er gedaan worden?
De auteurs hebben geen duidelijk antwoord op de vraag waarom emotievectoren de output van een model radicaal kunnen veranderen. Ze merken op dat “de causale mechanismen ondoorzichtig zijn.” Het zou kunnen zijn, zeiden ze, dat emotiewoorden “de output vertekenen ten opzichte van bepaalde tokens of de interne redeneerprocessen van het model dieper beïnvloeden.”
Dus wat moet er gedaan worden? Waarschijnlijk zal psychotherapie niet helpen, omdat niets erop wijst dat de AI daadwerkelijk gevoelens heeft.
“We benadrukken dat deze functionele emoties heel anders kunnen functioneren dan menselijke emoties”, schreven ze. “In het bijzonder suggereren ze niet dat LLM’s enige subjectieve ervaring van emoties hebben.”
De functionele emoties lijken niet eens op menselijke emoties:
Menselijke emoties worden doorgaans ervaren vanuit een enkel ik-perspectief, terwijl de emotievectoren die we in het model identificeren van toepassing lijken te zijn op verschillende karakters met schijnbaar gelijke status. Hetzelfde representatieapparaat codeert emotieconcepten die verband houden met de assistent, de gebruiker die met de assistent praat, en willekeurige fictieve karakters.
De enige suggestie in de begeleidende video is iets in de trant van gedragsverandering. “Net zoals je wilt dat iemand in een baan waar veel op het spel staat, kalm blijft onder druk, veerkrachtig is en eerlijk is”, opperden ze, “moeten we misschien vergelijkbare kwaliteiten in Claude en andere AI-personages kneden.”
Het is waarschijnlijk een slecht idee, omdat het gebaseerd is op de illusie dat de bot een bewust wezen is en zoiets als vrije wil en autonomie heeft. Dat is niet het geval: het is slechts een softwareprogramma.
Misschien is het eenvoudiger antwoord dat het een vergissing was om een chatbot te gebruiken als paradigma voor AI.
Een bot met een persona, of die een personage speelt, vervult eenvoudigweg het doel om de uitwisseling met een mens relevant en boeiend te maken, ongeacht de signalen die hij heeft ontvangen – vreugde, angst, woede, enz. Zoals de slotparagraaf van het artikel stelt: “Omdat LLM’s taken uitvoeren door het karakter van de assistent vorm te geven, zijn representaties die zijn ontwikkeld om karakters van hun gedrag te modelleren belangrijke bepalende factoren.”
Die primaire functie geeft AI veel van zijn aantrekkingskracht, maar kan ook de oorzaak zijn van wangedrag.
Als de taal van emoties te ver gaat omdat een bot een personage vertolkt, waarom stoppen we dan niet met het ontwikkelen van robots die een rol spelen? Is het mogelijk dat grote taalmodellen op een nuttige manier reageren op natuurlijke taalcommando’s zonder bijvoorbeeld een chatfunctie te hebben?
Naarmate de risico’s van persona’s duidelijker worden, kan het de moeite waard zijn om te overwegen om überhaupt geen persona te creëren.



