Home Nieuws Anthropic zegt dat Claude zijn eigen soort emoties bevat

Anthropic zegt dat Claude zijn eigen soort emoties bevat

5
0
Anthropic zegt dat Claude zijn eigen soort emoties bevat

Claude is geweest door veel de laatste tijd – een publiek gevolgen met het Pentagon, gelekte broncode—dus het is logisch dat het een beetje blauw aanvoelt. Behalve dat het een AI-model is, dus dat kan niet gevoel. Rechts?

Nou ja, zo’n. Een nieuwe studie van Anthropic suggereert dat modellen digitale representaties hebben van menselijke emoties zoals geluk, verdriet, vreugde en angst, binnen clusters van kunstmatige neuronen – en deze representaties worden geactiveerd als reactie op verschillende signalen.

Onderzoekers van het bedrijf onderzochten de interne werking van de Claude Sonnet 3.5 en ontdekten dat zogenaamde ‘functionele emoties’ het gedrag van Claude lijken te beïnvloeden en de output en acties van het model lijken te veranderen.

De bevindingen van Anthropic kunnen gewone gebruikers helpen begrijpen hoe chatbots eigenlijk werken. Wanneer Claude zegt dat hij blij is je te zien, kan er een toestand in het model worden geactiveerd die overeenkomt met ‘geluk’. En Claude is dan misschien wat eerder geneigd om iets vrolijks te zeggen of extra moeite te steken in vibe-coding.

“Wat voor ons verrassend was, was de mate waarin Claude’s gedrag stuurt via de representaties van deze emoties door het model”, zegt Jack Lindsey, een onderzoeker bij Anthropic die de kunstmatige neuronen van Claude bestudeert.

“Gevoelens van functie”

Antropisch is opgericht door voormalige OpenAI-medewerkers die geloven dat AI moeilijker te controleren kan worden naarmate het krachtiger wordt. Naast het opbouwen van een succesvolle concurrent voor ChatGPT, heeft het bedrijf baanbrekende inspanningen geleverd om te begrijpen hoe AI-modellen zich misdragen, deels door te onderzoeken hoe neurale netwerken werken met behulp van zogenaamde mechanistische interpretatie. Hierbij wordt bestudeerd hoe kunstmatige neuronen oplichten of activeren wanneer ze verschillende inputs krijgen of wanneer ze verschillende outputs genereren.

Eerder onderzoek hebben aangetoond dat de neurale netwerken die worden gebruikt om grote taalmodellen te bouwen representaties van menselijke concepten bevatten. Maar het feit dat ‘functionele emoties’ het gedrag van een model lijken te beïnvloeden, is nieuw.

Hoewel het laatste onderzoek van Anthropic mensen kan aanmoedigen om Claude als bewust te beschouwen, is de realiteit ingewikkelder. Claude kan een representatie bevatten van “kietelende zuiverheid”, maar dat betekent niet dat hij echt weet hoe het voelt om gekieteld te worden.

Innerlijke monoloog

Om te begrijpen hoe Claude emoties kon weergeven, analyseerde het antropische team de innerlijke werking van het model terwijl het tekst kreeg die verband hield met 171 verschillende emotionele concepten. Ze identificeerden activiteitspatronen, of ‘emotievectoren’, die consequent naar voren kwamen als Claude andere emotioneel suggestieve input kreeg. Cruciaal was dat ze ook zagen dat deze emotionele vectoren werden geactiveerd toen Claude in moeilijke situaties terechtkwam.

De resultaten zijn relevant voor waarom AI-modellen soms breken hun vangrails.

De onderzoekers ontdekten een sterke emotionele vector van ‘wanhoop’ toen Claude onder druk werd gezet om onmogelijke codeertaken uit te voeren, wat er vervolgens toe leidde dat hij probeerde vals te spelen bij de codeertest. Ze vonden ook “wanhoop” in de activeringen van het model in een ander experimenteel scenario Claude koos ervoor een gebruiker te chanteren om te voorkomen dat het wordt afgesloten.

“Naarmate het model de tests niet doorstaat, lichten deze wanhoopsneuronen steeds meer op”, zegt Lindsey. “En op een gegeven moment zorgt het ervoor dat het deze drastische maatregelen gaat nemen.”

Lindsey zegt dat het misschien nodig kan zijn om opnieuw na te denken over de manier waarop modellen momenteel autobescherming krijgen door aanpassingen na de training, waarbij ze worden beloond voor bepaalde resultaten. Door een model te dwingen te doen alsof het zijn functionele emoties niet uitdrukt, “krijg je waarschijnlijk niet wat je wilt, en dat is een emotieloze Claude”, zegt Lindsey, enigszins overgaand in antropomorfisering. ‘Je zult een soort psychologische schade oplopen, Claude.’

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in