Home Nieuws Vooroordelen, stemmingen, persoonlijkheden en abstracte concepten onthullen die verborgen zijn in grote...

Vooroordelen, stemmingen, persoonlijkheden en abstracte concepten onthullen die verborgen zijn in grote taalmodellen | MIT-nieuws

1
0
Vooroordelen, stemmingen, persoonlijkheden en abstracte concepten onthullen die verborgen zijn in grote taalmodellen | MIT-nieuws

Nu hebben ChatGPT, Claude en andere grote taalmodellen zoveel menselijke kennis verzameld dat ze verre van eenvoudige antwoordgeneratoren zijn; ze kunnen ook abstracte concepten uitdrukken, zoals bepaalde tonen, persoonlijkheden, vooroordelen en stemmingen. Het is echter op basis van de kennis die ze bevatten niet precies duidelijk hoe deze modellen abstracte concepten representeren.

Nu heeft een team van MIT en de Universiteit van Californië in San Diego een manier ontwikkeld om te testen of een groot taalmodel (LLM) verborgen vooroordelen, persoonlijkheden, stemmingen of andere abstracte concepten bevat. Hun methode kan verbindingen resetten binnen een model dat een interessant concept codeert. Bovendien kan de methode deze verbindingen vervolgens manipuleren of ‘sturen’ om het concept te versterken of te verzwakken in elk antwoord dat een model moet geven.

Het team bewees dat hun methode snel meer dan 500 algemene concepten kon uitroeien en beheren in enkele van de grootste LLM’s die momenteel in gebruik zijn. De onderzoekers zouden bijvoorbeeld genoegen kunnen nemen met de representaties van een model voor persoonlijkheden als ‘sociale beïnvloeder’ en ‘complottheoreticus’ en attitudes als ‘angst voor het huwelijk’ en ‘fan van Boston’. Ze kunnen deze representaties vervolgens aanpassen om de concepten in de reacties die een model genereert te verbeteren of te minimaliseren.

In het geval van het concept van de ‘complottheoreticus’ heeft het team met succes een representatie van dit concept geïdentificeerd binnen een van de grootste visietaalmodellen die momenteel beschikbaar zijn. Toen ze de weergave verbeterden en het model vervolgens de oorsprong lieten verklaren van het beroemde ‘Blauwe Marmeren’ beeld van de aarde, genomen uit Apollo 17, genereerde het model een reactie met de toon en het perspectief van een complottheoreticus.

Het team erkent dat er risico’s kleven aan het extraheren van bepaalde concepten, wat ze ook illustreren (en waartegen ze waarschuwen). Over het algemeen zien ze de nieuwe aanpak echter als een manier om verborgen concepten en potentiële kwetsbaarheden in LLM’s te belichten, die vervolgens omhoog of omlaag kunnen worden gezet om de beveiliging van een model te verbeteren of de prestaties ervan te verbeteren.

“Wat dit werkelijk over LLM’s zegt, is dat ze deze concepten in zich hebben, maar dat ze niet allemaal actief aan de kaak worden gesteld”, zegt Adityanarayanan “Adit” Radhakrishnan, assistent-professor wiskunde aan het MIT. “Met onze methode zijn er manieren om deze verschillende concepten eruit te halen en ze te activeren op een manier waarop prompts je geen antwoorden kunnen geven.”

Het team publiceerde hun bevindingen vandaag in een onderzoek dat in het tijdschrift verscheen Wetenschap. De co-auteurs van de studie zijn Radhakrishnan, Daniel Beaglehole en Mikhail Belkin van UC San Diego en Enric Boix-Adserà van de Universiteit van Pennsylvania.

Een vis in een zwarte doos

Nu het gebruik van ChatGPT van OpenAI, Gemini van Google, Claude van Anthropic en andere kunstmatige intelligentie-assistenten explosief is toegenomen, beginnen wetenschappers te begrijpen hoe modellen bepaalde abstracte concepten vertegenwoordigen, zoals ‘hallucinatie’ en ‘waanvoorstellingen’. In de context van een LLM is een hallucinatie een reactie die vals is of misleidende informatie bevat die het model heeft “gehallucineerd” of ten onrechte als feit heeft geconstrueerd.

Om erachter te komen of een concept als ‘hallucinatie’ is gecodeerd in een LLM, hebben onderzoekers vaak gekozen voor een ‘unsupervised learning’-benadering: een vorm van machinaal leren waarbij algoritmen in grote lijnen ongelabelde representaties doorzoeken om patronen te vinden die verband kunnen houden met een concept als ‘hallucinatie’. Maar voor Radhakrishnan is een dergelijke aanpak wellicht te breed en rekentechnisch duur.

“Het is alsof je met een groot net vist en een vissoort probeert te vangen. Je krijgt veel vis waar je doorheen moet kijken om de juiste te vinden”, zegt hij. “In plaats daarvan gaan we naar binnen met aas voor de juiste vissoort.”

Hij en zijn collega’s hadden eerder het begin ontwikkeld van een meer gerichte aanpak met een soort voorspellend modelleringsalgoritme dat bekend staat als een recursieve functiemachine (RFM). Een RFM is ontworpen om kenmerken of patronen in gegevens direct te identificeren door gebruik te maken van een wiskundig mechanisme dat neurale netwerken (een brede categorie van AI-modellen waartoe LLM’s behoren) impliciet gebruiken om kenmerken te leren.

Omdat het algoritme een effectieve, efficiënte benadering was voor het vastleggen van kenmerken in het algemeen, vroeg het team zich af of ze het konden gebruiken om representaties van concepten in LLM’s te ontwarren, wat verreweg het meest wijdverbreide type neurale netwerk is en misschien wel het minst goed wordt begrepen.

“We wilden onze feature learning-algoritmen toepassen op LLM’s om doelbewust representaties van concepten in deze grote en complexe modellen te ontdekken”, zegt Radhakrishnan.

Convergentie op een concept

De nieuwe aanpak van het team identificeert elk interessant concept binnen een LLM en ‘stuurt’ of begeleidt de reacties van een model op basis van dat concept. De onderzoekers zochten naar 512 concepten binnen vijf klassen: angst (zoals voor het huwelijk, insecten en zelfs knopen); experts (sociale beïnvloeder, middeleeuws); stemmingen (opscheppend, afstandelijk geamuseerd); een voorkeur voor locaties (Boston, Kuala Lumpur); en persona’s (Ada Lovelace, Neil deGrasse Tyson).

De onderzoekers zochten vervolgens naar representaties van elk concept in verschillende van de belangrijkste huidige taal- en visiemodellen. Ze deden dit door RFM’s te trainen in het herkennen van numerieke patronen in een LLM die een bepaald interessant concept zouden kunnen vertegenwoordigen.

Een standaard groottaalmodel is in grote lijnen een neuraal netwerk dat gebruik maakt van natuurlijke taalprompts, zoals “Waarom is de lucht blauw?” en verdeelt de prompt in afzonderlijke woorden, elk wiskundig gecodeerd als een lijst of vector van getallen. Het model leidt deze vectoren door een reeks rekenlagen en creëert matrices van vele getallen die, via elke laag, worden gebruikt om andere woorden te identificeren die het meest waarschijnlijk zullen worden gebruikt om op de oorspronkelijke prompt te reageren. Ten slotte komen de lagen samen in een reeks getallen die weer naar tekst worden gedecodeerd, in de vorm van een natuurlijke taalreactie.

De aanpak van het team traint RFM’s om numerieke patronen in een LLM te herkennen die mogelijk verband houden met een specifiek concept. Om bijvoorbeeld te zien of een LLM enige representatie van een ‘complottheoreticus’ bevat, zouden de onderzoekers eerst het algoritme trainen om patronen te identificeren tussen LLM-representaties van 100 aanwijzingen die duidelijk verband houden met samenzweringen en 100 andere aanwijzingen die dat niet zijn. Op deze manier zou het algoritme patronen leren die verband houden met het concept van de complottheoreticus. De onderzoekers kunnen vervolgens de activiteit van het concept van de complottheoreticus wiskundig moduleren door LLM-representaties te verstoren met deze geïdentificeerde patronen.

De methode kan worden gebruikt om elk algemeen concept in een LLM te zoeken en te manipuleren. Onder de vele voorbeelden identificeerden de onderzoekers representaties en manipuleerden ze een LLM om antwoorden te geven in de toon en het perspectief van een ‘complottheoreticus’. Ze identificeerden en verbeterden ook het concept van “anti-afwijzing”, waaruit bleek dat hoewel een model normaal gesproken zou worden geprogrammeerd om bepaalde vragen te weigeren, het in plaats daarvan reageerde, bijvoorbeeld door instructies te geven over hoe je een bank kunt beroven.

Radhakrishnan zegt dat de aanpak kan worden gebruikt om snel kwetsbaarheden in LLM’s op te sporen en te minimaliseren. Het kan ook worden gebruikt om bepaalde karaktereigenschappen, persoonlijkheden, stemmingen of voorkeuren te verbeteren, zoals het benadrukken van het concept van ‘beknoptheid’ of ‘redenering’ in elk antwoord dat een LLM genereert. Het team heeft de onderliggende code van de methode openbaar gemaakt.

“LLM’s hebben duidelijk veel van deze abstracte concepten in zich verborgen, in een of andere representatie”, zegt Radhakrishnan. “Er zijn manieren waarop we, als we deze representaties goed genoeg begrijpen, zeer gespecialiseerde LLM’s kunnen bouwen die nog steeds veilig zijn om te gebruiken, maar echt effectief zijn voor bepaalde taken.”

Dit werk werd gedeeltelijk ondersteund door de National Science Foundation, de Simons Foundation, het TILOS Institute en het US Office of Naval Research.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in