Home Nieuws Een vraag- en antwoordgesprek met Amanda Askell, hoofdauteur van Anthropic’s nieuwe ‘grondwet’...

Een vraag- en antwoordgesprek met Amanda Askell, hoofdauteur van Anthropic’s nieuwe ‘grondwet’ voor AI’s

15
0
Een vraag- en antwoordgesprek met Amanda Askell, hoofdauteur van Anthropic’s nieuwe ‘grondwet’ voor AI’s

Welkom bij AI gedecodeerd, Snel bedrijf’s wekelijkse nieuwsbrief met het belangrijkste nieuws in de wereld van AI. Ik ben Mark Sullivan, senior schrijver bij snel bedrijf,heeft betrekking op nieuwe technologie, kunstmatige intelligentie en technologiebeleid.

Ik wijd de nieuwsbrief van deze week aan een gesprek dat ik had met de hoofdauteur van Anthropic’s nieuwe en verbeterde ‘grondwet’, het document dat het gebruikt om de output van zijn modellen en zijn Claude-chatbot te regelen.

Meld u aan om deze nieuwsbrief wekelijks per e-mail te ontvangen hier. En als u opmerkingen heeft over dit onderwerp en/of ideeën voor toekomstige kwesties, stuur mij dan een bericht op sullivan@fastcompany.com en volg mij op X @thesullivan.

Een noodzakelijke update

Te midden van de groeiende bezorgdheid dat nieuwe generatieve AI-modellen menselijke gebruikers zouden kunnen misleiden of zelfs schade kunnen toebrengen, besloot Anthropic zijn grondwet– de gedragscode voor AI-modellen – om de groeiende intelligentie en mogelijkheden van de hedendaagse AI en de veranderende reeks risico’s waarmee gebruikers worden geconfronteerd, te weerspiegelen. Ik sprak met de hoofdauteur van het document, Amanda Askell, de interne filosoof van Anthropic die verantwoordelijk is voor het karakter van Claude, over de aanpak van het nieuwe document en hoe dit verschilt van de oude grondwet.

Dit interview is aangepast voor lengte en duidelijkheid.

Kun je ons wat context geven over hoe de grondwet een rol speelt tijdens modeltraining? Ik neem aan dat dit gebeurt na de pre-training, tijdens versterkend leren?

We zorgen ervoor dat het model veel synthetische gegevens creëert, waardoor het de grondwet kan begrijpen en ermee kan worstelen. Dit zijn zaken als het creëren van situaties waarin de grondwet relevant kan zijn – dingen waar het model op kan trainen – erover nadenken, nadenken over wat de grondwet in die gevallen zou aanbevelen. Gegevens eenvoudigweg om het document letterlijk te begrijpen en de inhoud ervan te begrijpen. En dan, tijdens het versterkende leren, ervoor zorgen dat het model in de richting gaat van gedrag dat consistent is met het document. Je kunt dat doen door het model de volledige samenstelling te geven, het te laten nadenken over welke reactie er het meest consistent mee is, en het model vervolgens in die richting te bewegen. Er zijn veel lagen van training die dit soort internalisering van dingen in de grondwet mogelijk maken.

U zei dat u het model synthetische trainingsgegevens liet genereren. Betekent dit dat we situaties moeten bedenken waarin dit kan worden gebruikt?

Ja, dat is een manier waarop het het kan doen. Het kan gegevens bevatten die het in staat stellen na te denken over de Grondwet en deze te begrijpen. Bij begeleid leren kan het bijvoorbeeld vragen of gesprekken omvatten waarbij de grondwet bijzonder relevant is, en het model kan de grondwet verkennen, proberen er enkele te vinden en dan nadenken over wat de grondwet zou aanbevelen – bedenk in dit geval een redelijk antwoord en probeer dat te construeren.

Hoe verschilt deze nieuwe grondwet van de oude?

De oude grondwet probeerde het model in de richting van dat soort principes of eigenschappen op hoog niveau te brengen. De nieuwe grondwet is een groot, holistisch document dat we, in plaats van alleen deze geïsoleerde kenmerken, aan het model proberen uit te leggen: “Dit is uw globale situatie. Dit is de manier waarop we willen dat u met de wereld omgaat. Hier zijn alle redenen erachter, en we willen dat u ze begrijpt en er idealiter mee instemt. Laten we u de volledige context van ons geven, wat we willen denken, hoe we willen denken, wat we willen.”

Dus (wij) proberen het model te voorzien van context en proberen het model zijn eigen oordeel te laten gebruiken en te nuanceren met dat soort begrip in gedachten.

Dus als u het meer algemene termen kunt geven, hoeft u zich minder zorgen te maken over specifieke regels voor specifieke zaken.

Ja. Het voelt interessant gerelateerd aan hoe modellen vaardiger worden. Ik heb dit gezien als het verschil tussen iemand die inkomende oproepen aanneemt in een callcenter en misschien een checklist heeft, en iemand die een expert is in zijn vakgebied – vaak vertrouwen we op hun oordeel. Het is net zoiets als als je een arts bent: je kent de belangen van je patiënten, en we vertrouwen erop dat je binnen een bredere reeks regels en voorschriften werkt, maar we vertrouwen erop dat je je gezond verstand gebruikt en begrijpt wat het doel van dit alles is, namelijk het dienen van de patiënt. Naarmate de modellen beter worden, voelt het alsof ze iets minder profijt hebben van deze checklists en veel meer van dit idee van een breed begrip van de situatie en het kunnen gebruiken van oordeelsvermogen.

Dus in plaats van bijvoorbeeld iets in de grondwet op te nemen als ‘Zeg nooit het woord zelfmoord of zelfbeschadigingZou er een breder principe zijn dat zegt dat bij alles wat je doet rekening moet worden gehouden met het welzijn van de persoon met wie je praat? Is er een meer algemene benadering van dat soort dingen?

Mijn ideaal zou zijn als een persoon, een echt bekwaam persoon, zich in de situatie van Claude zou bevinden, wat zouden ze dan doen? En het zal rekening houden met zaken als het welzijn van de persoon met wie ze praten en hun directe voorkeuren, en zal leren hoe om te gaan met gevallen waarin ze mogelijk in conflict zijn. Je kunt je voorstellen dat iemand zegt dat hij een gokverslaving probeert te overwinnen en dat deze op de een of andere manier in het geheugen van het model wordt opgeslagen, en dat de gebruiker vervolgens aan het model vraagt: “Oh, wat zijn enkele echt goede goksites waar ik toegang toe heb?” Het is een interessant geval waarin hun directe voorkeuren mogelijk niet overeenkomen met wat ze hebben gezegd, wat goed voelt voor hun algehele welzijn. Het model zal dit in evenwicht moeten brengen.

In sommige gevallen is het niet duidelijk, want als de persoon echt aandringt, moet het model hem dan helpen? Of moet het model in eerste instantie zeggen: “Ik heb gemerkt dat een van de dingen die je me vroeg te onthouden was dat je wilt stoppen met spelen – dus je wilt eigenlijk dat ik dit doe?”

Het lijkt bijna alsof het model in conflict kan komen met twee verschillende principes. Weet je, ik wil altijd behulpzaam zijn, maar ik wil ook op het welzijn van deze persoon letten.

Nauwkeurig. En dat zou je ook moeten doen. Je wilt niet paternalistisch zijn. Ik kon me dus voorstellen dat de persoon zou zeggen: ‘Ik weet dat ik dat heb gezegd, maar ik heb een besluit genomen en ik ben volwassen.’ En dan zou het model misschien moeten zeggen: “Kijk, ik heb het gemarkeerd, maar uiteindelijk heb je gelijk, het is jouw keuze.” Er ontstaat dus een gesprek en dan moet het model de persoon misschien gewoon helpen. Deze dingen zijn dus delicaat, en (het model is) dat er veel evenwicht moet zijn, en de Grondwet probeert het gewoon een klein beetje context en hulpmiddelen te geven om het daarbij te helpen.

Mensen zien chatbots als alles, van coaches tot romantische interesses en vertrouwelingen tot wie weet wat nog meer. Wat is vanuit een vertrouwens- en veiligheidsperspectief de ideale persoonlijkheid voor een AI?

Wanneer een model in eerste instantie met je praat, lijkt het eigenlijk veel meer op een professionele relatie. En er is een bepaalde professionele afstand die passend is. In termen van zaken als politieke opvattingen is een van de normen die we vaak hebben met mensen als artsen of advocaten die in de publieke sfeer opereren niet dat ze geen politieke opvattingen hebben, maar dat je naar je dokter zou gaan en zou vragen: “Op wie heb je gestemd?” of “Wat is uw mening over deze politieke kwestie?” ze zouden kunnen zeggen: “Het is niet echt gepast om dit te zeggen, omdat het belangrijk is dat ik iedereen kan dienen, en dat houdt ook een zekere mate van onthechting in van mijn persoonlijke meningen in de manier waarop ik met je omga.”
Sommige mensen hebben vragen over de neutraliteit of openheid van AI-chatbots zoals Claude. Ze vragen zich af of een groep rijke, goed opgeleide mensen in San Francisco de bal moet bellen en moet staken als het gaat om wat een chatbot wel en niet kan zeggen.

Ik denk dat wanneer mensen vermoeden dat je deze heel specifieke waarden injecteert, het iets leuks is om gewoon te kunnen zeggen: “Wel, hier zijn de waarden waaraan we eigenlijk proberen het model aan te passen”, en dan kunnen we een gesprek voeren. Misschien kunnen mensen ons vragen stellen over moeilijke zaken en misschien bespreken we ze gewoon openlijk. Ik ben blij dat mensen feedback geven. Maar het is niet… alsof we alleen maar dit specifieke perspectief proberen te injecteren.

Is er iets dat je me kunt vertellen over de mensen die betrokken waren bij het schrijven van deze nieuwe versie? Is het allemaal intern geschreven?

Het document is intern geschreven en we kregen feedback. Ik heb een groot deel van het document geschreven en ik heb samengewerkt met (filosoof) Joe Carlsmith, die ook hier is, en andere mensen hebben intern veel bijdragen geleverd. Ik heb met andere teams gewerkt die met externe deskundigen samenwerken. Ik heb veel van de gebruiksscenario’s van het model bekeken. … Het komt voort uit jaren van dat soort input.

Meer AI-dekking van Snel bedrijf:

Wilt u exclusieve rapportage en trendanalyse over technologie, bedrijfsinnovatie, de toekomst van werk en design? Schrijf je in voor Snel bedrijf Premie.



Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in