Een paar weken geleden lanceerde het AI-bedrijf Anthropic publiceerde de grondwet die ze gebruiken om hun Claude LLM op te leiden (“onder s Creative Commons CC0 1.0 Aktewat betekent dat het door iedereen vrijelijk kan worden gebruikt voor welk doel dan ook zonder toestemming te vragen”) het persbericht van het bedrijf:
We brengen een nieuwe grondwet uit voor ons AI-model, Claude. Het is een gedetailleerde beschrijving van de visie van Anthropic op de waarden en het gedrag van Claude; een holistisch document dat de context uitlegt waarin Claude opereert en het soort entiteit dat we willen dat Claude is.
De grondwet is een cruciaal onderdeel van ons modeltrainingsproces, en de inhoud ervan bepaalt rechtstreeks het gedrag van Claude. Het trainen van modellen is een moeilijke taak, en de resultaten van Claude komen niet altijd overeen met de idealen van de grondwet. Maar wij zijn van mening dat de manier waarop de nieuwe Grondwet is geschreven – met een grondige uitleg van onze bedoelingen en de redenen daarachter – het waarschijnlijker maakt om tijdens de training goede waarden te cultiveren.
De volledig document is 80+ pagina’s, maar de persbericht doet goed werk om samen te vatten wat erin zit.
De grondwet van Claude is het fundamentele document dat zowel uitdrukt als vormgeeft wie Claude is. Het bevat gedetailleerde uitleg van de waarden die we willen dat Claude belichaamt en de redenen waarom. Daarin leggen we uit wat het volgens ons voor Claude betekent om behulpzaam te zijn en tegelijkertijd in grote lijnen veilig, ethisch en in overeenstemming met onze richtlijnen te blijven. De grondwet geeft Claude informatie over zijn situatie en geeft advies over hoe om te gaan met moeilijke situaties en afwegingen, zoals het balanceren van eerlijkheid met mededogen en het beschermen van gevoelige informatie. Hoewel het misschien verrassend klinkt, werd de grondwet in de eerste plaats voor Claude geschreven. Het is bedoeld om Claude de kennis en het begrip te geven die hij nodig heeft om goed te kunnen handelen in de wereld.
Wij beschouwen de Grondwet als de uiteindelijke autoriteit voor hoe wij willen dat Claude is en zich gedraagt. Dat wil zeggen dat elke andere training of instructie die aan Claude wordt gegeven consistent moet zijn met zowel de letter als de onderliggende geest ervan. Dit maakt de vrijgave van de grondwet bijzonder belangrijk vanuit een transparantieperspectief: het laat mensen begrijpen welk gedrag van Claude opzettelijk of onopzettelijk is, zodat ze weloverwogen keuzes kunnen maken en nuttige feedback kunnen geven. Wij zijn van mening dat dit soort transparantie steeds belangrijker zal worden naarmate AI’s meer invloed in de samenleving gaan uitoefenen.
Casey Newton en Kevin Roose onlangs geïnterviewd de hoofdauteur van de Grondwet, filosoof Amanda Askell, bij de Hard Fork-podcast (aflevering begint op ~25 min.).
Newton zegt dat het document leest als “een brief van een ouder aan een kind dat misschien gaat studeren”:
En het is alsof we hopen dat je de waarden waarmee je bent opgegroeid met je meeneemt. En we weten dat we er niet zullen zijn om je door elk klein dingetje heen te helpen, maar we vertrouwen je. En veel geluk.
Zowel de Grondwet als het gesprek met Askell zijn fascinerend, ongeacht waar je je bevindt op het continuüm van het AI-debat. Mogelijk bent u ook geïnteresseerd in deze video waarin Askell vragen van Claude-gebruikers over haar werk beantwoordt:



