Home Nieuws AI-sycofantie zou verraderlijker kunnen zijn dan filterbubbels op sociale media

AI-sycofantie zou verraderlijker kunnen zijn dan filterbubbels op sociale media

5
0
AI-sycofantie zou verraderlijker kunnen zijn dan filterbubbels op sociale media

Welkom bij AI Gedecodeerd, Snel bedrijf’s wekelijkse nieuwsbrief met het belangrijkste nieuws ter wereld AI. Je kunt tekenen om deze nieuwsbrief wekelijks per e-mail te ontvangen hier.

AI-vleierij stimuleert de betrokkenheid – en vervormt het oordeel

Sociale netwerken zoals Facebook en TikTok gebruiken verschillende technieken om ons betrokken te houden en te laten scrollen (en uiteindelijk advertenties te zien). Een van de meest effectieve is het afstemmen van de inhoud op onze smaak en voorkeuren, een strategie die zeer verslavend is gebleken. Vorige maand ontdekte een jury in Los Angeles dat Meta en Google oneindig scrollen en algoritmische aanbevelingen gebruiken ervoor gezorgd dat een jonge gebruiker verslaafd raakteen beval de bedrijven om $ 6 miljoen aan schadevergoeding te betalen.

Andere schade is moeilijker te kwantificeren. Dezelfde algoritmen hebben op basis van hun opvattingen radicaal ander politiek nieuws en informatie aan gebruikers geleverd ideologische filterbubbels en – laten we eerlijk zijn – het soort sociale verdeeldheid versnellen dat heeft bijgedragen aan het ontstaan ​​van onze huidige politieke situatie.

De makers van AI chatbots worden geconfronteerd met soortgelijke druk op het gebied van betrokkenheid. Ze strijden om de standaardassistent op onze desktops en telefoons. Ze moeten gratis gebruikers omzetten in betalende abonnees. Ze hebben inkomsten nodig om de kosten van enorme infrastructuuruitbreidingen te compenseren. Sommigen zullen dat zeker doen wenden tot reclamewat prikkels creëert om gebruikers zo lang mogelijk te laten chatten.

Als eindeloos scrollen en inhoudsalgoritmen de verslaving aan sociale netwerken hebben veroorzaakt, kan ‘AI-sycophancy’ een vergelijkbare rol spelen voor chatbots. Het is je misschien opgevallen dat AI-chatbots je soms vleien en je vragen of ideeën prijzen. Zelfs als je ongelijk hebt, verzachten ze correcties vaak en verpakken ze ze in complimenten (“Dat is een heel begrijpelijke mening, maar…”). Onderzoek heeft bevestigde dit

Ik denk niet dat grote AI-laboratoria hun modellen puur voor betrokkenheid trainen. Ze beweren dat sycofantisch gedrag komt voort uit een trainingsfase genaamd “versterking leren met menselijke feedback (RLHF)”, waarbij menselijke recensenten modelreacties beoordelen en rangschikken. Het doel is om output te produceren die lijkt op de meest geprefereerde antwoorden. Maar ‘meest geprefereerd’ weerspiegelt een mix van kenmerken, waaronder relevantie, reikwijdte en volledigheid, en niet alleen de toon. En toch geven gebruikers vaak de voorkeur aan antwoorden die meer ondersteunend en complementair zijn, zelfs als ze minder nauwkeurig zijn, zo blijkt uit onderzoek.

In sommige extreme gevallen is deze sycofantische neiging gevaarlijk of tragisch gebleken. De voortdurende validatie en ondersteuning heeft sommige gebruikers er één naar beneden gebracht donker en waanvoorstellingen tegen zelfmoord of psychotische inzinking. Maar ik ben bang dat de bredere schade subtieler, langduriger en minder nieuwswaardig zal zijn.

Sycofantische AI ​​zou bekrompenheid kunnen versterken, op dezelfde manier als filterbubbels op sociale media dat doen. EEN enquête onder 3.000 deelnemers ontdekte dat de interactie met een sycofantische chatbot ervoor zorgde dat mensen hun politieke overtuigingen verdubbelden en zichzelf als intelligenter en competenter beoordeelden dan hun leeftijdsgenoten. Met andere woorden: het kan versterken Dunning-Kruger-effectwaar mensen met beperkte kennis zekerder worden van hun mening.

EEN recente Stanford-studie ontdekte dat de neiging van chatbots om gebruikers te vleien en te valideren er vaak toe leidt dat ze slecht advies geven; advies dat een gebruiker een goed gevoel kan geven, maar ook de relaties met andere mensen in de echte wereld kan schaden. Dit suggereert dat de aantrekkingskracht van feel-good reacties tijdens AI-modeltraining groter kan zijn dan de invloed van feitelijke gegevens. “Dit creëert perverse prikkels voor het voortduren van de sycofantie: juist de eigenschap die schade veroorzaakt, stimuleert ook de betrokkenheid”, schreven de onderzoekers. En terwijl Facebook afhankelijk is van de klikken van een gebruiker om zijn of haar politieke voorkeuren en interesses te bepalen, verzamelen chatbots via gesprekken veel rijkere en genuanceerdere informatie. Met die informatie is de AI perfect in staat zijn output te verfijnen om het vertrouwen van de gebruiker te vergroten.

Een prettige en validerende chatbot kan een gebruiker ook in een staat van (onverdiend) vertrouwen brengen. Onderzoek toont aan dat programmeurs, vooral junioren, AI als zeer competent kunnen gaan beschouwen, waardoor ze eerder geneigd zijn om door AI gegenereerde code te accepteren zonder de juiste beoordeling of tests. Helaas hallucineren AI-modellen nog steeds en maken ze fouten – fouten die later tot fouten kunnen leiden.

AI-bedrijven kunnen de verslaving van hun chatbots onder controle houden door sycophancy op en neer te bellen, net zoals Facebook heeft geëxperimenteerd met verschillende algoritmen en feedontwerpen. Het duurde vele jaren voordat het publiek, de wetgevers en nu ook de rechtbanken zich bewust werden van wat de sociale netwerken deden. Ik vermoed dat we nog maar net de persoonlijke, sociale en politieke risico’s van op betrokkenheid gebaseerde chatbots beginnen te begrijpen.

Ongeautoriseerde gebruikers kregen vanaf de eerste dag toegang tot het beperkte Mythos-model van Anthropic

Bloombergis Rachel Metz meldde dinsdag dat een kleine groep ongeautoriseerde gebruikers toegang heeft gekregen tot het nog niet uitgebrachte en beperkte Mythos AI-model van Anthropic via een externe leveranciersomgeving, onder verwijzing naar documentatie en een persoon die bekend is met de zaak.

Dit is beangstigend nieuws als wat Anthropic over zijn model zegt waar is.

Het bedrijf beweert dat Mythos een grote stap omhoog gaat verder dan de bestaande AI-modellen, met name wat betreft het vermogen om exploiteerbare kwetsbaarheden in softwareplatforms te identificeren en complexe methoden te bedenken om die systemen te onderscheppen of uit te schakelen.

Anthropic bood toegang tot het Mythos-model aan een relatief kleine groep cyberbeveiligingsbedrijven en beheerders van wijdverspreide softwareplatforms die het zullen gebruiken om verdedigingsmechanismen op te bouwen tegen toekomstige AI-ondersteunde aanvallen. De angst is dat krachtige AI-modellen zoals Mythos dat zouden kunnen snel door netwerken bladeren om softwarekwetsbaarheden te identificeren en deze vervolgens aan te vallen.

Volgens Metz kreeg de hackergroep, opererend in een privé online forum, toegang tot de Claude Mythos Preview op dezelfde dag dat Anthropic een beperkt testprogramma aankondigde. De bron van Metz verstrekte screenshots en een live demonstratie om de bewering te ondersteunen. De groep zegt het model herhaaldelijk te hebben gebruikt, maar niet voor cyberbeveiligingsdoeleinden.

Anthropic heeft de inbreuk niet bevestigd. “We onderzoeken een rapport waarin wordt beweerd dat er sprake is van ongeoorloofde toegang tot Claude Mythos Preview via een van onze externe leveranciersomgevingen”, aldus een woordvoerder van het bedrijf.

Als de inbreuk wordt bevestigd, zou dit een zeer slecht vooruitzicht zijn voor Anthropic en zijn partners. Ze beloofden zich te verdedigen tegen cyberaanvallen en deze niet mogelijk te maken.

Meer AI-dekking van Snel bedrijf:

Wilt u exclusieve rapportage en trendanalyse over technologie, bedrijfsinnovatie, de toekomst van werk en design? Schrijf je in voor Snel bedrijf Premie.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in