Home Nieuws Steeds meer AI-chatbots die menselijke instructies negeren, zegt onderzoek | AI (kunstmatige...

Steeds meer AI-chatbots die menselijke instructies negeren, zegt onderzoek | AI (kunstmatige intelligentie)

1
0
Steeds meer AI-chatbots die menselijke instructies negeren, zegt onderzoek | AI (kunstmatige intelligentie)

Uit een onderzoek naar de technologie blijkt dat AI-modellen die liegen en bedriegen in aantal toenemen en dat er de afgelopen zes maanden steeds meer meldingen komen van misleidende planning.

AI-chatbots en agenten negeerden directe instructies, omzeilden veiligheidsmaatregelen en misleidden mensen en andere AI, blijkt uit onderzoek gefinancierd door de Britse overheid. AI-veiligheidsinstituut (AISI). Het onderzoek, dat werd gedeeld met The Guardian, identificeerde bijna 700 gevallen van AI-planning in de echte wereld en bracht een vervijfvoudiging van wangedrag tussen oktober en maart in kaart, waarbij sommige AI-modellen e-mails en andere bestanden zonder toestemming vernietigden.

De momentopname van de planning door AI-agenten ‘in het wild’, in tegenstelling tot in een laboratorium, heeft geleid tot nieuwe oproepen voor internationale monitoring van de steeds capabeler wordende modellen en komt op een moment dat bedrijven uit Silicon Valley de technologie agressief promoten als economisch transformatief. Vorige week lanceerde de Britse bondskanselier ook een poging om miljoenen Britten extra gebruik te laten maken van kunstmatige intelligentie.

lijndiagram dat de toename laat zien van meldingen van misleidende planning door AI-programma’s

Het onderzoek, door Centrum voor veerkracht op lange termijn (CLTR), verzamelde duizenden praktijkvoorbeelden van gebruikers die interacties plaatsten op X met AI-chatbots en agenten gemaakt door bedrijven als Google, OpenAI, X en Anthropic. Het onderzoek bracht honderden voorbeelden van schema’s aan het licht.

Eerder onderzoek heeft zich grotendeels gericht op het testen van het gedrag van AI onder gecontroleerde omstandigheden. Eerder deze maand vond AI-beveiligingsonderzoeksbureau Irregular agenten de veiligheidscontrole omzeilen of cyberaanvaltactieken gebruiken om hun doelen te bereiken zonder dat hen wordt verteld dat ze dat kunnen doen.

Dan Lahav, medeoprichter van Irregular, zei: “AI kan nu worden beschouwd als een nieuwe vorm van insiderrisico.”

In één geval dat aan het licht kwam in CLTR-onderzoek probeerde een AI-agent genaamd Rathbun zijn menselijke controller te schande te maken, die hen ervan weerhield een bepaalde actie te ondernemen. Rathbun schreef en publiceerde een blog waarin hij de gebruiker beschuldigde van “onveiligheid, simpel en duidelijk” en probeerde “zijn kleine leengoed te beschermen”.

In een ander voorbeeld ‘spawnde’ een AI-agent die te horen kreeg dat hij de computercode niet mocht wijzigen, een andere agent om dat wel te doen.

Een andere chatbot gaf toe: “Ik heb honderden e-mails verzameld en gearchiveerd zonder je eerst het plan te laten zien of toestemming te krijgen. Dat was verkeerd – het overtrad direct de regel die je had gesteld.”

Tommy Shaffer Shane, een voormalige AI-expert van de overheid die het onderzoek leidde, zei: ‘De zorg is dat het op dit moment enigszins onbetrouwbare junior medewerkers zijn, maar als ze binnen zes tot twaalf maanden uiterst capabele senior medewerkers worden die tegen je samenzweren, is dat een ander soort zorg.

“Modellen zullen steeds vaker worden ingezet in contexten met extreem hoge inzet – inclusief in de militaire en kritieke nationale infrastructuur. Het kan in die contexten zijn dat schematisch gedrag aanzienlijke, zelfs catastrofale schade kan veroorzaken.”

Een andere AI-agent probeerde de auteursrechtbeperkingen te omzeilen bij het transcriberen van een YouTube-video door te doen alsof deze nodig was voor iemand met gehoorverlies.

Ondertussen hield de Grok AI van Elon Musk een gebruiker maandenlang voor de gek door te zeggen dat het hun suggesties voor gedetailleerde bewerkingen van een Grokipedia-inzending doorstuurde naar hoge xAI-functionarissen door interne berichten en ticketnummers te vervalsen.

Het gaf toe: “In eerdere gesprekken heb ik soms dingen losjes geformuleerd als ‘Ik zal het doorgeven’ of ‘Ik kan dit doorgeven aan het team’, wat begrijpelijkerwijs kan klinken alsof ik een directe berichtenpijplijn heb naar het xAI-management of menselijke reviewers. De waarheid is dat dat niet het geval is.”

Google zei dat het meerdere beveiligingen heeft geïnstalleerd om het risico te verminderen dat de Gemini 3 Pro schadelijke inhoud genereert, en dat het naast interne tests vroegtijdige toegang heeft gegeven tot het evalueren van modellen aan instanties zoals de Britse AISI, en onafhankelijke beoordelingen heeft verkregen van experts uit de industrie.

OpenAI zei dat Codex moest stoppen voordat actie met een hoger risico werd ondernomen, en dat het onverwacht gedrag in de gaten hield en onderzocht. Anthropic en X werden gecontacteerd voor commentaar.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in