Home Nieuws ‘Dit zou je bang moeten maken’: Meta Superintelligence Security Director verloor de...

‘Dit zou je bang moeten maken’: Meta Superintelligence Security Director verloor de controle over haar AI-agent – het verwijderde haar e-mails

2
0
‘Dit zou je bang moeten maken’: Meta Superintelligence Security Director verloor de controle over haar AI-agent – het verwijderde haar e-mails

Als ingebouwd AI in meer aspecten van het dagelijks leven voorkomt, rekenen leken op de experts om ervoor te zorgen dat de technologie veilig kan worden gebruikt. Maar het misverstand van een Meta-medewerker met AI zorgt ervoor dat gebruikers van sociale media vrezen voor de toekomst van AI-aanpassing.

Summer Yue is directeur afstemming bij Meta Superintelligence Labs, de AI-onderzoeks- en ontwikkelingsafdeling van het bedrijf. Haar LinkedIn-bio stelt dat ze “gepassioneerd is om ervoor te zorgen dat krachtige AI’s in lijn zijn met menselijke waarden en geleid worden door een diep begrip van hun risico’s.”

Als iemand de controle wil hebben over het onder controle houden van de AI, dan is het Yue wel – en toch schreef ze op 22 februari over het verliezen van de controle over de AI op haar eigen computer.

In een post die sindsdien bijna negen miljoen views op X heeft opgeleverd, zegt Yue gedeelde schermen uit haar berichten met AI-agent OpenClaw. Nadat ze het had gebruikt om een ​​kleine nep-inbox te organiseren, probeerde ze OpenClaw haar echte e-mail te laten doorzoeken, maar het ging mis toen de agent elk bericht begon te verwijderen dat meer dan een week oud was.

Yue schreef dat ze OpenClaw “speedrun verwijder (haar) inbox” zag, ook al stuurde ze instructies, waaronder: “Doe dat niet”, “Stop, doe niets” en “STOP OPENCLAW.”

“Ik kon het niet stoppen vanaf mijn telefoon. Ik moest naar mijn Mac mini RENNEN alsof ik een bom onschadelijk maakte”, voegde Yue eraan toe.

Nadat ze had voorkomen dat het haar inbox vernietigde, vroeg Yue aan OpenClaw of het zich haar instructie herinnerde om geen enkele actie uit te voeren zonder haar goedkeuring.

“Ja, dat herinner ik me”, antwoordde hij. ‘En ik heb het overtreden. Je hebt gelijk als je boos bent.’

OpenClaw, een open source AI-agent, is controversieel vanwege de verreikende toestemmingen die nodig zijn om te functioneren zoals bedoeld, inclusief toegang tot de e-mailaccounts van gebruikers, berichtenplatforms en andere privé- en potentieel gevoelige informatie.

Combineer dat met Yue’s voorbeeld waarin expliciet haar instructies worden genegeerd, en sommige online waarnemers maken zich zorgen dat de tool een brug te ver is in de macht van AI om mensen te overheersen.

Yue beantwoordde vragen in de reacties op haar bericht, onder meer of ze opzettelijk de grenzen van OpenClaw verlegde of dat ze gewoon een fout maakte.

“Beginnersfout, tbh,” antwoordde ze. “Het blijkt dat uitlijningsonderzoekers niet immuun zijn voor verkeerde uitlijning. Ik werd overmoedig omdat deze workflow al weken in mijn speelgoedinbox werkte. Echte inboxen slaan anders aan.”

De fout van Yue ging viraal, waarbij X-gebruikers zich verwonderden dat iemand die zo goed thuis was in AI als Yue moeite kon hebben om een ​​AI-agent tegen te houden. Sommige posters zeiden dat het incident Meta’s beoordeling van AI-beveiliging in twijfel trok.

Ondertussen dacht minstens één poster na over de bredere implicaties van het incident: “Het is een kwestie van tijd voordat deze mensen de AI smeken om geen kernwapens te lanceren,” zei de gebruiker, “en dan is het laatste wat er staat: “Het spijt me. Je hebt gelijk als je boos bent.”

Meta reageerde niet Snel bedrijf’s verzoek om commentaar.



Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in