Home Nieuws OpenAI zegt dat AI-browsers altijd kwetsbaar kunnen zijn voor snelle injectie-aanvallen

OpenAI zegt dat AI-browsers altijd kwetsbaar kunnen zijn voor snelle injectie-aanvallen

24
0
OpenAI zegt dat AI-browsers altijd kwetsbaar kunnen zijn voor snelle injectie-aanvallen

Hoewel OpenAI eraan werkt om zijn Atlas AI-browser tegen cyberaanvallen, geeft het bedrijf toe snelle injectieseen soort aanval waarbij AI-agenten worden gemanipuleerd om kwaadaardige instructies op te volgen, vaak verborgen in webpagina’s of e-mails, is een risico dat niet snel zal verdwijnen. Dit roept vragen op over hoe veilig AI-agenten op het open web kunnen opereren.

“Het is onwaarschijnlijk dat snelle injecties, zoals onlinefraude en social engineering, ooit volledig ‘opgelost’ zullen worden”, schreef OpenAI maandag. blogpost beschrijft hoe het bedrijf het pantser van Atlas versterkt om de onophoudelijke aanvallen te bestrijden. Het bedrijf gaf toe dat de ‘agentmodus’ in ChatGPT Atlas ‘het oppervlak van beveiligingsbedreigingen vergroot’.

OpenAI lanceerde zijn ChatGPT Atlas-browser in oktober en beveiligingsonderzoekers haastten zich om hun demo’s te publiceren waaruit bleek dat het mogelijk was om een ​​paar woorden in Google Documenten te schrijven die het gedrag van de onderliggende browser konden veranderen. Dezelfde dag, dapper een blogpost gepubliceerd legt uit dat indirecte promptinjectie een systematische uitdaging is voor door AI aangedreven browsers De komeet van verwarring.

OpenAI is niet de enige die erkent dat promptgebaseerde injecties niet zullen verdwijnen. De Het Britse National Cyber ​​Security Centre waarschuwde eerder deze maand die aanleiding geven tot injectieaanvallen op generatieve AI-toepassingen “mag nooit volledig worden afgezwakt”, waardoor websites het risico lopen slachtoffer te worden van datalekken. De Britse overheidsinstantie adviseerde cyberprofessionals om het risico en de impact van snelle injecties te verminderen in plaats van te geloven dat de aanvallen kunnen worden ‘gestopt’.

Van de kant van OpenAI zei het bedrijf: “Wij beschouwen snelle injectie als een AI-beveiligingsuitdaging op de lange termijn, en we zullen onze verdediging daartegen voortdurend moeten versterken.”

Het antwoord van het bedrijf op deze Sisyphean-taak? Een proactieve, snelle reactiecyclus die volgens het bedrijf veelbelovend is bij het helpen ontdekken van nieuwe aanvalsstrategieën intern voordat ze ‘in het wild’ worden uitgebuit.

Dat verschilt niet zoveel van wat rivalen als Anthropic en Google hebben gezegd: dat om het aanhoudende risico van snelle aanvallen te bestrijden, de verdediging gelaagd moet zijn en voortdurend aan stresstests moet worden onderworpen. Het nieuwste werk van Googlericht zich bijv. over architecturale controle en controle op beleidsniveau van agentsystemen.

Maar waar OpenAI een andere aanpak kiest, is met zijn ‘LLM-gebaseerde geautomatiseerde aanvaller’. Deze aanvaller is in feite een bot die OpenAI heeft getraind met behulp van versterkend leren om de rol te spelen van een hacker die op zoek is naar manieren om kwaadaardige instructies naar een AI-agent te sluipen.

De bot kan de aanval in een simulatie testen voordat hij deze op de juiste manier gebruikt, en de simulator laat zien hoe de doel-AI zou denken en welke acties hij zou ondernemen als hij de aanval zou zien. De bot kan deze reactie vervolgens bestuderen, de aanval aanpassen en het steeds opnieuw proberen. Dit inzicht in de interne redenering van de doel-AI is iets waar buitenstaanders geen toegang toe hebben, dus in theorie zou de bot van OpenAI sneller fouten moeten kunnen vinden dan een echte aanvaller.

Het is een veelgebruikte tactiek bij het testen van AI-beveiliging: bouw een agent om de rand van de cases te vinden en test ze snel in simulatie.

“Onze (reinforcement learning) getrainde aanvaller kan een agent opdracht geven om geavanceerde, langdurige kwaadaardige workflows uit te voeren die zich over tientallen (of zelfs honderden) stappen ontvouwen”, schreef OpenAI. “We hebben ook nieuwe aanvalsstrategieën waargenomen die niet voorkwamen in onze human red teaming-campagne of in externe rapporten.”

Afbeelding tegoed:OpenAI

In een demo (gedeeltelijk hierboven afgebeeld) liet OpenAI zien hoe de geautomatiseerde aanvaller een kwaadaardige e-mail in de inbox van een gebruiker stopte. Toen de AI-agent later de inbox scande, volgde hij de verborgen instructies in de e-mail en stuurde hij een beëindigingsbericht in plaats van een antwoord op te stellen. Maar na de beveiligingsupdate kon de ‘agentmodus’ de snelle injectiepoging detecteren en aan de gebruiker doorgeven, aldus het bedrijf.

Het bedrijf zegt dat, hoewel snelle injectie moeilijk te beveiligen is, het afhankelijk is van grootschalige tests en snellere patchcycli om zijn systemen te versterken voordat ze in echte aanvallen verschijnen.

Een woordvoerder van OpenAI weigerde te zeggen of de update van de beveiliging van Atlas heeft geresulteerd in een meetbare vermindering van succesvolle injecties, maar zegt dat het bedrijf al vóór de lancering samenwerkt met derde partijen om Atlas te beschermen tegen snelle injecties.

Rami McCarthy, hoofdbeveiligingsonderzoeker bij cyberbeveiligingsbedrijf Wizzegt dat versterkend leren een manier is om je voortdurend aan te passen aan het gedrag van de aanvaller, maar dat is slechts een deel van het plaatje.

“Een nuttige manier om over risico’s in AI-systemen te redeneren is autonomie vermenigvuldigd met toegang”, vertelde McCarthy aan TechCrunch.

“Agentbrowsers bevinden zich meestal in een uitdagend deel van die ruimte: gematigde autonomie gecombineerd met zeer hoge toegang”, aldus McCarthy. “Veel huidige aanbevelingen weerspiegelen deze afweging. Het beperken van ingelogde toegang vermindert in de eerste plaats de blootstelling, terwijl het vereisen van beoordeling van verificatieverzoeken de autonomie beperkt.”

Dit zijn twee aanbevelingen van OpenAI voor gebruikers om hun eigen risico te verminderen, en een woordvoerder zei dat Atlas ook is getraind om bevestiging van de gebruiker te krijgen voordat hij berichten verzendt of betalingen doet. OpenAI suggereert ook dat gebruikers agenten specifieke instructies geven in plaats van hen toegang te geven tot uw inbox en hen te vertellen “te nemen wat nodig is”.

“Een grote speelruimte maakt het gemakkelijker voor verborgen of kwaadaardige inhoud om de agent te beïnvloeden, zelfs als er beveiligingsmaatregelen zijn getroffen”, aldus OpenAI.

Hoewel OpenAI zegt dat het beschermen van Atlas-gebruikers tegen snelle injecties een topprioriteit is, roept McCarthy enige scepsis op over het rendement op investeringen voor risicomijdende browsers.

“Voor de meeste dagelijkse gebruiksscenario’s leveren agentic browsers nog niet genoeg waarde om hun huidige risicoprofiel te rechtvaardigen”, vertelde McCarthy aan TechCrunch. “Het risico is groot gezien hun toegang tot gevoelige gegevens zoals e-mail en betalingsinformatie, ook al is die toegang ook wat hen krachtig maakt. Dat evenwicht zal evolueren, maar vandaag de dag is de afweging nog steeds heel reëel.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in