Het is verfrissend als een toonaangevend AI-bedrijf het voor de hand liggende zegt. In één gedetailleerd bericht Bij het verharden van ChatGPT Atlas tegen snelle injectie erkende OpenAI wat beveiligingsprofessionals al jaren weten: “Het is onwaarschijnlijk dat snelle injectie, zoals online fraude en social engineering, ooit volledig ‘opgelost’ zal worden.”
Het nieuwe is niet het risico – het is de concessie. OpenAI, het bedrijf dat een van de meest gebruikte AI-agenten implementeert, bevestigde publiekelijk dat de agentmodus “het oppervlak van veiligheidsbedreigingen vergroot” en dat zelfs geavanceerde verdedigingsmechanismen geen deterministische garanties kunnen bieden. Voor bedrijven die AI al in productie hebben, is dit geen openbaring. Het is een validatie – en een signaal dat de kloof tussen de manier waarop AI wordt geïmplementeerd en hoe deze wordt verdedigd niet langer theoretisch is.
Niets van dit alles verbaast iemand die AI in productie draait. Wat veiligheidsleiders zorgen baart, is de kloof tussen deze realiteit en de paraatheid van het bedrijfsleven. Uit een VentureBeat-enquête onder 100 technische besluitvormers bleek dat 34,7% van de organisaties speciale snelle injectieverdedigingen heeft ingezet. De overige 65,3% heeft deze tools niet aangeschaft of kon niet bevestigen dat ze dat wel hebben gedaan.
De dreiging is nu officieel permanent. De meeste bedrijven zijn nog steeds niet uitgerust om het te detecteren, laat staan te stoppen.
De op LLM gebaseerde geautomatiseerde aanvaller van OpenAI vond gaten die rode teams misten
De defensieve architectuur van OpenAI verdient onderzoek omdat deze het huidige plafond vertegenwoordigt van wat mogelijk is. De meeste, zo niet alle, commerciële bedrijven zullen dat niet kunnen repliceren, wat de vooruitgang die ze deze week deelden nog relevanter maakt voor beveiligingsleiders die AI-apps en -platforms in ontwikkeling beschermen.
Het bedrijf heeft er één gebouwd “LLM-gebaseerde geautomatiseerde aanvaller” end-to-end getraind met versterkend leren om kwetsbaarheden met snelle injectie te detecteren. In tegenstelling tot traditionele red-teaming, die eenvoudige fouten vertoont, kan het systeem van OpenAI “een agent opdracht geven om geavanceerde, kwaadaardige workflows voor de lange termijn uit te voeren die zich over tientallen (of zelfs honderden) stappen ontvouwen” door specifieke uitvoerstrings te ontlokken of onbedoelde tooloproepen in één stap te activeren.
Dit is hoe het werkt. De geautomatiseerde aanvaller stelt een kandidaat-injectie voor en stuurt deze naar een externe simulator. De simulator voert een contrafeitelijke implementatie uit van hoe de beoogde slachtofferagent zich zou gedragen, retourneert een volledige rechtvaardiging en actietrace, en de aanvaller herhaalt dit. OpenAI beweert dat het aanvalspatronen heeft ontdekt die “niet naar voren kwamen in onze menselijke red-teaming-campagne of in externe rapporten.”
Een aanval die het systeem onthulde toont de inspanning. Een kwaadaardige e-mail die in de inbox van een gebruiker werd geplaatst, bevatte verborgen instructies. Toen de Atlas-agent berichten scande om een reactie van buitenaf voor te bereiden, volgde deze in plaats daarvan de geïnjecteerde prompt en stelde een beëindigingsbrief op aan de CEO van de gebruiker. De afwezigheid is nooit geschreven. De agent is beëindigd namens de gebruiker.
OpenAI reageerde door “een nieuw vijandig getraind model te sturen en de omringende beveiligingsmaatregelen te versterken”. De defensieve stack van het bedrijf combineert nu automatische aanvalsdetectie, vijandige training tegen nieuw ontdekte aanvallen en beveiligingsmaatregelen op systeemniveau buiten het model zelf.
In tegenstelling tot hoe schuin en terughoudend AI-bedrijven kunnen zijn over hun red teaming-resultaten, was OpenAI direct over de grenzen: “De kaart van snelle injectie maakt deterministische veiligheidsgaranties een uitdaging.” Met andere woorden: dit betekent dat ze “zelfs met deze infrastructuur geen verdediging kunnen garanderen.”
Deze erkenning komt op het moment dat bedrijven overstappen van co-piloten naar autonome agenten – precies op het moment dat een snelle injectie niet langer een theoretisch risico is, maar operationeel wordt.
OpenAI definieert wat bedrijven kunnen doen om veilig te blijven
OpenAI heeft een aanzienlijke verantwoordelijkheid teruggeschoven naar bedrijven en de gebruikers die zij ondersteunen. Het is een al lang bestaand patroon waar beveiligingsteams zich van moeten bewust zijn modellen voor gedeelde verantwoordelijkheid in de cloud.
Het bedrijf raadt expliciet aan om uitgelogd te gebruiken wanneer de agent geen toegang nodig heeft tot goedgekeurde websites. Het adviseert u om verificatieverzoeken zorgvuldig te beoordelen voordat de agent vervolgacties onderneemt, zoals het verzenden van e-mails of het voltooien van aankopen.
En het waarschuwt voor brede instructies. “Vermijd al te brede verzoeken zoals ‘bekijk mijn e-mails en onderneem de nodige actie'”, schreef OpenAI. “Een grote speelruimte maakt het gemakkelijker voor verborgen of kwaadaardige inhoud om de agent te beïnvloeden, zelfs als er beveiligingsmaatregelen zijn getroffen.”
De implicaties zijn duidelijk met betrekking tot de autonomie van agenten en de potentiële bedreigingen ervan. Hoe meer onafhankelijkheid je een AI-agent geeft, hoe meer aanvalsoppervlak je creëert. OpenAI bouwt verdedigingsmechanismen, maar bedrijven en de gebruikers die zij beschermen hebben de verantwoordelijkheid om de blootstelling te beperken.
Waar de bedrijven vandaag de dag staan
Om te begrijpen hoe voorbereid bedrijven daadwerkelijk zijn, ondervroeg VentureBeat 100 technische besluitvormers van verschillende bedrijfsgroottes, van startups tot bedrijven met meer dan 10.000 werknemers. We stelden een eenvoudige vraag: heeft uw organisatie speciale oplossingen aangeschaft en geïmplementeerd voor snelle filtering en detectie van misbruik?
Slechts 34,7% zei ja. De overige 65,3% zei nee of kon de status van hun organisatie niet bevestigen.
Die verdeling is belangrijk. Het laat zien dat snelle injectieverdediging niet langer een nieuw concept is; het is een verzendproductcategorie met echte bedrijfsacceptatie. Maar het laat ook zien hoe vroeg de markt nog is. Bijna tweederde van de organisaties die tegenwoordig AI-systemen gebruiken, werkt zonder speciale bescherming en vertrouwt in plaats daarvan op standaardmodellen, intern beleid of gebruikerstraining.
Bij de meerderheid van de ondervraagde niet-toegewijde defensieorganisaties was onzekerheid de overheersende reactie met betrekking tot toekomstige aankopen. Toen hen werd gevraagd naar toekomstige aankopen, konden de meeste respondenten geen duidelijke tijdlijn of beslissingspad formuleren. Het meest veelzeggende signaal was niet een gebrek aan beschikbare leveranciers of oplossingen; het was besluiteloosheid. In veel gevallen lijkt het erop dat organisaties AI sneller implementeren dan dat ze formaliseren hoe deze zal worden beschermd.
De gegevens kunnen niet verklaren waarom de adoptie achterblijft – hetzij als gevolg van budgettaire beperkingen, concurrerende prioriteiten, onvolwassen implementaties, of de overtuiging dat de bestaande waarborgen voldoende zijn. Maar het maakt één ding duidelijk: de adoptie van AI overtreft de paraatheid op het gebied van AI-beveiliging.
Het asymmetrieprobleem
De defensieve aanpak van OpenAI maakt gebruik van voordelen die de meeste bedrijven niet hebben. Het bedrijf heeft white-box-toegang tot zijn eigen modellen, een diepgaand inzicht in zijn verdedigingsstack en de computer om continue aanvalssimulaties uit te voeren. De geautomatiseerde aanvaller krijgt “bevoorrechte toegang tot de redeneersporen van de verdediger …”, waardoor hij “een asymmetrisch voordeel krijgt, waardoor de kans groter wordt dat hij externe tegenstanders kan ontlopen.”
Bedrijven die AI-agenten inzetten, ondervinden een aanzienlijk nadeel. Terwijl OpenAI gebruik maakt van white-box-toegang en continue simulaties, werken de meeste organisaties met black-box-modellen en beperkt inzicht in de redeneerprocessen van hun agenten. Slechts weinigen beschikken over de middelen voor een geautomatiseerde red-teaming-infrastructuur. Deze asymmetrie creëert een complex probleem: naarmate organisaties de inzet van AI uitbreiden, blijven hun defensieve capaciteiten statisch, wachtend tot de inkoopcycli hun achterstand inhalen.
Externe leveranciers van verdedigingssystemen voor snelle injectie, waaronder Robust Intelligence, Lakera, Prompt Security (nu onderdeel van SentinelOne) en anderen proberen deze leemte op te vullen. Maar de adoptie blijft laag. De 65,3% van de organisaties zonder toegewijde verdediging werkt op basis van de ingebouwde beveiligingsmaatregelen die hun modelaanbieders bieden, plus beleidsdocumenten en bewustmakingstrainingen.
De post van OpenAI maakt duidelijk dat zelfs geavanceerde verdedigingsmechanismen geen deterministische garanties kunnen bieden.
Wat CISO’s hiervan moeten leren
De aankondiging van OpenAI verandert niets aan het dreigingsmodel; het bevestigt het. Snelle injectie is echt, verfijnd en permanent. Het bedrijf dat de meest geavanceerde AI-agent inzet, heeft zojuist tegen beveiligingsmanagers gezegd dat ze deze dreiging voor onbepaalde tijd kunnen verwachten.
Er volgen drie praktische implicaties:
-
Hoe groter de autonomie van de agent, hoe groter het aanvalsoppervlak. De richtlijnen van OpenAI over het vermijden van brede prompts en het beperken van ingelogde toegang gelden ook buiten Atlas. Elke AI-agent met een grote speelruimte en toegang tot gevoelige systemen creëert dezelfde blootstelling. Naad Forrester opgemerkt tijdens hun jaarlijkse veiligheidstop eerder dit jaar, generatieve AI is een agent van chaos. Deze voorspelling bleek voorspelbaar op basis van de testresultaten van OpenAI die deze week werden vrijgegeven.
-
Detectie betekent meer dan preventie. Als deterministische verdediging niet mogelijk is, wordt zichtbaarheid van cruciaal belang. Organisaties moeten weten wanneer agenten zich onverwacht gedragen, en niet alleen maar hopen dat beveiligingsmaatregelen stand houden.
-
De buy-vs-build-beslissing is live. OpenAI investeert zwaar in geautomatiseerde red-teaming en vijandige training. De meeste bedrijven kunnen dit niet repliceren. De vraag is of tools van derden de kloof kunnen dichten en of de 65,3% zonder speciale verdedigingsmechanismen dit zal overnemen voordat een incident het probleem oplegt.
Kortom
OpenAI verklaarde wat beveiligingsprofessionals al wisten: snelle injectie is een permanente bedreiging. Het bedrijf dat agent AI het hardst pusht, bevestigde deze week dat “agentmodus … het oppervlak van veiligheidsbedreigingen vergroot” en dat defensie voortdurende investeringen vereist, en geen eenmalige oplossing.
De 34,7% van de organisaties die speciale verdedigingsmechanismen inzetten, zijn niet immuun, maar zijn wel in de positie om aanvallen te detecteren wanneer ze plaatsvinden. De meeste organisaties vertrouwen daarentegen op standaard beveiligingen en beleidsdocumenten in plaats van op maat gemaakte beveiligingen. Het onderzoek van OpenAI maakt duidelijk dat zelfs geavanceerde verdedigingsmechanismen geen deterministische garanties kunnen bieden, wat het risico van deze aanpak onderstreept.
De aankondiging van OpenAI deze week onderstreept wat de gegevens al laten zien: de kloof tussen AI-inzet en AI-bescherming is reëel – en wordt steeds groter. Wachten op deterministische garanties is niet langer een strategie. Beveiligingsmanagers moeten dienovereenkomstig handelen.



