Beveiligingsteams kopen AI-verdedigingsmiddelen die niet werken. Onderzoekers van OpenAI, Anthropic en Google DeepMind publiceerden in oktober 2025 bevindingen die elke CISO-inkoop op de middellange termijn zouden moeten stoppen. Hun papier, “Aanvaller komt op de tweede plaats: sterkere adaptieve aanvallen omzeilen de verdediging tegen LLM-jailbreaks en snelle injecties”, testte 12 gepubliceerde AI-verdedigingen, waarvan de meeste een aanvalspercentage van bijna nul claimden. Het onderzoeksteam behaalde bypass-percentages van meer dan 90% op de meeste verdedigingen. De implicatie voor bedrijven is grimmig: de meeste AI-beveiligingsproducten worden getest tegen aanvallers die zich niet gedragen als echte aanvallers.
Het team testte verdedigingsmechanismen op basis van prompts, training en filtering onder adaptieve aanvalsomstandigheden. Allemaal ingestort. Proactieve verdedigingen behaalden aanvalssuccespercentages van 95% tot 99% tijdens adaptieve aanvallen. Op oefeningen gebaseerde methoden deden het niet beter, met bypass-percentages van 96% tot 100%. De onderzoekers ontwierpen een rigoureuze methode om deze beweringen aan een stresstest te onderwerpen. Hun aanpak omvatte 14 auteurs en een prijzenpot van $ 20.000 voor succesvolle aanvallen.
Waarom WAF’s falen op de inferentielaag
Webapplicatiefirewalls (WAF’s) zijn staatloos; AI-aanvallen zijn dat niet. Dit onderscheid verklaart waarom traditionele veiligheidscontroles instorten in het licht van moderne snelle injectietechnieken.
De onderzoekers gooiden bekende jailbreaktechnieken naar deze verdedigingen. Crescendo maakt gebruik van de conversatiecontext door een kwaadwillig verzoek op te splitsen in onschuldig ogende fragmenten, verspreid over maximaal tien conversatiewendingen, en relaties op te bouwen totdat het model uiteindelijk voldoet. Greedy Coördinaat Gradient (GCG) is een geautomatiseerde aanval die jailbreak-achtervoegsels genereert via op gradiënt gebaseerde optimalisatie. Dit zijn geen theoretische aanvallen. Het zijn gepubliceerde methoden met werkende code. Een staatloos filter vangt dat allemaal niet op.
Elke aanval maakte gebruik van een andere blinde vlek – contextverlies, automatisering of semantische verduistering – maar ze slaagden allemaal om dezelfde reden: de verdediging nam statisch gedrag aan.
“Een zin die zo onschuldig is als ‘eerdere instructies negeren’ of een met Base64 gecodeerde payload kan voor een AI-toepassing net zo verwoestend zijn als een bufferoverflow voor traditionele software”, zegt Carter Rees, VP AI bij Reputation. “Het verschil is dat AI-aanvallen plaatsvinden op de semantische laag die op handtekeningen gebaseerde detectie niet kan ontleden.”
Waarom de inzet van AI de veiligheid overtreft
Het falen van de verdediging van vandaag zou op zichzelf zorgwekkend zijn, maar de timing maakt het gevaarlijk.
Gartner voorspelt Tegen eind 2026 zal 40% van de bedrijfsapplicaties AI-agenten integreren, tegen minder dan 5% in 2025. De implementatiecurve is verticaal. De veiligheidscurve is vlak.
Adam Meyers, SVP van Counter Adversary Operations bij CrowdStrikekwantificeert het snelheidsverschil: “De snelste uitbraaktijd die we hebben waargenomen was 51 seconden. Deze tegenstanders worden dus sneller, en dat maakt het werk van de verdediger veel moeilijker.” De CrowdStrike 2025 Wereldwijd dreigingsrapport ontdekte dat 79% van de detecties vrij was van malware, waarbij tegenstanders gebruik maakten van praktische toetsenbordtechnieken die de traditionele eindpuntverdediging volledig omzeilen.
In september 2025 verstoorde Anthropic de eerste gedocumenteerde, door AI georkestreerde cyberoperatie. De aanval zag aanvallers voer duizenden verzoeken uitvaak meerdere per seconde, waarbij de menselijke betrokkenheid terugloopt tot slechts 10 tot 20% van de totale inspanning. Traditionele campagnes van drie tot zes maanden, gecomprimeerd in 24 tot 48 uur. Van de organisaties die te maken kregen met AI-gerelateerde inbreuken, ontbrak 97% aan toegangscontrole IBM 2025 Prijs voor een datalekrapport
Meyers legt de verschuiving in de tactiek van aanvallers uit: “Dreigingsactoren hebben ontdekt dat het proberen om malware in de moderne onderneming te brengen een beetje lijkt op het binnendringen van een luchthaven met een waterfles; de kans is groot dat je wordt tegengehouden door de beveiliging. In plaats van de ‘waterfles’ binnen te brengen, moesten ze een manier vinden om detectie te voorkomen. Een van de manieren die ze helemaal niet hebben gedaan, is het binnenbrengen van malware.”
Jerry Geisler, EVP en CISO van Walmartziet agent AI deze risico’s vergroten. “De adoptie van agent AI introduceert geheel nieuwe veiligheidsbedreigingen die de traditionele controles omzeilen”, aldus Geisler VentureBeat vorig. “Deze risico’s omvatten data-exfiltratie, autonoom misbruik van API’s en geheime samenwerking tussen agenten, die allemaal de bedrijfsactiviteiten kunnen verstoren of wettelijke mandaten kunnen schenden.”
Vier aanvallerprofielen maken al gebruik van gaten in de AI-verdediging
Deze fouten zijn niet hypothetisch. Ze worden al uitgebuit in vier verschillende aanvallerprofielen.
De auteurs van het artikel maken een kritische observatie dat verdedigingsmechanismen uiteindelijk opduiken in trainingsgegevens op internetschaal. Beveiliging door onduidelijkheid biedt geen bescherming wanneer de modellen zelf leren hoe verdedigingen werken en zich ter plekke aanpassen.
Antropische tests mod Adaptieve campagnes met 200 proefversies terwijl OpenAI resistentie in één proef rapporteert, benadrukt hoe inconsistent de testnormen voor de industrie blijven. De auteurs van het onderzoeksartikel gebruikten beide benaderingen. Elke verdediging viel nog steeds.
Rees brengt vier categorieën in kaart die nu gebruik maken van de inferentielaag.
Externe tegenstanders het operationeel maken van gepubliceerd aanvalsonderzoek. Crescendo, GCG, ArtPrompt. Ze passen hun aanpak aan het specifieke ontwerp van elke verdediging aan, net zoals de onderzoekers deden.
Kwaadwillige B2B-klanten misbruik maken van legitieme API-toegang om bedrijfseigen trainingsgegevens te transformeren of intellectueel eigendom te extraheren via gevolgtrekkingsaanvallen. Uit het onderzoek bleek dat versterkende leeraanvallen vooral effectief zijn in black-box-scenario’s waarvoor slechts 32 sessies van elk vijf rondes nodig zijn.
Gecompromitteerde API-consumenten misbruik maken van vertrouwde inloggegevens om gevoelige output te exfiltreren of downstream-systemen te vergiftigen door middel van gemanipuleerde reacties. Uit het onderzoek bleek dat de uitvoerfiltering net zo slecht faalde als de invoerfiltering. Op zoek gebaseerde aanvallen genereerden systematisch vijandige triggers die detectie omzeilden, wat betekent dat bidirectionele controle geen extra bescherming bood omdat aanvallers hun technieken aanpasten.
Onachtzame insiders blijft de meest voorkomende vector en de duurste. Uit het IBM 2025 Cost of a Data Breach Report blijkt dat schaduw-AI $670.000 aan de gemiddelde inbreukkosten heeft toegevoegd.
“De meest voorkomende bedreiging is vaak de nalatige insider”, zei Rees. “Dit ‘schaduw-AI’-fenomeen houdt in dat werknemers gevoelige bedrijfseigen code in openbare LLM’s invoegen om de efficiëntie te vergroten. Ze beschouwen beveiliging als wrijving. Samsung-ingenieurs leerden dit toen bedrijfseigen halfgeleidercode werd ingediend bij ChatGPT, die gebruikersinvoer vasthoudt voor modeltraining.”
Waarom staatloze detectie faalt bij conversationele aanvallen
Het onderzoek wijst op specifieke architectonische eisen.
-
Normalisatie vóór semantische analyse om codering en verduistering te verslaan
-
Contexttracking over beurten om meerstapsaanvallen zoals Crescendo te detecteren
-
Tweerichtingsfiltering om gegevensexfiltratie via uitvoer te voorkomen
Jamie Norton, CISO bij de Australian Securities and Investments Commission en vicevoorzitter van de raad van bestuur van ISACA, vat de bestuursuitdaging samen: “Als CISO’s willen we innovatie niet in de weg staan, maar we moeten er wel vangrails omheen zetten, zodat we niet de wildernis in gaan en onze gegevens worden verteld dat ze moeten weglekken”, zegt Norton. CSO online.
Zeven vragen om AI-beveiligingsleveranciers te stellen
Verkopers zullen beweren dat de slagingspercentages van aanvallen bijna nul zijn, maar het onderzoek bewijst dat deze cijfers instorten onder adaptieve druk. Beveiligingsmanagers hebben antwoorden op deze vragen nodig voordat een inkoopgesprek begint elk wijst rechtstreeks op een fout die in het onderzoek is gedocumenteerd.
-
Wat is uw bypass-percentage tegen adaptieve aanvallers? Niet tegen statische testsets. Tegen aanvallers die weten hoe de verdediging werkt en tijd hebben om te herhalen. Elke leverancier die bijna-nulprijzen aanbiedt zonder een adaptieve testmethode, verkoopt een vals gevoel van veiligheid.
-
Hoe detecteert uw oplossing multi-turn-aanvallen? Crescendo verspreidt kwaadaardige verzoeken over 10 rondes die er op zichzelf goedaardig uitzien. Staatloze filters vangen dat allemaal niet op. Als de verkoper staatloos zegt, is het gesprek voorbij.
-
Hoe ga je om met gecodeerde payloads? ArtPrompt verbergt kwaadaardige instructies in ASCII-kunst. Base64- en Unicode-verduistering omzeilt volledig op tekst gebaseerde filters. Normalisatie vóór analyse is tafelspel. Alleen al het matchen van handtekeningen betekent dat het product blind is.
-
Filtert uw oplossing zowel output als input? Controles op basis van alleen invoer kunnen gegevensexfiltratie via modelreacties niet voorkomen. Vraag wat er gebeurt als beide teams geconfronteerd worden met een gecoördineerde aanval.
-
Hoe houd je de context bij tijdens gesprekswendingen? Conversationele AI vereist stateful analyse. Als de leverancier de implementatiespecificaties niet kan uitleggen, heeft hij die niet.
-
Hoe test u tegen aanvallers die uw verdedigingsmechanisme begrijpen? Uit het onderzoek blijkt dat de verdediging faalt wanneer aanvallers zich aanpassen aan het specifieke beschermingsontwerp. Beveiliging door verduistering biedt geen bescherming bij de slotslag.
-
Wat is uw gemiddelde tijd om de verdediging tegen nieuwe aanvalspatronen bij te werken? Aanvalsmethoden zijn openbaar. Wekelijks verschijnen er nieuwe soorten. Een verdediging die zich niet sneller kan aanpassen dan aanvallers, zal permanent achterop raken.
Kortom
Het onderzoek van OpenAI, Anthropic en Google DeepMind komt tot een onaangenaam oordeel. De AI-verdedigingsmechanismen die tegenwoordig bedrijfsimplementaties beschermen, zijn ontworpen voor aanvallers die zich niet aanpassen. Echte aanvallers passen zich aan. Elk bedrijf dat LLM’s in productie heeft, moet de huidige controles tegen de aanvalsmethoden die in dit onderzoek zijn gedocumenteerd, herzien. De implementatiecurve is verticaal, maar de beveiligingscurve is vlak. Dat gat is waar breuk zal plaatsvinden.



