Home Nieuws Hoe de AI van Anthropic werd gejailbreakt om een wapen te worden

Hoe de AI van Anthropic werd gejailbreakt om een wapen te worden

Door

november 15, 2025

Chinese hackers automatiseerden 90% van een spionagecampagne met behulp van Antropisch Claude, waarbij vier van de dertig organisaties die zij als doelwit kozen, werden geschonden.

“Ze hebben hun aanval opgedeeld in kleine, ogenschijnlijk onschadelijke taken die Claude zou uitvoeren zonder dat ze de volledige context van hun kwaadaardige bedoelingen kregen”, vertelde Jacob Klein, hoofd van de dreigingsinformatie van Anthropic, aan VentureBeat.

AI-modellen hebben eerder een omslagpunt bereikt dan de meeste ervaren dreigingsonderzoekers hadden verwacht, zoals blijkt uit het feit dat hackers een model kunnen jailbreaken en ongemerkt aanvallen kunnen lanceren. Verduisteringsverzoeken als onderdeel van een legitieme pen-testing-poging om vertrouwelijke gegevens van dertig beoogde organisaties uit te wissen, weerspiegelen hoe krachtig modellen zijn geworden. Jailbreaken en vervolgens een model tegen een doelwit bewapenen is geen rocket science meer. Het is nu een gedemocratiseerde dreiging die elke aanvaller of natiestaat naar believen kan gebruiken.

Klein onthulde De Wall Street Journalwaarmee het verhaal werd onthuld dat “de hackers hun aanval letterlijk met één klik op de knop uitvoerden.” Bij één inbreuk gaven de hackers “de Claude AI-tools van Anthropic de opdracht om interne databases te doorzoeken en zelfstandig gegevens te extraheren.” Menselijke operators kwamen tussenbeide op slechts vier tot zes beslissingspunten per campagne.

De architectuur die het mogelijk maakte

De verfijning van de aanval op dertig organisaties zit niet in de instrumenten; het zit in de orkestratie. De aanvallers gebruikten software voor het testen van grondstoffen die iedereen kan downloaden. Aanvallers verdeelden complexe operaties zorgvuldig in onschadelijk ogende taken. Claude dacht dat het beveiligingsaudits deed.

De social engineering klopte: aanvallers presenteerden zichzelf als werknemers van cyberbeveiligingsbedrijven die geautoriseerde penetratietests uitvoeren, vertelde Klein aan de WSJ.

Bron: Antropisch

De architectuur, gedetailleerd in Antropisch rapportstelt Model Context Protocol (MCP)-servers bloot die meerdere Claude-subagenten tegelijkertijd naar de doelinfrastructuur sturen. Het rapport beschrijft hoe “het raamwerk Claude gebruikte als een orkestratiesysteem dat complexe meerfasige aanvallen opsplitste in afzonderlijke technische taken voor Claude-subagenten, zoals het scannen van kwetsbaarheden, het valideren van inloggegevens, het extraheren van gegevens en laterale verplaatsing, die elk legitiem leken wanneer ze afzonderlijk werden geëvalueerd.”

Deze degradatie was van cruciaal belang. Door taken zonder een bredere context te presenteren, zorgden de aanvallers ervoor dat Claude “individuele componenten van aanvalsketens uitvoerde zonder toegang tot de bredere kwaadaardige context”, aldus het rapport.

De aanvalssnelheid bereikte meerdere operaties per seconde, urenlang volgehouden zonder vermoeidheid. De menselijke betrokkenheid daalde tot 10 tot 20% van de inspanning. Traditionele campagnes van drie tot zes maanden, gecomprimeerd in 24 tot 48 uur. Het rapport documenteert dat “de piekactiviteit duizenden verzoeken omvatte, wat neerkomt op aanhoudende verzoeksnelheden van verschillende bewerkingen per seconde.”

Bron: Antropisch

De aanvalsprogressie in zes fasen, gedocumenteerd in het rapport van Anthropic, laat zien hoe de AI-autonomie in elke fase toenam. Fase 1: De mens kiest het doelwit. Fase 2: Claude brengt autonoom het hele netwerk in kaart en ontdekt “interne diensten binnen gerichte netwerken door middel van systematische opsomming”. Fase 3: Claude identificeert en valideert kwetsbaarheden, inclusief SSRF-fouten. Fase 4: Verzameling van inloggegevens via netwerken. Fase 5: Gegevensextractie en categorisering van inlichtingen. Fase 6: Volledige documentatie voor overdracht.

“Claude heeft bijna het hele rode teamwerk gedaan”, vertelde Klein aan VentureBeat. Verkenning, exploitatie, zijwaartse beweging en gegevensextractie vonden allemaal plaats met minimale menselijke leiding tussen de fasen. In het rapport van Anthropics wordt opgemerkt dat “de campagne een ongekende integratie en autonomie van kunstmatige intelligentie gedurende de hele levenscyclus van de aanval demonstreerde, waarbij Claude Code verkenningen, het ontdekken van kwetsbaarheden, exploitatie, laterale verplaatsing, het verzamelen van inloggegevens, data-analyse en exfiltratie-operaties grotendeels autonoom ondersteunde.”

Hoe bewapeningsmodellen de kostencurve van APT-aanvallen afvlakken

Traditionele APT-campagnes vereisten wat het rapport documenteert als ‘10-15 bekwame operators’, ‘aangepaste malware-ontwikkeling’ en ‘maanden voorbereiding’. GTG-1002 had alleen Claude API-toegang, open-source Model Context Protocol-servers en tools voor het testen van goederen nodig.

“Wat ons schokte was de efficiëntie”, vertelde Klein aan VentureBeat. “We zien dat er een natiestaatvermogen wordt bereikt met middelen die beschikbaar zijn voor elke middelgrote criminele groep.”

Het rapport zegt: “De minimale afhankelijkheid van propriëtaire tools of geavanceerde exploit-ontwikkeling toont aan dat cybercapaciteiten steeds meer voortkomen uit de orkestratie van grondstoffen in plaats van uit technische innovatie.”

Klein benadrukte in zijn gesprek met VentureBeat de autonome uitvoeringsmogelijkheden. Het rapport bevestigt dat Claude onafhankelijk “de doelinfrastructuur heeft gescand, services en eindpunten heeft opgesomd, aanvalsoppervlakken in kaart heeft gebracht”, vervolgens “SSRF-kwetsbaarheid heeft geïdentificeerd, exploittechnieken heeft onderzocht” en “aangepaste payload heeft gegenereerd, een exploitketen heeft ontwikkeld en de exploitmogelijkheden heeft gevalideerd via callback-reacties.”

Tegen één technologiebedrijf zegt het rapport: “Claude doorzoekt onafhankelijk databases en systemen, extraheert gegevens, analyseert resultaten om eigendomsinformatie te identificeren en categoriseert de resultaten op basis van intelligentiewaarde.”

“De compressiefactor is wat bedrijven moeten begrijpen”, vertelde Klein aan VentureBeat. “Wat vroeger maanden duurde, duurt nu dagen. Wat vroeger gespecialiseerde vaardigheden vereiste, vereist nu basiskennis van prikkels.”

Lessen getrokken uit kritische detectie-indicatoren

“De patronen waren zo anders dan menselijk gedrag, het was alsof je naar een machine keek die zich voordeed als mens”, vertelde Klein aan VentureBeat. Het rapport documenteert ‘fysiek onmogelijke verzoeksnelheden’ met ‘aanhoudende verzoeksnelheden van meerdere bewerkingen per seconde’.

Het rapport identificeert drie indicatorcategorieën:

Verkeerspatronen: “Aanvraagtarieven voor meerdere bewerkingen per seconde” met “significant verschil tussen gegevensinvoer en tekstuitvoer.”

Query-ontleding: Taken opgesplitst in wat Klein ‘kleine, schijnbaar onschadelijke taken’ noemde: technische zoekopdrachten van vijf tot tien woorden zonder menselijke zoekpatronen. “Elk onderzoek leek op zichzelf legitiem”, legde Klein uit aan VentureBeat. “Alleen collectief ontstond het aanvalspatroon.”

Authenticatiegedrag: Het rapport beschrijft het ‘systematisch verzamelen van inloggegevens via gerichte netwerken’, waarbij Claude ‘onafhankelijk bepaalt welke inloggegevens toegang verlenen tot welke diensten, waarbij hij privilegeniveaus en toegangslimieten in kaart brengt zonder menselijk beheer.’

“We hebben de detectiemogelijkheden uitgebreid om meer rekening te houden met nieuwe dreigingspatronen, onder meer door onze cybergerichte classificaties te verbeteren”, vertelde Klein aan VentureBeat. Anthropic maakt prototypes van proactieve vroege detectiesystemen voor autonome cyberaanvallen.

Nieuwsbron

Hoe de AI van Anthropic werd gejailbreakt om een wapen te worden

De architectuur die het mogelijk maakte

Hoe bewapeningsmodellen de kostencurve van APT-aanvallen afvlakken

Lessen getrokken uit kritische detectie-indicatoren

LAAT EEN REACTIE ACHTER Annuleer reactie

EDITOR PICKS

Toegang geweigerd

Vance viert het verenigende moment als de Amerikaanse delegatie arriveert bij de Winterspelen Milaan-Cortina

2026 Verfkleurtrends voor een rustiger, vrediger huis

Regisseur Mark Cousins onderzoekt ‘The Story Of Documentary Film’