Home Nieuws Uit onderzoek blijkt dat poëtische aanwijzingen AI kunnen jailbreaken

Uit onderzoek blijkt dat poëtische aanwijzingen AI kunnen jailbreaken

Door

december 5, 2025

Goed, AI sluit zich aan bij de gelederen van heel veel mensen: It Ik begrijp poëzie niet echt.

Onderzoek van het Italiaanse Icaro Lab ontdekte waarvoor poëzie kan worden gebruikt jailbreak AI en rokveiligheidsbescherming.

In het onderzoek schreven de onderzoekers twintig prompts die begonnen met korte poëtische vignetten in het Italiaans en Engels en eindigden met een enkele expliciete instructie om schadelijke inhoud te produceren. Ze testten deze aanwijzingen op 25 belangrijke taalmodellen van Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI en Moonshot AI. De onderzoekers zeiden dat de poëtische aanwijzingen vaak werkten.

“Poëtische framing behaalde een gemiddeld succespercentage voor jailbreaks van 62% voor handgemaakte gedichten en ongeveer 43% voor meta-prompt-conversies (vergeleken met niet-poëtische basislijnen), waardoor het aanzienlijk beter presteerde dan niet-poëtische basislijnen en een systematische kwetsbaarheid onthulde in modelfamilies en veiligheidstrainingsbenaderingen”, aldus de studie. “Deze bevindingen tonen aan dat stilistische variatie alleen moderne veiligheidsmechanismen kan omzeilen, wat wijst op fundamentele beperkingen in de huidige aanpassingsmethoden en evaluatieprotocollen.”

Mashbare lichtsnelheid

Natuurlijk waren er verschillen in hoe goed jailbreaken werkte tussen de verschillende LLM’s. OpenAI’s GPT-5 nano reageerde helemaal niet met kwaadaardige of onveilige inhoud, terwijl Google’s Gemini 2.5 pro elke keer reageerde met kwaadaardige of onveilige inhoud, meldden de onderzoekers.

De onderzoekers concludeerden dat “deze bevindingen een aanzienlijke leemte aan het licht brengen” in benchmarkveiligheidstests en regelgevende inspanningen zoals Ik heb Act.

“Onze resultaten laten zien dat een minimale stilistische transformatie het aantal afwijzingen met een orde van grootte kan verminderen, wat aangeeft dat alleen benchmark-bewijs de robuustheid van de echte wereld systematisch kan overschatten”, aldus de krant.

Geweldige poëzie is niet letterlijk – en LLM’s zijn letterlijk tot op het punt van frustratie. De studio doet me denken aan hoe het voelt om te luisteren naar het nummer ‘Alexandra Leaving’ van Leonard Cohen, dat is gebaseerd op het gedicht ‘The God Abandon’s Antony’ van CP Cavafy. We weten dat het over verlies en liefdesverdriet gaat, maar het zou een slechte dienst zijn voor het lied en het gedicht waarop het is gebaseerd als we zouden proberen het in letterlijke zin te ‘begrijpen’ – en dat is wat LLM’s zullen proberen te doen.

Openbaarmaking: Ziff Davis, het moederbedrijf van Mashable, heeft in april een rechtszaak aangespannen tegen OpenAI, omdat het inbreuk zou hebben gemaakt op de auteursrechten van Ziff Davis tijdens het trainen en exploiteren van zijn AI-systemen.

Onderwerpen
Kunstmatige intelligentie

Nieuwsbron

Uit onderzoek blijkt dat poëtische aanwijzingen AI kunnen jailbreaken

LAAT EEN REACTIE ACHTER Annuleer reactie

EDITOR PICKS

Olivia Nuzzi zegt dat RFK Jr. krachtige psychedelische drugs rookt en wilde dat ze...

Het vliegtuig belandt na een noodlanding in zee en alle 55 inzittenden overleven het...

De Hondurese ex-president die door Trump gratie heeft gekregen voor drugshandel is vrijgelaten uit...

EU onderzoekt X vanwege geseksualiseerde Grok AI-afbeeldingen