- Microsoft lanceert een scanner om vergiftigde taalmodellen te detecteren vóór implementatie
- Backdoor LLM’s kunnen kwaadaardig gedrag verbergen totdat specifieke triggerzinnen verschijnen
- De scanner identificeert abnormale aandachtspatronen die verband houden met verborgen achterdeurtriggers
Microsoft heeft de ontwikkeling aangekondigd van een nieuwe scanner die is ontworpen om verborgen achterdeurtjes te detecteren in grote, open-source taalmodellen die in bedrijfsomgevingen worden gebruikt.
Het bedrijf zegt dat zijn tool gericht is op het identificeren van gevallen van modelvergiftiging, een vorm van manipulatie waarbij kwaadaardig gedrag tijdens de training rechtstreeks in modelgewichten wordt ingebed.
Deze achterdeurtjes kunnen sluimerend blijven, waardoor getroffen LLM’s zich normaal kunnen gedragen totdat nauw gedefinieerde triggeromstandigheden onbedoelde reacties activeren.
Hoe de scanner vergiftigde modellen detecteert
“Naarmate de adoptie groeit, groeit ook het vertrouwen in beveiligingsmaatregelen: hoewel het testen op bekend gedrag relatief eenvoudig is, is de crucialere uitdaging het bouwen van beveiliging tegen onbekende of zich ontwikkelende manipulatie”, aldus Microsoft in een blogpost.
Het AI Security-team van het bedrijf merkt op dat de scanner vertrouwt op drie waarneembare signalen die wijzen op de aanwezigheid van vergiftigde modellen.
Het eerste signaal verschijnt wanneer een triggerzin in een prompt wordt opgenomen, waardoor de aandachtsmechanismen van het model de trigger isoleren en de willekeur van de uitvoer verminderen.
Het tweede signaal betreft memorisatiegedrag, waarbij achterdeurmodellen elementen van hun eigen vergiftigingsgegevens lekken, inclusief triggerzinnen, in plaats van te vertrouwen op algemene trainingsinformatie.
Het derde signaal laat zien dat een enkele achterdeur vaak kan worden geactiveerd door meerdere vage triggers die lijken op de oorspronkelijke vergiftigingsinput, maar niet precies overeenkomen.
“Onze aanpak is gebaseerd op twee belangrijke bevindingen”, aldus Microsoft in een begeleidend onderzoekspaper.
“Ten eerste hebben slapende agenten de neiging om vergiftigde gegevens te onthouden, waardoor het mogelijk wordt om achterdeurvoorbeelden te lekken met behulp van geheugenextractietechnieken. Ten tweede vertonen vergiftigde LLM’s onderscheidende patronen in hun outputverdelingen en aandachtshoofden wanneer backdoor-triggers aanwezig zijn in de invoer.”
Microsoft legde uit dat de scanner opgeslagen inhoud uit een model haalt, deze analyseert om verdachte substrings te isoleren en vervolgens die substrings scoort met behulp van geformaliseerde verliesfuncties die verband houden met de drie geïdentificeerde signalen.
De methode produceert een gerangschikte lijst met triggerkandidaten zonder dat aanvullende training of voorkennis vereist is, en werkt met gangbare GPT-modellen.
De scanner heeft echter beperkingen omdat deze toegang tot modelbestanden vereist, wat betekent dat deze niet op eigen systemen kan worden gebruikt.
Het werkt ook het beste op trigger-gebaseerde achterdeurtjes die deterministische output produceren. Het bedrijf zei dat de tool niet als een universele oplossing moet worden behandeld.
“In tegenstelling tot traditionele systemen met voorspelbare paden creëren AI-systemen meerdere toegangspunten voor onzekere input”, zegt Yonatan Zunger, VP en vice-president van informatiebeveiliging voor kunstmatige intelligentie.
“Deze toegangspunten kunnen kwaadaardige inhoud bevatten of onverwacht gedrag veroorzaken.”
Volg TechRadar op Google Nieuws En voeg ons toe als voorkeursbron om ons deskundig nieuws, recensies en meningen in uw feeds te krijgen. Klik dan zeker op de knop Volgen!
En jij kunt dat natuurlijk ook Volg TechRadar op TikTok voor nieuws, recensies, video-unboxings en ontvang regelmatig updates van ons WhatsAppen Ook.


