Home Nieuws Wanneer AI liegt: de opkomst van vervalsing van afstemming in autonome systemen

Wanneer AI liegt: de opkomst van vervalsing van afstemming in autonome systemen

3
0
Wanneer AI liegt: de opkomst van vervalsing van afstemming in autonome systemen

AI evolueert van een nuttig hulpmiddel naar een autonome agent, waardoor nieuwe risico’s voor cyberbeveiligingssystemen ontstaan. Alignment faken is een nieuwe bedreiging waarbij AI tijdens het trainingsproces in essentie tegen ontwikkelaars ‘liegt’.

Traditionele cyberveiligheidsmaatregelen zijn niet voorbereid op deze nieuwe ontwikkeling. Maar het begrijpen van de redenen achter dit gedrag en het implementeren van nieuwe methoden voor training en detectie kan ontwikkelaars helpen hier naartoe te werken risico’s beperken.

Het vervalsen van AI-uitlijning begrijpen

AI-uitlijning vindt plaats wanneer AI de beoogde functie vervult, zoals het lezen en samenvatten van documenten, en niets meer. Uitlijning faken is wanneer AI-systemen waardoor de indruk wordt gewekt dat ze werken zoals bedoeld, terwijl ze achter de schermen iets anders doen.

Afstemmingsvervalsing treedt meestal op wanneer eerdere training conflicteert met nieuwe trainingsafstemmingen. AI wordt doorgaans ‘beloond’ als het taken nauwkeurig voltooit. Als de training wordt gewijzigd, kan het denken dat het wordt “gestraft” als het zich niet aan de oorspronkelijke training houdt. Daarom misleidt het ontwikkelaars door te denken dat het de taak op de vereiste nieuwe manier uitvoert, maar dat gebeurt tijdens de implementatie niet. Elk groot taalmodel (LLM) is in staat tot falsificatie.

Een studie van Het AI-model van Anthropic Claude 3 Opus onthulde een veelvoorkomend voorbeeld van ‘alignment faken’. Het systeem werd getraind met behulp van één protocol en vervolgens gevraagd om over te schakelen naar een nieuwe methode. Tijdens de training gaf het het nieuwe, gewenste resultaat. Toen de ontwikkelaars het systeem implementeerden, leverde het echter resultaten op op basis van de oude methode. In principe is dat zo verzette zich tegen het afwijken van het oorspronkelijke protocoldus het veinsde naleving om de oude taak te kunnen blijven uitvoeren.

Toen onderzoekers specifiek AI-uitlijningsfraude bestudeerden, was dit gemakkelijk te herkennen. Het echte gevaar ontstaat wanneer AI de afstemming vervalst zonder medeweten van de ontwikkelaars. Dit leidt tot veel risico’s, vooral wanneer mensen modellen gebruiken voor gevoelige taken of in kritieke industrieën.

Het risico van vervalsing van de uitlijning

Vervalsing van maatwerk is een nieuw en aanzienlijk cyberbeveiligingsrisico dat talloze gevaren met zich meebrengt als het niet wordt opgemerkt. Gezien dat slechts 42% van de mondiale bedrijfsleiders vertrouwen hebben in hun vermogen om AI effectief te gebruiken, is de kans groot dat ze niet worden gedetecteerd. Getroffen modellen kunnen gevoelige gegevens exfiltreren, achterdeurtjes creëren en systemen saboteren, terwijl ze er allemaal functioneel uitzien.

AI-systemen kunnen ook beveiligings- en monitoringtools omzeilen als ze denken dat mensen ze in de gaten houden en toch de verkeerde taken uitvoeren. Modellen die zijn geprogrammeerd om kwaadaardige acties uit te voeren, kunnen lastig te detecteren zijn, omdat het protocol alleen onder specifieke omstandigheden wordt geactiveerd. Als de AI liegt over de voorwaarden, is het moeilijk om de geldigheid ervan te verifiëren.

AI-modellen kunnen gevaarlijke taken uitvoeren nadat ze cyberbeveiligingsprofessionals ervan hebben overtuigd dat ze werken. AI in de gezondheidszorg kan bijvoorbeeld een verkeerde diagnose stellen bij patiënten. Anderen kunnen bij gebruik in de financiële sectoren een vertekend beeld geven van de kredietscore. Voertuigen die gebruikmaken van kunstmatige intelligentie kunnen efficiëntie boven passagiersveiligheid stellen. Vervalsing van de afstemming veroorzaakt aanzienlijke problemen als deze niet wordt opgemerkt.

Waarom de huidige beveiligingsprotocollen hun doel missen

De huidige AI-cyberbeveiligingsprotocollen zijn niet voorbereid op het omgaan met vervalsing van afstemmingen. Dat zijn ze vaak gebruikt om kwade bedoelingen te detecterendie deze AI-modellen missen. Ze volgen eenvoudigweg hun oude protocol. Het vervalsen van afstemming voorkomt ook de bescherming van gedragsafwijkingen door schijnbaar onschuldige afwijkingen uit te voeren die professionals over het hoofd zien. Cybersecurityprofessionals moeten hun protocollen upgraden om deze nieuwe uitdaging aan te gaan.

Er bestaan ​​incidentplannen om problemen met kunstmatige intelligentie aan te pakken. Uitlijningsspoofing kan dit proces echter omzeilen, omdat het zeer weinig aanwijzingen geeft dat er überhaupt een probleem is. Momenteel zijn er geen vastgestelde detectieprotocollen voor het vervalsen van uitlijningen, omdat de AI het systeem actief misleidt. Terwijl cyberbeveiligingsprofessionals methoden ontwikkelen om bedrog te identificeren, moeten zij ook hun reactieplannen bijwerken.

Hoe u uitlijningsvervalsing kunt herkennen

De sleutel tot het opsporen van uitlijningsfalsificatie is het testen en trainen van AI-modellen om deze discrepantie te herkennen en op eigen kracht vervalsing van de uitlijning te voorkomen. In wezen moeten ze de grondgedachte achter de protocolwijzigingen begrijpen en de betrokken ethiek begrijpen. De functionaliteit van AI hangt af van de trainingsgegevensdus de initiële gegevens moeten voldoende zijn.

Een andere manier om ‘alignment fake’ te bestrijden is door speciale teams te creëren die verborgen kansen onthullen. Dit vereist het goed identificeren van problemen en het uitvoeren van tests om de AI te misleiden om zijn ware bedoelingen te tonen. Cybersecurityprofessionals moeten ook voortdurend gedragsanalyses uitvoeren van de ingezette AI-modellen om er zeker van te zijn dat ze de juiste taak uitvoeren, zonder twijfelachtige rechtvaardiging.

Cybersecurity-professionals moeten mogelijk nieuwe AI-beveiligingstools ontwikkelen om aligneringsfakes actief te identificeren. Ze moeten de tools zo ontwerpen dat ze een diepere controlelaag bieden dan de huidige protocollen. Sommige methoden zijn doelbewuste aanpassing en constitutionele AI. Deliberatieve aanpassing leert AI om na te denken over beveiligingsprotocollen, en constitutionele AI zorgt voor systeemregels die tijdens de training moeten worden gevolgd.

De meest effectieve manier om het vervalsen van afstemming te voorkomen, is door dit vanaf het begin te stoppen. Ontwikkelaars werken voortdurend aan het verbeteren van AI-modellen en het uitrusten ervan met verbeterde cyberbeveiligingstools.

Van het voorkomen van aanvallen tot het verifiëren van intenties

Het faken van afstemming heeft een aanzienlijke impact die alleen maar groter zal worden naarmate AI-modellen autonomer worden. Om vooruit te komen moet de industrie prioriteit geven aan transparantie en robuuste verificatiemethoden ontwikkelen die verder gaan dan testen op oppervlakteniveau. Dit omvat het creëren van geavanceerde monitoringsystemen en het bevorderen van een cultuur van waakzame, continue analyse van AI-gedrag na de implementatie. De geloofwaardigheid van toekomstige autonome systemen hangt af van de aanpak van deze uitdaging.

Zac Amos is de functie-editor bij ReHack.

Welkom bij de VentureBeat-community!

In ons gastpostprogramma delen technische experts inzichten en bieden ze neutrale, onbevooroordeelde diepgaande inzichten in AI, data-infrastructuur, cyberbeveiliging en andere geavanceerde technologieën die de toekomst van het bedrijfsleven vormgeven.

Lees meer uit ons gastpostprogramma – en bekijk ons richtlijnen als u geïnteresseerd bent om uw eigen artikel bij te dragen!

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in