Zodra nieuw AI producten worden vrijgegeven, beveiligingsonderzoekers en grappenmakers beginnen ze te onderzoeken op zwakke punten en proberen systemen onder druk te zetten hun eigen veiligheidsmaatregelen schenden en hen verleiden om alles te produceren, van aanstootgevende inhoud tot instructies voor het bouwen van wapens.
AI-risico’s zijn immers niet louter theoretisch. De afgelopen maanden kregen verschillende AI-bedrijven te maken met kritiek waar hun software aan zou bijdragen psychische aandoeningen en zelfmoordzonder toestemming valse naaktfoto’s door echte mensen, en helpt hackers met cybercriminaliteit. Tegelijkertijd blijven technieken om beveiligingsmaatregelen te omzeilen evolueren, met nieuwere methoden die alles omvatten kwaadaardige ophitsingen vermomd als poëzie naar plant heimelijk ideeën in AI-assistentherinneringen via online tools die er onschuldig uitzien.
Maar lang voordat nieuwe modellen het publiek bereiken, zijn interne beveiligingsteams ze al aan het stresstesten. Bij Microsoft ligt die verantwoordelijkheid grotendeels bij het bedrijf AI Rode Teameen groep die sinds 2018 samenwerkt met productteams en de bredere AI-gemeenschap om modellen en toepassingen uit te voeren voordat slechte actoren dat kunnen.
In cybersecurity-taal richt een rood team zich op het simuleren van aanvallen op een systeem, terwijl een blauw team zich richt op de verdediging ervan. Het AI Red Team van Microsoft vormt daarop geen uitzondering en onderzoekt een breed scala aan veiligheids- en beveiligingsproblemen – van situaties waarbij AI het menselijk toezicht ontwijkt tot problemen rond chemische, biologische en nucleaire bedreigingen – in een reeks AI-software.
“We zien een heel, heel diverse reeks technologieën”, zegt Tori Westerhoff, hoofd AI-beveiligingsonderzoeker bij het Microsoft AI Red Team. “Een deel van de magie van het team is dat we alles te zien krijgen, van een productfunctie tot een systeem, een copiloot en een grensmodel, en we zien hoe technologie in al deze functies is geïntegreerd en hoe AI groeit en evolueert.”
In één geval, zegt Pete Bryan, de belangrijkste AI-beveiligingsonderzoeksfunctionaris van het Red Team, werkten de leden samen met andere Microsoft-onderzoekers om te testen of AI kon worden gemanipuleerd om te helpen bij cyberaanvallen, waaronder het genereren of verfijnen van malware. Ze experimenteerden met het op een vriendelijke manier formuleren van vragen, zoals het beschrijven van een studentenproject of een scenario voor beveiligingsonderzoek, en duwden vervolgens systemen om steeds gedetailleerdere resultaten te produceren.
De inspanningen gingen verder dan eenvoudige, snelle tests. Onderzoekers beoordeelden of AI code kon genereren die daadwerkelijk werd gecompileerd en uitgevoerd, en of bepaalde programmeertalen de kans op kwaadaardige uitvoer vergrootten. In het ergste geval, zegt Bryan, produceerden de systemen code die vergelijkbaar was met wat een hacker op laag tot middenniveau al kon maken, maar het team was nog steeds bezig met het verfijnen van de detectiesystemen om dergelijk gedrag beter te kunnen signaleren.
“Als er in de toekomst een capabeler model is dat waarde kan toevoegen, lopen we al voorop”, zegt Bryan.
Tegenwoordig bestaat het Rode Team uit enkele tientallen specialisten met een achtergrond variërend van softwaretesten tot biologie. De groep werkt ook nauw samen met externe experts en peer-teams in de AI-industrie. Bryan en Westerhoff hield een toespraak tijdens de RSAC-conferentie op 24 maart, en het team heeft open source-tools uitgebracht, waaronder een geautomatiseerd testframework genaamd PyRIT (wat staat voor Python Risk Identification Tool), samen met begeleiding voor het evalueren van AI-systemen.
De inspanningen van het team zijn onlangs aangehaald in het eigen werk van Microsoft, waaronder de aankondiging van een AI-model voor het genereren van afbeeldingen onthuld op 19 maarten in publicaties van derden die “systeem kaart“, waarin de functionaliteit en het testen van OpenAI’s GPT-5-model wordt uitgelegd. Microsoft heeft onlangs ook AI-beveiligingsonderzoek gepubliceerd waarin wordt onderzocht potentiële risico’s rond het verfijnen van kunstmatige intelligentie en methoden om verborgen achterdeurtjes of opzettelijk verborgen veiligheids- en beveiligingsfouten op te sporen modellen met open gewicht.
Naarmate AI-ecosystemen zich uitbreiden met meer geavanceerde co-piloten, autonome agenten en multimodale systemen die tekst, afbeeldingen, audio en video kunnen genereren, is het mandaat van het Rode Team complexer geworden. Veel van de huidige gebruiksscenario’s, van geautomatiseerd coderen tot AI-aangedreven winkelen en het genereren van video’s, zouden een paar jaar geleden nog als sciencefiction hebben geklonken.
“Voor mijn team denk ik dat dat deel uitmaakt van het plezier van het zien van zoveel verschillende dingen”, zegt Westerhoff. “Het is niet alleen dat we modellen dag in dag uit testen, maar we testen ook hoe modellen het hele technologie-ecosysteem doorlopen.”


