Home Nieuws Vijf signalen dat datamining uw beveiligingsmodellen nu al ondermijnt

Vijf signalen dat datamining uw beveiligingsmodellen nu al ondermijnt

4
0
Vijf signalen dat datamining uw beveiligingsmodellen nu al ondermijnt

Gegevensdrift treedt op wanneer de statistische eigenschappen van de invoergegevens van een machine learning-model (ML) in de loop van de tijd veranderen, waardoor de voorspellingen uiteindelijk minder nauwkeurig worden. Cybersecurityprofessionals die afhankelijk zijn van ML voor taken als malwaredetectie en analyse van netwerkbedreigingen, ontdekken dat onopgemerkte gegevensmanipulatie kwetsbaarheden kan veroorzaken. Een model dat is getraind op oude aanvalspatronen kan de geavanceerde dreigingen van vandaag niet onderkennen. Het herkennen van de eerste tekenen van data-exploitatie is de eerste stap in het onderhouden van betrouwbare en effectieve beveiligingssystemen.

Waarom datamining beveiligingsmodellen in gevaar brengt

ML-modellen worden getraind op een momentopname van historische gegevens. Wanneer de live gegevens niet langer op deze momentopname lijken, nemen de prestaties van het model af, waardoor er een kritisch cyberveiligheidsrisico. Een model voor bedreigingsdetectie kan meer valse negatieven genereren door echte inbreuken te missen of meer valse positieven creëren, wat leidt tot waarschuwingsmoeheid voor beveiligingsteams.

Tegenstanders maken actief misbruik van deze zwakte. In 2024, aanvallers gebruikten echo-spoofing-technieken om e-mailbeveiligingsservices te omzeilen. Door misbruik te maken van verkeerde configuraties in het systeem, stuurden ze miljoenen valse e-mails die de ML-classifiers van de leverancier omzeilden. Dit incident laat zien hoe bedreigingsactoren invoergegevens kunnen manipuleren om blinde vlekken te exploiteren. Wanneer een beveiligingsmodel zich niet aanpast aan veranderende tactieken, wordt het een risico.

5 indicatoren voor gegevensverwerking

Beveiligingsexperts kunnen de aanwezigheid van uitbuiting (of de potentie ervan) op verschillende manieren herkennen.

1. Een plotselinge daling van de modelprestaties

Nauwkeurigheid, precisie en herinnering zijn vaak de eerste slachtoffers. Een consistente daling van deze belangrijke statistieken is een teken dat het model niet langer synchroon loopt met het huidige dreigingslandschap.

Kijk eens naar het succes van Klarna: de AI-assistent behandelde in de eerste maand 2,3 miljoen klantenserviceoproepen en verrichtte werk dat overeenkomt met dat van 700 agenten. Deze efficiëntie zorgde voor een 25% vermindering van herhaalde aanvragen en verminderde oplossingstijden tot minder dan twee minuten.

Stel je nu voor dat deze parameters plotseling zouden veranderen als gevolg van drift. In een beveiligingscontext betekent een vergelijkbare prestatiedaling niet alleen ontevreden klanten – het betekent ook succesvolle inbraken en mogelijke gegevensexfiltratie.

2. Verschuivingen in statistische verdelingen

Beveiligingsteam moet de belangrijkste statistische eigenschappen van invoerfuncties monitoren, zoals gemiddelde, mediaan en standaarddeviatie. Een significante verandering in deze statistieken ten opzichte van trainingsgegevens zou erop kunnen wijzen dat de onderliggende gegevens zijn veranderd.

Door dergelijke verschuivingen te monitoren, kunnen teams driften opvangen voordat deze een inbreuk veroorzaken. Zo kan een phishing-detectiemodel worden getraind op e-mails met een gemiddelde bijlagegrootte van 2 MB. Als de gemiddelde bijlagegrootte plotseling naar 10 MB stijgt als gevolg van een nieuwe methode voor het afleveren van malware, kan het model deze e-mails mogelijk niet correct classificeren.

3. Veranderingen in voorspellend gedrag

Hoewel de algehele nauwkeurigheid stabiel lijkt, kunnen de verdelingen van voorspellingen veranderen, een fenomeen dat vaak voorspellingsdrift wordt genoemd.

Als een fraudedetectiemodel bijvoorbeeld historisch gezien 1% van de transacties als verdacht heeft gemarkeerd, maar plotseling 5% of 0,1% begint te markeren, is er iets veranderd of is de aard van de invoergegevens veranderd. Het kan duiden op een nieuw type aanval dat het model in verwarring brengt, of op een verandering in legitiem gebruikersgedrag waarvoor het model niet is getraind om het te identificeren.

4. Een toename van de modelonzekerheid

Voor modellen die bij hun voorspellingen een betrouwbaarheidsscore of waarschijnlijkheid weergeven, kan een algemene daling van het vertrouwen een subtiel teken van verschuiving zijn.

Recente onderzoeken benadrukken dit de waarde van het kwantificeren van onzekerheid om vijandige aanvallen te detecteren. Als het model minder vertrouwen krijgt in zijn voorspellingen over de hele linie, wordt het waarschijnlijk geconfronteerd met gegevens waarop het niet is getraind. In een cyberbeveiligingsomgeving is deze onzekerheid een vroeg teken van mogelijk falen van het model, wat erop wijst dat het model op onbekend terrein opereert en dat zijn beslissingen mogelijk niet langer betrouwbaar zijn.

5. Veranderingen in functionele omstandigheden

Ook de correlatie tussen verschillende invoerfuncties kan in de loop van de tijd veranderen. In een netwerkpenetratiemodel kunnen het verkeersvolume en de pakketgrootte tijdens normaal gebruik sterk gecorreleerd zijn. Als deze correlatie verdwijnt, kan dit een verandering in het netwerkgedrag signaleren die het model mogelijk niet begrijpt. Een plotselinge ontkoppeling van kenmerken kan duiden op een nieuwe tunneltactiek of een heimelijke exfiltratiepoging.

Benaderingen om datadrift te detecteren en te beperken

Gebruikelijke detectiemethoden zijn onder meer Kolmogorov-Smirnov (KS) en de populatiestabiliteitsindex (PSI). Deze vergelijken distributie van live- en trainingsgegevens afwijkingen te identificeren. De KS-test bepaalt of twee datasets significant verschillen, terwijl de PSI meet hoeveel de verdeling van een variabele in de loop van de tijd is veranderd.

De gekozen mitigatiemethode hangt vaak af van hoe de drift zich manifesteert, aangezien distributieveranderingen plotseling kunnen optreden. Het koopgedrag van klanten kan bijvoorbeeld van de ene op de andere dag veranderen als er een nieuw product of een nieuwe promotie wordt gelanceerd. In andere gevallen kan de drift geleidelijk over een langere periode plaatsvinden. Dat gezegd hebbende, moeten beveiligingsteams leren hun monitoringcadans aan te passen om zowel snelle pieken als langzame brandwonden op te vangen. Mitigatie houdt in dat het model opnieuw wordt getraind op basis van nieuwere gegevens om de effectiviteit ervan te herwinnen.

Beheer activiteiten proactief voor een betere beveiliging

Gegevensdrift is een onvermijdelijke realiteit, en cyberbeveiligingsteams kunnen een sterke beveiligingshouding handhaven door detectie als een continu en geautomatiseerd proces te behandelen. Proactieve monitoring en herscholing van modellen zijn fundamentele praktijken om ervoor te zorgen dat ML-systemen betrouwbare bondgenoten blijven tegen zich ontwikkelende bedreigingen.

Zac Amos is de functie-editor bij ReHack.

Welkom bij de VentureBeat-community!

In ons gastpostprogramma delen technische experts inzichten en bieden ze neutrale, onbevooroordeelde diepgaande inzichten in AI, data-infrastructuur, cyberbeveiliging en andere geavanceerde technologieën die de toekomst van het bedrijfsleven vormgeven.

Lees meer uit ons gastpostprogramma – en bekijk ons richtlijnen als u geïnteresseerd bent om uw eigen artikel bij te dragen!

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in