Verschillende van ’s werelds grootste online diensten, waaronder X, ChatGPT en verschillende websites die afhankelijk zijn van Cloudflare voor beveiliging en verkeersroutering, werden op 18 november 2025 verstoord toen een Er deden zich grote storingen voor op het internet. Gebruikers meldden traag laden, kapotte pagina’s en volledige downtime voor platforms die doorgaans miljarden dagelijkse verzoeken verwerken. Terwijl de verwarring toenam, plaatste Dane Knecht, Chief Technology Officer van Cloudflare, een gedetailleerde uitleg op Twitter, waarin hij de interne fout schetste die tot een wereldwijde verstoring leidde.
In zijn bericht erkende de heer Knecht dat Cloudflare zijn klanten en het bredere internet in de steek had gelaten. Hij benadrukte dat organisaties over de hele wereld afhankelijk zijn van Cloudflare om hun websites en applicaties beschikbaar te houden, en op deze specifieke dag nam het bedrijf die verantwoordelijkheid niet op zich. Wat van buitenaf leek op een plotselinge, wijdverbreide netwerkinstorting kwam voort uit een zeer technisch maar cruciaal onderdeel van de infrastructuur van Cloudflare: het bot-mitigatiesysteem.
Wat is een bot-mitigatiesysteem?
Om te begrijpen waarom de bug zo’n wijdverspreide verstoring veroorzaakte, is het belangrijk om te begrijpen wat een botherstelsysteem eigenlijk is. Het moderne internet wordt overspoeld met geautomatiseerd verkeer. Niet alle bots gedragen zich kwaadaardig. Zoekmachines, uptimemonitors en legitieme API’s vertrouwen bijvoorbeeld op geautomatiseerde processen. Maar een aanzienlijk deel van de bots bestaat om schade aan te richten of online systemen op oneerlijke wijze te exploiteren. Deze kwaadaardige bots proberen inloggegevens in te vullen met behulp van gelekte wachtwoorden, websites te schrapen om inhoud of concurrentie-informatie te stelen, servers te testen op mogelijke beveiligingsproblemen, websites te overweldigen met ongewenst verkeer of op andere wijze het normale gebruik te verstoren.
Er bestaan botbeperkingssystemen om dit soort misbruik, geautomatiseerd verkeer weg te houden van websites en applicaties. Het systeem van Cloudflare analyseert enorme hoeveelheden webverkeer in realtime met behulp van een combinatie van gedragsanalyses, machine learning-modellen, netwerkvingerafdrukken, mechanismen voor het reageren op uitdagingen en het volgen van IP-reputaties. Het onderzoekt hoe snel een gebruiker of bot tussen pagina’s beweegt, of headers overeenkomen met bekende browsepatronen, of verkeer lijkt op menselijke interacties en hoe het verzoek zich verhoudt tot mondiale patronen van miljoenen klanten. Veel van deze controles zijn onzichtbaar voor normale gebruikers, maar ze spelen een belangrijke rol bij het voorkomen van alles, van gegevensdiefstal tot volledige uitval veroorzaakt door overbelasting van bots.
Maakt Cloudflare alleen gebruik van botreductiesystemen?
Cloudflare is niet uniek in het draaien van dergelijke systemen. Vrijwel elke grote infrastructuuraanbieder die webverkeer op grote schaal afhandelt, heeft zijn eigen botmitigatiearchitectuur. Amazon Web Services, Google Cloud en andere aanbieders van contentlevering onderhouden vergelijkbare systemen die kwaadaardig en legitiem verkeer scheiden voordat het de websites bereikt die hun services gebruiken. Zonder deze lagen van geautomatiseerde bescherming zou het moderne internet veel kwetsbaarder zijn, vatbaarder voor voortdurende aanvallen van lage kwaliteit, en aanzienlijk langzamer voor gewone gebruikers.
Wat is een verborgen gebrek?
Wat het incident bijzonder opmerkelijk maakte, was dat de fout wat de heer Knecht omschreef als een ‘latente fout’ was. Een latente fout is een fout die vaak maanden of jaren in het systeem verborgen blijft, zonder zichtbare problemen te veroorzaken. Dit behoren tot de moeilijkste bugs om te detecteren, omdat ze onder dagelijkse omstandigheden sluimerend blijven. Ze vereisen vaak een zeldzame of ongebruikelijke combinatie van inputs of omgevingsomstandigheden om te activeren. Alleen wanneer de specifieke combinatie optreedt, verschijnt de onderliggende fout plotseling en veroorzaakt onvoorspelbare, soms ernstige gevolgen.
In dit geval bestond de latente bug binnen een dienst die verantwoordelijk was voor het ondersteunen van de botreductiefuncties van Cloudflare, volgens wat de CTO op X schreef. Tijdens normale werking verstoorde de bug waarschijnlijk de werking van het systeem niet. Het bleef stil totdat een specifieke configuratie-update de exacte reeks gebeurtenissen creëerde die nodig waren om de crash te veroorzaken.
Toen de service herhaaldelijk begon te falen, verspreidde het probleem zich naar andere onderling verbonden systemen, wat leidde tot wijdverbreide degradatie binnen het netwerk van Cloudflare. Hoewel het probleem zich voordeed in een subsysteem dat zich toelegde op het afhandelen van geautomatiseerd verkeer, reikte het rimpeleffect veel verder en beïnvloedde vrijwel elke dienst die afhankelijk is van de infrastructuur van Cloudflare.
De heer Knecht benadrukt dat de verstoring niet het gevolg is van een aanval van buitenaf. In plaats daarvan was het een interne systeemfout die werd verergerd door de schaal en onderlinge afhankelijkheid van de diensten van Cloudflare. Veel moderne internetstoringen hebben vergelijkbare hoofdoorzaken: een onverwachte storing die het gevolg is van de complexiteit van gedistribueerde systemen in plaats van kwaadwillige activiteit. Wanneer bedrijven duizenden servers in honderden regio’s exploiteren en een groot deel van het mondiale verkeer verwerken, kunnen zelfs kleine interne fouten onevenredig grote externe gevolgen hebben.
Wat is een routinematige configuratiewijziging?
Het incident kwam voort uit wat de CTO omschreef als een ‘routinematige configuratiewijziging’, wat een ander belangrijk concept is om te begrijpen waarom dergelijke storingen voorkomen. Grote aanbieders van internetinfrastructuur voeren regelmatig configuratie-updates uit om systemen draaiende te houden. Deze updates zijn niet hetzelfde als het herschrijven van software of het implementeren van nieuwe code. In plaats daarvan gaat het om het aanpassen van de interne parameters die het gedrag van het systeem bepalen. Een typische routine-update kan het wijzigen van verkeersrouteringsregels omvatten, het bijwerken van modellen voor bedreigingsdetectie, het aanpassen van time-out- of capaciteitsinstellingen, het inschakelen van nieuwe functies of het bijwerken van lijsten met bekende kwaadaardige IP-bereiken.
Dergelijke updates vinden voortdurend plaats. Ze worden als veilig beschouwd omdat ze doorgaans uitgebreide geautomatiseerde tests ondergaan en bedrijven ze in fasen uitrollen om het risico op wijdverbreide verstoringen te verkleinen. Maar zelfs met deze waarborgen zorgt de enorme complexiteit van de mondiale infrastructuur ervoor dat er soms onverwachte interacties tussendoor glippen. Wanneer een latente bug regelmatig wordt bijgewerkt, kan het resultaat een trapsgewijze bug zijn, precies de situatie waarmee Cloudflare te maken kreeg.
In zijn bericht merkte de CTO op dat Cloudflare het probleem al had opgelost en dat het bedrijf nu aan oplossingen voor de lange termijn werkt om te voorkomen dat dezelfde bug opnieuw verschijnt. Hij merkte ook op dat het bedrijf meer gedetailleerde informatie over de oorzaak van dit probleem zal delen.
Deze storing, die minder dan een maand na de AWS-storing volgt, herinnert ons eraan hoe onderling verbonden het internet is en hoeveel daarvan via infrastructuuraanbieders loopt. Het illustreert ook het delicate evenwicht tussen complexiteit en betrouwbaarheid dat ten grondslag ligt aan de online wereld. Eén enkele bug, sluimerend en onopgemerkt, kan in combinatie met een eenvoudige configuratiewijziging zich over de continenten verspreiden en de diensten verstoren die door honderden miljoenen mensen worden gebruikt.
Uitgegeven – 18 november 2025 om 23:09 IST


