Wanneer internetdienstenplatform Cloudflare last gehad van onderbreking in november nam het een groot deel van de online wereld mee ten onder.
Grote platforms als ChatGPT, X en Canva werden onbereikbaar. Dat geldt ook voor de digitale diensten die worden aangeboden door talloze banken, detailhandelaren en vele andere bedrijven. Tijdens de zes uur durende meltdown, maar liefst 2,4 miljard gebruikers hadden de impact kunnen voelen.
Softwarestoringen als deze zijn altijd een onderdeel geweest van het online leven en zullen dat ook altijd blijven. Maar tegenwoordig zijn onze systemen meer met elkaar verbonden dan ooit tevoren, dus een enkele fout kan naar buiten komen. AI vergroot dat risico alleen maar.
Toch beschikken nog te veel bedrijven nog steeds niet over bescherming tegen dergelijke rampen. In een tijd waarin verstoringen onvermijdelijk zijn, opereren ze effectief zonder vangnet.
Het fundamentele ontbrekende ingrediënt is iets eenvoudigs, maar gemakkelijk over het hoofd gezien: het testen van veerkracht.
In een notendop gaat het testen van veerkracht over het testen van uw software voordat er zich problemen voordoen. Dit zorgt ervoor dat de systemen blijven werken – of snel herstellen – als er iets misgaat.
Beschouw het testen van veerkracht als een kleine veiligheidsstap om grote problemen te voorkomen. De jaarlijkse gemiddelde kosten van een grote IT-storing bedragen ongeveer 76 miljoen dollar. Bedrijven kunnen ook reputatieschade oplopen, klanten verliezen en te maken krijgen met wettelijke boetes. Cloudflare is slechts een recent voorbeeld. Alleen al het afgelopen jaar AWS, Microsoft365En Sterrenlink alles ging mis, om er maar een paar te noemen.
Dus waarom testen niet meer bedrijven hun software op onvermijdelijk falen? Hier leest u waarom en wat bedrijven eraan kunnen doen.
DE MEESTE BEDRIJVEN LEVEREN GEEN ELEKTRISCHE TESTS AAN
Hoe hoog de inzet ook is, bedrijven hebben redenen om het testen van de veerkracht van software te vermijden. Het proces is technisch en kan rommelig worden.
Moderne veerkrachttesten, ook wel chaos-engineering genoemd, werden vijftien jaar geleden door Netflix-softwareontwikkelaars in de schijnwerpers gezet. Ze realiseerden zich dat de enige manier om veerkracht te testen het simuleren van problemen ‘in het wild’ of in de productie is, en creëerden een scala aan gereedschappen om netwerkcrashes, meltdowns van cloudservices en andere echte mislukkingen te repliceren.
Netflix had misschien de klappen kunnen opvangen, maar weinig andere bedrijven hebben de expertise of het lef om hun systemen op deze manier in gevaar te brengen. Het is alsof je een gecontroleerde brand start om er zeker van te zijn dat je over de middelen beschikt om deze te blussen.
Het testen van veerkracht vereist dat het technisch inzicht weet voor welke fouten gesimuleerd moet worden en welke reacties daarop genomen moeten worden. Het in de praktijk brengen van deze oefeningen brengt ook risico’s met zich mee, zoals het activeren van het sprinklersysteem in uw huis, waardoor het meubilair kan worden vernield. Het allerbelangrijkste is dat ontwikkelaars moeten weten wat ze moeten doen als testen zwakke punten aan het licht brengen.
Omdat de drempel voor het testen van veerkracht zo hoog is, is het niet geïntegreerd in de softwareontwikkelingsprocessen van de meeste bedrijven. Er is zelden een toegewijd team en vaak heeft niemand, behalve misschien de CTO, duidelijk de leiding. Als gevolg hiervan worden resistentietests een knelpunt, zodat bedrijven zich er niet druk over maken.
EEN BETERE WEG VOORUIT: HULP VAN AI
Het goede nieuws: het hoeft niet langer zo te zijn. Voor bedrijven die veerkrachttesten willen toepassen, maken nieuwe platforms en tools – mogelijk gemaakt door AI – het proces veiliger en gemakkelijker.
Gespecialiseerd resistentietestmiddelen stelt bedrijven nu in staat om het testen te automatiseren en optimaliseren zonder de noodzaak van toegewijde experts of teams.
Ten eerste identificeert de AI-agent waarschijnlijke randgevallen: ongebruikelijke of onverwachte scenario’s die de betrouwbaarheid in gevaar kunnen brengen. Het onderzoekt systeemgedrag in de productie, hoe diensten met elkaar omgaan en waar vergelijkbare systemen in het verleden hebben gefaald.
De agent kan bijvoorbeeld een scenario markeren waarin een service vertraagt in plaats van helemaal niet meer werkt. Nog een voordeel: een code-implementatie updatet slechts de helft van de servers van het bedrijf, wat leidt tot inconsistente gebruikerservaringen.
De agent genereert vervolgens de testgevallen die het meest waarschijnlijk veerkrachtproblemen aan het licht zullen brengen en prioriteert deze, waarbij wordt uitgelegd waarom elke casus belangrijk is. Het kan deze tests ook configureren en uitvoeren.
Nadat problemen zijn geïdentificeerd, stelt de AI-agent gerichte oplossingen voor, waardoor de software veerkrachtiger wordt. Zodra het zware werk achter de rug is, kunnen ontwikkelaars deze inzichten beoordelen en toepassen.
WAAROM DE ELEKTRISCHE TEST NAAR LINKS MOET WORDEN VERSCHUIVEN
Het hebben van de juiste tools is één ding, maar voor het effectief testen van de robuustheid is meer nodig dan alleen software.
Het creëren van een cultuur van veerkracht is een deel van de oplossing. Softwareteams moeten testen in hun routine opnemen. Uiteindelijk is oefenen de enige manier om jezelf tegen mislukkingen te wapenen. Als je deze oefeningen nooit uitvoert, weet je nooit hoe erg het kan worden, totdat het te laat is.
Ontwikkelaars moeten ook onthouden dat het testen van de veerkracht niet alleen gaat over volledige uitval met vijf alarmen. Het gaat ook om kleine, gedeeltelijke fouten die een slechte gebruikerservaring voor klanten creëren, zonder noodzakelijkerwijs het hele systeem plat te leggen.
Laten we zeggen dat een platform als Cloudflare een probleem heeft dat van invloed is op de consumentenapp van een grote bank, waardoor miljoenen mensen hun saldo niet kunnen controleren. Veerkrachttests moeten op dit probleem anticiperen en een haalbare oplossing bieden.
Maar de beste manier om een cultuur van veerkracht aan te moedigen is door ‘naar links te verschuiven’ – door het testen van veerkracht naar de pre-productiefase van softwareontwikkeling te verplaatsen voordat de code ooit live gaat.
Shift Left helpt teams zwakke punten te ontdekken lang voordat klanten ze opmerken. Dat is van cruciaal belang bij de hedendaagse complexe, onderling verbonden softwaresystemen, waar ogenschijnlijk kleine problemen snel kunnen escaleren tot grote storingen. In plaats van te worstelen met het diagnosticeren van problemen tijdens live-evenementen, kunnen ontwikkelaars deze in een beveiligde omgeving ontdekken en oplossen.
Naar links schakelen kan ook geld en stress besparen. Het oplossen van robuustheidsproblemen in de productie is duur en ontwrichtend, waardoor teamleden vaak worden weggetrokken van andere vitale taken. Door een proactieve aanpak te hanteren, kunnen ontwikkelaars en bedrijfsmanagers meer vertrouwen hebben in het product dat zij aan klanten leveren.
Uiteindelijk is het testen van veerkracht geen rocket science. Bedrijven die brandoefeningen houden voor hun software en een cultuur omarmen waarin de veerkracht wordt getest, zullen zich in een sterkere positie bevinden wanneer de volgende verstoring plaatsvindt. En in een steeds meer onderling verbonden wereld, waar AI-tools en -mogelijkheden afhankelijk zijn van meer onderliggende diensten dan ooit tevoren, is het veilig om te zeggen dat dit eerder vroeg dan laat zal zijn.
Jyoti Bansal is de CEO van Harnas.



