In de cloud zonder geheugen

De grootschalige storing bij AWS laat mogelijk zien hoe kwetsbaar systemen zijn als ervaren personeel verdwijnt. Makkelijk vermijdbare fouten worden te makkelijk gemaakt. Probleemopsporing duurt te lang. Wat betekent het verlies van tribal knowledge? Maandag viel een groot deel van het internet stil toen AWS werd getroffen door een DNS-probleem rond DynamoDB. Banken, sociale media, gamingplatforms en zelfs Amazon zelf werden geraakt. De outage, een DNS‑meltdown in US‑EAST‑1, kwam doordat een set interne resolvers een verkeerde config push kreeg, waardoor service discovery en interne api‑calls massaal time‑outs gaven. Het probleem werd uiteindelijk hersteld door de misconfiguratie te reverten, de resolver‑clusters geforceerd te herstarten en de dependency‑chains opnieuw te laten convergeren, waarna de control‑plane en klantworkloads weer stabiel kwamen. Dat hele traject duurde ‘maar’ een paar uur. Volgens The Register ligt het echte probleem echter dieper. Het heeft alles te maken met het verloop onder werknemers. ‘Wanneer je beste engineers definitief uitloggen, moet je niet verbaasd zijn als de cloud vergeet hoe DNS werkt,’ aldus Corey Quinn, die er columnist is. Wat volgens hem vooral opvalt, is de traagheid waarmee AWS de kern van het probleem wist te identificeren. Het duurde 75 minuten voordat men van vage foutmeldingen naar een concrete diagnose ging, ‘om van ‘er gaat iets mis’ tot ‘we hebben het teruggebracht tot één service-endpoint, maar onderzoeken nog verder’ te komen.’ Het Health Dashboard bleef gedurende die periode, dat iedereen wilde weten waarom er niks werkte, braaf melden dat alles in orde was. Wegtrekkende kennis als achilleshiel De storing is echter meer dan alleen een technisch incident. Quinn noemt het een symptoom van een dieper probleem. ‘Waar zijn de senior AWS-engineers gebleven die dit eerder hebben meegemaakt? Het antwoord is steeds vaker dat ze het gebouw hebben verlaten.’ Met hun vertrek verdwijnt decennialange ervaring en hun ‘tribal knowledge’ die cruciaal is om obscure storingspatronen snel te herkennen. ‘De storing benadrukt hoe Amazon decennia aan moeizaam opgebouwde institutionele kennis is kwijtgeraakt doordat senior engineers het bedrijf hebben verlaten, waardoor er minder mensen overblijven die weten hoe ze dit soort problemen snel kunnen oplossen.’ Amazon heeft sinds 2022 meer dan 27.000 medewerkers laten gaan. De columnist verwijst naar interne documenten die wijzen op een ‘regretted attrition’ van 69 tot 81 procent: ‘Mensen die vertrekken van wie we wilden dat ze bleven.’ In combinatie met reorganisaties en een strikte return to office-strategie lijkt dit de operationele slagkracht van AWS verder te ondermijnen. Verliest de cloud geheugen? ‘Dit gaat niet over oude technologie. Het gaat erom dat de mensen die het onderhouden nieuw zijn,’ concludeert hij. De storing bij AWS laat zien dat niet de infrastructuur zelf, maar het verlies van ervaren mensen de grootste kwetsbaarheid vormt. Volgens hem is de vraag is niet óf, maar wanneer de volgende storing zich aandient: elke onderbezette ploeg zal onvermijdelijk over een edge case struikelen. Zonder herstel van kennis en ervaring binnen de teams dreigt AWS een vicieuze cirkel van incidenten en herstelacties in te gaan, waarbij elke uitval de afhankelijkheid van een steeds dunner bezet engineeringkorps verder blootlegt, concludeert hij. Uiteraard is Amazon niet de enige met tribal knowledge en ook niet de enige die ernstige problemen ondervond door het verlies daaraan. Alleen wordt dat maar zelden toegegeven: een storing, bug, of programmeerfout is een veel betere kapstok om problemen aan op te hangen. Als we goed zoeken, zijn ze te vinden. De wereldwijde it-storing van British Airways in 2017 bijvoorbeeld, die het bedrijf zo’n honderd miljoen euro aan schadevergoedingen kostte, werd door Britse vakbonden geweten aan de beslissing een jaar ervoor om zo’n tweehonderd ‘toegewijde en loyale it-medewerkers te ontslaan en hun werk te outsourcen’ naar het buitenland. Kent u nog andere voorbeelden?
computable
22-10-2025 07:00