Black Friday = Pricewatch Bekijk onze selectie van de beste Black Friday-deals en voorkom een miskoop.

Door Imre Himmelbauer

Redacteur

Hoe een storing van een minuut het netwerk van Odido urenlang liet wankelen

17-11-2025 • 20:30

51

Tekst

Toen Odido op maandagochtend wederom last had van een grote, landelijke storing op zijn mobiele netwerk, leek dat er een zoals die recent vaker voorkwamen. De oorzaak lijkt nu te liggen bij een extern datacenter, maar het is wel een bijzondere. In een datacenter van een natuurkundig onderzoeksinstituut vond een stroomstoring plaats die precies 51 seconden duurde, maar grote impact had op niet alleen Odido maar ook EuroFiber, en vervolgens weer andere diensten.

Wat is Nikhef?

Om te begrijpen waar deze storing vandaan kwam, duiken we de subatomaire fysica in. Geen zorg, dit wordt geen college van Robbert Dijkgraaf, we gaan het hebben over een datacenter. Specifieker: we gaan het hebben over Nikhef, van oorsprong een instituut dat onderzoek doet naar subatomaire fysica. Dat onderzoek doet het nog steeds, maar inmiddels beheert Nikhef ook een groot datacenter dat vooral dienst doet als internetknooppunt. De organisatie heeft naar eigen zeggen 'een bijdrage geleverd aan de ontwikkeling van het internet, satellietnavigatie, geavanceerde sensortechnologie en medische beeldvormingstechnieken'. Computable schreef in 2017, toen Nikhef zich aansloot bij de Dutch Datacenter Association, dat het instituut 'vanaf het begin' betrokken is bij de ontwikkeling van het internet, vooral door experimenten met de Europese raad voor kernonderzoek, het Cern.

We spraken met meerdere tweakers die op een of andere manier werken met het datacenter van Nikhef. Een van hen zegt dat je je als klant tot een paar jaar geleden nog moest melden aan de balie van 'een soort universiteitsgebouw' om toegang te krijgen. Sindsdien is het datacenter gegroeid en professioneler geworden. Desondanks is het naar verluidt nog relatief kleinschalig en vooral heel techneutvriendelijk. Een andere tweaker vertelt dat beheerders kabels tussen de kasten in het datacenter zelf mogen trekken, mits ze deze netjes labelen en documenteren. Nikhef heeft daar ook richtlijnen voor opgesteld.

Desondanks is Nikhef, mede omdat het zo'n belangrijke plek is geweest voor het ontstaan van het internet, een van de belangrijkste datacenters voor de connectiviteit in Nederland en delen van Europa. Onder meer Belgacom, Eurofiber, Ziggo, Odido, KPN, Tele2 Zweden, het Deense TDC en het Finse Elisa hebben hardware staan in Nikhef. Dat komt ook doordat Nikhef een datacenter is dat vooral voor connectiviteit bedoeld is. Volgens een van de tweakers die wij spraken staat Nikhef zelfs alleen routers toe, een andere houdt het erop dat Nikhef 'liever niet' heeft dat klanten er servers plaatsen.

Nikhef in het Science Park in Amsterdam. Bron: Wikimedia Commons/Hobbema
Nikhef in het Science Park in Amsterdam. Bron: Wikimedia Commons/Hobbema

Een storing van één minuut

Een tweaker meldt dat alle voedingen bij 'serieuzere datacenters' zoals Nikhef dubbel zijn uitgevoerd. Het datacenter verwacht van klanten dat zij een van die powerfeeds continu belasten en de andere alleen als back-up gebruiken of met apparaten die een dubbele voeding hebben. Een van de feeds viel om 8:44:45 uur precies 51 seconden uit, zo meldt een tweaker op basis van de logging van zijn router. Dat had lang niet voor alle klanten impact, omdat de andere voeding wel bleef werken. Bij twee providers, EuroFiber en Odido, leek dat anders te zijn, maar waarom daar problemen ontstonden, is moeilijk te zeggen. Eurofiber zelf zegt niet expliciet dat de stroomuitval bij Nikhef de oorzaak was van de storing bij de zakelijke provider. "Deze verstoring had een landelijke, externe oorzaak en lag buiten onze eigen infrastructuur", reageert een woordvoerder op vragen van Tweakers. "Wij blijven de situatie actief monitoren en houden alles nauwlettend in de gaten. Voorlopig hebben wij nog geen definitieve verklaring ontvangen van de betrokken partijen over de oorzaak van de onbeschikbaarheid."

Ook Odido wil alleen verklaren dat een stroomstoring in 'een datacenter' de oorzaak was van de storing waardoor het mobiele internet maandagochtend instabiel werkte. Op Allestoringen kwamen ook duizenden meldingen binnen over KPN en Ziggo, die beide ook klant zijn bij Nikhef. Woordvoerders van die bedrijven verklaren echter dat er bij hun netwerken geen storingen waren. Zij zeggen dat de pieken werden veroorzaakt door de problemen die hun klanten ondervonden met het contact met Odido-klanten.

Ook bij meerdere banken werden vanochtend problemen gemeld op Allestoringen. Dat gold met name voor de RegioBank, ASN Bank en SNS. Het is zeer waarschijnlijk dat dit verband houdt met de storing bij Nikhef. ASN Bank, moederbedrijf van de drie eerdergenoemde banken, is daar zelf geen klant. Het maakt echter wel gebruik van diensten van internetknooppunt NL-ix, dat op zijn beurt weer klant is van Nikhef. Het is ook mogelijk dat ASN diensten afneemt van Eurofiber, maar dat is niet bekend; de zakelijke provider heeft geen openbare lijst van klanten.

De storing roept daarmee ook vragen op over de kwetsbaarheid van internetverbindingen in Nederland. Want als een stroomstoring van minder dan een minuut al serieuze problemen kan veroorzaken bij twee grote providers in Nederland, wat zijn dan de gevolgen van een serieuzere, langdurige storing? En waarom ondervonden twee grote bedrijven problemen terwijl slechts een van de twee feeds uitviel? Het is een vraag die vast en zeker nog besproken zal worden, vooral bij die bedrijven zelf.

Nikhef wilde nog geen inhoudelijke reactie geven op vragen van Tweakers. Het bedrijf meldt wel dat het nog onderzoek doet naar de oorzaak van de storing en zijn klanten later informeert over de resultaten. Wanneer dat precies gebeurt, is niet bekend.

Redactie: Imre Himmelbauer • Eindredactie: Marger Verschuur

Reacties (51)

Sorteer op:

Weergave:

Bij ons moest een aantal jaren geleden 1 rail van het dubbelrailsysteem in onderhoud. Voor de zekerheid heeft men toch maar eens de vloeren opengemaakt om de aansluitingen van de apparatuur op de rails te controleren. Een fix aantal stekkers was maar ergens ingestoken, terwijl ze voor een dubbel rail systeem bedoeld waren.
Hetzelfde toen ik eens de internetverbindingen van een virtual tape server met volledig redundante verbindingen naar 2 gescheiden netwerken controleerde. Men had een aantal stekkers maar ergens ingestoken.
Ja, dat gebeurt blijkbaar dus gewoon.
Wij werkten met een kleursysteem voor de voedingen.

Waarbij het primaire en secundaire systemen elk een eigen kleur hadden voor contactdozen, stekkers, lasdozen e.d.

In mijn ervaring kun je systemen nog zo redundant maken als je wilt, maar zonder zeer duidelijk fysiek onderscheid is het een kwestie van tijd voor je redundantie om zeep gaat. nog beter om het zelfs fysiek onmogelijk te maken dat de primaire en secundaire stekkers op elkaars voedingen passen, maar dan heb je weer het probleem dat mensen geen goede kabel kunnen vinden dan maar 2 primaire snoeren aan de server hangen als "tijdelijke" oplossing.
Je vergeet: testen! Je kunt het soms nog zo mooi uitdenken, maar als je het niet test dan weet je ook niet of het werkt.
Ik heb bij een grote bank gewerkt, en daar moest een uitwijk plaatsvinden, zoals wel vaker gebeurde.

Echter nu ging zowel productie als test plat. Oorzaak bleek uiteindelijk te liggen in het feit dat er 1 connectie niet dubbel was uitgevoed. Alle voorgaande keren dat er geswitched was, was er niks aan de hand.

Blijft mensenwerk
Wij hebben ook apparatuur in Nikhef, alles op de A en B powerfeed aangesloten. Wij hebben ook de uitval gezien, maar geen problemen gehad omdat 1 van de twee feeds wel bleef werken.

Wel hebben we veel BGP neighbors offline zien gaan, wat daar precies achter zit blijft gissen.
Hier hetzelfde, zit zelf in Nikhef inderdaad, vanochtend hoop neighbours down gegaan, ik vraag me zelfs af alsof er niet switches van een IX down zijn gegaan. Eigen netwerk incl. eigen WDM waves bleef draaien, dus was even achter de oren krabben wat er precies aan de hand was.

Gezien de hoeveelheid wat ik zag dat down is gegaan is het niet een foutje qua power feeds. Of stroom verbruik van een rack was te hoog om op te vangen met een enkele feed of spullen aangesloten op een enkele feed.

Dat Odido zo lang last had van de storing, en het idee van de vorige storingen, lijkt wel een configuratie ding op hun routers wat niet lekker gaat. Kan me niet voorstellen dat je op zo'n netwerk maar met enkele lijntjes werkt.

[Reactie gewijzigd door jDuke op 17 november 2025 23:25]

Lijkt mij toch iets wat enkelvoudig was aangesloten, en als je eenmaal een BGP update krijgt ben je een paar uur verder voor alles weer een beetje rustig is.
Maar betekent dit dan eigenlijk dat Odido en Eurofiber hun routers niet correct redundant hebben aangesloten?
Of ze hebben het verkeerd aangesloten. Zo zijn wij bij een vorige werkgever eens door het oog van de naald gekropen

Daar hadden we meerdere Cisco UCS blade-chassis. Onze chassis hadden 4 enkelfasige 230VAC voedingen en het bleek dat die door de collega’s of monteurs om-en-om op de feeds waren verdeeld.

Vervolgens hadden ze die als N+1 ingesteld. Dus onder de 25% load zijn er 2 PSU’s actief (een extra), bij 25% load schakelt er een derde bij en bij 50% of meer zijn ze alle vier actief. Die instelling is bedoeld voor één enkele of vier onafhankelijke feeds. Bij 2 feeds kan het gebeuren dat twee actieve PSU’s tegelijk uitvallen omdat ze op dezelfde feed zitten. Omdat het inschakelen van de twee overige PSU’s tijd kost, zijn alle blades enkele seconden spanningsloos, met alle gevolgen van dien.

Heb je 2 feeds dan moet je dat in de firmware aangeven, moeten de chassis A-A-B-B aangesloten zijn en moet je opgeven welke servers er down mogen als er tijdens een feedstoring meer vermogen verbruikt wordt dan de twee overgebleven PSU’s kunnen leveren. Dat afsluiten gebeurt netjes (de PSU’s kunnen een korte tijd extra vermogen leveren) maar je moet het wel instellen, anders gaan er quasi-random servers doen.

Gelukkig kwam ik daar achter toen het datacenter liet weten onderhoud op een van de feeds te moeten doen. Ik ben toen gaan controleren of alles juist was aangesloten. (Niet alle monteurs leveren kwaliteit, of ze zien het verschil tussen een blauwe en een rode kabel niet)

Vandaar dat ik het liefst voor een geplande feed black-out van een feed het liefst even een site-visit doe om alles even na te lopen. En het zal ook niet voor het eerst zijn dat ik machines tegen kom die ‘voor het gemak’ met beide PSU’s in dezelfde PDU zitten.
zie mijn reactie hierboven, ik begrijp hieruit dat tegenwoordig de voedingen dus helemaal niet meer echt redundant zijn maar een beetje kunnen opschalen en aan server throttling doen.

klinkt als "if you pay peanuts you get monkeys"
En waarom ondervonden twee grote bedrijven problemen terwijl slechts een van de twee feeds uitviel? Het is een vraag die vast en zeker nog besproken zal worden, vooral bij die bedrijven zelf.
Dat is dus de vraag in het artikel.
Ik kan wel een paar redenen bedenken

- per ongeluk apparatuur aangesloten op dezelfde PDU
- niet redundante apparatuur gebruikt voor een key element
- De A & B feed voor meer dan 50% belast zodat een enkele feed het niet kan uithouden
- apparatuur die zichzelf gecontroleerd uitzet bij slechts 1 voeding
- apparatuur die toch niet lekker blijkt te werken
- failover werkt, maar onder hoge load kan de resterende node overbelast raken
- te hoge inrush current bij de overschakeling naar een enkele voeding voor het gehele rack
Allemaal denkbaar idd. Daarnaast heeft geen enkel stukje hardware het eeuwige leven. Zo'n optater wanneer een voeding ineens 2x zoveel vermogen moet gaan leveren, kan net het duwtje zijn om hem naar zijn einde te helpen, terwijl die in "normaal bedrijf" nog perfect functioneerde. Kwestie van dikke pech dan.

Je kunt natuurlijk wel stellen dat je dergelijk kritische apparatuur misschien geheel redundant zou moeten uitvoeren (ipv enkel de voeding). Of een recovery strategie met minimale downtime zou moeten hebben. Laten we wel wezen die 51 seconden waren het probleem niet, de slepende problemen die volgden wel.

[Reactie gewijzigd door mcDavid op 17 november 2025 21:46]

"if you didn't test it, it's not a backup"

Dit principe gaat jammer genoeg op voor héél veel oplossingen, niet enkel voor backups, maar ook voor disaster-recovery oplossingen. IT-managers durven er wel gigantische budgetten besteden (wat goed is), maar als je om praktijktesten vraagt, dan gaan ze plots op de rem staan en op de theorie vertrouwen.

Je wil niet weten hoeveel SLA's er in zulke situaties gebreached worden of ongeldig verklaard simpelweg omdat iemand ergens iets over het hoofd heeft gezien.

Andere vragen die hen doet schuifelen op hun stoel zijn: "wat is het ergste dat er mag failen" en "hoeveel backups zijn genoeg".

Uiteindelijk zal er altijd wel ergens een SPOF zijn dat te complex, duur of onwaarschijnlijk is om een alternatief voor te voorzien. Als je héél je omgeving volledig in kaart hebt (inclusief underpinning contracts), zou je daar een antwoord op moeten kunnen geven en dan gewoon maar hopen dat het worst-case scenario geen realiteit wordt. Hoe groter de omgeving, hoe onwaarschijnlijker het zou moeten zijn dat er niet genoeg redundancy is, maar net zoals de BGP-perikelen van een paar jaar geleden kan je soms héél ver in de supply-chain pas de oorzaak vinden die een waterval-effect kan hebben waar je als voorbeeldige beheerder/manager in de verste verte niet aan zou kunnen gedacht hebben en gaat heel je omgeving down en laten we eerlijk zijn: er waren vandaag meerdere van zulke mensen die met hun handen in de lucht moesten zeggen: de leverancier heeft een probleem.
Vooral die laatste is een vrij bekende in de grotere datacenters, voeding die normaal niet actief is krijgt ineens op zijn donder en begeeft het gewoon domweg.
Ik weet dat vroeger apparatuur met 2 volledige voedingen was uitgerust. Deze sloot je aan op "rode" en de "blauwe" groep. Die hadden hun eigen invoer (10kv trafo) en nobreak. Viel een groep uit draaide alles vrolijke verder op de andere groep en een volledige voeding.
Daarna kregen we "pizzadozen" met 3 50% voedingen, idee was leuk bij uitval van een van de voedingen hield je 100% over alleen paste dit niet in de gebruikelijke 2 groepen structuur, want je moest 3 voedingen verdelen over 2 groepen en bij uitval van de verkeerde groep ging je server alsnog plat.
Ik weet niet of dit 3 halve voedingsysteem ooit is over genomen door gerenomeerde router en switch fabrikanten maar het geld wat je bespaard op je voeding kan je weer dubbel en dwars uitgeven aan een derde groep met bijbehorende invoer en nobreak. Bij ons werden de "pizzadozen dan ook om en om met 2 voedingen op rood en de volgende met 2 voedingen op blauw aan gesloten. Dus bij uitval van een groep ook uitval van de helft van de servers.
Mogelijk heeft dit iets met de oorzaak te maken, maar ben al te lang de ict uit om dit met zekerheid te kunnen zeggen.
Ik zie nog steeds gewoon 2 of 4 voedingen in apparatuur, je moet gewoon slim de boel aansluiten, inderdaad 2 aanvoeren vanaf verschillende transformatoren, goed zorgen dat elk stuk hardware dus op beide transformatoren uit komt en de UPS-en ook over beide aanvoeren verdelen. Elk device 1x directe voeding en 1x UPS. En in de BIOS de voedingen als redundant instellen en zorgen dat beide voedingen voldoende capaciteit leveren voor het hele systeem.
Uit het verhaal van Rido78 haal ik wat anders vwb. 4 voedingen.
Dat is een geldige conclusie. Onze meuk in nikhef is gewoon netjes aangesloten op beide power feeds en hadden dan ook geen last van de onderbreking.De poorten die op de router down gingen toonden wel aan dat we interconnects hebben met andere partijen in Nikhef die dezelfde fout als Odido en Eurofiber wellicht gemaakt hebben.
Maar betekent dit dan eigenlijk dat Odido en Eurofiber hun routers niet correct redundant hebben aangesloten?
Of switches, servers, multi-plexers of iets anders. En er hoeft maar één SPOF uit te vallen om de hele keten mee te trekken natuurlijk. Maar verder is dat inderdaad een terechte vraag die je stelt. Hopelijk trekken ze hier hun lessen uit.
Het is toch wel weer vervelend voor (de klanten van) Odido dat juist zij er weer zoveel last van hadden. Het lijkt dus toeval, maar in de tijd van T-Mobile waren er vrijwel geen storingen van deze aard.
Toch vraag ik me wel af hoeveel mensen er nu echt last van hebben. Ik zit privé bijvoorbeeld bij Odido en heb van de storingen de laatste tijd maar 1x echt merkbaar last gehad. Toevallig zit mijn werkgever ook zakelijk bij Odido, en vandaag ook geen enkele melding gehad van gebruikers met problemen .
Ik zit privé bij Odido en heb van alle recente storingen last gehad.
Misschien toch iets regio gebonden dan ofzo? Zowel ik als mijn werkgever zitten in de regio oost-Nederland. Geen idee natuurlijk waar jij zit, maar als dat ook oost-Nederland is, kan die theorie ook het raam uit.
De meeste problemen lagen bij de DNS server, als je een andere DNS server dan die van Odido gebruikt, heb je tot nu toe heel weinig last gehad van de problemen. Vanochtend had ik ook maar 1 minuutje last, omdat ik een andere DNS server gebruik.
Ik had ook last de storing vandaag en woon in Twente. Ook mijn werkgever had er wat last van het klapperende mobiele netwerk. Van de afgelopen storing was het prive voor mij alleen nog een keer de vaste verbinding die er een paar uur uit heeft gelegen, maar goed was in de avond meer en naja, dan ff geen tv kijken
Privé met mijn ftth nergens last van. Op werk waar veel Odido Sims circuleren was de impact wel merkbaar.
Mijn Odido ftth had wel ergens last van, en dat duurde ongeveer 1 minuut. Dus van alles wat na de stroomstoring kwam had ik blijkbaar weer geen last.
Bij mij ging vandaag mijn WAN 2 (als back-up) ook down.

Dat is een Odido prepaid 4G+ verbinding.
Ik heb zo vaak storing bij Odido de laatste tijd, dat het voor mij meer dan pech of toeval lijkt. Met mijn andere sim in dezelfde telefoon op 50+ (Vodafone) nooit problemen.
Het is toch wel weer vervelend voor (de klanten van) Odido dat juist zij er weer zoveel last van hadden. Het lijkt dus toeval, maar in de tijd van T-Mobile waren er vrijwel geen storingen van deze aard.
Providers moeten aandeelhouders pleasen in een tijd dat de inkomsten niet meer makkelijk even verhoogd kunnen worden door nieuwe klanten te trekken. De markt is wel verdeeld en het aantal overstappers is laag. Het lijkt wel of alle providers nu bezuinigen op personeel en andere kosten. Lopen ze kans op hoge en veel boetes bij zakelijke klanten als het mis gaat? Of valt het aantal klanten met zo’n uptime garantie zo mee dat je er eigenlijk niet mee hoedt te rekenen? Service is ook bij de hoofdproviders al even niet meer hoe het geweest is en downtime is een te nemen risico geworden.

het zal niet veranderen. Dus dan maar genieten van het werk wat in een analyse op Tweakers wordt gestoken. Ja hier wel gelukkig..
De naam Belgacom in het artikel triggert mij, de naamsverandering naar Proximus dateert al van meer dan tien jaar geleden. Onder het linkje over "hebben hardware staan" komen we terecht op de site van Nikhef waarbij de link naar Belgacom uit komt bij een of ander Indonesisch gokhol. Bij Odido staat er nog steeds een link naar T-Mobile, als ze zelfs dat lijstje al niet wat up to date houden, welke indruk geeft dat voor de rest van dat bedrijf?
Dat ze er niet zoveel om geven.Is ook niet hun core business.
Dat kan maar hoe dan ook blijft het slordig. Is het nu zoveel werk om voor mijn part eenmaal per jaar iemand een dagje zo'n site even na te laten lopen?
Mogelijk omdat Belgacom International Carrier Services (BICS) ergens nog steeds zo heet.

Website is nu wel: www.bics.com

[Reactie gewijzigd door Henk Poley op 17 november 2025 21:09]

Misschien gaat het niet over Proximus, maar BICS? Dit zou allezins het voortdurend gebruik van Belgacom verklaren.
Wat? Niets over Joke en haar kippen? pff, ik heb er destijds nog kilo's CAT onder de vloer geprobeerd te trekken, wat toen al niet makkelijk was met de tapijt tegels en de ontzagwekkende spaghetti onder de vloer.
Joke!! En niets over de sleutel-aan-houten-klosje die op de balie lag en die je kon grijpen nadat je tegen de balie-dame die allllltijd aan de telefoon zat (en veelal privé) iets van “ik kom voor amsix” had gepreveld? Niets over de vloer met tegels en tapijt? Niets over nachtelijk maintenance in een verlaten nikhef pandje (melden bij Sara!) dat helemaal verlaten toch een beetje spooky voelde?
Kortom,50 seconden en dat bedrijf heeft niks in de gaten dat het een stroomstoring was.

Ik verwacht toch anno 2025/26 dat grootte datacenter een preciezere melding krijgt als er een storing optreedt.
Soms is het lastig monitoren. Bijvoorbeeld meegemaakt dat op bepaalde supermicro hardware de cpu op de laagste kloksnelheid werd gezet na een hele korte stroomonderbreking die snel voorbij was - had redundante aansluiting. BIOS detecteerde niet goed dat de stroom weer helemaal terug was en bleef in die modus steken. Had de onderbreking 1-2 minuten langer geduurd, dan was er niets aan de hand geweest en was de server daarna weer op normale kloksnelheid teruggekomen 8)7
50 seconden is toch veel te kort om het weer op te lossen, en binnen een minuut liep de stroomvoorziening kennelijk weer goed. En zoals ik het artikel lees moet de klant dus zelf zorgen dat ze een korte tijd met 1 van de 2 stroomvoorzieningen moeten afkunnen. Dan heeft het bedrijf toch in principe niets fout gedaan?
Goed dat tweakers hier een artikel over geschreven heeft! adequaat gehandeld. Top!
Ik kwam om te lezen hoe een storing van een minuut o.a. ons halve netwerk urenlang platgooide, ik lees alleen maar giswerk en achtergrondverhaal. schrijf dan niet zo'n suggestieve titel
Die storing bij AMS-IX gebeurde in 2023 en heeft geen enkele relatie met de gebeurtenissen van vanmorgen.
Oeps, was niet helemal scherp meer :P


Om te kunnen reageren moet je ingelogd zijn