Minister: drie back-ups voor telefonienetwerk van KPN werkten niet - update

Volgens minister Ferdinand Grapperhaus van Justitie en Veiligheid zijn er drie back-ups voor het telefonienetwerk van KPN, alleen werkten die maandag niet. Waarom deze back-ups niet werkten, wordt nog onderzocht. Door de KPN-storing was het 112-nummer urenlang onbereikbaar.

KPN kampte maandag aan het eind van de middag met een telefoniestoring waardoor onder meer het 112-nummer niet bereikbaar was. Minister Ferdinand Grapperhaus zei dinsdag tijdens het vragenuurtje van de Tweede Kamer dat er drie back-ups waren voor het telefoonnetwerk van KPN, maar dat deze, volgens een eerste analyse van KPN, niet werkten. Volgens Grapperhaus wordt nu onderzocht waardoor deze back-ups niet werkten. Grapperhaus benadrukt dat er aan het 112-platform zelf niets mankeerde, maar dat de onbereikbaarheid door de storing van KPN kwam.

Meerdere partijen vroegen tijdens het vragenuurtje daarom ook waarom alleen KPN verantwoordelijk is voor het 112-verkeer en het telefoonverkeer bij een storing niet via een andere provider kan lopen. De minister zei hierop dat er op dit moment inspecties lopen door onder meer de Agentschap Telecom en dat KPN zelf ook een 'grondige analyse' doet. Pas wanneer deze onderzoeken klaar zijn wil Grapperhaus kijken naar vervolgstappen. "Uit die onderzoeken zal moeten blijken of we dit op een andere manier moeten aanpakken", zegt Grapperhaus. De minister verwacht dat de analyse van KPN binnen twee tot drie weken klaar is.

Tijdens het vragenuurtje was ook kritiek op de verstuurde NL-Alerts. Zo noemde Chris van Dam van het CDA de informatievoorziening 'brokkelig', omdat er meerdere telefoonnummers als alternatief voor 112 werden verstuurd. Ook werd per ongeluk een nummer van De Telegraaf meegestuurd, in plaats van een nummer waarmee de politie via WhatsApp te bereiken is. Grapperhaus zegt te betreuren dat dit is gebeurd en gaat kijken of er in het draaiboek voor een 112-storing iets moet worden aangepast.

KPN-topman Joost Farwerck zei eerder al dat de storing van het telefoonverkeer kwam door een verkeerde routering van telefoonverkeer. De exacte oorzaak wordt nog onderzocht, maar een hack werd vrijwel uitgesloten. Om de storing op te lossen moesten alle domeinen opnieuw opgestart worden. De storing duurde maandag volgens Farwerck van 16.00 uur tot 19.00 of 20.00 uur.

Update, 16:48 uur: KPN schrijft dinsdag in een bericht op zijn site meer over de storing van maandag. De telecomprovider vermoedt dat 'er sprake was van een fout in de software die gelijktijdig optrad in de vier routeringssystemen'. Dit probleem ontstond volgens KPN 'heel snel' en monitoringssystemen zouden onvoldoende adequaat hebben gereageerd. KPN zegt de oorzaak nog nader te onderzoeken en laat een onafhankelijke, externe partij de storing analyseren en aanbevelingen doen voor 'de verdere verbetering van processen en systemen'.

Vorig nieuwsartikel Volgend nieuwsartikel

Door Hayte Hugo

Redacteur

Feedback • 25-06-2019 15:16 194

25-06-2019 • 15:16

194

Lees meer

KPN-klanten klagen dat ze al dagen niet kunnen mailen door Internedservices-hack Nieuws van 10 september 2021

Noodnummers in België waren 6,5 uur onbereikbaar door storing bij Proximus Nieuws van 8 januari 2021

Telefoonstoring VodafoneZiggo maakt onder andere ziekenhuizen onbereikbaar Nieuws van 11 juni 2020

Overheid: 85 procent Nederlanders ontving testbericht NL-Alert Nieuws van 16 december 2019

KPN onderzoekt koppeling met andere providers voor nieuw 112-platform Nieuws van 25 juni 2019

KPN-topman Maximo Ibarra stapt op Nieuws van 25 juni 2019

KPN: verkeerde routering verkeer leidde tot 112-storing Nieuws van 25 juni 2019

Alarmnummer 112 en hulpdiensten zijn onbereikbaar door KPN-storing - update 3 Nieuws van 24 juni 2019

Meer producten en artikelen

Mobiele netwerken KPN Nederland Overheid

Reacties (194)

-Moderatie-faq

194

190

Wijzig sortering

CAPSLOCK2000

Nederland
Overheid

25 juni 2019 15:26

Het gevaar met dit soort backup-systemen is dat je overal dezelfde fout maakt. Eigenlijk moet je dit soort systemen onafhankelijk van elkaar opzetten en door verschillende teams laten implementeren zonder dat ze onderling overleggen en elkaars fouten overnemen. Liefst wel nog met iemand er boven die er op toeziet dat die onafhankelijke teams niet toevallig dezelfde keuzes maken.

Als drie backup-systemen tegelijkertijd niet werken dan ga ik er van uit dat het drie identieke backup-systemen zijn die allemaal hetzelfde probleem hebben.

Zo koop ik harde schijven altijd per twee maar van verschillende leveranciers. Natuurlijk is dat makkelijker gezegd dan gedaan, het aantal aanbieders van 112-oplossingen in deze wereld zal niet heel erg groot zijn. Toch zou je denken dat een bedrijf als KPN genoeg kennis en kunde in huis heeft om daar mee om te gaan, dat deze dienst de hoogst mogelijke beschikbaarheid nodig heeft is een no-brainer.
Al kan het natuurlijk zijn dat we gewoon niet genoeg betalen om het goed te doen, we zijn al decennia aan het bezuinigen op publieke diensten.

Keypunchie

Nederland
Mobiele netwerken

@CAPSLOCK2000 • 25 juni 2019 16:12

Het gevaar met dit soort backup-systemen is dat je overal dezelfde fout maakt.

Nou, je test ze toch allemaal, dacht ik zo? Het is eerder dat er een SPOF inzit.

Volgens mij is hier eerder het probleem dat het back-ups zijn (dus een reserve-systeem), in plaats van redundante systemen (dus meerdere systemen die allemaal actief zijn).

Een van de meest zinnige vragen vond ik: waarom kan alleen de KPN dat verkeer routeren? Er valt wat te zeggen voor een systeem waarbij het bedienen van 112 als nummer naar het eindpunt iets is dat een gedeelde (wettelijke) verantwoordelijkheid van de providers is, waarbij je een hoofd-provider-rol hebt, die elke paar maanden rouleert naar de volgende. Mocht er dan iets mis gaan bij die provider, is het alleen maar een kwestie van beslissen om te schakelen naar de volgende provider. Het schakelen zelf heb je dan als het goed is al vaker gedaan.

Dit is geen simpele oplossing, maar eentje die voor bedrijfskritische systemen wel vaker wordt gebruikt. Je hebt een dubbele oplossing, waar je regelmatig van primair systeem wisselt.

droner @Keypunchie • 25 juni 2019 16:47

Tests zijn nooit 100% waterdicht en hierbij geldt hetzelfde: als hetzelfde team 100 identieke systemen 100x op 1 en dezelfde manier test, dan zal een door 1 test in 1 systeem onopgemerkte fout 100x voortleven en heb je dus helemaal niks aan je redundantie.

Als je drie identieke systemen gebruikt, gebruik dan in elk geval drie verschillende teams die op een geheel eigen manier die systemen testen, maar ook dat zal niet gebeurd zijn. Veel veiliger is om te doen wat CAPSLOCK2000 terecht voorstelt: gebruik gewoon géén identieke back-ups.

Blokker_1999

Overheid
Nederland

@droner • 25 juni 2019 16:50

Moet leuk werken zijn zo in een bedrijf met onbeperkte midellen.

batjes @Blokker_1999 • 25 juni 2019 16:58

Voor een alarmlijn dien je niet op de centen te moeten letten. Wat meer geld voor redundantie moet niet moeilijk over gedaan worden voor dit soort kritieke systemen.

Maar dat wordt het wel. Ook de overheid let op de centjes.

curkey @batjes • 25 juni 2019 17:34

Als je niet oppast kom je in een vicieuze cirkel terecht: je kunt wat meer spenderen voor betere back-ups. Maar als je nog iets meer uitgeeft, dan... etcetera.
Uiteindelijk moet je gewoon keuzes maken.

Verwijderd @batjes • 25 juni 2019 21:26

Dus budget onbeperkt! Dat zal Pink of Centric als muziek in de oren klinken. KPN knikkert er nog even een paar lijnen en support contracten bij...

@Blokker_1999 heeft gewoon een punt. Een project is altijd afgebakend met kosten en laten we eerlijk zijn, drie backup systemen moet meer dat zat zijn. Als 3 backup systemen falen dan is er duidelijk een SPOF zoals @Keypunchie aangeeft.

Om iedereen tevreden te houden:
Maak een drievoudig redundant systeem (in drie datacenters, niet merg moeilijk) met backup bij een andere telecom provider. Het drievoudige systeem is active-active-active met voldoende capaciteit voor onderhoud (1 datacenter). Het gehele design wordt gevalideerd door een derde onafhankelijke partij (met verantwoordelijkheid, daar zijn ze ook allergisch voor bij de overheid).

Laat daarna nog een onafhankelijke partij noodsituaties uitvoeren en testen. In de vorm van bijvoorbeeld Chaos Monkey.

Zo moet iedereen blij zijn..
Of kijk eens hoe ze het bij de buren (Duitsland, België) hoe ze het daar doen. Het is niet zo dat we hier het wiel aan het uitvinden zijn....

batjes @Verwijderd • 27 juni 2019 17:36

Onbeperkt is ook weer zo.

Je kunt gewoon berekenen wat puur nodig is om de kritieke stemen technologisch zo goed mogelijk uit te rusten. En geen keuzes maken van "Ja maar dit is een miljoen goedkoper". We hebben het hier niet over honderden miljarden voor zo'n systeem.

Men kijkt op -relatief- kleine bedragen waardoor dit soort problemen ontstaan. Dit zijn wel systemen die vele miljoenen kosten, moeten we ons echt zo druk maken over een miljoen meer of minder her en der?

We hebben het hier over 1 van de meest belangrijke systemen die ons land heeft! Moeten we daar nu echt op de centjes gaan letten zoals bij een gemiddeld aanbestedingsproject?

jordynegen11 @batjes • 26 juni 2019 01:23

Heb jij die nieuwsberichten op Tweakers niet gezien over geflopte ICT projecten die miljoenen hebben gekost?

Zodra het ober ICT gaag speelt geld geen rol bij de overheid dus dan kunnen ze de redudantie ook wel in orde maken....

supersnathan94

Nederland
Mobiele netwerken

@batjes • 27 juni 2019 10:18

en toch wordt het luchtalarm uitgefaseerd omdat het teveel geld kost. terwijl het een beter werkende oplossing is dan NL-alert wat berichten soms met enkele uren tot dagen later aflevert.

droner @Blokker_1999 • 25 juni 2019 17:44

Dus het noodsysteem is ondermaats omdat we andere prioriteiten hebben? Ik denk dat de Kamer daar anders over denkt.

Gomez12 @droner • 26 juni 2019 17:08

Het is irrelevant hoe de kamer erover denkt, het is relevant hoe de kamer ergens naar acteert.

Als de kamer nooit om een controle van de voorzieningen van 112 vraagt dan is het blijkbaar niet relevant hoe dit geregeld is. Ongeacht wat ze nu overal roeptoeteren.

downtime @Blokker_1999 • 25 juni 2019 22:19

Moet leuk werken zijn zo in een bedrijf met onbeperkte midellen.

Dit is anders ook hoe het in de lucht- en ruimtevaart werkt. Als een computersysteem zo belangrijk is dat het nooit mag falen dan moet je het redundant uitvoeren en de redundante onderdelen door verschillende teams met verschillende technologie laten bouwen zodat ze nooit allemaal om dezelfde reden kunnen falen. Onbeperkte middelen hebben er niks mee te maken, je doet dit immers alleen voor de meest kritische systemen, en dan mag het ook wat kosten als er grote belangen mee gemoeid zijn.

MacIsCool @Keypunchie • 26 juni 2019 10:52

Op je vraag waarom alleen KPN dat verkeer routeert : Het is uitbesteed en KPN heeft de tender gewonnen. En iedereen die over die aanbesteding ging, vonden het goed.:-) Leve het blind aanbesteden van algemene infrastructuur. Het moet zo goedkoop mogelijk en betrouwbaarheid is secundair of zelf tertiair.

InsanelyHack @CAPSLOCK2000 • 25 juni 2019 16:22

misschien ook van tijd tot tijd het backup-system testen? Het is net zoals met data backups. Als je nooit een proefrestore uitvoerd of test dan kan het gebeuren dat de backup die je dan hebt niet goed is. Zo is het ook met een backup-systeem.

Uberprutser @InsanelyHack • 25 juni 2019 17:42

Dit wordt (werd?) elke nacht tussen 0300 en 0330 getest met live 112 verkeer.

The Zep Man

Nederland
Overheid

@CAPSLOCK2000 • 25 juni 2019 15:41

het aantal aanbieders van 112-oplossingen in deze wereld zal niet heel erg groot zijn.

Toch maak je jezelf afhankelijker door alle eieren bij een enkele telecomleverancier in het mandje te leggen.

vincedd @The Zep Man • 25 juni 2019 16:24

het is makkelijk om de schuld bij KPN neer te leggen, tenslotte ging het bij hun fout. Maar wat ik erger vind is dat ze bij de politie niet eens een fall-over hebben op een andere provider waar ze bij dit soort calamiteiten naar toe kunnen schakelen. Maar daar hoor je de politiek niet over.

GrooV @vincedd • 25 juni 2019 16:48

De politie heeft natuurlijk gewoon haar eigen communicatie netwerk genaamd C2000

MatthijsZ @GrooV • 25 juni 2019 21:42

Ik kan me nog de discussies daarover herinneren: “waarom hebben ze dat nodig? We hebben zulke betrouwbare telefonie aanbieders. Veel te duur!”

vincedd @GrooV • 26 juni 2019 08:08

dat is een intern systeem, niet om vanauit buitenaf naar toe te bellen in nood.

Sir.roYa @vincedd • 25 juni 2019 23:23

Waarom moet de politie een failover hebben op alle klanten die toevallig bij KPN en dochterondernemingen zitten? In de media werd het gebracht alsof heel Nederland het alarmnummer niet konden bereiken.. Dit waren echter alleen de klanten van KPN en dochterondernemingen. Je had dus als klant van KPN een failover provider moeten hebben.

Edit:
Je hebt gelijk, ik begreep dat het alarmnummer alleen bij KPN klanten niet bereikbaar was maar blijkbaar wordt het 112 nummer alleen vanaf KPN doorgezet naar diverse alarmcentrales.

[Reactie gewijzigd door Sir.roYa op 22 juli 2024 19:53]

redah @vincedd • 25 juni 2019 16:45

Daar hoor je de politiek dus wél over, men heeft gevraagd waarom alles bij 1 provider is onder gebracht.

vincedd @redah • 26 juni 2019 08:09

dat had toch al eerder op de rit gezet moeten zijn?Ze hebben aardig zitten slapen bij de politie. wat verdienen die gasten die 112 uitgewerkt hebben? Ik wil wel van salaris met ze ruilen

bouwfraude @batjes • 25 juni 2019 17:04

Tot de volgende aanbestedingsronde.

hoeksmarp @batjes • 25 juni 2019 17:21

Alles wat relevant is in dit artikel.

batjes @hoeksmarp • 25 juni 2019 17:32

Waarom niet? het is niet alsof de overheid alles bij KPN onder brengt. Onze overheid maakt gebruik van minimaal 2 van de 3 netwerken (ik heb eerlijk geen idee of ze ergens T-Mobile gebruiken). En doet dus netjes aan risicodekking.

Dus relevant, ja, al is het minimaal.

fantafriday @batjes • 25 juni 2019 20:02

Onze overheid maakt gebruik van minimaal 2 van de 3 netwerken Dus relevant, ja, al is het minimaal.

Klopt! Behalve voor 112 dus...

hoeksmarp @batjes • 25 juni 2019 22:38

Waarom niet?

Omdat het in het artikel over 112 gaat en niet over de mobiele telefoon van de minister president.

Blokker_1999

Overheid
Nederland

@The Zep Man • 25 juni 2019 16:51

En ga je met meerdere in zee wordt het zoveel eenvoudiger om de zwarte piet naar elkaar door te schuiven.

theduke1989 @CAPSLOCK2000 • 25 juni 2019 15:32

buiten de 3 backups van hun zelf. Zouden ze ook op landelijk niveau een backup fallback systeem moeten hebben. Dus wanneer die uitvallen want zoals je zegt denk ik dat het 3 identieke setups zijn met misschien een andere vaste-ip waarde

maar de configuratie zelf gewoon het zelfde is. Dus logisch dat het dan uitvalt.

Maar stel dat dit gebeurd, en j ze dus bijvoorbeeld geen ping krijgen naar de ''landelijke backup'' meteen die in treding werkt. Want 1-2 min geen ping krijgen zou iets moeten betekenen. Maar goed inderdaad we kunnen nu achteraf er over lopen praten. Het is aan KPN om kijken hoe te verbeteren.

[Reactie gewijzigd door theduke1989 op 22 juli 2024 19:53]

SparC-EHV @CAPSLOCK2000 • 25 juni 2019 16:01

Ik denk een te snelle aanname. Vaak is het probleem dat er ten tijde van ontwerp een implementatie gedaan wordt waar backup`s in deze zijn opgenomen. Echter door de tijd heen wijzigt de bestaande infra maar wordt vaak de backup vergeten in de upgrades of aanpassingen, zij het door planning, capaciteit, kosten of omdat de "bouwers" van destijds ook nogal wat info in het hoofd hielden en inmiddels een andere functie buitenshuis hebben. Om het storage stukje van je NAS maar aan te halen; je kunt wel 2 disken hebben van 1 TB, deze na 4 jaar verwisselen met 2 TB disken maar vergeten je offsite te upgraden. Zolang je NAS het doet waar misschien soms een disk faalt maar doordraait geen probleem. Totdat beide falen en je dan je "Whoops" moment hebt. Het lastige in deze is natuurlijk ook dat er uiteindelijk maar 1 nummer 112 is (eindpunt) je kan routeren wat je wilt, maar als ik vanuit Brabant naar Sneek wil en de A50 stuurt me naar de A2, en die door naar de Afsluitdijk die dan dicht is, dan heb ik een probleem.

zyberteq @CAPSLOCK2000 • 25 juni 2019 16:10

EN, heel belangrijk met backup-systemen, deze moeten regelmatig op correcte werking getest worden.

Zo zorgen wij dat elke week een backup van de database word teruggezet op een andere omgeving die wij zelf regelmatig gebruiken voor tests en analyses. Als deze niet werkt, zijn we daar heel snel achter en kunnen we dat oplossen.

Betreft het telefonie-netwerk:
1) goede suggestie met verschillende onafhankelijke systemen (klinkt bijna té logisch)
2) laat verschillende gebruikers op willekeurige momenten gebruik maken van 1 van de backup systemen, dit zou onmerkbaar moeten zijn voor de gebruiker natuurlijk, en dan weet je dat het werkt. Een beetje zoals een Chaos Monkey

Verwijderd @CAPSLOCK2000 • 25 juni 2019 20:42

Te omslachtig vermoed ik en uiteindelijk is de fout dan weer dit dan weer dat.

Beter het volgende uitvoeren: Maak een noodplan en test het elke drie maanden. Gehele traject backup met goede backup, zonder goede maar met partiele. Etc

R4gnax @CAPSLOCK2000 • 25 juni 2019 22:02

Het gevaar met dit soort backup-systemen is dat je overal dezelfde fout maakt.

^Dit.

Een drie-wijzen systeem werkt alleen als je echt drie wijzen hebt.
Niet als dezelfde gast snel van stoel wisselt en een ander petje opzet.

Drie keer dezelfde infra en software deployen helpt alleen bij spontaan falen van bijv. de hardware.
Het helpt geen zier om de cascade te voorkomen die optreedt bij een herhalende software-fout.

[Reactie gewijzigd door R4gnax op 22 juli 2024 19:53]

fransboumans 25 juni 2019 15:32

Wat gister gebeurd is, is werkelijk om te huilen. Naast het feit dat niet één van de back-up systemen werkt, krijg je nog een spam van NL-Alerts over je heem met foutieve informatie, als je deze al kreeg... Wil niet weten wat er bij ernstige landelijke calamiteiten gaat gebeuren.

Daarnaast mogen ze toch eens gaan bedenken of het zo slim is om een dienst als 112 slechts via één provider te laten lopen. Een alternatief nummer, wat ook goed te onthouden is vergeleken met de (vele) nummers die ik gister voorbij heb zien komen, die via een andere provider(s) loopt die bij problemen met 112 dit over kan nemen? Heb daar geen kaas van gegeten, maar moet mogelijk zijn lijkt mij.

Ik denk dat we blij mogen zijn dat er, voor zover bekend is, niemand is overleden door de onbereikbaarheid, wat wel het geval was bij de storing in 2012.

[Reactie gewijzigd door fransboumans op 22 juli 2024 19:53]

gfgw @fransboumans • 25 juni 2019 16:07

Wat ook diep triest is, is dat ik op mijn (Android via Vodafone) telefoon het eerste van een serie NL-Alert berichten om 18.15 uur ontving, twee uur na het ontstaan van de storing. Twee andere telefoons in dezelfde kamer (beide iPhones met volledig bijgewerkt OS, één via Vodafone, één via KPN) ontvingen niets.

Verwijderd @gfgw • 25 juni 2019 17:09

Een domme vraag, maar heb je de optie "Noodmeldingen" onder Instellingen -> Berichtgeving aanstaan op de iPhones?

rickertsnaak @Verwijderd • 26 juni 2019 10:04

Dat is precies het probleem bij velen; het uitzetten van deze meldingen. Op m'n Android 9 toestel kreeg ik wel alle (vijf?) alerts binnen, maar daarnaast ook keurig de melding of ik dit nog wel wil ontvangen in de toekomst, ja of nee. Kan me voorstellen dat een groot deel van de mensen simpelweg deze meldingen - bewust of onbewust - uitzetten.

gfgw @Verwijderd • 29 juni 2019 20:20

Ja hoor, die staan aan. De testberichten vier keer per jaar komen wel aan.

fransboumans @gfgw • 25 juni 2019 19:02

Één van mijn collega's kreeg vanochtend nog een NL-Alert...

Verwijderd @fransboumans • 25 juni 2019 20:54

Natuurlijk meer providers betrekken. Ze kunnen wel een beetje goodwill gebruiken. Maar nummer overzetting is geen hogere wiskunde. Maak voor kritische systemen een eenvoudige overzetting mogelijk. Maar bovenal TEST HET ELK KWARTAAL. En leg het vast bij wet zodat het niet afhankelijk wordt van managers fancies.

[Reactie gewijzigd door Verwijderd op 22 juli 2024 19:53]

Cjefke @fransboumans • 25 juni 2019 17:36

In 2012 is er wel iemand overleden als gevolg van de storing

fransboumans @Cjefke • 25 juni 2019 19:00

Klopt, dat bedoelde ik ook! Hele stomme typo...

Krulliebol @fransboumans • 27 juni 2019 10:14

Ik denk dat we blij mogen zijn dat er, voor zover bekend is, niemand is overleden door de onbereikbaarheid, wat wel het geval was bij de storing in 2012.

Dat is nog maar de vraag:
https://www.rtlnieuws.nl/...-meldkamer-kpn-reanimatie

fransboumans @Krulliebol • 27 juni 2019 12:06

Zeer spijtig

Teisu @sygys • 25 juni 2019 16:07

Wat is het verschil tussen NL-Alert, AMBER Alert en Burgernet?
AMBER Alert en Burgernet zijn afzonderlijke diensten met een ander doel dan NL-Alert.

AMBER Alert is een landelijk waarschuwingssysteem bij urgente kindervermissingen en
-ontvoeringen, waarbij via verschillende media (waaronder sms) wordt gevraagd te helpen bij de opsporing van een vermist kind.

Burgernet is een samenwerkingsverband tussen burgers, gemeente en politie. Burgernet kan op lokaal niveau worden ingezet bij de opsporing van vermiste personen (kinderen en volwassenen) maar daarnaast ook voor andere (heterdaad)incidenten, waarbij deelnemers via onder meer een spraak- of sms-bericht worden gevraagd een bijdrage te leveren aan de veiligheid van hun wijk of buurt. Bij Burgernet meldt men zich vrijwillig aan.

NL-Alert is het alarmmiddel van de overheid. Bij een ramp in jouw omgeving wil je weten wat je moet doen. Je ontvangt een bericht op je mobiel waarin staat wat er aan de hand is en wat je het beste kunt doen. Daarnaast is NL-Alert te zien op digitale vertrekborden bij haltes van bus, tram en metro.

tweaknico @Teisu • 25 juni 2019 16:16

Ter aanvulling: NL-Alert is geen SMS, maar een Cell Broadcast.
een Best Effort Broadcast van een bericht. Zonder retry of terugmelding.
En is als het goed is niet provider afhankelijk. Alleen moet de zendmast, die van een bepaalde provider is, wel bereikbaar zijn vanuit de Alarm centrale.

[Reactie gewijzigd door tweaknico op 22 juli 2024 19:53]

R4gnax @tweaknico • 25 juni 2019 22:06

Zonder retry of terugmelding.

Yes. Laat die even inzinken mensen, want dan komt daarna de vraag van 2 miljoen:

Op basis van welke cijfers kan de overheid in dat geval besluiten dat NL-Alert voldoende goed werkt en voldoende bereik heeft om de analoge luchtalarmen maar af te schaffen?

[Reactie gewijzigd door R4gnax op 22 juli 2024 19:53]

tweaknico @R4gnax • 25 juni 2019 22:11

Op basis van het kabinetsbesluit om minder geld uit te gaan geven?
Iets anders kan het niet zijn. Andere systeem heeft onderhoud nodig ==> of deels vervangen of nieuw systeem... De centen tellers zijn er snel uit.

Dat levert meer op dan die 2 miljoen EUR..., en wat collateral damage.. dat heet dan risk management, aka spreadsheet management... maar niet verantwoordelijk bestuur wat toch primair van de overheid verwacht mag worden.

(BTW SMS zou niet werken 15M messages in korte tijd weg stouwen lukt niet, naast dat ze dan nog via de juiste provider moeten lopen etc.).

alwuzomondo @tweaknico • 25 juni 2019 22:38

Zonder retry of terugmelding.

Dat klopt niet helemaal, de zendmast meldt wel terug of ie het broadcast bericht heeft uitgezonden en in welke cellen. Maar het mobieltje inderdaad niet.)

tweaknico @alwuzomondo • 25 juni 2019 22:42

Ik bedoelde het mobieltje. maar het kan niet goed zijn dat het vrijwel een uur duurt voordat een melding uberhaupt verzonden wordt. (op toestel kwam om rond 18:15 het bericht binnen dat om 17:21 (timestamp in bericht) door de meldkamer aangemaakt was.) Het complete traject loopt niet zo soepel dus.

AceAceAce @sygys • 25 juni 2019 16:10

Denk helaas dat je niet de enigste bent. Daar gaat de strategie om de luchtalarmen uit te zetten zodra genoeg mensen de NL-Alert ontvangen...

Christoxz 25 juni 2019 15:19

Was te verwachten. Geen idee hoe deze technologie allemaal exact werkt, maar had wel verwacht dat een partij als KPN backup voorzieningen heeft liggen, dit is namelijk ook een gigantische schade aan hun imago.

Wel jammer dat 112 vertrouwt op 1 partij.
112 zou zelf moeten zorgen voor een backuplijn wanneer een van hun partners niet de dienst kunnen leveren.

Edit: Kom zojuist dit tegen: https://www.telegraaf.nl/...-provider-voor-112-nummer

[Reactie gewijzigd door Christoxz op 22 juli 2024 19:53]

Ruuddie @Christoxz • 25 juni 2019 15:35

Een telefoonnummer (of reeks van nummers) moet altijd bij één provider liggen, zo werkt het bij COIN. Dit is de organisatie waar alle telecomaanbieders in Nederland zijn aangesloten, en die zeg maar verantwoordelijk zijn voor de 'DNS' van de telefonie. Het is mogelijk deze 'DNS' entries aan te passen en om te routeren naar andere providers, althans dit kan voor normale nummers dus ik neem aan ook voor 112. Dit duurt in de praktijk echter vaak 15-60 minuten, afhankelijk van de provider die het nummer probeert te bellen, de oude provider van het nummer en de nieuwe provider waar het nummer heen gaat. Ook is het niet zonder risisco; ik heb wel eens meegemaakt dat een provider de portering verkeerd verwerkte waarna de klant enkele uren onbereikbaar was.

Het zou dus kunnen zijn dat deze 'DNS' entry pas na een uur naar iedereen is doorgesijpeld, en dan is het nog niet helemaal zonder risico ook. De kans dat de storing is opgelost binnen deze tijd is aanzienlijk, dus porteren van 112 lijkt me in de praktijk niet handig.

jurri@n @Ruuddie • 25 juni 2019 16:03

Echter is 112 geen normaal telefoonnummer, maar een 'shortcode' voor een normaal telefoonnummer. Op basis van de regio van de beller dienen de telecom-aanbieders gesprekken voor 112 naar het juiste, normale nummer van de bijbehorende alarmcentrale te routeren.

Je zou een oplossing kunnen implementeren dat als het nummer op het KPN-netwerk niet reageert, je een nummer in het netwerk van een andere aanbieder gaan proberen (die bij dezelfde alarmcentrale uitkomt).

Dorank @jurri@n • 25 juni 2019 18:23

Je zou een oplossing kunnen implementeren dat als het nummer op het KPN-netwerk niet reageert, je een nummer in het netwerk van een andere aanbieder gaan proberen (die bij dezelfde alarmcentrale uitkomt).

BTW een van de problemen van gisteren was dat het KPN netwerk "niet down was". MAW de interconnects met KPN reageerden netjes met een 200 OK op OPTIONS requests. Echter INVITEs kregen geen reactie, de tijd tot een failover was veel te lang, maar na het actief uitschakelen van de KPN Emergency trunks bleek dat bij de andere operators terminatie van 112 ook faalde (wat dus nu de hele discussie wordt).

Dorank @jurri@n • 25 juni 2019 18:19

112 is inderdaad geen echt nummer, maar er worden wel "echte" nummers gebruikt voor de routering van de 1xxx reeks. Zie het nationale nummerplan bijlage 1:
https://wetten.overheid.nl/BWBR0010198/2015-07-15#Bijlage1

01400 Routeren van oproepen naar nummers in de 14-reeks en netwerktechnische diensten bestaande uit het routeren van oproepen naar overige nummers in de 1-reeks

De "gestandaardiseerde" manier voor het aankiezen van 112 is:
01412PE112
Waar PE de Politie Eenheid is, [00-24]. B.V. 00 is Driebergen, Rotterdam is 17, Amsterdam 13.
De gemeente/rijksoverheid 14xxx nummers zijn:
014001400
0140014020
Maar ook b.v. 18xx:
0140018xx

Deze nummers zijn voor zover ik weet niet gekoppeld aan enige operator code (zoals @Jaco69 suggereerd)

Jaco69 @Ruuddie • 25 juni 2019 16:07

112 is geen normaal nummer en wordt (i.i.g. bij de andere netwerken) gerouteerd zonder de COIN database te raadplegen. Ieder netwerk zou zijn eigen verbindingen naar 112 kunnen hebben en in geval van nood via een ander netwerk kunnen routeren.

Christoxz @Ruuddie • 25 juni 2019 15:40

Ik kan begrijpen dat de huidige technologie zo is, maar (hoe kloppend het ook kan zijn) het is geen goeie reden om dan maar niet bereikbaar te zijn als KPN storing heeft.

Tevens lees ik zojuist dit: https://www.telegraaf.nl/...-provider-voor-112-nummer

Laten we maar hopen op een goeie stabiele oplossing als backuip voorziening.

Caayn @Christoxz • 25 juni 2019 15:46

Tevens lees ik zojuist dit: https://www.telegraaf.nl/...-provider-voor-112-nummer

Een snippet vanuit dat artikel:

Het kabinet bekijkt of het een tweede telecombedrijf moet inschakelen om in de toekomst een storing van alarmnummer 112 te kunnen opvangen.
...
Vanuit de Tweede Kamer klinkt de roep om een ander systeem.

Klinkt als de standaard paniekvoetbal wat we altijd vanuit de politiek krijgen nadat er iets is gebeurd. Er wordt van alles geroepen zonder dat er überhaupt al gekeken/nagedacht is of het technisch haalbaar is.

[Reactie gewijzigd door Caayn op 22 juli 2024 19:53]

vectormatic @Caayn • 25 juni 2019 15:53

De techniek is ook maar een middel, als men functioneel meer redundancy/fallback wil hebben, is het aan de technische jongens om te verzinnen of dat kan, wat dat gaat kosten, wat de neveneffecten zijn etc.. (of aan te geven waarom het niet kan, of de klant toch echt wat anders wil)

Sterker nog, een van de dingen die een goede technicus onderscheidt van een type-slaaf, is dat als je klant met een technische oplossing/idee aankomt, je dat direct opzij legt, hem vraagt wat ie functioneel wil, en daar een correcte technische oplossing voor ontwerpt, dat is immers jouw specialisme, niet dat van je klant.

(neemt niet weg dat dit paniekvoetbal is, maar je kan politici niet verwijten dat ze niet meteen een onderbouwd architectuur document presenteren)

Djordjo @Caayn • 25 juni 2019 15:51

[...]
Klinkt als het standaard paniekvoetbal die we altijd vanuit de politiek krijgen nadat er iets is gebeurd. Er wordt van alles geroepen zonder dat er überhaupt al gekeken is of het technisch haalbaar is.

Sterker nog, terwijl het onderzoek naar de oorzaak net gestart is..

latka @Caayn • 25 juni 2019 16:13

Ik denk dat het geroep van de 2e kamer een reactie is op de hoe het publiek er mee om gaat. We hebben collectief geen geduld meer en verwachten dat problemen na een tweetje of 2 de wereld uit zijn. De media sluiten hier graag bij aan om vooral geen lezers te verliezen dus die gaan op jacht naar goede oneliners (tweets). De politiek wil geen kiezers verliezen en heel erg betrokken zijn bij het volg en doet dus lekker mee.

Dit is een beetje mijn visie op politiek 2019: het is een afspiegeling van wat we als maatschappij willen.

jeroen3 @Ruuddie • 25 juni 2019 15:50

Het hoeft het netwerk van de provider ook helemaal niet te verlaten als iedereen een lijn naar binnen heeft bij de centrale meldkamer.

GrooV @jeroen3 • 25 juni 2019 16:52

Er zijn wel meer providers dan alleen de grote 3, je kan moeilijk van alle providers verwachten dat ze een dedicated lijn naar Driebergen hebben, dat lijkt me helemaal garantie tot fouten

tweaknico @jeroen3 • 25 juni 2019 17:45

Het zijn regionale meldkamers. Niet een centrale.

The Zep Man

Nederland
Overheid

@Ruuddie • 25 juni 2019 15:42

Het is mogelijk deze 'DNS' entries aan te passen en om te routeren naar andere providers, althans dit kan voor normale nummers dus ik neem aan ook voor 112.

Waarom niet een aparte (pseudo-)provider waar het nummer 112 aan is geregistreerd, en die gesprekken doorstuurt naar de centrale via één van de (onafhankelijk van elkaar) beschikbare netwerken?

Het excuus waarom dit is gebeurd moet niet in de techniek gezocht worden. Techniek kan mogelijk wel bijdragen aan de oplossing, maar de gemaakte fout is menselijk.

[Reactie gewijzigd door The Zep Man op 22 juli 2024 19:53]

iam2noob4u @The Zep Man • 25 juni 2019 15:46

Dan verplaats je het probleem. Wat gebeurt er als die (pseudo-)provider storing heeft?

The Zep Man

Nederland
Overheid

@iam2noob4u • 25 juni 2019 16:03

Kleinere kans. De (pseudo-)provider zal veel minder onderhoud hebben omdat ze maar één functie vervullen.

The Third Man @The Zep Man • 25 juni 2019 16:33

Kleinere kans hoeft niet een goede oplossing te zijn. Bij DNS gaat ook niet alles wat om www.google.com vraagt naar 1 IP-adres over de hele wereld. Juist door te decentraliseren beperk je de inpact van een point of failure, waardoor bijvoorbeeld je bij 1 internetprovider niet meer naar Google kan doordat hun peering link stuk gaat, maar sluit je niet een heel land uit alleen maar omdat dat ene IP-adres niet bereikbaar zou zijn.

GrooV @The Third Man • 25 juni 2019 16:52

Klopt daar is Anycast voor uitgevonden, helaas werkt dat niet zo bij telefoon verkeer

The Third Man @GrooV • 25 juni 2019 18:51

Anycast? Dit is simpelweg round-robin DNS. Het betekent dat voor elk DNS request je een roulerend ander record terugkrijgt, waardoor je per user (of zelfs meerdere losse requests per user) de load verdeelt over meerdere endpoints. Elke user 'denkt' dus dat bijvoorbeeld google.com op een ander IP-adres zit, dus dit is niet alleen een laag 3 functionaliteit (terwijl anycast laag 2 is) het is ook een pull mechanisme en niet een push. Bij telefonie kan je net zo goed round robin gaan werken over meerdere routeringen naar 112 of andere belangrijke diensten. Daarmee heb je nog steeds kans dat mensen 112 de eerste keer niet bereiken totdat de route geblokkeerd wordt, maar je biedt in ieder geval meer kans dat je er na een paar keer proberen wel komt.

GrooV @The Third Man • 25 juni 2019 19:07

Wat is er in hemelsnaam redundant aan round-Robin-DNS ?

Dan krijgt de helft van de gebruikers nog steeds een IP dat niet werkt en ook gecached wordt dus niet werkt

The Third Man @GrooV • 25 juni 2019 19:55

- Het is zeker niet de helft want je doet dit normaal gesproken met enkelen zoniet tientallen endpoints
- DNS caching is de achilleshiel van round-robin DNS, maar die is tegenwoordig niet zo vanzelfsprekend meer. Korte TTL's voorkomt een langdurige cache en browsers die zelf DNS regelen (zoals bij Chrome) zorgen er al voor dat een niet werkend resultaat weer leidt tot een nieuw DNS request, oftewel dan is een refresh al genoeg.
- Round robin an sich is een concept waarbij je alleen maar willekeurig rouleert, het aspect dat een DNS request gechached kan worden is een detail wat niet zoveel zegt over het concept an sich. Bijvoorbeeld in HTTP CDN's (zoals bij Netflix en Google) wordt per endpoint bijvoorbeeld 5 upstream hosts gebruikt die round robin worden aangesproken. Als een host dan niet reageert komt hij als 'disqualified' te staan en gaat de downstream server alleen andere hosts gebruiken tot een X aantal tijd voorbij is en probeert het dan weer. Dat is per applicatie iets wat je kan regelen en instellen, het idee van een cache die dit verstoort is puur iets wat bij DNS speelt en ik zeg niet dat ik 112 op een of andere manier op round robin DNS wil hebben, ik zeg dat het round robin concept een voorbeeld is van hoe je een dienst werkbaar houdt in zo'n faalsituatie.

De redundantie schuilt erin dat je niet vastzit aan een enkel punt, waar ik hierboven op reageerde bij The Zep Man. Je garandeert er geen 100% werkende responses mee, want de 'pechgebruikers' zullen op een falend component uitkomen, maar je implementeert de clients zo dat ze een falend component niet opnieuw blijven proberen of alleen na een bepaalde tijd. Zo kan je dus het telefonieverkeer omrouteren om een falende verbinding. En op die manier krijg je bij een falend youtube filmpje na een refresh opeens wel gewoon het filmpje te zien.

[Reactie gewijzigd door The Third Man op 22 juli 2024 19:53]

Blokker_1999

Overheid
Nederland

@The Zep Man • 25 juni 2019 16:57

Met een kost die vele malen groter is dan KPN vandaag. En daar zit je dus met je volgend probleem. Deze infra wordt toegewezen aan de hand van openbare aanbestedingen. Uiteindelijk gaat het nog altijd om belastinggeld en we willen dat de overheid daar zuinig mee omspringt. Zomaar snel een zeer dure oplossing kiezen is dus niet zomaar mogelijk

rdoorn @The Zep Man • 25 juni 2019 15:50

Dat maakt de kans op problemen alleen maar groter. Nog een routeringslaag, nog een partij die fouten kan maken, nog een communicatie laag tussen 2 partijen....

ep667 @Christoxz • 25 juni 2019 15:23

Het grote probleem is dat 112 altijd naar KPN wordt gerouteerd. Door alle telefoonaanbieders. Als het dus bij KPN in de routering fout gaat, ben je onbereikbaar.

Je kunt als overheid 112 dus beter in eigen beheer nemen, bij voorkeur wel beheerd door een professionele partij natuurlijk. Maar dan wordt 112 in ieder geval naar je eigen netwerk gerouteerd. Dan ben je nog bereikbaar via andere netwerken als er ééntje tussenuit piept.

Christoxz @ep667 • 25 juni 2019 15:31

Het grote probleem is dat 112 altijd naar KPN wordt gerouteerd. Door alle telefoonaanbieders. Als het dus bij KPN in de routering fout gaat, ben je onbereikbaar.

Dat begrijp ik en dat is ook exact wat mij verbaasd. 112 zou gerouteerd moeten kunnen worden door alle partijen. KPN als main, maar T-Mobile of Vodafone zou dat moeten kunnen overnemen wanneer KPN niet werkt.

Je kunt als overheid 112 dus beter in eigen beheer nemen, bij voorkeur wel beheerd door een professionele partij natuurlijk. Maar dan wordt 112 in ieder geval naar je eigen netwerk gerouteerd. Dan ben je nog bereikbaar via andere netwerken als er ééntje tussenuit piept.

Ja exact, of meerdere lijnen T-Mobile, Vodafone..

[Reactie gewijzigd door Christoxz op 22 juli 2024 19:53]

AceAceAce @Christoxz • 25 juni 2019 16:19

Volgens mij maakt dat geen reet uit.
Of je nou zelf je eigen netwerk gaat beheren, of je gaat meerdere lijntjes binnen laten komen, dan zal je toch een centrale single point of failure hebben als je meerdere netwerken met dezelfde telefoon bediend wilt hebben.

Enige 'oplossing' die ik zie is meerdere lijntjes binnen laten komen per netwerk, en dan gescheiden eigen netwerken en gescheiden eigen telefoons per binnenkomende lijn.

Misschien is het gewoon simpeler door naast het reguliere kanaal een 112-app aan te bieden (/verplicht uit te rollen) waarmee je als backup VoIP kan bellen met 112, met een degelijke fallback routering aan de server kant uiteraard. Eventueel uit te breiden met een nieuwe standaard die bij het intoetsen van een bekend alarmnummer je laat kiezen of je met het telefoonnetwerk wilt bellen, of met VoIP.

[Reactie gewijzigd door AceAceAce op 22 juli 2024 19:53]

GrooV @AceAceAce • 25 juni 2019 16:53

Een 112 app heeft zeker voordelen, ook op plekken waar je geen bereik hebt maar wel wifi bijvoorbeeld

JorzoR @ep667 • 25 juni 2019 15:34

bij voorkeur wel beheerd door een professionele partij natuurlijk

KPN?

Het is een illusie om te denken dat een andere partij dit beter kan. Ja, wellicht deze use-case met de huidige kennis nu, maar dat is ook wel erg makkelijk scoren. Bij een andere partij werken ook mensen; dus ook kans op fouten.

Systemen piepen en kraken nu eenmaal soms, dat is gewoon écht niet uit te sluiten met een budget wat betaalbaar blijft.

Kortom; fouten gebeuren gewoon. Dit is wel een ernstige, maargoed, reken maar dat het vanaf nu beter gaat. Zo gaat dat toch met alles; iets gaat kapot, en het wordt verbeterd. Heel erg vervelend natuurlijk voor degene die er last van hebben gehad.

[Reactie gewijzigd door JorzoR op 22 juli 2024 19:53]

ep667 @JorzoR • 25 juni 2019 15:51

[...]

KPN?

Het is een illusie om te denken dat een andere partij dit beter kan. Ja, wellicht deze use-case met de huidige kennis nu, maar dat is ook wel erg makkelijk scoren. Bij een andere partij werken ook mensen; dus ook kans op fouten.

Nee, maar daarom dus zelf doen. Zie het als een eigen telefoonnetwerkje, met een eigen routering. Alle aanbieders kunnen dan direct verbinding met je maken, zonder tussenkomst van een derde telecomprovider. Wie het beheer doet maakt niet uit.

Vergelijk het met zakelijk internet. Dat kun je bij één ISP afnemen, maar als die eruit ligt dan heb je niets. Dat is bij 112 nu gebeurd. Heb je echter een eigen netwerk met AS-nummer, dan bepaal je zelf je peering partners en ben je echt redundant.

Blokker_1999

Overheid
Nederland

@ep667 • 25 juni 2019 16:59

Zelf doen is hetzelfde als het door een andere partij laten doen. Alleen heb je geen schaalvoordeel en kan je niet voor dat kleine netwerkje tientallen specialisten in dienst houden dus moet je alsnog alles gaan outsourcen.

CAPSLOCK2000

Nederland
Overheid

@Blokker_1999 • 25 juni 2019 18:18

Zelf doen is hetzelfde als het door een andere partij laten doen. Alleen heb je geen schaalvoordeel en kan je niet voor dat kleine netwerkje tientallen specialisten in dienst houden dus moet je alsnog alles gaan outsourcen.

Zelf doen is niet hetzelfde als een andere partij. De betrokkenheid van een externe partij is altijd anders. Eigen personeel begint niet met op de klok te kijken en een factuur op te stellen voordat er iets gedaan wordt. Eigen hoeft geen toestemming te vragen aan de klant of leverancier om noodmaatregelen te nemen. Eigen persoon is over het algemeen veel meer bereid om tot het naadje te gaan dan externen zonder ook maar over overuren of SLA's na te denken tot de problemen zijn opgelost. Eigen personeel zet je in geval van crisis niet in de wachtrij met de mededeling dat je eerst maar de firmware moet updaten of zo iets.
Nee, natuurlijk is het niet zwart-wit en heb je waardeloze interne medewerkers en externe die doorgaan tot er rook uit komt, maar over het algemeen zijn eigen mensen meer toegewijd.

Als de kosten laag houden de hoogste prioriteit heeft dan heb je gelijk, maar als je kwaliteit wil moet je verder kijken dan de goedkoopste oplossing. Nu snap ik ook wel dat uiteindelijk alles betaalt moet worden en het geld niet aan de bomen groeit. Maar het al oude adagio blijft werken "Als het goed moet, dan moet je het zelf doen."

Schaal hoeft niet altijd een voordeel te zijn. Schaal betekent namelijk ook al snel eenheidsworst en one-size-fits-all. Alle extra's voor andere klanten zijn ook een extra kans op bugs en storingen.

Stoelpoot @ep667 • 25 juni 2019 15:59

Je kunt als overheid 112 dus beter in eigen beheer nemen, bij voorkeur wel beheerd door een professionele partij natuurlijk.

En als die faalt, heb je precies hetzelde probleem. Bovendien moet je dan door het hele land zendmasten plaatsen, terwijl dit juist al door de bestaande providers is gedaan.

ep667 @Stoelpoot • 25 juni 2019 16:09

Als je het in eigen beheer neemt, zet je zelf een interconnect op naar alle andere telefoonproviders. Daardoor is er in de routering geen single point of failure meer. Uitbesteden aan één partij levert standaard een single point of failure op, maar daar heb ik het dus niet over. Ik heb het alleen over het dagelijks beheer, omdat ik niet verwacht dat de overheid een telefoonnetwerkje kan beheren.

Wat dit met zendmasten te maken heeft is mij een raadsel.

GrooV @ep667 • 25 juni 2019 16:56

Tja en wat gaat dat kosten? Waar gewerkt wordt kunnen helaas fouten gemaakt worden, ook als je het in eigen beheer neemt.

De minister moet gewoon met KPN gaan zitten en kijken wat beter kan, de mensen die er verstand van hebben weten echt wel hoe dit opgelost kan worden. Het is dan de vraag of de overheid daar voor wil betalen of dat het een acceptabel risico is (let wel op, politici roepen van alles tot dat ze de rekening zien)

Blokker_1999

Overheid
Nederland

@ep667 • 25 juni 2019 17:00

Je neemt de SPOF van gisteren weg, maar er blijven voldoende punten waarop het kan blijven falen. En de fout die zich gisteren heeft voorgedaan? Kleine kans dat ze die nog opnieuw maken.

Sjaakys @Christoxz • 25 juni 2019 15:21

Dat is dus ook wat mij het meeste verbaasd. Zorg er in godsnaam voor dat je een alternatief van een andere partij klaar hebt liggen.

HoppyF

@Christoxz • 25 juni 2019 15:24

Uhh? 112 is een organisatie met meldkamers enz.
Zij bouwen zelf geen infrastructuur maar besteden dit uit aan bijvoorbeeld KPN.
Afspraken over beschikbaarheid worden vastgesteld en afgedekt.

Christoxz @HoppyF • 25 juni 2019 15:29

Zij bouwen zelf geen infrastructuur maar besteden dit uit aan bijvoorbeeld KPN.

Dat begrijp ik, het staat een beetje raar in mijn reactie. Maar alsnog zijn hun verantwoordelijk(overheid) om te zorgen dat ze bereikbaar zijn.
Dus schakel je een partij in, die zorg dat er twee lijnen liggen. KPN & T-Mobile bijvoorbeeld.

Een KPN kan storing hebben, daar is helemaal niks mis mee, maar een meldkamer zou daar geen last van moeten hebben.

ManiacsHouse @HoppyF • 25 juni 2019 15:42

En de afspraken mbt dit soort dingen aangaande commerciële bedrijven en overheid kennen we zo onderhand... En wat daar van terecht komt. Je kun dan gaan roepen privatisering, aanbesteding etc. Maar vroegûh was het in handen van de overheid die zei hup het moet werken. En dan scholden we op de overheid als het eens mis ging.
Nu zit er een overheid die zegt dit en dit willen we graag, vervolgens blijkt het allemaal duurder dan beloofd door de commerciële toko. En prompt als het niet werkt dan trekt men de stekker eruit of roept men ja sorry zal niet meer gebeuren. En vervolgens klooit men weet lekker verder.
Nu was het 112... Belooft wat als er echt stront aan de knikker is (ramp, aanslag etc) en de boel werkt niet...

swhnld 25 juni 2019 15:45

De oplossing is heel simpel, alle telefoonleveranciers een ingang geven naar 112. Op een telefooncentrale kun je gewoon meerdere ISDN30's of VoIP verbindingen configureren en aansluiten voor het inkomende verkeer.
Als dan de providers voor 112 instellen dit zelf rechtstreeks af te handelen naar de alarmcentrale ipv routeren naar extern, kan het nooit helemaal uitvallen door een storing bij een enkele telecom leverancier.
Qua kosten is die oplossing ook te overzien, al is het natuurlijk wat duurder, maar bijvoorbeeld een glasvezel voor ISDN30 bij Tele2 kun je voor een paar duizend Euro laten aanleggen, en kost je dan een 130 Euro per maand plus belkosten.
Nu nog de politieke wil dit geld uit te geven en niet toe staan te ver door te schieten met bezuinigingen hierop in de toekomst.

rob12424 @swhnld • 25 juni 2019 16:19

Oplossing is simpel: luchtalarm af laten gaan en iedereen knalt zijn radio aan. Geen gezeik. Het staat niet in het bericht. Maar luchtalarm gaat er niet uit. (Volgens grapperhaus is er geen analoog alternatief) Nu die is er al jaren en werkt 10* beter.

Rob Coops

Overheid

@swhnld • 25 juni 2019 16:33

Dat lijkt me ook, maar ook de gehele staff op het ministerie dat verantwoordelijk was voor de huidige setup ontslaan op staandevoet want overduidelijk niet geschikt voor hun baan als ze tot een besluit kunnen komen om alles via 1 provider te laten verlopen.

Ook binnen KPN dienen er koppen te rollen, 3 backup systemen die niet getest zijn en dus natuurlijk niet werken op het moment dat het nodig is... je test de backups constant minimaal 1x per maand en als het even kan op totale random momenten zodat je zeker weet dat niet alleen de systemen werken maar de mensen die er mee moeten werken ook weten wat te doen op het moment dat het mis gaat.

Daar naast hoeft Grapperhaus niet te bekijken of er in het draaiboek iets aangepast moet worden, het is duidelijk dat dat heel erg hard nodig is als het zo'n zooitje is zo als tijdens deze storing een willekeurig telefoon nummer mee sturen in een bericht dat al veel te veel verwarrende informatie bevat is natuurlijk onzin.

Even een voorbeeld van hoe dit in een ander Europees land is geregeld. Er is natuurlijk 112 dat gewoon bereikbaar is omdat men wel alle telecom providers dwingt dit zelf te routeren, ook is er een backup nummer standaard (ook 3 cijfers) dat je kunt bellen ook op het moment dat 112 gewoon werkt waarbij de routes anders lopen maar uiteindelijk bij de zelfde mensen terecht komen. Omdat je vaak wel weet dat je een brandweer nodig hebt een geen agent of juist een ziekenwagen en geen brandweer zijn er ook aparte nummers (weer 3 cijfers voor elke dienst) die in aparte centrales uit komen en ook deze worden door alle individuele telecom providers netjes afgeleverd en gaan niet via maar 1 provider omdat dat gewoon nooit een veilige oplossing kan opleveren.
Er is dan ook helemaal niets nodig wat betreft een protocol hoe je met een storing omgaat richting het publiek omdat een storing simpel weg niet zo maar even alles plat kan leggen het moeten wel erg veel storingen zijn die allemaal tegelijk plaats vinden wat vrijwel zeker het moment is dat het land ook een vijandig leger aan de grens mag verwelkomen... en een alarm nummer het laatste is waar men zich zorgen over zal maken

Blokker_1999

Overheid
Nederland

@Rob Coops • 25 juni 2019 17:05

Het blijft me verbazen dat mensen zonder kennis van zaken staan te roepen dat anderen incompetent zijn en maar ontslagen moeten worden. Ik weet niet wat er gisteren is misgelopen en ben dan ook van mening dat we het onderzoek moeten afwachten om na te gaan wat er veranderd moet worden. Ja, misschien moet het draaiboek wel aangepast worden, maar ook dat is geen zekerheid. Alles kan een opeenstapeling van menselijke fouten zijn.

Ook leuk dat je met andere landen gaat vergelijken, maar wie zegt dat het issue dat zich gisteren in Nederland heeft afgespeeld zich ook daar niet kan voordoen? En een storing kan altijd alles platleggen. Er van uitgaan dat dat niet zo is of nooit zou mogen zijn is net het domste wat je kan doen. Je moet je altijd voorbereiden op de ergste situaties.

koelpasta @Blokker_1999 • 25 juni 2019 19:08

Het blijft me verbazen dat mensen zonder kennis van zaken staan te roepen dat anderen incompetent zijn en maar ontslagen moeten worden.

Dude,.,.., 3 backupsystemen die faalden. Daar moet technische incompetentie aan te pas gekomen zijn.

En een storing kan altijd alles platleggen.

Ja, en daar zijn die backupsystemen dus voor.

Rob Coops

Overheid

@Blokker_1999 • 26 juni 2019 15:12

Je klinkt als een ambtenaar...
Nee sorry maar redelijk wat kennis van zaken, het is mijn baan om systemen zo te ontwerpen dat ze niet falen en op zeer grote schaal data kunnen verwerken. Hier zijn een paar dingen die van cruciaal belang zijn als je een goed werkende backup wil hebben.

De systemen moeten gelijk zijn en beide de zelfde hoeveelheid transacties kunnen verwerken (tenzij je 100% zeker weet dat tijdens een langdurige storing ook met 50% van de capaciteit kunt blijven werken)
De personen die werken met de systemen moeten constant (minimaal 1x per maand van primair naar backup systeem overschakelen (als het even kan iedere week) zodat het een gewoonte word en er geen rede tot paniek is als het primaire systeem faalt
Als er een restore van data nodig is dan moet dat onderdeel zijn van de switch tussen de twee systemen zodat je de backups ook iedere keer weer test en bewijst dat ze nog werken.

Er is nog een flinke lijst met andere vanzelfsprekende belangrijke dingen maar dit zijn toch wel de meest cruciale in het verhaal iedere keer weer. Natuurlijk zijn er dingen zo als hoe lang duurt de overschakeling van primair naar backup hoe veel data, sessions, gesprekken, etc gaan er verloren als dingen mis gaan etc...

En een opeenstapeling van menselijke fouten is nog steeds een reden om mensen te ontslaan omdat een goed ontworpen backup oplossing is niet afhankelijk van een lange list met menselijke handelingen die allemaal helemaal goed moeten gaan. Het hoort simpel weg een automatisch iets te zijn voor zo'n belangrijke service. Als het nu de administratie van de bakker om de hoek zou zijn dan is dat een ander verhaal en zijn er andere oplossingen beschikbaar maar dit gaat over leven en dood voor hele erg veel mensen waarbij iedere minuut later te laat kan zijn, een outage als deze is niet acceptabel en dus moeten de verantwoordelijke mensen keihard aangepakt worden. Natuurlijk kun je het onderzoek afwachten om te zien wie er wat wel of juist niet... maar het feit is en blijft dat dit simpel weg een enorme fout is aan de kant van de mensen die dit goed gekeurd hebben en de mensen die verantwoordelijk zijn voor de uitvoering. Want reken maar dat de overheid al jaren lang een flinke zak geld mag betalen voor de 3 niet werkende backup systemen die ze dus eigenlijk helemaal niet nodig hadden omdat ze toch niet werken.

Wat betreft de andere landen omdat het ontwerp daar wel goed gedaan is kan het daar niet volledig falen zo als in Nederland zo als in de vorige post uitgelegd de enige manier waarop dat kan gebeuren is als alle telecom diensten in het land falen op het zelfde moment, en dat is vrijwel zeker het punt waarop een vijandig leger de grens oversteekt en er veel grotere problemen zijn dan opa die een hartaanval heeft gehad.

MaltheseFalcon 25 juni 2019 15:24

Kan iemand mij uitleggen wat 'alle domeinen opnieuw starten' is, en waarom dat 4 uur moet duren?

hensema @MaltheseFalcon • 25 juni 2019 15:43

De eerste stap is analyse van het probleem. Escalatie zal snel gedaan zijn. Daarna een ad-hoc team vormen voor verdere analyse. Concluderen dat er meer mankracht nodig is. Snel een organisatie vormen die voor de derde maal analyses doet. Snelle vergadering over waarschijnlijke oorzaak. Input absorberen van diverse beheersafdelingen. Output leveren naar diverse afdelingen zoals klantenservice, communicatie en directie. Schorsing om oplossingsrichtingen te verzinnen. Presentatie oplossingsrichtingen. Discussie. Knoop doorhakken. Mensen aansturen om de oplossing te implementeren. Dan ben je dus al een tijdje onderweg.

Vervolgens de foute routeringen zien te herstellen. Dit gaat om vrij grote databases die in systemen geladen moeten worden. Normaal zullen mutaties doorgezet worden, maar nu een volledige herstart met de laatst werkende versie. Die moet gedistribueerd worden naar alle systemen, wat relatief veel tijd kost op de schaal van KPN.

Allemaal 100% speculatie van mij. Het zal echt niet exact zo gelopen zijn, maar gewoon ter illustratie van waarom iets erg lang kan duren.

himlims_ @MaltheseFalcon • 25 juni 2019 15:29

Onderliggende storage?

Transferno @MaltheseFalcon • 25 juni 2019 16:16

Ik kan me voorstellen dat men niet alle verkeer in 1 keer terug wil toelaten, als alle mobieltjes zich op hetzelfde moment terug willen registreren, gaan vaak systemen in hoge load en creer je weer nieuwe problemen. Dus mogelijk is dit per batch terug geactiveerd en duurde dit in totaal 4u?
Het kan ook zijn dat databases eerst terug moeten syncen, wat ook tijd kost. Of backups teruggezet en getest moeten worden.
Tja, het is gokken op dit moment.

rickboy333 25 juni 2019 15:24

Tja, de privatisering van cruciale infrastructuur was zo"n enorm goed idee, not.

Het is belachelijk dat een commercieel bedrijf in charge is van cruciale infrastructuur in Nederland. Een commercieel bedrijf heeft geen belang om backups te bekostigen als het risico op een storing 1:1000 is. Dat calculeren ze in als een neembaar risico. Dat de kans is dat mensen hun leven kunnen verliezen op die specifieke dag is maar bijzaak voor ze.

Gelukkig zijn de ziekenhuizen niet in commerciele handen.... Oh wacht.....

Sup4rdurt @rickboy333 • 25 juni 2019 15:30

Speek je zelf niet tegen? Of bedoel je de privitarisering van cruciale infrastructuur?

rickboy333 @Sup4rdurt • 25 juni 2019 15:34

Yes foutje

Ralph58 @rickboy333 • 25 juni 2019 16:08

Juist bij overheden gaat het altijd fout; er is toch niemand verantwoordelijk.

Transferno @rickboy333 • 25 juni 2019 16:22

Je hebt hier gelijk in maar geeft onterecht (naar mijn mening) de commerciële bedrijven de schuld.
Wellicht moet men dit soort cruciale zaken niet privatiseren (of beter: had men dit niet moeten doen).

Het probleem voor een commercieel bedrijf is dat die backups, 3 dubbele redundantie, security, etc bakken vol geld kosten. Dit drijft de kostprijs omhoog terwijl een klant hier niet voor wil betalen.
Stel je hebt een state of the art netwerk met HA en daarnaast een concurrent met een cheap Chinees netwerk. Dan mag je 2x raden wat de meeste consumenten gaan roepen (zelfs veel tweakers hier): data is data dus waarom meer betalen.

Dit zijn net de punten wat een overheid moet afdwingen of inregelen.

Blokker_1999

Overheid
Nederland

@rickboy333 • 25 juni 2019 17:07

En waarom zuo een overheidsbedrijf zo geen fouten kunnen maken? Had dit bij de overheid gebeurt dan zouden er nu mensen staan schreeuwen dat het eindelijk tijd wordt om de boel te privatiseren. Het gras is altijd groener aan de andere kant.

DarknessFood 25 juni 2019 15:18

Ergens is dat toch waanzin? Moet je toch op orde hebben en tussentijds checken? Lijkt me dat KPN gefaald heeft maar dat moet onderzoek uitwijzen natuurlijk.

Lampiz @DarknessFood • 25 juni 2019 15:20

Wanneer vind jij het een goed idee om 112 uit te schakelen om de backup te testen? Hiermee bedoel ik niet dat er überhaupt geen backup moet zijn of niet dat ze dit niet moeten testen. Maar ik wil zeggen dat het vast niet zo simpel zal zijn als dat je het hier stelt.

[Reactie gewijzigd door Lampiz op 22 juli 2024 19:53]

HoppyF

@Lampiz • 25 juni 2019 15:22

Backups testen doe je niet in een LIVE omgeving maar in een TEST omgeving die dezelfde hardware configuratie heeft als het live systeem. Iedere ICTer weet dit wel.

hiostu @HoppyF • 25 juni 2019 15:25

Als je het nooit test in je LIVE omgeving, kan het nog zo maar zijn dat het toch in de praktijk niet werkt. Er kan toch ergens een configuratie fout zitten of een stukje hardware dat defect is. Dus zelfs al test je het dagelijks in een test omgeving, geeft dit nog geen 100% garantie dat het ook zo zal verlopen in je productie omgeving.

HoppyF

@hiostu • 25 juni 2019 15:29

Toch wel.
Je moet er zeker van zijn dat de test en live omgeving overeenkomen.
Misschien niet kwa capaciteit (processing power) maar wel om de basis, dus firmware, software enz.
Daar bestaan protocollen voor.
Ik ben dus zeer benieuwd wat erbij KPN echt mis gegaan is, de analyse zal dit moeten uitwijzen.
En ja, dit kost geld!
Bij een dergelijk bedrijfskritisch systeem als 112 moet je deze koste incalculeren.

hiostu @HoppyF • 25 juni 2019 15:31

Dat zeg ik juist ook, die zekerheid heb je vaak niet voor 100%. Er kan gewoon door gebruik ergens een defect onstaan wat zich niet openbaart tijdens normaal gebruik.

latka @hiostu • 25 juni 2019 15:37

Daar is ook gewoon een oplossing voor: Chaos Monkey: als je werkelijk denkt dat je oplossing robuust is dan maakt het ook niet uit om in productie gewoon af en toe wat uit zetten. Dat houd het beheerteam ook lekker scherp ;-)

MrMonkE @latka • 25 juni 2019 16:37

112 leent zich niet echt voor dat soort experimenten.

Daarnaast.. wellicht was dit zo'n test en lukte hij niet.

The Third Man @HoppyF • 25 juni 2019 16:34

Je kan dat nooit zeker weten, want het blijft een aanname dat alles gelijk is. Een real life test is toch nodig voor een real life zekerheid, anders ben je nog steeds aan het vertrouwen op de aanname.

ajolla @The Third Man • 25 juni 2019 23:56

Juist.

Rolfie

@HoppyF • 25 juni 2019 15:37

Dit soort testen zijn niet in een test of sanbox omgeving te testen. Je hebt te maken met te veel data stromen je gewoon niet allemaal kan simuleren. Want die werken allemaal net iets anders.

Je moet gewoon periodiek volledig overschakelen naar het andere systeem soort scenario.
Zoals datacenters dit ook regelmatig testen, of noodstroom systemen.

Ervaring leert dat dit soort systemen in theorie ook vaak werken, maar in de praktijk toch net iets anders reageren.

Paar mooie voorbeelden:
Amber Alert.... Zou ook goed moeten werken, maar toch werkt het niet altijd. Test berichten komen nog steeds niet goed overal aan.
Maar ook de sirenes. Regelmatig werken die toch ook niet helemaal goed.

Transferno @Rolfie • 25 juni 2019 16:02

Klopt, een testomgeving is een 1e stap maar geeft totaal geen garantie op een goed werkende productie omgeving. Er kan een foutje in de config zitten of juist bugs die optreden door de hoge load of variatie aan verkeer. Er zijn gewoon heel veel situaties die je niet voorziet op een testsysteem. Eens ze voorkomen, weet je het en neem je het mee in toekomstige tests uiteraard.

In de praktijk "durft" men het risico om over te schakelen (als test) vaak niet te nemen. Voor systemen wat minder kritisch zijn, wordt dit regelmatig in low traffic hours (bv 's nachts) getest. Maar voor systemen welke 24/24 beschikbaar horen te zijn, is het risico groter.
Een beter alternatief is om dan de redundante netwerken continu verkeer te laten afhandelen, in een soort van load-balancing of eerder een 99-1% verhouding. Op die manier merkt je meteen wanneer een change een probleem veroorzaakt op zo'n backup netwerk.
Vaak is dit wel een complexere en duurdere opzet maar een backup bouwen en nooit durven testen is nu ook niet heel zinnig.

HoppyF

@Rolfie • 25 juni 2019 15:51

Je noemt een paar voorbeelden waarbij het niet goed gaat.
Er bestaan echter genoeg oplossingen die bedrijven en overheden gebruiken waar het wèl goed gaat en waar ook regelmatig mee getest wordt of het ook zo gaat als verwacht.

Blokker_1999

Overheid
Nederland

@HoppyF • 25 juni 2019 17:10

Grapjas ... vandaag nog gezien. Config change op een firewall die een hele regio neerbrengt. Is een standaard aanpassing van een regel die zowel in test als in de anere regios geen probleem opleverd maar wel even in deze regio het internetverkeer voor ons onmogelijk maakte. Daar sta je dan met "alles is gelijk". Gewoon het pushen van de nieuwe config faalde en de firewall zij byebye. En om het helemaal leuk te maken konden we niet overschakelen op de backup omdat de eerste er zich niet bij wilde neerleggen.

Er is altijd een kans dat er ergens toch iets afwijkt en dat daardoor alles in de soep draait.

HoppyF

@Blokker_1999 • 25 juni 2019 18:56

Die kans bestaat, en daarom ook altijd testen-testen-testen en noodplan achter de hand houden mocht er toch iets mis gaan. Dit kan bv een menselijke fout zijn iemand die per ongeluk toch iets fout doet ondanks het feit dat het draaiboek juist en getest is.

Gamebuster @HoppyF • 25 juni 2019 15:25

Totdat je backup succesvol gaat in je TEST omgeving "met diezelfde hardware configuratie" en niet in je LIVE omgeving, omdat er toch stiekem een verschil in zat. Oeps, foutje!

Je zou bijna gewoon een compleet alternatief systeem opzetten met een alternatief nummer, zoals "911". Iedereen kent 911 wel, dus onthouden is geen issue. Uiteraard moet het systeem dan volledig losstaan. 2 fysieke telefoons op ieder bureau, huppa

[Reactie gewijzigd door Gamebuster op 22 juli 2024 19:53]

walteij @Gamebuster • 26 juni 2019 06:03

112 is (net als 911 voor de USA/Canada/Veel andere landen en 999 voor Groot Britannie ) een in de telefoon gedefinieerd noodnummer.
Als je dus een van deze nummers belt, zul je automatisch doorgeschakeld worden naar de alarmcentrale.

Noodnummers gebruiken, net als NL-alert een apart protocol op de centrales. Dit verklaard ook waarom KPN klanten geen NL-Alert binnen kregen , terwijl klanten van Vodafone/Tele-2/T-Mobile dit wel kregen.

Platpoot @HoppyF • 25 juni 2019 15:31

Oh ja testen in een testomgeving, die altijd lichter is uitgevoerd, want alles heeft zijn prijs. Die heel anders belast wordt dan je live omgeving omdat dat vaak slecht te simuleren is. Sommige zaken zijn echt goed te testen in een testomgeving, failovers met echte belasting van gebruikers is een stuk lastiger.

Verder zijn zulke dingen ook echt wel getest in een testomgeving, het probleem is dat de praktijk net even anders is. Verder heb je met deze storingen nagenoeg altijd dat net de senior op vakantie is, de monitoring het net laat afweten en dat er ergens een dominoeffect is gestart bij een hele andere afdeling waar je geen flauw benul van hebt.

"Iedere ICTer weet dit wel"

HoppyF

@Platpoot • 25 juni 2019 15:49

Bijna goed.
Belastbaarheid heeft te maken met capaciteit en schaalbaarheid.
Uitval heeft daar weinig mee te maken tenzij de belasting onverklaarbaar plotseling zou toenemen bv doordat mensen opeens allemaal tegelijk 112 gaan bellen.
Dat scenario was hier niet aan de orde.
Het domino-effect wil je koste wat het kost vermijden in een omgeving. Dat klinkt simpel maar is het niet. Je kunt hier niet in een paar zinnen uitleggen wat er gedaan moet worden.
Experts op dit gebied kunnen dit wel en nemen alle scenario’s en backups, door.

Alcmaria @HoppyF • 25 juni 2019 15:41

haha.. tuurlijk test je HA oplossing of Backup wel in een live omgeving, kom zeg.. tuurlijk wel gecontroleerd.. maar je test het wel zeker. BAM stroom eraf.. kijken wat er gebeurd.. Trek die netwerkkabels er maar uit.. moet hij tegen kunnen.

en ik werk bij een bank.. en daar word de boel ook nog wel eens onder een vergrootglas gelegd.
Ik heb liever dat de boel onderuit gaat terwijl er een heleboel collega's meekijken om te zien wat er mis gaat waar en hoe we het kunnen herstellen als dat een keer om half 3 op een zondagochtend gebeurd.

Dus nee.. OOK in test. maar vooral OOK in PROD omgevingen de boel testen

HoppyF

@Alcmaria • 25 juni 2019 15:56

Als je bij een bank werkt weet je ook dat daar bedrijfskritische systemen draaien met failover.
Juist om te voorkomen dat het mis gaat.
Zaken die wel mis gaan bij banken liggen meestal aan de voorkant bv internetbankieren wat niet werkt.
De achterliggende systemen werken vaak wel zoals het hoort.

Blokker_1999

Overheid
Nederland

@HoppyF • 25 juni 2019 17:14

Ja, en die worden daar dan ook op getest. Ook in productie zoals hij aangeeft.

DarknessFood @HoppyF • 25 juni 2019 15:44

Dit inderdaad.

PD2JK

@Lampiz • 25 juni 2019 15:23

Even een speculatie/aanname;
Met backup wordt er denk ik een soort HA-cluster (high availability) bedoeld.

jaenster @PD2JK • 25 juni 2019 15:47

High availability is een fantastische manier om bij directe falen, er voor te zorgen dat het systeem verder draait. Dit is echter geen back-up..

Net zo min als dat een raid set geen back-up is.

einreb73 @PD2JK • 25 juni 2019 15:42

Juist, daar zat ik ook aan te denken , alleen dan heb je weer met 4 leden geen quorum .... Raar verhaal dus van die 3 backups

Iblies @PD2JK • 25 juni 2019 16:42

Even een speculatie/aanname;
Met backup wordt er denk ik een soort HA-cluster (high availability) bedoeld.

Ik heb het vermoeden dat ze ook maar een deel van het verhaal vertellen.

Volgens mij is er een klassieke fout gemaakt. Een netwerk is een som der delen, en ergens is het zwaar misgegaan.

Een backup is daarbij een momentopname en de verkeerde instelling kan daarbij prima mee zijn overgenomen.

Op dit moment praat de minister voor zijn beurt,
het is niet alleen gissen, KPN zelf heeft het ook niet eens achterhaald.

Yezpahr @Iblies • 26 juni 2019 02:06

Ik heb het vermoeden dat ze ook maar een deel van het verhaal vertellen.

...

Op dit moment praat de minister voor zijn beurt,
het is niet alleen gissen, KPN zelf heeft het ook niet eens achterhaald.

Ergens heb ik ook het vermoeden dat de minister gewoon damage-control uitvoert nu, wat wel logisch is.

Bij zo'n ramp komen duizenden mensen opeens met de gedachte: "Daar zouden toch backup systemen voor moeten draaien? En backupsystemen voor die backupsystemen". Ikzelf zat ook al met die gedachte.
De minister wou die gedachte gewoon vóor zijn denk ik en hij beantwoord daarom de vraag al.

Ook werd per ongeluk een nummer van De Telegraaf meegestuurd, in plaats van een nummer waarmee de politie via WhatsApp te bereiken is. Grapperhaus zegt te betreuren dat dit is gebeurd en gaat kijken of er in het draaiboek voor een 112-storing iets moet worden aangepast.

Het draaiboek is dus schuldig? Dan moet je het aanpassen, niet gewoon "kijken" of het aangepast moet worden.
Zo'n draaiboek, hoe groot die ook is, lijkt me te hoog gegrepen voor de mensen aan de knoppen.
Als er wat mis gaat, dan moet er per direct een oplossing worden gefabriceerd. Dan ga je niet een handleiding oppakken, maar direct de benodigde panic-knoppen indrukken en hendels overhalen, simpel gezegd.

De backup-systemen die de minister benoemd lijken wel uit de lucht gegrepen op deze 'luchtige' omschrijving van die systemen. "Backups".
Waar staan die dan? Wie doen die backups? Hoe oud zijn die "backups" (out of context)? Zijn het backups "Software" of backups "Hardware systemen", of backup "bedrading/datakabels"?
Want ja minister, als jij de backup systemen draait op het ontgrendelde netwerk dan gaat je backup niet helpen. Duh.

marrs @Lampiz • 25 juni 2019 15:24

Als je de backup nooit test, ga je er ook niet achter komen of hij werkt. Sterker nog, het is misschien zelfs een goed idee om regelmatig bewust delen van het netwerk uit te schakelen om te kunnen controleren dat een van de backups het netjes overneemt. Zie ook dit artikel voor wat meer achtergrond hierover: https://en.wikipedia.org/wiki/Chaos_engineering

Murfy

@Lampiz • 25 juni 2019 15:25

Bij ons (België) heb je bijvoorbeeld het nummer 117. Ik weet niet of dat in Nederland ook zo is, maar dat is het nummer dat telecomoperatoren en andere kunnen gebruiken om de routering te controleren (bv. of je bij de juiste centrale terechtkomt etc).

Lijkt me dat ze wel ergens dat nummer kunnen gebruiken om failovers te testen ook dan.

ManiacsHouse @Lampiz • 25 juni 2019 15:44

Dat kun je van tevoren regelen lijkt mij. We gaan vanavond tussen zo en zo laat testen want minste kans op ongevallen, noodsituaties etc. En als je dat publiekelijk bekend maakt en zorgt dat men dan weet wat te doen... Beter scenario lijkt mij dan gisteren...

Yabada @Lampiz • 25 juni 2019 15:49

Elke eerste zondag om 03:00? En zo een uitwijktest niet langer laten duren dan een kwartier. Liever dit, dan klakkeloos aannemen (en hopen) dat alles werkt.

Op onze werk doen we elke maand een verplichte uitwijktest (tussen de primaire en secundaire data centers) vanwege SLA met onze klanten. En ondanks alle voorzorgen en maandelijkse herhalingen vinden we altijd afwijking(en), zo simpel is het in de praktijk niet. En ja, dat backups falen is een gegeven (helaas), maar zo een verrassing is dit toch niet!? Ik weet niet hoe complex het 112 system is, maar kom op, dan is het toch juist logisch dat je vaker zo een test wilt uitvoeren om zodoende de zwakke(re) broeders in je IT landschap te identificeren.

En met zo'n belangrijke systeem als 112 zou je deze exercitie moeten blijven doen. Ik zeg niet dat het gemakkelijk is, maar anno 2019 kun je je niet veroorloven om met excuses uit jaren 1990 aan te komen.

Jeffrey_KL @DarknessFood • 25 juni 2019 15:22

Het is naar mijn mening niet KPN zijn schuld dat 112 niet bereikbaar was. Zoiets belangrijks als 112 heeft toch een eigen fall back? Dat leg je niet bij de provider neer.

mashell @Jeffrey_KL • 25 juni 2019 15:54

Maar ergens moeten de telefoontjes toch bij de 112 centrale binnen komen. Die zijn dus klant van KPN. De inkomende lijnen bundel komt dus van KPN. Maar als KPN door een technisch probleem geen telefoongesprekken naar die bundel wete te lijden dan zit de 112 centrale buiten hun schuld duimpjes te draaien. En als KPN dat niet binnen een handvol minuten gerepareerd krijgt dan is KPN toch echt in gebreke.

Transferno @Jeffrey_KL • 25 juni 2019 16:09

Vreemde mening. De overheid heeft het bij een professioneel bedrijf, KPN, neergelegd en is dus de klant. KPN geeft zelf aan een storing te hebben gehad. Wie is volgens jou dan schuldig bij een storing, de aanbieder of de klant?

Als ik een bedrijf zou hebben, afhankelijk van telefonie, zou ik niet zelf een telecom operator beginnen. Mogelijk zou ik een strakke SLA afsluiten of eventueel redundantie bij 2 verschillende operators.

Jeffrey_KL @Transferno • 25 juni 2019 17:11

Je zegt het nu zelf al om redundantie bij een 2de operator te zoeken. Dit is er dus niet in het geval voor het 112 nummer. Een storing bij kpn moet niet betekenen dat 112 niet meer werkt.

Natuurlijk de storing was bij kpn maar dat geeft die overheid niet meteen het recht om het af te schuiven op kpn.

Transferno @Jeffrey_KL • 26 juni 2019 09:39

Het is inderdaad dubbel. Vanuit tweaker gedachte met interesse in techniek is dit KPN zijn schuld. Vanuit de burger, ligt de schuld inderdaad bij de overheid.

KPN heeft hier een fout begaan en is verantwoordelijk voor de storing. Puur vanuit techniek gezien.

Daarnaast zijn wij, burgers, klant van de overheid en nemen de dienst "112" bij ze af. Hoe de overheid dat geregeld heeft en wie hun leverancier is, doet voor ons niet terzake. Ze kunnen ons wel vertellen dat hun leverancier in gebreke is gebleven, maar het blijft hun verantwoordelijkheid naar ons toe. Dus vanuit dat oogpunt heb je inderdaad gelijk.

himlims_ @DarknessFood • 25 juni 2019 15:23

hoe meer ik lees, en de gehele gebeuren lans elkaar zet, proeft het toch wel erg als een (goed uitgevoerde) cyber aanval of trial. Of we de waarheid ooit te horen krijgen ... tijd zal het leren.

Maar sommige zaken zijn wel erg discutabel. Niet om aluhoedje te spelen, maar diverse redundant systemen die falen? backup systemen die niet activeren. Telegraaf nummer naar miljoenen nederlanders [..]

snollygoster @himlims_ • 25 juni 2019 15:28

Daar moest ik ook gelijk aan denken. Cloudflare lag er gisterenochtend ook al uit.

Verwijderd @snollygoster • 25 juni 2019 15:50

Wet van Murphy

rdoorn @himlims_ • 25 juni 2019 15:52

nope gewoon een wijziging die fout ging bij KPN. (met ticket)

Transferno @himlims_ • 25 juni 2019 16:14

Het zou zo kunnen 'lijken' maar het kan ook een kettingreactie zijn vanwege een lichte paniek. Iets wat als een relatief kleine storing begint, veroorzaakt zo een grotere.
Zonder enig technisch inzicht in de gebeurtenissen, is het gokken.
Soms is het ook een combinatie van factoren welke los van elkaar niet zo ernstig zijn maar eens ze allen getriggerd worden, een totaal onverwachte cascade aan storingen veroorzaken.
Ik verwacht trouwens niet dat we de echte oorzaak zullen te weten komen. Daar zal wel uiteindelijk een vaag jip en janneke verhaal voor komen.

Wim-Bart @DarknessFood • 26 juni 2019 00:07

Ik vraag me af waarom niet gewoon twee providers. Of drie, Normale bedrijven nemen ook van twee providers af over verschillende infrastructuren wanneer de verbinding belangrijk genoeg is.

acst 25 juni 2019 15:43

Ik snap niet dat alle back-ups via alleen KPN gaan, ik zou zeggen doe nog een back-up bij een andere provider en het liefst dan nog bij een derde.

litebyte @acst • 25 juni 2019 15:49

Nog meer partijen verantwoordelijk maken, nog meer bureaucratie en 'samenwerkings' problemen? Beter om 1 partij verantwoordelijk te houden en ook zorg te dragen voor de infrastructuur, losstaande van het aantal backups.

Raindeer 25 juni 2019 15:28

Een van de interessantere vragen vind ik waarom al het 112 verkeer nog steeds via KPN afgeleverd moet worden. Ik vraag me af of de woede ook wel geheel terecht op KPN gericht is. 112 is de baas, zij kopen in, zij valideren of de verplichtingen goed uitgevoerd worden, zij moeten toch ook zien dat KPN een Single Point of Failure is.

De markt is geliberaliseerd, maar een van de belangrijkste diensten zit Single-Homed achter KPN. Je zou verwachten dat in een competitieve markt er meerdere partijen zijn die mogen interconnecteren naar 112 (in principe iedereen), vooral omdat die interconnectie een verplichting is. Op deze wijze zou je zelfs kunnen regelen dat partijen hun interconnecties via meerdere partijen kunnen regelen. Dan is niet alleen 112 multi-homed, maar ook KPN, Ziggo, Tweak of Speakup. Dat zou wel schrikken zijn voor KPN, want historisch gezien geloven die niet er in dat zij interconnectie bij derden moeten afnemen. Op deze wijze zou in principe het heel moeilijk worden om 112 onbereikbaar te maken voor een heel land. In principe ligt er dan maar 1 provider uit. In theorie zou bij een hoop providers dan de back-up route actief moeten worden, bv KPN via T-Mobile naar 112 of Voiceworks via Vodafone.

Zit je eigenlijk alleen nog met 112. Dat is natuurlijk ook zijn eigen beest, maar daar kun je misschien meerdere platformen bouwen of een ander nummer activeren. Vooral als je 0900-8844 los laat draaien van 112 op twee verschillende platforms met eigen routeringen zou je een end kunnen komen.

rdoorn @Raindeer • 25 juni 2019 15:57

wat veel interessanter is waarom alles aan 1 nummer moet hangen. Menselijke redundantie : 112 werkt niet maar we hebben het alternatief nog... maar nee niemand weet nog hoe je de lokale brandweer of politie moet bellen.

Raindeer @rdoorn • 25 juni 2019 16:01

Daar is op zich een goede verklaring voor. Ik ben nog van de generatie die meerdere nummers moest bellen voor ambulance, politie en brandweer. In de praktijk werkte dat niet, want bij een complex auto ongeluk zijn ze alle drie tegelijk nodig. Daarbij hadden we dan ook nog het probleem dat er verschillende nummers waren in Europese landen (nog steeds een beetje en ooit zelfs per provincie). Al met al mensen zijn niet in staat om de verschillen te onthouden.

rdoorn @Raindeer • 25 juni 2019 16:14

het is een alternatief nummer hè, 112 blijft de eerste keus.

jvanderneut @Raindeer • 25 juni 2019 17:57

Een van de interessantere vragen vind ik waarom al het 112 verkeer nog steeds via KPN afgeleverd moet worden. Ik vraag me af of de woede ook wel geheel terecht op KPN gericht is. 112 is de baas, zij kopen in, zij valideren of de verplichtingen goed uitgevoerd worden, zij moeten toch ook zien dat KPN een Single Point of Failure is.

Blijkbaar hebben ze in de aanbesteding daar geen rekening mee gehouden.

Zit je eigenlijk alleen nog met 112. Dat is natuurlijk ook zijn eigen beest, maar daar kun je misschien meerdere platformen bouwen of een ander nummer activeren. Vooral als je 0900-8844 los laat draaien van 112 op twee verschillende platforms met eigen routeringen zou je een end kunnen komen.

Zeker voor vaste telefonie is de situatie vrij complex, zo'n 100 telecom aanbieders en ruim 20 alarm centrales. Als iedereen zijn eigen connecties moet regelen (en dus niet inkopen bij KPN ofzo

) werkt dat niet. Voor mobiel zou je elke MNO kunnen verplichten een rechtstreekse verbinding met Driebergen te maken.

Ik denk dat elk ander "fallback" telefoonnummer uiteindelijk op dezelfde manier zal falen. Uiteindelijk is het niet het telefoonnummer, maar de bereikbaarheid van de alarmcentrales waar het om draait en dat kan ook via sociale media of een website met chat o.i.d.

Verwijderd 25 juni 2019 15:27

De exacte oorzaak wordt nog onderzocht, maar een hack werd vrijwel uitgesloten.

Als dit al het resultaat is van 'geen hack', dan wil je eigenlijk niet eens weten wat dan het resultaat
gaat worden van 'wel' een hack.

Op deze wijze is dus vast te stellen dat een groot deel van het communicatie verkeer plat gelegd kan worden of met een knipoog, doorgeschakeld naar een duur buitenlands nummer a 9,99 euro de minuut met ditto start tarief.

Een beetje het "Henny Huisman" effect van 30 jaar terug, all over again . . .

Op dit item kan niet meer gereageerd worden.

Uitnodiging gebruikerstest in Amsterdam

Lees meer

Reacties (194)

Sorteer op:

Weergave: