Storing bij Facebook en de rol van een stokoud internetprotocol

titel

Al eeuwen gaat er in het feudale Japan de poëzievorm haiku rond. In de afgelopen twee, drie decennia zijn systeembeheerders vooral bekend geraakt met een bekend vijf-zeven-vijf-lettergrepengedicht:

It's not DNS
There's no way it's DNS
It was DNS

Ook na maandagavond was dat weer relevant. DNS-records voor Facebook-diensten wezen niet meer naar de juiste plekken en zorgden voor een ongekend grote en langdurige chaos op internet. Inmiddels blijkt dat het Japanse rijm kan worden bijgewerkt:

Wat is BGP?
Is het echt zo belangrijk?
Oh ja... Blijkbaar wel.

BGP staat voor het border gateway protocol. Het protocol is al oud, maar zeker niet versleten. Het is daarentegen wel een goed voorbeeld van hoe het internet toch nog steeds met veel kunst- en vliegwerk in de lucht wordt gehouden. Er zijn inmiddels ook wat aanwijzingen dat Facebook zelf slecht voorbereid was op een dergelijke storing.

Na publicatie kwam Facebook met een nadere verklaring. Die is als update in het artikel verwerkt.

Wat gebeurde er?

Eerst maar eens de feiten. Facebooks grote storing begon om 17.40 Nederlandse tijd, toen bezoekers van de site en de app alleen nog een draaiend tandwieltje te zien kregen. Al snel bleken ook andere Facebook-diensten offline te zijn. De eigen berichtendienst Messenger deed niks meer, net als dochterdiensten Instagram en WhatsApp. Wie dacht met de vrije tijd dan maar lekker wat te gaan gamen met een Oculus-VR-headset kwam ook van een koude kermis thuis. De Oculus-diensten konden namelijk eveneens niet opstarten. Offline spelen op de headset kon nog wel, maar alles dat via de servers van Oculus moest, werkte niet.

Het werd snel duidelijk dat de storing veel groter was dan verwacht. Een algemene storing bij het complete portfolio van Facebook is al zeldzaam, maar zo'n langdurige al helemaal. Uiteindelijk duurde het meer dan zes uur voor de sociale netwerken weer enigszins bruikbaar waren. Om 23.50 meldde Facebook dat de diensten weer online kwamen. Dat duurde ook nog eens lang, want al die achterstallige berichten moesten in een keer worden verstuurd en dat leidde tot vertraging op de netwerken.

De storing was grootschalig. Bij dergelijke storingen is het normaal dat er veel vertraging is, of dat een website wel laadt met een errorcode, of dat de dienst wel laadt maar de content niet. Dat was nu niet het geval. Sommige experts zeggen het treffend: het leek alsof Facebook verdwenen was van internet.

Onduidelijkheden

FAcebook storing twitter De officiële communicatie vanuit Facebook en Instagram was summier. Die beperkte zich tot wat vage tweets zonder een oorzaak aan te wijzen. Ook in de officiële verklaring die Facebook achteraf gaf, staat niet veel concrete informatie. "We hebben geleerd dat de communicatieproblemen werden veroorzaakt door een configuratieaanpassing in de backbone-routers die netwerkverkeer versturen tussen onze datacenters", schreef het bedrijf. En dat het 'een domino-effect had op de manier waarop de datacentra communiceerden'. Dat lijkt te wijzen op een storing met betrekking tot het border gateway protocol zoals veel werd gespeculeerd, maar het is daar geen officiële bevestiging van.

Een andere zin uit Facebooks verklaring trekt ook de aandacht. "De onderliggende oorzaak van deze storing had impact op veel van onze interne tools en systemen die we gebruiken in ons dagelijkse werk. Dat maakte het diagnosticeren en oplossen van het probleem moeilijker." De reden dat de storing dus zo uitzonderlijk lang duurde had te maken met het feit dat Facebook ook zelf niet op zijn platformen kon. Omdat de interne communicatie niet werkte, konden medewerkers niet op Workplace, het enterpriseplatform van Facebook dat medewerkers uiteraard ook intern gebruiken. Ook interne beveiligingstools zouden niet hebben gewerkt. Volgens een interne memo waar The New York Times de hand op wist te leggen werd de storing door Facebook geclassifiseerd als 'HIGH risk' voor mensen' en 'HIGH risk' voor de reputatie van het bedrijf.

De krant schrijft ook dat het werk bemoeilijkt werd omdat veel digitale keycards niet meer werkten. Daarvoor konden medewerkers niet bij vergaderzalen en andere gebouwen. De verstoring van de fysieke en digitale samenwerking maakte het oplossen van het probleem ingewikkeld. Uiteindelijk zouden werknemers fysiek naar een datacentrum in Santa Clara hebben moeten reizen om daar een handmatige reset uit te voeren. Er ging zelfs een gerucht dat Facebook een slijptol nodig had om de serverruimtes binnen te komen, maar dat bleek uiteindelijk niet te kloppen.

Update, 20:30: Facebook geeft nadere uitleg

Inmiddels heeft Facebook een veel uitgebreidere verklaring online gezet. Daarin omschrijft Facebook hoe dit heeft kunnen gebeuren. Het ging mis tijdens regulier onderhoud aan de backbone. "Een commando werd gegeven met de intentie om in kaart te brengen hoe het zat met de wereldwijde beschikbaarheid van de capaciteit van de backbone. Die trok onbewust alle verbindingen in het backbone-netwerk offline en ontkoppelde als het ware alle datacentra van Facebook wereldwijd. Onze systemen zijn ontworpen om dit soort foutieve commando's tegen te houden om zo fouten als deze tegen te gaan, maar door een bug in de audit-tool gebeurde dat niet."

Die ene fout zorgde voor een tweede fout bij kleinere datacenters, die ook zorgen voor afhandeling van DNS-verzoeken. "Om te zorgen dat die betrouwbaar werken, trekken ze BGP-advertisements in als ze niet kunnen communiceren met onze datacenters." Die BGP-advertisements zorgen ervoor dat andere netwerken de Facebook-diensten kunnen vinden op internet. "Het eindresultaat was dat onze DNS-servers onbereikbaar werden, ook al deden ze het nog wel. Dat maakte het onmogelijk voor de rest van het internet om onze servers te vinden."

Het issue duurde bovendien langer doordat fysieke toegang tot de apparatuur lastig was. "Onze gebouwen zijn lastig in te komen en als je binnen bent zijn de routers en andere apparaten zo ontworpen dat ze lastig aan te passen zijn, om misbruik te voorkomen. Dus het nam extra tijd in beslag om de protocollen in werking te stellen om mensen te kunnen laten werken aan de servers. Pas toen konden we zien wat het probleem was en de backbone weer online zetten."

Interne communicatie

In het algemeen was opvallend hoeveel informatie over Facebooks interne systemen mondjesmaat naar buiten kwam. Een van de meest spraakmakende kwam van een inmiddels verwijderd account op Reddit. Dat deed uitvoerig uit de doeken dat het waarschijnlijk ging om een issue met de DNS-servers, wat werd veroorzaakt doordat de peeringrouters voor BGP offline waren. Een anonieme bron van Tweakers bevestigt dit verhaal. De BGP-problemen kwamen ook naar voren uit een veelgedeelde blogpost van Cloudflare. Dat bedrijf merkte voor het eerst op dat de BGP-routers van Facebook niet meer te benaderen waren. Het probleem lijkt dus te maken te hebben met BGP, al blijft die informatie onbevestigd. Als dat zo is, dan is het niet het protocol zelf waar scheurtjes in zitten die tot dit soort situaties leiden, maar eerder Facebooks implementatie ervan.

BGP cloudflare — Cloudflare zag al snel dat Facebooks BGP-routers offline gingen.

Verbindingen routeren

Om BGP goed te kunnen uitleggen, doken we even het serverhok in met onze bofh Kees Hoekzema. We willen van de analogieën over telefoonboeken en -centrales wegblijven, maar het border gateway protocol laat zich omschrijven als een manier waarop verkeer tussen twee routers of tussen een router en een provider wordt geleid. BGP vertelt een provider welk netwerk bij welk ip-adres hoort, en kan vervolgens worden geconfigureerd om de snelste weg tussen die verschillende netwerken te vinden. Neem een bestemming op internet zoals Tweakers. Tweakers hoeft zelf niets te regelen aan de implementatie van het border gateway protocol, dat doen onze hostingproviders True en Atom86. "Tweakers heeft een vrij eenvoudige setup, dus dat hebben we zelf niet nodig", zegt Kees. "Het heeft pas nut dat zelf te doen als je meerdere netwerken hebt die over meerdere locaties verdeeld zijn, of wanneer je meerdere verbindingen met internet hebt. Je moet er ook je eigen ip-space voor hebben, en met de huidige schaarste van ipv4-adressen is dat de laatste tijd niet makkelijk om te krijgen."

Voor Tweakers is het minder interessant BGP zelf te regelen dan het voor Facebook isLaten we het visualiseren door ons voor te stellen dat je vanaf je Ziggo-connectie een verbinding wil leggen met Tweakers.net. True, onze hostingprovider, heeft veel verschillende routers en heeft daar het border gateway protocol op geïmplementeerd. "Dat laat aan de wereld zien hoe ze de specifieke ip-range voor Tweakers kunnen bereiken", zegt Kees. Dat wordt naar alle netwerken verzonden waar True mee verbonden is, en die sturen dat dan weer door naar netwerken waar zij mee verbonden zijn. Dat zijn bijvoorbeeld de AMS-IX, maar ook verschillende andere knooppunten en transitproviders. Ziggo krijgt die informatie ook binnen op haar routers en weet daardoor via welke netwerken en routes Tweakers te bereiken is. Met behulp van informatie die door BGP is verkregen, wordt een afweging gemaakt welke route wordt gekozen. Dat gebeurt in eerste instantie op beschikbaarheid van de route, maar het kan bijvoorbeeld op basis van snelheid en aantal tussenliggende routers. Ook kosten kunnen een rol spelen. "Verkeer via een bepaalde transitprovider kan bijvoorbeeld goedkoper of juist duurder zijn dan peering via de AMS-IX." Met behulp van BGP-informatie bestaan er veel verschillende manieren om verkeer te routeren.

Zelf hosten of uitbesteden

Je kunt het beheren van een BGP-implementatie op twee manieren regelen. De meeste gebruikers, zoals Tweakers, besteden dat gewoon uit aan hun hostingprovider. Andere bedrijven houden dat juist in eigen beheer, zegt Job Snijders. Hij werkt bij Fastly en is vrijwilliger bij internetorganisaties zoals OpenBSD, RIPE NCC en IETF en weet alles van BGP-implementaties. "Vaak zie je dat als er iets mis gaat met het BGP-protocol, het merkbaar is in de hele organisatie. BGP is echt een protocol voor de kern van het internet", zegt hij. Uitbesteden of niet heeft voor- en nadelen. Snijders: "Het is altijd een combinatie van de kosten, maar ook de performance en beheersbaarheid." Tweakers zou daarbij een goed voorbeeld zijn. Via de juiste BGP-implementatie vinden Nederlandse en Belgische bezoekers de site sneller dan bezoekers die toevallig op vakantie zijn in Kaapverdië. Is het in zo’n geval goed de controle te houden over wat er met bezoekers uit de buurt gebeurt, maar voor het handjevol internationale bezoekers dat je krijgt is het wat minder belangrijk die controle te hebben. Voor een bedrijf als Facebook is zo’n totale controle veel belangrijker.

BGP biedt veel mogelijkheden om het zelf in te richten en te optimaliseren. Snijders: "Door de open standaarden die partijen als de IETF beheren, kan iedereen die er technisch toe in staat is dit draaien zonder verplicht specifieke hard- of software te gebruiken." Met die vrijheid om je eigen netwerk op te zetten komt volgens Snijders ook wel een risico. "Je kunt je eigen verbinding er ook mee verbreken." Het kan dus zomaar gebeuren dat je in je BGP-regels neerzet dat je eigen servers niet bestaan. In zo'n geval werkt BGP precies zoals het hoort. Het is volgens Snijders dan ook een veelvoorkomend misverstand dat BGP 'oud en brak' is. Dat werd maandagavond veelvuldig herhaald door experts en Twitter-helden, maar beide kloppen niet echt. 'Oud' slaat op het feit dat BGP voor het eerst in het leven werd geroepen in de vroege jaren 80. "Maar sindsdien is er jaar in, jaar uit gewerkt, gepolijst en geüpdatet door honderden vrijwilligers", zegt Snijders. Daardoor draait 'het internet' niet simpelweg op BGP, maar op een evolutie van BGP.

Redundancy

Het border gateway protocol is volgens Snijders op een vlak erg goed: het heeft veel gelegenheid voor redundancy. "Dat is een fascinerende eigenschap. Dat heeft het internet zo groot gemaakt als dat het is. BGP heeft de eigenschap dat info die niet direct nodig is, ook niet meteen zichtbaar is. Dat betekent ook dat het bijvoorbeeld relatief weinig geheugen in BGP-routers kost." Door BGP volgt verkeer de beste route, maar alternatieve routes worden pas ingeladen op het moment dat de primaire wegvalt. Daardoor is het niet nodig een complete routekaart van internet vooraf in te laden.

BGP

BGP-inrichting voor je datacenter

Ook met die achtergrondkennis is het echter nog moeilijk om te analyseren wat er precies mis ging bij Facebook. Met de beperkte informatie die Facebook zelf deelt over het incident is het vooral gissen, maar er zijn wel wat aanwijzingen over hoe het bedrijf zijn datacenters heeft ingeregeld. Begin dit jaar publiceerde het bedrijf een paper over precies dit onderwerp. Ingenieurs van Facebook beschrijven erin hoe ze het border gateway protocol zelf implementeren in hun datacenters - toch geen sinecure met de omvang die Facebook heeft. Het is een interessant inkijkje in de werkcultuur van Facebook. 'Move fast and break things' gold bijvoorbeeld ook voor de serverinfrastructuur. "Onze oorspronkelijke motivatie was om ons netwerk snel op te bouwen maar tegelijkertijd een schaalbaar routeringontwerp te houden", schrijven de admins. Daarbij was met name uptime belangrijk; Facebook heeft zich altijd op de borst geklopt vanwege zijn goede bereikbaarheid, ook hier. "We hebben geprobeerd een netwerk te bouwen dat hoge beschikbaarheid biedt voor onze diensten." Desondanks werd er geanticipeerd op downtime en failures. Uiteindelijk bleek BGP het beste protocol te zijn voor schaalbaarheid van een datacentrum. Het was volgens Facebook ook al bewezen dat het op dat niveau kon werken. Bovendien is BGP een gestandaardiseerd protocol dat ook goed werkt met de custom hardware die Facebook gebruikt.

Snelle veranderingen doorvoeren

Om dat opschalen te optimaliseren heeft Facebook een eigen BGP-agent geschreven voor onder andere het opzetten van externe BGP-sessies op switch-niveau. Daarmee kan het bedrijf naar eigen zeggen 'snelle, frequente veranderingen doorvoeren' aan de netwerkinfrastructuur. Voor het doorvoeren van wijzigingen in, of updates van, het protocol, heeft Facebook een eigen pipeline voor testen in werking gezet. Die begint met unit testing, maar Facebook heeft ook eigen emulator geschreven waarin ook wordt getest op situaties waarbij er iets mis gaat, zoals links die niet werken of als BGP moet herstarten. Facebook erkent dat daarin nog mogelijke obstakels zitten; het is bij emulaties moeilijk om zowel soft- als hardware na te bootsen, en testen in Linux-containers is 'veel langzamer dan op hardware switches', zegt het bedrijf. Tot slot wordt er nog canary testing uitgevoerd, waarbij een BGP-update op één switch wordt geplaatst en waarbij gekeken wordt of er problemen ontstaan wanneer er opgeschaald wordt. Die worden dan sneller ondervangen. Op die manier kan er worden uitgerold zonder liveproductie teveel te schaden. In het document wordt daarnaast beschreven welke back-upstrategie er binnen het datacentrum bestaat voor het geval een switch besluit er de brui aan te geven. Iedere switch krijgt daarvoor een alternatief routing-path.

Facebook servesr 2

Facebooks whitepaper zegt uiteindelijk niet zoveel over de situatie die maandagavond plaatsvond. Het toont bijvoorbeeld niet waar het precies mis ging, of hoe het uiteindelijk werd opgelost. Zo zou het kunnen dat de problemen aanvankelijk voornamelijk binnen de eigen backbone speelden en de resulterende BGP-problemen naar buiten toe daar een bijkomstigheid van waren. Daarvoor zal Facebook zelf meer bekend moeten maken.

Ondanks alle onduidelijkheid rondom het incident lijkt het er niet op dat het border gateway protocol nu stuk is. Dat betekent niet dat het perfect is. Veel BGP-data gaat nog steeds via plaintext en dat mag inmiddels wel anders. In 2015 schreef Tweakers ook al een artikel over de potentiële kwetsbaarheden van het protocol. Er wordt hard gewerkt aan het toevoegen van encryptie, zegt Snijders. "Van de grote protocollen zoals SMTP, DNS en http is BGP de laatste die nog moet worden bijgewerkt op grote schaal. Dat is aan de ene kant een uitdaging, maar ook een leuke puzzel."

Misschien zijn de internethaiku's ook wel aan een update toe.

Belangrijk systeem
Border gateway protocol
Backbone van het net

IT-banen

Reacties (47)

Verwijderd 5 oktober 2021 19:47

Ik sprak 15 jaar geleden op een router-vendor-congres met een aardige, oudere man (een van de sprekers). Gezellig buiten op een terras, met zicht op de Noordzee.

Achteraf bleek die aardige meneer de uitvinder van BGP: Yakov Rekhter.

Fun-fact: initieel ontwerp van BGP op een paar servetten:
https://resources.stuff.c...yNine.1240x700.153xwg.png

Pino112 5 oktober 2021 20:08

https://engineering.fb.co...g-traffic/outage-details/

Een blog van de CTO van Facebook over de aanleiding. Een combinatie van een menselijke fout (verkeerd commando) en een bug in de audittool die het commando eigenlijk tegen had moeten houden.
Interessant om te lezen.

ernstoud

Internet

5 oktober 2021 18:43

Facebook: “some people are having trouble”. Yep, paar miljard.

Overigens lag er meer uit op internet, ik denk dat Facebook hier en daar capaciteit verhuurt. Zo lag fast.com er ook uit.

Auteur

TijsZonderH Nieuwscoördinator @ernstoud • 5 oktober 2021 18:46

Dit zou nieuws voor me zijn, voor zover ik weet host Facebook niks voor andere partijen. Denk eerder toeval, maar ik duik er graag dieper in als het echt zo is.

Verwijderd @TijsZonderH • 5 oktober 2021 19:06

Wat @ernstoud zegt re capaciteitsverhuur is inderdaad niet waar dacht ik, maar wat jij zegt Tijs re toeval klopt ook niet. Zou even moeten zoeken waar ik het zag, maar er was een artikel welke het probleem met anderen weet aan de 'queue' voor FaceBook's verschillende diensten.

DIt volgende gedeelte is mijn eigen speculatie, maar het lijkt me niet onmogelijk dat doordat de 'link DNS' om het zo maar even te omschrijven (ben even de juiste benaming kwijt) welke aangeeft op basis van de locatie welk IP-adres je moet hebben er uit heeft gelegen door het BGP probleem, de DNS-caches in plaats daarvan de root IP voor Facebook's verbindingen hebben doorgegeven.

We hebben een tijdje terug iets vergelijkbaars gezien toen een carrier in Californië (was bij een datacentrum bij Santa Monica dacht ik) een blunder beging en de table naar een plek verwees die niet bij hen hoorde, waardoor ongeveer de helft van het Internetverkeer via Californië vast liep. Met helaas grote bedrijven zoals FB, Twitter, Cloudflare en een heleboel anderen die juist 'in' de getroffen range of daar vlak bij zaten waardoor het halve Internet er uit vloog.

In dit geval kan het best zijn geweest dat de pipeline naar FB overbelast werd, inclusief al het verkeer dat daar ook overheen moest met alle gevolgen van dien.

[Reactie gewijzigd door Verwijderd op 22 juli 2024 17:13]

Heroic_Nonsense

@Verwijderd • 6 oktober 2021 07:35

Wat er her en der gebeurde, was dat DNS-servers het te druk hadden met pogingen om *.facebook.com *.whatsapp.net en andere domeinen van Facebook te resolven. Hierdoor kon het vóórkomen dat jouw request voor een URL die niets met FB van doen heeft, vertraging opliep of een timeout gaf. Die leken dus down (voor jou), maar waren dat in werkelijkheid niet.

Ook sommige diensen die de Facebook authenticatie-API gebruiken leken niet bereikbaar (althans, daar leek het op als je op de meldingen in je browser afging) omdat ze perse de Facebook-overlay wilden tonen (die dus niet werkte) voordat de rest van de site kon worden geladen. IMHO een slecht design van de bouwer, maar soit.

ernstoud

Internet

@TijsZonderH • 5 oktober 2021 18:58

Ik gebruik via een node.js script fast.com om mijn internet snelheid te meten op een 32-bit servertje. Ookla biedt alleen een 64-bit cli tool, vandaar.

Rond 23:40 werkte fast.com niet meer. Helaas heb ik het script toen afgebroken dus ik weet niet wanneer fast.com weer werkte, maar handmatig werkte het in ieder geval vanmorgen weer.

Toeval kan zijn, fast.com is van Netflix. Lijkt me plausibel dat Netflix iets heeft met Facebook…

Jay-v @TijsZonderH • 5 oktober 2021 19:09

Ik weet niet of het down was, of überhaupt door Facebook zelf gehost wordt maar Facebook heeft een Enterprise oplossing: https://www.workplace.com/

Daarnaast als je Facebook gebruikt als Identity Provider, had je natuurlijk ook een probleem.

anboni @TijsZonderH • 5 oktober 2021 20:51

Als heel Facebook eruit lag, lag natuurlijk ook hun hele OAuth eruit.Dat kan zeker ook voor andere partijen gevolgen hebben gehad. Daarnaast zijn er natuurlijk allerlei social media plugins en tracking meuk. Een slecht gebouwde website die daar niet mee overweg gaat, kan ook down lijken te zijn.

Vinnie.1234 @ernstoud • 5 oktober 2021 19:07

Zal het probleem niet meer zitten in het feit dat veel verkeer anders ging dan verwacht? Twitter had het ook moeilijk en AdGuard DNS lag er ook uit (Hier mooi uitgelegd. https://twitter.com/ay_me.../1445105673327587342?s=19).

Er is best een grote kans dat gister veel mensen hun internet wilde controleren en dat Netflix ook een stuk drukker bezocht werd en ze hier dus ook moesten schakelen. Net zoals het SMS verkeer gister ook soms wat haperingen toonde.

Facebook is zo'n grote partij op internet dat als die wegvalt er een heel groot gat ontstaat, wat grotendeels toch op andere manieren opgevuld wordt. Je krijgt hierdoor vanzelf een domino effect 😉

GrooV @ernstoud • 5 oktober 2021 19:17

Fast.com is de speedtest site van Netflix, hooguit hebben ze die uitgezet omdat ze capaciteit nodig hebben omdat er in eens een ongewone spike in gebruik was.

Let wel, Netflix is redelijk voorspelbaar. Als in eens het grootste sociale netwerk van de wereld er uit ligt gaan mensen wat anders doen zoals Netflix kijken

Freeaqingme 5 oktober 2021 18:51

Ik snap niet helemaal waarom dit - in de titel - aangeduid moet worden als 'stokoud internetprotocol'. BGP stamt uit 1989. Het SMTP (email) protocol stamt uit bijvoorbeeld 1971; zo'n 20 jaar ouder. Daarnaast wordt dit (zowel SMTP als BGP) ook continue bijgewerkt met nieuwe RFC's.

Er zijn partijen die graag ieder jaar weer iets nieuws willen introduceren* omdat het hip is en alles uit het verleden kut was (of, zou zijn). Dat is niet per se iets waar het internet bij gebaat is, laat staan de onderste fundamenten. Gegeven dat het al zo lang actief gebruikt wordt zou je ook kunnen constateren dat het - ondanks eventuele beperkingen - kennelijk best wel robuust is.

Auteur

TijsZonderH Nieuwscoördinator @Freeaqingme • 5 oktober 2021 18:53

Dat is deels omdat dat het heersende sentiment gisteravond was. 'Oud = slecht', leek het, maar ik probeer juist ook duidelijk te maken dat alleen maar de leeftijd niets zegt over de effectiviteit. Dat is ook wat Snijders uiteindelijk zegt.

Ayporos @TijsZonderH • 5 oktober 2021 19:52

Ach het wiel is ook al weer een paar jaartjes oud.. en daar hebben we tot op heden ook nog niet echt iets beters op verzonnen.

Blokker_1999

Internet
Facebook

@Freeaqingme • 5 oktober 2021 19:44

BGP blijft 1 van de hoekstenen van het internet en aanpassingen zijn daarom moeizaam door te voeren. Net zoals de omschakeling naar IPv6 vandaag ook nog altijd zeer traag gaat ondanks dat dat protocol ook al weer meer dan 20 jaar oud is.

De basis van BGP is oud, en laat ons eerlijk zijn, 30 jaar is een eeuwigheid in de IT wereld. Maar daar tegenover staat dat men op die basis dan weer zeer conservatief is in veel backbone infrastructuur wordt aangelegd om al snel meer dan 10 jaar mee te gaan. Maak je dus vandaag aanpassingen aan het protocol ( dat nog altijd maar op versie 4 zit) dan zal het nog jaren duren voor die aanpassingen zelfs maar ondersteund worden door een meerderheid van de systemen.

En door die leeftijd heeft BGP, net als SMTP trouwens, inherente problemen die we wel al jaren proberen op te lossen maar waarbij het feit dat het uit een ander tijdperk stamt net vele moderne technieken die we zouden kunnen implementeren in de weg zit. Mocht het moderniseren van het protocol eenvoudig zijn, dan hadden we vandaag ook geen probleem meer met BGP Hijacking bijvoorbeeld.

Koldur 5 oktober 2021 19:03

De Oculus VR Quest 2 werkte gewoon prima met de spellen die erop stonden, online gaming uiteraard niet, maar voor de rest was daar niets mee aan de hand.
Beetje sensatie zoekerij op dat gebied en onjuiste verslaggeving.

Edit:
Ahhh, nu wel zo gemeld zonder erbij te vermelden dat het achteraf is aangepast. Niet erg netjes.

[Reactie gewijzigd door Koldur op 22 juli 2024 17:13]

Verwijderd @Koldur • 5 oktober 2021 19:17

Heb zelf geen Quest en ben zelf ook niet in de Quest geïnteresseerd, maar is het niet zo dat als je de Quest wilt gebruiken je ingelogd bij FB moet zijn? Als je sessie nog actief is lijkt het me geen probleem dan, maar wel als je sessie verlopen was of je uitgelogd was.

Koldur @Verwijderd • 5 oktober 2021 19:19

Je kan de Quest ook gewoon offline gebruiken, je hoeft er helemaal niet mee met internet verbonden mee te zijn. Vaak genoeg gespeeld op mijn Quest zonder en gisteren ook terwijl FB eruit lag.

Verwijderd @Koldur • 5 oktober 2021 19:20

Ah okay. Bedankt voor de informatie in dat geval. Dan is het inderdaad nogal slordig van Tijs.

xmenno 5 oktober 2021 19:32

Leuk verhaal maar om BGP te gebruiken als IGP voor je fabric heeft helemaal geen raakvlak of connectie met je EGP. Toevallig gebruiken beide BGP, ik denk niet dat het probleem in een interne fabric ontstond, maar door een foute config naar alle peering routers. Je zag in de globale BGP routing table gewoon alle /24s verdwijnen die gebruikt werden voor anycast van de DNS servers.

[Reactie gewijzigd door xmenno op 22 juli 2024 17:13]

jerh @xmenno • 5 oktober 2021 21:12

Of hun eigen routes genull route. Is mij ook een keer overkomen, als een speer in de auto gestapt om met een seriele kabel een rollback 1 in te kloppen op de fysieke router..... We waren compleet van het net af.

xmenno @jerh • 5 oktober 2021 21:21

Dat maakt niets uit voor BGP, een null0 route is een static route en die kun je zelfs met "redistribute static" gewoon naar het internet adverteren. Zo doen wij dat ook, met binnen een aantal directly connected more specifics. Verkeer waar geen more specific voor is dropt ie dan.
Zoals ik zei en ook meerdere keren is gemeld in het topic gisteren was er een withdrawls van routes, specifiek de /24s waar de DNS servers in draaien.

Snow_King

@jerh • 5 oktober 2021 23:50

Dan moet je ook vooral ‘commit confirmed’ gebruiken op je Juniper doos. Scheelt een ritje datacenter :-)

jerh @Snow_King • 6 oktober 2021 07:31

dat was de standaard. De enige keer dat je dat dan niet doet, ben je de lul.....

KoeKk @xmenno • 6 oktober 2021 13:12

Facebook gebruikt een spine-leaf switching architectuur binnen (en ik vermoed ook tussen) DC's, zoals ze in hun whitepaper uit de doeken doen. De benodigde informatie wisselen ze uit tussen de leaf's en spine's via eBGP (eBGP functioneerd dus als IGP). Zie pagina 4 in de whitepaper, daar zie je verschillende (private) AS nummers, dus is het per definitie geen iBGP meer.

Dus: ik maak een config fuckup in het interne eBGP netwerk, waardoor ik 'alles sloop', de externe eBGP configuratie zoals gebruikt in de DNS pod's is afhankelijk van het correct functioneren interne eBGP netwerk, en trekt publieke route's in op het moment als ze iets zien foutgaan.

cHoc 5 oktober 2021 19:03

BGP is dan inderdaad wel het oudst in gebruik zijnde routing protocol wat live aan internet hangt.
Maar de kwaliteiten van BGP zijn dusdanig dat hoe groter het netwerk, je steeds minder om BGP heen kan welke nadelen BGP ook heeft.
Dat maakt het ook tot het GOTO routing protocol voor het internet zelf.
Daarom dat de grote bedrijven met echt grote netwerken zelf intern ook BGP gebruiken ipv EIGRP of OSPF.

EIGRP en OSPF zijn beide goede routing protocollen maar zijn meer gemaakt voor bedrijfsnetwerken tot een bepaalde grootte, elk met hun eigen voor en na-delen.

[Reactie gewijzigd door cHoc op 22 juli 2024 17:13]

maevian @cHoc • 5 oktober 2021 20:51

Technisch gezien zit BGP op de Application layer en is het dus geen routing protocol

Heb hierover al meerdere verhitte discussies waar ik niets van begrijp gehoord tussen network engineers

arnoudwokke Redacteur Tweakers @applelov3r • 5 oktober 2021 18:38

Ik blijf het bijzonder vinden dat sites als nu.nl betere verslaggeving doen tijdens de gebeurtenis(o.a. een liveblog)

Wij hebben liveblog niet als soort artikel. We publiceren nieuwe details als update bij het bestaande artikel of, als er veel nieuwe info is, als nieuw artikel.

en jullie dit - een dag later - als plus artikel durven te publiceren.
Dit is gewoon interessante en relevante informatie die iedere tweaker “gratis” hier zou moeten vinden:

Uhmm, wat bedoel je nu? Je bedoelt dat Tijs een zó relevant en goed artikel heeft geschreven, dat eigenlijk iedereen op deze site het zou moeten lezen? In dat geval: namens Tijs dank voor het compliment!

Maar ik ben het niet met je eens. Dit is precies wat Plus is voor ons, namelijk:
1. het basisnieuws is zonder inlog beschikbaar, namelijk dat er een storing was, dat hij was opgelost en wat Facebook er achteraf over zei
2. vervolgens een verdiepend artikel met verdieping over de mogelijke oorzaak en uitleg bgp en dns. Bgp is ook voor veel Tweakers geen gesneden koek, maar het zal ook zeker niet voor iedereen interessant zijn.

Heb je geen Plus en wil je geen credit eraan besteden? Dan ben je nog steeds prima op de hoogte van deze storing, de oplossing en wat Facebook als oorzaak noemt. Als je meer verdieping wil, heb je een mooi Plus-artikel (inclusief zelf geschreven haiku's (!) ) om er dieper in te duiken. Prima voor iedereen, lijkt me.

[Reactie gewijzigd door arnoudwokke op 22 juli 2024 17:13]

arnoudwokke Redacteur Tweakers @batjes • 5 oktober 2021 19:21

Het is het eerste PLUS artikel wat ik geopend heb sinds het uit beta is

Dus je hebt geen idee wat Plus-artikelen tot nu toe precies inhielden. Check.

Jullie worden helemaal onderuit geshoveld door NuTech, NUTECH van alle Nederlandse "techie" communities. Ik vind eigenlijk best wel dat Tweakers.net zich een beetje moet gaan schamen.

Dat zijn harde woorden, en dan verwacht ik ook een harde onderbouwing. Maar behalve sarcasme en een paar links zie ik geen inhoudelijke onderbouwing. Het kan zijn dat die er is - je zal niet voor niks tot dit oordeel komen - maar dat ben je dan vergeten erbij te zetten.

Zo heel diepgaand is dit artikel niet. De reacties onder het artikel van gister zijn honderden keren beter dan dit zogenaamde "achtergrond" artikel.

Er waren gisteren veel reacties. De meesten waren prima, sommige waren uitstekend, maar geen een had de lengte, info en het overzicht van dit artikel. Kon ook niet, de storing was nog gaande en dus was er weinig tijd geweest om info te verzamelen.

Jullie harken wat info bij elkaar, wat wij als community jullie voeden en pleuren het vervolgens achter een betaalmuur. Sorry, maar je trapt daarmee gewoon je trouwe bezoekers die veel bijdragen aan deze website recht in het gezicht.

Als dit een artikel was geweest met grote input van lezers, dan had het geen Plus-artikel geweest.

Ik kom hier niet voor het nieuws, ik kom hier voor de reacties.

Dat is prima, ik lees de reacties ook heel graag. Jij gebruikt het nieuws dan als aftrap van een interessant gesprek over technologie. Sommige mensen komen alleen op het forum, sommigen komen alleen in de Pricewatch. Zo heeft iedereen verschillend gebruik van deze site - niks mis mee. Ik heb het liefst natuurlijk dat iedereen de artikelen hoog waardeert (en veruit de meeste mensen waarderen de artikelen ook hoog), maar als dat niet zo is en je vindt de reacties wel interessant, is dat ook prima.

Zonde man om een community waar ik al ~20 jaar rondhang te zien afglijden, in het verleden hebben jullie koerscorrecties toegepast toen het de verkeerde kant op neigde te gaan. Maar die vrijheid hebben jullie opgegeven. DPG betaald, DPG bepaald.

De balk is boven al rood, straks nog even het logo matchen met het AD en de Stentor en het is klaar hier.

Tweakers is al sinds 2012 van DPG, daarvoor zes jaar van VNU. Dat Tweakers geen zelfstandige site is, is dus geen nieuw fenomeen. Al sinds ik hier werk, sinds 2008, hoor ik mensen die constateren dat het afglijdt - de angst daarvoor is dus ook niet nieuw.

Ik deel die angst ook. Intern ben ik een van de mensen die de identiteit en eigenheid van Tweakers met hand en tand verdedigt. Die angst is tot nu toe in mijn ogen onterecht geweest, maar dat betekent niet dat er geen bedreigingen op de loer liggen.

De balk is niet rood sinds de overname van DPG, de balk is al rood sinds 1999.

batjes @arnoudwokke • 5 oktober 2021 20:30

Dus je hebt geen idee wat Plus-artikelen tot nu toe precies inhielden. Check.

Ik heb tijdens de BETA gewoon meegedaan, ook feedback gegeven. Beetje alsof ik dus geen mening mag hebben. Ik ga volgens mij niet in op de inhoud van andere PLUS artikelen?

Dat zijn harde woorden, en dan verwacht ik ook een harde onderbouwing.

Bekijk het nieuwsbericht van gister hier op Tweakers en op Nu.nl (zonder de reacties), zoals ik ook al gelinked heb. Je gaat mij toch niet glashard vertellen dat Tweakers.net gister een beter nieuwsartikel heeft neergezet? BGP, DNS, de achterliggende problemen, gerelateerde informatie toevoegen, ingaan op de oplossing en uitleg van Facebook. Nu.nl doet dit gewoon beter en het zit niet eens achter een paywall. Pas in combinatie met dit PLUS artikel wordt Tweakers een betere bron, maar...paywall.

De reacties op Nu.nl zijn dan weer behoorlijk waardeloos, terwijl de reacties onder het bericht van gister op Tweakers stampvol informatie zit (nu zijn het ook wel belachelijk veel reacties). Er staat hier in dit PLUS artikel helemaal niets wat gister niet al door iemand anders gratis gedeeld is in een reactie.

Tweakers is al sinds 2012 van DPG, daarvoor zes jaar van VNU. Dat Tweakers geen zelfstandige site is, is dus geen nieuw fenomeen. Al sinds ik hier werk, sinds 2008, hoor ik mensen die constateren dat het afglijdt - de angst daarvoor is dus ook niet nieuw.

Sinds een jaar of 10 ook een toename in (paginavullende!?) banners, advertorials, acties, promoties, samenwerkingen.... Verder prima, geld moet ergens vandaan komen en ik ben geen sponsor (niet omdat ik niet wil tho). Zolang jullie het zelf beheren, heb ik hier nooit wat geadblocked. De meeste advertorials lees ik wel omdat het een manier van betalen is.

Maar PLUS is anders, iedereen heeft zijn of haar heikelpuntje, dit is dan de mijne. Dit is geen PLUS artikel, dit is een samenvatting van de +2 en +3 reacties van gister. Ik snap dat niet iedereen 800+ reacties door gaat graven, maar om dit zo naast de community te posten is ook weer zo.... typisch eigenlijk.

Omdat de community hier dondersgoed geregeld is, hoe open en vrij die hier is. Hoe respectvol veruit de meeste mensen elkaar behandelen... Niets meer dan lof. Tweakers is daar gewoon absoluut uniek in. Het commentsysteem hier op de frontpage is ook het schoolvoorbeeld voor zo'n beetje het hele internet. Ook heel veel respect voor het feit dat Tweakers.net zichzelf verbeterd en nieuwsberichten netjes update, opnieuw onder aandacht brengt of zelfs compleet aanpast als blijkt dat jullie er wat naast zitten. Ook dat ik zoals nu een discussie aan kan gaan met jou is gewoon....super.

Het monetizen van de website is de afgelopen 10 jaar namelijk enorm toegenomen. Stond Tweakers.net er financieel 5+ jaar geleden dan zo rampzalig voor? Ik had de indruk dat het al meer dan een jaar of 10 in ieder geval een beetje winstgevend was. Sinds de pricewatch leek het op het financiële vlak wel stabiel te gaan. Als dit hoofdzakelijk is voor Tweakers om financieel overeind te houden en het alternatief zou veel kutter zijn, dan kan ik het er niet mee eens zijn, maar dan is het te accepteren. Ik kan het compleet mis hebben, maar die indruk heb ik niet en heb ik ook niet gekregen in de vele discussies die tijdens de beta hierover gehouden zijn.

Dat van die balk was meer een flauwe grap. De layout had je zeg maar al, nu wordt de inhoud aangepast, tenminste die richting op was de grap een beetje bedoelt. Ik kom hier ook al ~20 jaar en ben sinds ~2003 ergens een vaste bezoeker geworden.

Ga eens naar de Stentor. Zie daar: Advertorials, paywalls, promoties, ads. Kleur van de site is wit, balk boven is rood. Ik heb de stentor van redelijk fatsoenlijke regionale krant zien veranderen in de absoluut waardeloze 'krant' die het nu is (Zo stond er een paar maanden geleden een opsporingsbericht voor geweldadige gevaarlijke criminelen achter een paywall, lol). Het nieuws is echt zo waardeloos geworden, enorm clickbaity, inhoudsloos en het enige interessante zit acher een (makkelijk te ontwijken) paywall.

Tweakers laat soortgelijke patronen zien. Ik zie duidelijk de invloed van de DPG en ik heb ook de indruk dat tweakers.net zelf niet volledig achter elk besluit staat dat de afgelopen jaren is genomen.

Jullie doen er mee wat jullie willen, maar ik zou graag willen dat de aankomende generaties ook kennis kunnen maken met een ouderwets stukje internetgeschiedenis in fatsoenlijke levendige staat. Ik kan misschien soms wel op Tweakers zeiken, maar het is wel uit liefde.

maevian @batjes • 6 oktober 2021 06:08

Plus artikelen staan nu ook niet echt achter een paywall, met je account heb je recht op vershillende gratis plus artikelen, nog nooit tekort gehad eigenlijk vooor wat ik wou lezen,

Ossebol @batjes • 5 oktober 2021 20:28

Het is fijn voor je dat je al circa 20 jaar kennis hebt kunnen opbouwen mede dankzij Tweakers. Voor sommigen begint het digitale techdomein echter pas nu, en ook voor deze toekomstige tweakers moet er een instapniveau zijn. Je kunt niet verwachten dat het handige neefje meteen van de hoed en de rand weet.

Voor wat het waard is: ik vind dat dit artikel recht doet aan iedereen die iets meer over de storing wil weten, ongeacht het kennisniveau.

batjes @Ossebol • 5 oktober 2021 20:57

Inderdaad, een groot deel van mijn kennis heb ik te danken aan Tweakers.net en vooral de medetweakers. Daar ben ik velen ontzettend dankbaar voor.

Dat geldt natuurlijk voor velen hier. We hebben gezamelijk gigantisch veel kennis kunnen opbouwen en delen, omdat dit de informatie en discussie overal voor iedereen altijd open toegankelijk is geweest. Ja GoT heeft een paid member stukje, maar ik heb nou nooit de indruk gehad dat daar heel veel kennis achter een paywall hangt en het vooral een closed clubje privilege dingetje is, soort voorganger van PATREON.

PLUS zijn achtergrondartikelen. Nu is dit de eerste die ik lees sinds de BETA, maar het zijn volgens mij niet allemaal samenvattingen in een mooi samenhangend verhaal. Volgens mij komen daar regelmatig goede kennisitems voorbij en zal er in de comments ook genoeg extra info te vinden zijn.

Het veranderd het hele concept van Tweakers en ik ben bang dat dit het begin is. Maar we zullen zien

mrdemc @arnoudwokke • 5 oktober 2021 19:25

Complimenten aan @TijsZonderH inderdaad, leuk artikel om te lezen! Ook plus waardig wat mij betreft.

maevian @arnoudwokke • 5 oktober 2021 20:33

De complimenten aan Tijs, heb het artikel opgeslagen aangezien ik het een geweldige referentie vind om aan iemand te laten lezen als die meer over BGP wil weten.

Zen1581 5 oktober 2021 18:54

Die link die in het artikel wordt gegeven naar het artikel van Facebook zelf over BGP is niet (meer) bereikbaar. Misschien dat ze zich nog even achter de oren willen krabben over het artikel

Ibidem 5 oktober 2021 19:10

Dat er hier en daar een spelfout te lezen valt en sommige zinnen niet lekker weg lezen is storend te noemen. Denk dat eerdere reageerders daar op doelen zonder dat specifiek te benoemen.

Persoonlijk vond ik het een begrijpbaar en informatief artikel. De haiku’s waren een leuke touch.

Nu is het wachten op Facebook haar reactie op wat er toch gebeurd is. Puur voor de informatie waarde. Dat het platform offline was is alleen maar fijn geweest voor de gebruikers. Paar uur ontstressen van social. Ondernemers hebben geleerd dat er meer plekken zijn waar je je waar kunt slijten op het internet dat Facebook haar platforms.

Gebruikers nu weer blij want wat een gemis zonder Facebook… 🙃

[Reactie gewijzigd door Ibidem op 22 juli 2024 17:13]

Op dit item kan niet meer gereageerd worden.