Skype-problemen veroorzaakt door massaal rebooten

De Skype-problemen van vorige week werden in zekere zin door een ddos-aanval veroorzaakt: pc's van gebruikers werden massaal gestart na een software-update, en door een softwarefout bezweek de dienst onder de inlogrequests.

ddos-aanval, cropped De p2p-telefoniedienst werd afgelopen donderdag onbruikbaar, en in eerste instantie werd door sommigen aan een ddos-aanval gedacht. Dat werd door Skype ontkend, maar blijkens de verklaring die het bedrijf online heeft gezet, was er toch iets dergelijks aan de hand. Als gevolg van een software-update herstartten talloze Skype-gebruikers hun computers waardoor het netwerk onder een golf van inlogrequests bezweek. Dit effect werd nog eens versterkt doordat veel gebruikers nog met het updaten bezig waren, waardoor er minder peer-to-peernodes beschikbaar waren.

Normaliter kan Skype's software met dergelijke situaties omgaan door de netwerkcapaciteit te herverdelen, maar tot overmaat van ramp bleek zich uitgerekend in die procedure een tot dusver onontdekte bug schuil te houden. Het resultaat was dat Skype's telefoniedienst er voor veel gebruikers twee volle dagen uitlag. Het bedrijf zegt het euvel inmiddels te hebben opgelost zodat het netwerk bestand is tegen een volgende keer dat deze 'onwaarschijnlijke samenloop van omstandigheden' zich voordoet.

Door Mick de Neeve

20-08-2007 • 14:15

45

Reacties (45)

45
38
17
7
0
0
Wijzig sortering
Als dit inderdaad zou zijn veroorzaakt door een massale reboot van Windows clients, dan mag ik toch nog niet eens kritisch genoemd worden als ik nog erg sceptisch ben?
...waardoor het netwerk onder een golf van inlogrequests bezweek.
- Lang niet alle pc's rebooten op precies hetzelfde tijdstip, dus zo'n smalle hoge piek zal het niet geweest zijn.
Dit effect werd nog eens versterkt doordat veel gebruikers nog met het updaten bezig waren, waardoor er minder peer-to-peernodes beschikbaar waren.
- Lang niet elke pc staat ingesteld op automatische updates. Er moeten volgens mij nog zat ingelogde clients/peers geweest zijn om het netwerk up te houden. Het updaten duurt echt geen significant groot deel van die 48 uur die het Skype netwerk plat lag. Het netwerk had veel sneller na die piek weer up kunnen zijn!
- Deze situatie komt niet voor het eerst voor. Er worden vaker Windows Updates verspreid die je pc doen rebooten. Waarom is dit dus niet eerder voorgekomen?

Ik geloof gewoon niet in hun verklaring vanwege bovengenoemde punten en vanwege de enorme vertraging van hun verklaring. Ze waren twee dagen lang bezig met het oplossen, dus dan wisten ze allang van de oorzaak. Die DoS aanval verklaring komt mij veel logischer over. Maar dan is het begrijpelijk dat ze niet die verklaring naar buiten brengen, uit economisch oogpunt.

[Reactie gewijzigd door gertvdijk op 22 juli 2024 13:46]

- Lang niet alle pc's rebooten precies hetzelfde tijdstip, dus zo'n smalle hoge piek zal het niet geweest zijn.

Op het moment dat je nieuwe peers ook nog eens niet meehelpen met het verwerken van zo'n piek, dan gaat het dus wel compleet mis.

Normaal hoeven de Skype servers niet alle load zelf te dragen, maar delen ze dat met de "SuperNodes", ik geloof dat dat enkele tienduizenden systemen zijn. Zodra de SuperNodes uitvallen zakt je server park dan in van enkele tienduizenden naar enkele honderden. Probeer dan nog maar iets in de lucht te houden.

Het is dus een combinatie van Windows Update en een bug in de load sharing.

Overigens hebben heel veel bedrijven last van dit soort "update golven". Firefox wordt ook altijd eerst naar alle mirrors verspreid en dan pas aangekondigd. Anders is het server park van Mozilla ook een dag, of een zelfs een paar, niet te bereiken.
Hoe lang duurt het toepassen van een Windows update? 5 minuten incl reboot? Wat is het tijdsbestek voor zo'n update alle draaiende systemen heeft bereikt? Minimaal 24u lijkt me. Dat is maar een marginaal klein aantal systemen/SuperNodes die tegelijk platliggen. (minder dan 3 promille bij 5min/24u)
Firefox wordt ook altijd eerst naar alle mirrors verspreid en dan pas aangekondigd. Anders is het server park van Mozilla ook een dag, of een zelfs een paar, niet te bereiken.
Die update golf zou dan een effect hebben op de Mozilla servers, niet op servers van een andere service, zoals Skype.
De update duurt misschien niet zo lang, maar als een aantal clients continue proberen in te loggen (hammer) krijg je hetzelfde effect als een DDoS heeft. Contact maken, contact maken, contact maken. Als hun servers vervolgens on line komen, worden ze door steeds meer clients gehammerd. Gevolg kan zijn dat de server daardoor weer onderuit gaat. Laat er (zoals hierboven staat) nou net een bug zitten in hun load-balancing, zodat alle request op dezelfde plek terecht komen.

Dat het langer duurt dan vijf minuten om de boel op te lossen kan dus doordat ze eerst merken dat er iets aan de hand is, vervolgens gaan kijken op de systemen, een keer rebooten (draaien ze op Windows?) Hij doet het even, gaat weer onderuit, zet debugging of wat dan ook aan, weer opstarten, (als je mazzel hebt, bug vinden). Programmeren, distribueren... Gaat wel even overheen...
- Lang niet alle pc's rebooten op precies hetzelfde tijdstip
Een reboot duurt dan ook een x-aantal minuten (toch bij mij en vele anderen)
Lang niet elke pc staat ingesteld op automatische updates
Het gros van de gebruikers kennen hier niets van en laten alles default staan. Meer dan je denk dus!
Er worden vaker Windows Updates verspreid die je pc doen rebooten. Waarom is dit dus niet eerder voorgekomen
Windows vereist geen login op een server bij het aanmelden! De updates van Windows zijn trouwens gespreid over verschillende regio's.

Het grappige lijkt mij eerder dat door een eigen programmeerfout in hun software ze hunzelf de das hebben omgedaan! }>

[Reactie gewijzigd door bpere op 22 juli 2024 13:46]

Een reboot duurt dan ook een x-aantal minuten (toch bij mij en vele anderen)
Precies. Enkele minuten. En ik geloof niet alle pc's op de hele wereld tegelijk, maar verspreid over bijvoorbeeld een uurtje of 24. Dus 5min/24u = 3 promille ligt plat.

[...]
Windows vereist geen login op een server bij het aanmelden! De updates van Windows zijn trouwens gespreid over verschillende regio's.
Ik bedoelde dat natuurlijk niet zo! Wel:
Waarom is de Skype service niet eerder plat gegaan bij eerdere Windows updates?
Het grappige lijkt mij eerder dat door een eigen programmeerfout in hun software ze hunzelf de das hebben omgedaan! }>
Ja, maar grappig is beter dan toe te geven en te boek gaan als een van de grootste faalbazen op gebied van security (hiermee refereer ik naar de simpelheid van het script waarmee je mogelijk de Skype service mee kan platleggen).

[Reactie gewijzigd door gertvdijk op 22 juli 2024 13:46]

Ik geloof er weinig van. De meeste computers staan het grootste deel van de dag gewoon uit. Dat wil dus zeggen dat ze minimaal 1x per dag aangezet worden en dan dus ook 1x per dag inloggen op skype. (Er van uitgaande dat ze ook altijd inloggen. Misschien nog wel meer dan1x per dag ivm. allerlei hibernate acties van de PC e.d.)

Patchdinsdag komt langs, en de PC moet een keer extra geherstart worden. (PC aan, haalt updates op en vraagt 10 minuten later om te herstarten).

In dat geval wordt het aantal logins op Skype dus maximaal 2x zo groot die dag. En dan ga ik er vanuit dat ELKE skype PC ook echt op die dinsdag gepatched wordt. En als dat inderdaad zo was had de ellende dus na 24 uur over moeten zijn, wat het niet was.

De getallen kloppen gewoon niet. Als een systeem niet om kan gaan met een piek van 2x zijn nominale belasting dan zou dit al veel eerder gebeurt moeten zijn.
Lijkt me inderdaad vrij lastig om zoiets op een dergelijke grote schaal te testen.
Anderszijds is het wel mogelijk een en ander te beredeneren; het was te verwachten dat de clients in grote getalen tegelijk zouden rebooten.

Waarom moet dat trouwens, ik neem aan dat dat voor de windows clients geldt?
Waarom komt de systeemstabiliteit eigenlijk in het gedrang wanneer clients massaal te beginnen reconnecten? Ik bedoel, wat is het verschil met het verbonden zijn. Is het verbinden werkelijk zo veel data-intensiever dat het het hele systeem lamlegt als het massaal gebeurt? En waarom zijn de servers dan niet met een soort stabiliteitsbeveiliging uitgerust? Zodat ze bijvoorbeeld maar 10.000 connects tegelijkertijd toelaten en de andere laten wachten?
Ik bedoel, wat is het verschil met het verbonden zijn. Is het verbinden werkelijk zo veel data-intensiever dat het het hele systeem lamlegt als het massaal gebeurt?
Bij het maken van een verbinding word een hoop gegevens uitgewisseld tussen uw PC en de server, eenmaal de verbinding tot stand is gebracht word slechts om de zoveel tijd een zeer klein berichtje gestuurd om te zien of de client nog leeft.
Ja maar ik zie niet in hoe moeilijk het kan zijn om een wachtrij op een deftige manier af te handelen zonder onmiddellijk de geest te moeten geven. Kan iemand mij uitleggen wat ik gemist heb of waar mijn redenering fout loopt?
Zoals hier boven gezegt is, is er meer data verkeer bij het inloggen.

Zoals ze van Skype aan geven. Had het netwerk dit moeten kunnen verwerken. Maar hier zit/zat dus een bug in. Waar door het niet werkte.

Overigens blijf ik blij met deze storing :)
Ik bedoel, wat is het verschil met het verbonden zijn. Is het verbinden werkelijk zo veel data-intensiever dat het het hele systeem lamlegt als het massaal gebeurt?
Skype bewaart je contactlist online, bij het inloggen wordt de database geraadpleegt en je contactlist opgevraagd. Dit kost dus meer resources, wat is hier zo moeilijk aan te begrijpen? :+

[Reactie gewijzigd door ikwilhet op 22 juli 2024 13:46]

En dan gebeurd het over een uur weer.. niks opgelost..
en dan licht het netwerk plat voor mensen die niet tot de 15.000 gelukkigen behoren...

wss precies wat er gebeurd is
Zoals ook al in het bericht stond, normaliter zou het Skype netwerk dit dus aan moeten kunnen. Maar dat bleek dus niet te werken, en dat was gelijk de software fout waarover wordt/werd geschreven.
Ook linux clients moeten dan weer opnieuw inloggen na een update. Niet een complete herstart, maar genoeg om ook tot de DoS computers te behoren.
Maar waarom ze dan niet een soort cyclus hebben toegepast bij het uit rollen van de update... dat is wel de vraag he?
Misschien dat met die update protocollen werden aangepast oid zodat communicatie tussen de clients en/of servers met verouderde versies niet mogelijk is.

Dan krijg je sowieso een lading klachten als mensen elkaar niet kunnen bereiken.

[Reactie gewijzigd door Pozo op 22 juli 2024 13:46]

Beetje vreemd dat ze hadden gezecht dat je skype gewoon aan kon laten staan, je zou vanzelf wel weer worden ingelogged wanneer de servers terug waren.

Schept de illusie dat hun servers het allemaal met gemak aankunnen.
Waarschijnlijk kunnen de servers dit ook met gemak aan, mits de load gelijkmatig over de servers verdeeld wordt. En in deze loadbalacing zat een bug, waardoor bij wijze van spreke alle load op één server komt.
Als iedereen zijn skype aan laat staan kan je ook meteen controleren of de nieuwe code nu wel goed werkt met massaal inloggen. Lijkt me dus handig dat ze vragen of iedereen skype aan laat staan en dit dus even voor hen "test".
Het enige wat nu nog niet goed werkt is de videofunctie van Skype. Audio werkt als tevoren, maar video weigert dienst helaas.

't Is even een vervelende samenloop van omstandigheden, maar 't valt me wel op dat ze er behoorlijk lang over deden om het op te lossen... bijna 2 dagen voor een bedrijf dat graag ook de zakelijke markt wil/wilde betreden is een behoorlijke nekslag. Om maar niet te spreken van de bedragen die ze verloren hebben door die 2 dagen non-skype :/
Leuk.... maar het geeft toch nog wel even goed aan hoe kwetsbaar de "techniek" is.

Ik kan me van de afgelopen tientallen jaren niet herinneren wanneer m'n landlijn er uit heeft gelegen...
dan woon je de laatste 21 jaar niet in nederland, of je bent jonger dan 21 natuurlijk :P

http://geschiedenis.wordp...w-blijkt-ongekend-succes/

en dan stukkie naar beneden: Henny Huisman heeft met zijn soundmixshow het telefoonsysteem in nederland plat gekregen
Of het moet door werken in de straat zijn waarbij een aannemer met zijn bobcat de lijn doorhakt :D
klaafstra, die landlijn ligt er ook al sinds 2000 voor Christus. Die is inmiddels uit ge-evolueerd. Die techniek is er net. PTT lag er in de eerste 5 jaar van zijn bestaan ook vaker uit dan nu. Niet te vergelijken dus.
Tja dit is ook een manier om een "bug" te ontdekken.
Alleen jammer dat het in een "live" omgeving gebeurt.
Sommige "live" situaties zijn bijna niet te simuleren. Het zou best logisch kunnen zijn dat een bug nooit is ontdekt, omdat in een testomgevingen misschien niet zo'n bizarre situatie te creëren is als de keiharde werkelijkheid.
Anoniem: 169541 20 augustus 2007 14:50
Dat niemand het gelooft.....het komt volgens hun door een nog niet ontdekte bug in 1 van de netwerk programmas,die getriggert werd doordat veel computers tegelijk inlogde.klinkt naar mijn mening best logisch......
Een DoS door je eigen klanten/gebruikers... is toch wel een priceless methode om bugs te ontdekken in je systeem :+
Raar dat ze zoiets niet voorzien bij een analyse? Dat is toch een zeker normaliteit dat zoiets zou kunnen gebeuren?

Op dit item kan niet meer gereageerd worden.