Gameplatform Roblox is na storing van drie dagen weer online, oorzaak was 'bug'

Roblox is weer online, na een storing van drie dagen. De problemen begonnen donderdag en sinds zondagavond laat Nederlandse tijd kunnen spelers weer inloggen. De makers zeggen dat de storing door een bug kwam en zullen later meer details geven.

De oprichter en ceo van Roblox schrijft dat het ging om een zeer ingewikkelde storing die een combinatie was van verschillende factoren. Een 'belangrijk systeem' in de infrastructuur van Roblox raakte overbelast en dat werd veroorzaakt door 'een subtiele bug' bij de communicatie van de servers onderling.

Volgens Roblox had de storing te maken met de toegenomen groei van het aantal servers in zijn datacenters; de meeste services konden door de bug niet effectief communiceren en in werking gezet worden. Technische details over de bug geeft Roblox verder niet, maar het bedrijf benadrukt dat de storing niet werd veroorzaakt door een piek van extern verkeer. Daarmee lijken de makers aan te willen geven dat er geen sprake was van een ddos-aanval.

Het bedrijf gaat een analyse maken van de fouten die zijn opgetreden en als die is afgerond zal er een rapport gepubliceerd worden met meer details. Ook gaat Roblox documenteren hoe een dergelijke storing in de toekomst voorkomen moet worden. Het bedrijf zegt transparant te willen zijn naar zijn community toe.

Roblox was de afgelopen drie dagen niet bereikbaar. De game heeft volgens de makers 43,2 miljoen dagelijks actieve spelers. De free-to-play game is met name populair bij jongeren. Roblox is een gameplatform waarin spelers zelf games kunnen ontwerpen en spelen. Dat werkt met Roblox Lua; een dialect van programmeertaal Lua.

Roblox

Door Julian Huijbregts

Nieuwsredacteur

01-11-2021 • 07:55

46

Submitter: HKLM_

Reacties (46)

46
46
21
3
0
21
Wijzig sortering

Sorteer op:

Weergave:

Het gerucht is dat het gekomen is door een bug in Hashicorp Consul. De bug die geintroduceerd werd in een update van Consul zorgde ervoor dat onder hoge load Consul in de problemen kwam.

Consul is in de kern een key value store. Een strongly consistent key value store. Het is in feite vergelijkbaar met Apache Zookeeper. Daarnaast bied het extra functionaliteit voor je service mesh door dat het je services kan vertellen hoe ze andere services moeten bereiken.

De rest van de Hashicorp stack (Vault en Nomad) word kennelijk ook gebruikt door Roblox. Echter gebruiken Nomand en Vault vaak Consul. Nomad is eigenlijk in de kern een task scheduler. Kort door de bocht gezegd een simpelere variant van Kubernetes. Vault is om secrets te managen. Zeg maar kort door de bocht gezegd een "MySQL voor wachtwoorden".

Toen Consul onderuit ging nam het dus eigenlijk de hele infrastructuur stack mee.

[Reactie gewijzigd door closefuture op 25 juli 2024 03:52]

Er stonden voor het haloween weekend veel updates en events geplanned, ze hebben zo heel wat omzet gemist!
Maar ik ben blij dat het weer werkt, drie dagen zonder Roblox… drama!
Ik zou als roblox zijnde deze updates/skins/watdanook alsnog uitgeven aan iedereen als soelaas voor de downtime. Maar dat zal wel weer niet...
Waarom zouden ze dat doen.. om goodwill te kweken bij de ouders van de kinderen??
Het is een free to play game.
Klopt niet helemaal, ja er zitten HEEL erg veel free to play elementen in, maar er zijn ook genoeg zaken welke je kunt kopen met Robux, welke je dus weer moet kopen voor echt geld. Er gaat serieus veel geld om in dit spel.
Ik denk het niet. Zij maken zelf niet heel veel Skins etc meer. Dat doen de makers van een mini game zelf of gewoon ZZP skin makers. En die krijgen gewoon een deel van de omzet. Dus iedereen een skin geven betekent dat er verschrikkelijk veel game/skin makers geld krijgen van Roblox. Dat gaan ze nooit doen.
Ben benieuwd naar het aandeel :)
De NYSE is dicht in het weekend en opent pas straks om 15u30 onze tijd. Nog even afwachten dus.
Premarket (voorbeurs) is al geopend sinds 9:00 (NYSE gaat vandaag trouwens om 14:30 open ivm wintertijd)

En zoals Risce zegt: voorlopig nog niets aan het handje, kleine plus nu zelfs.
Waarschijnlijk hebben de winstcijfers die vandaag gepresenteerd worden meer impact op de koers dan deze storing.

(net als bij Facebook/Meta de koers nauwelijks een reactie had op de storing, maar die al een paar dagen aan het zakken was ivm de klokkenluiders onthullingen)

[Reactie gewijzigd door Puc van S. op 25 juli 2024 03:52]

De spelers hebben ook omzet gemist ;)
Hun stock markt ook :)
Mijn kinderen zijn weer blij. Ze kregen ernstige ontwenningsverschijnselen. Helaas moeten ze naar school vandaag. De storing viel samen met een wijziging in mijn netwerk. Dus ik dacht aan een verband.
Dit probleem had ik dus ook. En maar zoeken waar het aan lag.
Verder niet bij nagedacht dat het ook een "storing" zou kunnen zijn.

Kinderen weer blij, want die hebben heel het weekend zitten zeuren om Roblox :+
hier nog een. drie kinderen maar naar buiten gestuurd ipv roblox laten spelen hahaha
Hier werden er youtube filmpjes van stal gehaald van anderen die Roblox aan het spelen zijn.
Gelukkig kon ik ze overtuigen dat er nog meer is dan een tablet of laptop.
Mijn kinderen zijn weer blij. Ze kregen ernstige ontwenningsverschijnselen
Lijkt me toch dat er dan een ander probleem is, dan het offline zijn van Roblox.
Ach of het nu een voetbal die leeg is of Roblox die eruit ligt.. kan allebei hetzelfde effect hebben. Alleen de oplostijd is wat korter :P
Bij ons is het vooral door de lockdowns dat de kinderen zo verslaafd geraakt zijn aan schermen. Van thuis uit werken met kinderen 24/24 in huis gedurende enkele maanden gaat niet samen. Het was te makkelijk om hen even voor een scherm te zetten en even deftig verder te kunnen werken.

Tegenwoordig doen we wel ons best hen zo weinig mogelijk voor schermen te zetten, gelukkig lukt dat met Lego, Playmobil en knutselwerkjes.

Hier is overigens enkel de eerste dag wat gezaag geweest toen Roblox offline was, wat een draak van een spel is dat overigens.

[Reactie gewijzigd door Putwater op 25 juli 2024 03:52]

Misschien is het iets goeds dan, een weekendje zonder Roblox, als ze "ernstige ontwenningsverschijnselen" kregen =)
Nou, het was een hele opgave om de kleine uit te leggen wat een server is en dat niet alleen hij niet kon Robloxen. Wat zal hij blij zijn vanmiddag na school.
Voetballen! :P

[Reactie gewijzigd door Falcon op 25 juli 2024 03:52]

Mijn zoon weer blij en waarschijnlijk met hem vele jonge gamers.
Ik vond die outage wel fijn. Heb wat quality time met m'n dochter gehad. Ze blijkt al 11 te zijn, en ze houdt van paarden. :+
En ik maar wachten totdat die van mij naast de bank stonden... blijkt dat ik geen kinderen heb... :+
Weer een mooie bug example erbij als we het belang van een goed QA proces moeten aantonen. Blijft mensenwerk.
Ben ik het mee oneens. Wat dit aantoont is dat ze hun processen gewoon niet op orde hebben. Dot soort oplossingen zou veel beter op MTTR (Mean time to recover) moeten sturen dan op een heftige QA.

Een bug kan altijd voorkomen maar zou binnen aanzienlijke tijd gefixt moeten kunnen worden.
Beide in mijn optiek, jij hebt het over een incidentproces als gevolg van een bug en ik heb het vinden van de bug binnen het ontwikkelproces.

Hoe je het ook went of keert, uiteindelijk zal een bug oplossen binnen ontwikkelproces altijd goedkoper zijn dan als het een incident wordt en klant/business impact heeft.

[Reactie gewijzigd door Falcon op 25 juli 2024 03:52]

Oh dat ben ik met je eens hoor. Echter zie ik bij veel bedrijven ze doorslaan in het QA proces wat zeer vertragende effecten heeft op het realiseren van nieuwe functionaliteit.
Dat klopt enkel wanneer de bug aangetroffen wordt na een wijziging/patch. Het kan prima zijn dat de bug diep in de kern van je applicatie zit, maar zich pas bij een bepaald scenario voordoet. Je kunt dan niet eenvoudig terugrollen, want het probleem kan/zal zich dan weer opnieuw voordoen, plus dat gebruikers mogelijk data zouden verliezen. Het enige dat je dan kan doen is met alle mankrachten zo snel mogelijk de bug verhelpen, wat mogelijk impact heeft op de kern.
Want je weet hoe en wat met de bug? En als je Roblox kent dan ga je niet zeggen dat het ooit is ontworpen met een QA in het achterhoofd 😄

Het spel is vrij populair wereldwijd en met Halloween en/of Allerheiligen hebben heel veel kinderen en ouders extra lang weekend. Moment dat de belasting van de servers zo hoog wordt kunnen er altijd situaties ontstaat die je van tevoren niet voorziet en die je ook niet snel kunt oplossen.
Een 'belangrijk systeem' in de infrastructuur van Roblox raakte overbelast en dat werd veroorzaakt door 'een subtiele bug' bij de communicatie van de servers onderling.
Volgens Roblox had de storing te maken met de toegenomen groei van het aantal servers in zijn datacenters;
Ze hebben er dus wel rekening mee gehouden dat het groeide en drukkere periodes kent,
maar wanneer zoiets manifesteert dat weet je nooit met dergelijke software.

Op het moment dat het keer verkeerd gaat sta je vervolgens voor een aantal keuzes,
rollback, patchen en later oplossen, of in dit geval systeem off-line.

Dat ze zolang off-line zijn geweest vind ik een vreemde keus, maar dit was dan ook een worst-case scenario vlak voor een lang weekend.
Daarom zullen ze nog bezig zijn met een root-cause-analyse en het bedenken van mitigerende maatregelen. Dat zal niet alleen het incidentproces zijn, maar ook het ontwikkelingsproces.

Uiteindelijk zullen al die mitigerende maatregelen onderdeel zijn van het totale QA proces.
"Moment dat de belasting van de servers zo hoog wordt kunnen er altijd situaties ontstaat die je van tevoren niet voorziet en die je ook niet snel kunt oplossen."

Alleen kwam de belasting niet van buitenaf, maar kwam het omdat ze in 1 keer een heleboel nieuwe servers hadden toegevoegd aan hun pool, waardoor de servers een probleem kregen met elkaar te praten.
Ja en nee. Ja, testen is belangrijk en kan fouten voorkomen. Nee, omdat je niet tegen alles op kan testen. Je weet niet wat je niet weet, zeg maar. Daarnaast, Hashicorp software test Hashicorp immers, niet Roblox, dat zou dubbelop zijn. Dus beetje kort door de bocht is jouw opmerking wel te noemen.

[Reactie gewijzigd door CH4OS op 25 juli 2024 03:52]

Ik heb het niet alleen over testen.. Q.A. proces is veel breeder en dieper dan dat.
Maar dan nog, je weet niet wat je niet weet. Je zult dus altijd blind spots houden, hoe uitgebreid je ook test of hoe uitgebreid de quality assurance is. Het is onmogelijk om 100% te voorkomen. Daarnaast lag het probleem dus in de software van derden. Het is dan ook wel erg cheap om daarvoor de verantwoordelijkheid af te schuiven op Roblox, zij wisten immers ook niet van de bug en kwam waarschijnlijk gedurende test- en QA-werk niet eens boven drijven. De meeste bugs en fouten zitten immers in die plekken waar je het niet ziet of verwacht, anders vielen ze wel op en kun je er (automated) testen, immers.

[Reactie gewijzigd door CH4OS op 25 juli 2024 03:52]

Natuurlijk heb je gelijk dat je niet alle risico's kunt afdekken, maar een bug met dit als gevolg.. daar valt van te leren en je proces op aan te passen. Ook als dat niet je eigen code is.

Er was een moment in het ontwikkel- en het release proces dat ook dit probleem boven water had kunnen komen. De kosten (tijd/energie), capaciteit impact (mensen wegtrekken van ander werk), inkomsten derving en aandeel/beurs schade (bleef beperkt) zorgen alleen al dat er mitigerende maatregelen zullen worden ge-eist d.m.v. extra risicoafdekking.

In welke vorm die risicoafdekking zal zijn, ligt totaal aan de root-cause-analyse uitkomst en advies.

QA is niet alleen testen, maar risico afdekking op breeder niveau. Dit begint al op het moment dat men denkt over nieuwe epics (technische/functioneel), maar ook als er zoiets voordoet om van te leren.

Nogmaals hierdoor alleen al een mooi voorbeeld voor QA proces en Incident proces.

[Reactie gewijzigd door Falcon op 25 juli 2024 03:52]

Natuurlijk heb je gelijk dat je niet alle risico's kunt afdekken, maar een bug met dit als gevolg.. daar valt van te leren en je proces op aan te passen. Ook als dat niet je eigen code is.
Dat is toch ook precies wat men gaat doen? :? Staat nota bene in de tekst:
Het bedrijf gaat een analyse maken van de fouten die zijn opgetreden en als die is afgerond zal er een rapport gepubliceerd worden met meer details. Ook gaat Roblox documenteren hoe een dergelijke storing in de toekomst voorkomen moet worden. Het bedrijf zegt transparant te willen zijn naar zijn community toe.
Dus waar wil je precies heen met jouw opmerking? :?
Er was een moment in het ontwikkel- en het release proces dat ook dit probleem boven water had kunnen komen. De kosten (tijd/energie), capaciteit impact (mensen wegtrekken van ander werk), inkomsten derving en aandeel/beurs schade (bleef beperkt) zorgen alleen al dat er mitigerende maatregelen zullen worden ge-eist d.m.v. extra risicoafdekking.
Wellicht is het een bug dat ontdekt is doordat Roblox er als eerste (en grootschalig) last van had? Dus nogmaals: je kunt pas ergens op testen of kwalificeren, als je weet waar je naar moet kijken. Ergo; je weet niet wat je niet weet, zou wat zijn als je dat wel deed. Dan kun je inderdaad flink achter de oren krabben, maar dat weet je nu niet, dus ook jouw reactie vaart op een hele grote aanname.
QA is niet alleen testen, maar risico afdekking op breeder niveau. Dit begint al op het moment dat men denkt over nieuwe epics (technische/functioneel).
Je doet alsof je weet dat dit voorkomen had kunnen worden en weet hoe het proces van Roblox is (wellicht gebruikt men geen Agile, bijvoorbeeld), maar Roblox zelf is de casus nog aan het onderzoeken. De details zullen later dus komen evenals een (intern) stappenplan hoe dit soort fouten voortaan te voorkomen. Men heeft nu geleerd (nu men weet nu waarop te letten) en zal dus ook erop gaan acteren; precies wat jij wilt.

Zo heb ik ooit voor een project een domeinnaam verandering gedaan. Alles hadden we aangepast en op de tests werkte alles prima. Maar toen de wijzigingen live gingen, was er letterlijk een (shit/cache)storm aan caching verzoeken wat op de Varnish server van de klant werd afgevuurd. Tel daarbij op een database die eigenlijk niet ingericht is op de schaal waarmee de klant werkte en de website vooral afhankelijk is van de caching server.

Had het voorkomen kunnen worden: oh jazeker kan dat. Maar wij wisten niet dat alles zo zwaar op de caching zou leunen en dat eea dusdanig zou oplopen dat het uiteindelijk een cachestorm zou worden.

[Reactie gewijzigd door CH4OS op 25 juli 2024 03:52]

Dat (interne) stappenplan is dan toch een aanpassing in het totale QA proces? Een extra risicoafdekking, zoals ik die in mijn reactie noem.

En waarschijnlijk (best practice) zal dat stappenplan voor meerdere onvoorziene situaties gaan gelden en input zijn voor validaties/testen in het ontwikkelproces.

Volgens mij verschillen wij echt niet veel van mening.

[Reactie gewijzigd door Falcon op 25 juli 2024 03:52]

Volgens mij verschillen wij echt niet veel van mening.
Doen we ook zeker niet, ik denk alleen dat zowel Hashicorp als Roblox door deze bug bij Roblox hier tegenaan liepen, waardoor het eigenlijk de eerste keer is dat de bug optrad. Andere partijen gebruiken de Hashicorp software waarschijnlijk op een andere manier. Terwijl jij er vanuit lijkt te gaan dat men dit prima van te voren kon voorzien.
Gameplatform Roblox is na storing van drie dagen weer online, oorzaak was 'bug'
Daar zit het spel vol mee :+ en hackers\cheaters.
Dat kan maar door die dingen zijn ze dus niet offline geweest en door deze wel :)
Omschrijving klinkt als een arp cache issue, maar denk het niet gezien arp cache redelijk makkelijk op te lossen is.
Welk deel van de omschrijving klinkt volgens jou dan als een arp cache issue? Ik haal dat niet uit het verhaal...
Volgens Roblox had de storing te maken met de toegenomen groei van het aantal servers in zijn datacenters; de meeste services konden door de bug niet effectief communiceren en in werking gezet worden
Als je arp cache vol zit krijg je intermittent connectie issues, waar tegen je aanloopt als je aantallen servers groeien. Ben er nu al 2x tegenaan gelopen bij verschillende omgevingen.
Ach wie bekend is met de youtube video van o.a. Lazarbeam, weet dat Roblox gewoon pay to win games zijn.
De video's zijn opzich erg lachwekkend, bespaart mij het geld,en arme kinderen die er maanden aan spenderen om voortgang te boeken.

Op dit item kan niet meer gereageerd worden.