Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 29 reacties
Submitter: Cjefke

Facebook maakte de technologie van zijn Big Sur-servers openbaar. De systemen zijn geoptimaliseerd voor deep learning-berekeningen om computers spraak en beeld te laten herkennen.

Big Sur is compatibel met de Open Rack V2-standaard van het Open Compute Project. Dit project is opgezet door Facebook om zoveel mogelijk documentatie over datacentersystemen openbaar te maken en ook het ontwerp en de specificaties van Big Sur worden via Open Compute gedistribueerd. De specifieke details van het systeem moeten nog openbaar gemaakt worden.

Facebook heeft Big Sur samen met Nvidia ontwikkeld en standaard bevat het systeem acht Tesla M40-kaarten. Volgens het bedrijf kan Big Sur echter ook met andere pci-e-kaarten uitgerust worden. Ondanks de flinke hoeveelheid gpu-rekenkracht zou de server geen speciale koeling nodig hebben. Het ontwerp is opgebouwd met eenvoudige toegang tot hardware-onderdelen in het achterhoofd. Zo kunnen componenten die regelmatig vervangen moeten worden zoals harde schijven en dimm-geheugen, snel verwisseld worden.

Facebook Big Sur Facebook Big Sur Facebook Big Sur

Ook het moederbord kan volgens het sociale netwerk binnen een minuut vervangen worden, waar dat bij voorgaande vergelijkbare servers een uur zou duren. Dat vervangen zou bovendien allemaal toolless kunnen gebeuren; alleen voor het omwisselen van de cpu-koeler is een schroevendraaier nodig. Met groen is aangegeven waar monteurs de onderdelen kunnen aanraken.

Volgens Facebook is Big Sur twee keer zo snel als de vorige generatie systemen die het bedrijf voor deep learning gebruikte. Machine learning en kunstmatige intelligentie worden steeds belangrijker voor techgiganten als Facebook, Google, Microsoft en IBM.

De technieken stellen de bedrijven in staat diensten op te bouwen rond 'begrip' van omvangrijke complexe datasets. Zo berusten het herkennen van stemmen en afbeeldingen, het kiezen van content voor nieuwsfeeds, persoonlijke assistenten en het vertalen van content op de technieken. Door de technologie openbaar te maken, hopen de bedrijven de innovatie een duw in de rug te geven, waar zij zelf van kunnen profiteren. Zo maakte Google zijn zelflerende software TensorFlow begin november al opensource.

Gerelateerde content

Alle gerelateerde content (19)
Moderatie-faq Wijzig weergave

Reacties (29)

Vind het knap als ze op het systeem op de foto's binnen een minuut het mainboard kunnen vervangen, tenzij ze dat doen met al het geheugen en cpu's er nog op. Anders zul je al die onderdelen toch eerst los moeten halen lijkt me.

En het onderdeel 'geen speciale koeling' valt ook wel wat op aan te merken. Heb nog maar weinig systemen gezien met aan de achterkant 4 fans die direct aansluiten op kaarten die er in zitten. De warme lucht van de videokaarten wordt er direct uitgezogen.

[Reactie gewijzigd door SunnieNL op 11 december 2015 09:35]

het het verbasd me meer dat ze überhaupt onderdelen verwisselen. In veel datacenters van dit formaat gaat er een hele nieuwe server in als er iets mis is.
Maar die hele server gaat niet de prullenbak in natuurlijk, dus onderdelen wisselen gebeurd gewoon op een ander moment. Nu kan dat wel in het datacenter gebeuren omdat het zo snel kan. Overigens geloof ik niks van die minuut, het is maar net vanaf welk moment je begint te tellen. Feitelijk moet je de server eerst afsluiten, uit het rack halen, openen, mobo wisselen, terughangen en aansluiten. Dát is een moederbord wisselen en dat duurt gewoon geen minuut.
"Zo kunnen componenten die regelmatig vervangen moeten worden zoals harde schijven en dimm-geheugen"

Ik wist niet dat dimm-geheugen zo snel kapot ging?... zijn die fundamenteel anders dan onze RAM reepjes? die houden het nl. in principe langer uit dan al mijn andere componenten hoor...
Geheugen gaat zelden kapot, vooral niet in servers. Hooguit dat je er meer in moet stoppen, maar ook dat gebeurd meestal niet. Ik snap de opmerking dan ook niet. Maar áls je iets vervangt/toevoegt in een server is dat inderdaad geheugen of een schijf (of voeding). Heel misschien een 2e cpu erbij, maar dan heb je het wel gehad.
Als je een heel rack vol met servers heb dan spreek je toch al gouw over 128 reepjes geheugen per rack. Neem een heel data centrum vol met racks en dan zullen er wel elke dag een paar geheugen reepjes stuk gaan.
Ja, logisch dat als je heel veel van iets neemt dat je dan absoluut gezien meer incidenten krijgt.

Geheugen gaat zelden kapot. In jouw voorbeeld verwacht ik nul problemen op dagelijkse basis, wellicht enkele op jaarlijkse basis, maar dan vind ik het nog veel.
Als je elke dag een reepje moet vervangen is het handig als je er makkelijk bij kant en in een data centre (met honderden racks en dus duizenden reepjes geheugen) verwacht ik dat zeker dat je dit dus vaak moet doen. Dan is het toch wel handig dat je deze makkelijk kan vervangen ook al komt het in ons 'consumenten scenario' dus eigenlijk nooit voor.
Áls ja. Maar dat hoeft niet, want nogmaals geheugen gaat zelden kapot. Serieus... ik heb nog nooit servergeheugen moeten vervangen, je kan van alles verwachten maar de praktijk laat simpelweg zien dat het niet vaak voorkomt...
Ik heb in mijn level 3x kapot geheugen gehad op ongeveer 100 computers waar ik mee in aanraking kwam (Ik had een tijde bijbaantje waarin ik computers repareerde).

Oa Google heeft onderzoek gedaan naar de failure rates van alles wat in server parken gebeurd. Helaas gaat dit artikel over correctable error rates (met ECC geheugen) maar het is wel relevant. https://blog.codecentric....ill-fail-just-way-expect/

Ondanks dat jij het dus niet mee maakt. Zal het dus, door de grote getallen in server parken, wel gebeuren. Immers zijn daar meer geheugen reepjes aan het werk dan wij in meerdere levens zullen tegen komen :).

[Reactie gewijzigd door roy-t op 13 december 2015 14:07]

Je blijft wel bezig he ;) Ik had ook al even gezocht naar harde cijfers, maar die zijn moeilijk te vinden inderdaad. Ik zie bijv. bij Google dat 1% v/d servers jaarlijks een harde geheugenfout heeft. Maar dat betekend niet dat het geheugen kapot is en vervangen wordt, geheugen geeft nu eenmaal een x aantal fouten per x aantal acties.

Ik heb ook wel redelijk vaak met kapot geheugen te maken gehad, maar net zoals bij jou betrof dat consumentenspul. Daar hebben we het niet over nu.

Dát servergeheugen kapot gaat staat buiten kijf. Nogmaals: zelden. En ja als je 'zelden' toepast op hele grote aantallen dan zal er dus met een bepaalde regelmaat iets moeten worden vervangen in de grootste omgevingen. :)

[Reactie gewijzigd door Aikon op 13 december 2015 19:18]

mwa ik weet niet.. die reepjes hebben natuurlijk wel veel te verduren.. vooral als ze in een machine zitten die een high-access database draait of zo natuurlijk. Okee ze zullen nooit geoverklokt worden maarja AL die read-writes nemen ook wel zijn tol natuurlijk.
In veel datacenters van dit formaat gaat er een hele nieuwe server in als er iets mis is.
Dat is vaak omdat de server dan sneller weer online is.
Als je het onderdeel sneller kan vervangen dan de server dan heeft het niet zoveel zin om de hele server te vervangen.
Dat is ook vaak omdat lopen schroeven qua uren niet uit kan. Een uurtje of 2 een moederbord vervangen (geheugen omzetten, CPU verplaatsen, stekkers eruit, etc) kan al snel niet meer uit.

AFAIK vervangt Google geen hardware (meer). Zij rollen een heel rack naar binnen die een levensduur heeft van X jaar. Gaat er gedurende die X jaar iets stuk, dan blijft het stuk. Totdat het hele rack is afgeschreven en dan verdwijnt 't de container in.
Daarom misschien dat ze dit open maken? Zodat kleinere datacenters de loads van de grotere spelers (goedkoop) ook kunnen gaan doen, en zij zelf gewoon hele racks vervangen. M.a.w. willen ze delen van hun load beginnen te gaan outsourcen naar kleinere datacenters?
Deze servers zijn onderdeel van het 'open compute project'.

Dat is open source hardware gemaakt door bedrijven als Facebook, Microsoft, etc. Maar niet Google.

Bedrijven die zo groot zijn laten hun eigen servers maken (net als bijvoorbeeld Dell, HP, etc.), het maken van hardware kost tijd en geld, het is dus handig om hun ontwerpen en ideeen te delen.

Facebook was dat project begonnen ze hebben toen niet alleen servers, maar ook hun nieuwste datacenter van toen als open source in het project opgenomen en een ander type rack (het 21" rack, ipv. 19"):

http://www.opencompute.org/projects/

[Reactie gewijzigd door Lennie op 12 december 2015 21:19]

In 'echte' datacentra heb je resources over die als redundantie pool inzet (of tegen gereduceerd tarief verhuurt..denk aan de spot instances op Amazon ec2).

Bij deze omvang spaar je als het ware kapotte servers en wanneer 'de spaarkaart' vol is vervang je in een keer de defecte servers op die spaarkaart. ( standaard agenda item)

Als je de systeem monteurs er voor elke server op uit stuurt wordt t een behoorlijk onoverzichtelijk mieren nest proces.

De defecte servers liggen weken voordat er überhaupt iets aan gedaan wordt |:(

Deze 'makkelijke server' klinkt leuk voor de kleine portemonnee maar ik weet dan niet zo goed waarom je hiervoor zou kiezen en of dit soort gemak t speerpunt zou moeten zijn :?

[Reactie gewijzigd door biebelebons op 11 december 2015 11:58]

Das een ander spel. Voor cloud computing heb je het over relatief goedkope servers.

Tesla M40's kosten per stuk al een paar duizend euro ($5000,- is vrij normaal). Net als overigens de Xeon Phi, de tegenhanger hiervan. Zit vaak ook veel memory op zo'n mobo, zie je ook aan het plaatje (minstens 16 dimms als ik goed tel; zou me niet eens verbazen als er nog zo'n 'rijtje' zit)

De Xeon Phi 31S1P van Intel is een tijdje door Intel gestunt voor developers, die zijn nog steeds voor weinig geld op de kop te tikken. Heb hier zelf ook nog steeds een Phi liggen waar ik een keer mee moet gaan spelen. Draait gewoon linux op (maar let op koeling en moederbord!).

Meer info over de M40's zelf staat overigens hier: http://wccftech.com/nvidi...son-tx1-module-announced/ .

[Reactie gewijzigd door atlaste op 11 december 2015 10:49]

Ik ga er van uit dat in dit geval de CPU(s) en het geheugen gewoon mee gewisseld worden (ofwel, moederbord samen met CPU en geheugen er uit, identiek moederbord met dezelfde configuratie er terug in). Ik heb al even zitten neuzen in de PDF's die de open rack standaard beschrijven, maar helaas is het daar niet terug te vinden.

Over de speciale koeling kunnen we kort zijn. De plaatsing en de manier waarop ze gevoed worden is misschien wat anders (de koelers van een rack-server of blade chassis zijn over het algemeen een stuk langer), maar in principe zijn het dezelfde soort fans, die alleen anders gevoed worden. Sterker nog, het lijken bijna 'normale' tower fans. Dus op die manier zijn ze niet zo bijzonder.
Het voordeel is dus wel dat ook deze fans erg makkelijk omgewisseld kunnen worden én dat ze direct over de gehele breedte de lucht van het systeem kunnen afvoeren, dus overal een gelijke luchtstroom en goede koeling verzorgen.
Ik ga er even vanuit, dat in eerste instantie de server gewoon vervangen wordt 1 op 1, waarna de "geswopte" server op een stapel beland.

Hierna is onderhoud plegen aan deze offline bakken very easy en hebben ze het erg makkelijk gemaakt om zaken te vervangen...

Persoonlijk denk ik ook dat de 1 minuut meer een mooi praatje is dan dat het echt functioneel is. Als je downtime planned (als is het maar 30 seconden) dan kun je ook wel 5 minuten uit de lucht zijn.
De giganten (zoals een Facebook) die hebben hun zaken zo geclusterd (naar mijn verwachting) dat downtime van een enkele machine geen drol uitmaakt en dat deze 1 op 1 vervangbaar is.
Google heeft alles geclusterd inderdaad en pas als een bepaald percentage uit is gevallen dan gaan ze servers omwisselen of als toevallig een monteur in de buurt is.

Bron: ergens gelezen.
Bedrijven als Facebook heeft een team voor ieder datacenter dat alleen servers/onderdelen vervangen.

Als zij 5 servers kunnen fixen ipv. 1 server in de zelfde tijd dan is dat niet alleen maar leuke PR

Ik vermoed dat wat kabeltjes los trekken en het MB er aan de uit trekken en de nieuwe er in schuiven en daarna de kabeltjes er inpluggen en klaar.

Het snel kunnen vervangen betekent ook dat waarschijnlijk makkelijker is gemaakt om te vervangen en dat is gewoon prettiger werken.

Dat is het voordeel als je zelf de servers ontwerpt.
Heb nog maar weinig systemen gezien met aan de achterkant 4 fans die direct aansluiten op kaarten die er in zitten
Zelfs al zou dat heel speciaal zijn... "De server heeft geen speciale koeling nodig" betekend dat die in een normale serverkast in een normale serverruimte (met een airco) kan staan.
Om in te haken op "geen speciale koeling".
In commodity servers, waar je bovenstaande het beste kan vergelijken, vind je over het algemeen over een groot deel van de, zo niet de volle, breedte van de machine fans.

Als je dat dan vergelijkt met de foto's in het artikel zijn die vier fans niet uitzonderlijk.
Tel daarbij op de 8 Tesla's en vier fans is niet echt veel.

Denk dat de insteek "geen speciale koeling" meer duid op het feit dat met luchtkoeling alleen er 2000W aan TDP voor de GPU's (i know is niet nauwkeuring maar goed) afgevoerd kan worden.
Het ontwerp is opgebouwd met eenvoudige toegang tot hardware-onderdelen in het achterhoofd. Zo kunnen componenten die regelmatig vervangen moeten worden zoals harde schijven en dimm-geheugen, snel verwisseld worden.
Moet dimm-geheugen dan regelmatig vervangen worden?
Vroeg ik me ook al af, lijkt me geen onderdeel dat snel sneuvelt.
Denk dat het hier eerder gaat om upgrades.
De machines zijn zo te zien op alle fronten gebouwd om snel spullen te kunnen vervangen indien er een defect optreedt, maar ook om snel upgrades te kunnen uitvoeren.

Ik neem aan dat het geheugen er daarvan 1 is.
Eg: meer geheugen per stripje, misschien een hogere klok dan voorheen mogelijk was met de hoeveelheid geheugen aan boord (al is eea ook sterk afhankelijk van de cpu en het mobo uiteraard), en ga zo maar door.

Maar zeker kan het ook sneuvelen natuurlijk. Die apparaten worden nogal wat gebruikt I guess... Onder de hoge stress en temperaturen heb je waarschijnlijk sneller kans op performance issues en een lage levensduur van componenten dan met een reguliere server die gebouwd is om zo lang mogelijk mee te gaan met geen wijzigingen aan de setup.
Heeft dit iets te maken met Marks Quote van Facebook gaat nooit offline?
Dit soort servers zijn gemaakt om hun modellen voor bijvoorbeeld beeldherkennings taken snel te kunnen trainen. Als ze getraind en getest zijn, zijn deze opstellingen helemaal niet nodig.

M.a.w. deze systemen worden gebruikt voor het intern ontwikkelen van nieuwe deep learning modellen, maar niet het gebruik ervan. Als deze servers kapot gaan, merken alleen de onderzoekers/developers het en zal het geen invloed hebben op het online zijn van facebook.

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True