Door Koen Beijer

Product Owner

Upgrade van het serverrack en releasenotes - Development-iteratie #195

25-11-2020 • 13:37

83

Ook in de afgelopen sprint hebben we weer veel gewerkt aan zaken achter de schermen. Daarom geven we in deze .plan weer een overzicht van enkele dingen die wel zichtbaar zijn aan de voorkant en een update vanuit tech over de servers.

Upgrade van het serverrack

Zoals je in de vorige .plan hebt kunnen lezen, hadden we last van enige downtime doordat ons halve rack zonder stroom zat vanwege gepland onderhoud en we gemist hadden dat er twee servers met dezelfde taak op dezelfde stroomfeed waren aangesloten. Aanwezige technici van onze hoster True hebben die servers snel weer van stroom voorzien, waardoor het grootste leed na een halfuurtje over was.

Om te voorkomen dat dit scenario zich bij het eerstvolgende onderhoud herhaalt, hebben we besloten om alle servers en netwerkapparatuur die niet redundant waren aangesloten, aan te sluiten op een automatic transfer switch, of ats, die stroom krijgt uit beide stroomfeeds in een rack en snel naar een andere feed kan schakelen zodra de gebruikte feed uitvalt.

ATS rack Tweakers
Een van de drie ats'en in actie

Releasenotes

  • Foto-uploads vanaf mobiel krijgen nu een maximumhoogte.
  • Uitgelichte positie boven deallistings voor advertentie is toegevoegd.
  • Problemen met het tonen van uitgelichte vacatures in Carrière is opgelost.
  • Problemen met het lettertype en het onthouden van voorkeuren in het advertentieformulier zijn opgelost.

Lees meer

Reacties (83)

83
79
69
2
0
6
Wijzig sortering
Upgrade van het serverrack
Ik kwam hier om veel mooie details te lezen met foto's en hippe hardware betreffende de racks, maar het is helaas niet meer dan een ATS :/

[Reactie gewijzigd door thePiett op 24 juli 2024 08:50]

Ik had mijn popcorn er ook alvast bij gepakt. De kinderen en speeldates naar hun kamer gestuurd, zodat ik ongestoord naar de nieuwe servers kon kijken. Blijkt het slechts een ATS te zijn.

Ik zie het dan toch wel een beetje als een clickbait titel ;)
Met een filmpje naar Rick Astley, was het artikel helemaal compleet!

Bovendien is er nog een feature aangepast die hier niet staat vermeld.
Mensen die met een Custom CSS de ankeilers (uitgelichte reviewblokken tussen de teksten) hebben verborgen, krijgen deze nu weer te zien. Niet tussen de stukken tekst, maar als 4 uitgelichte redactionele reviews onder elkaar. Doordat het niet tussen de teksten zichtbaar is, is het nu niet zo storend met deze aangeschakelde feature.
Dat is een A/B-test, die worden normaal gesproken niet in dit soort .plans benoemd.
Zonder die custom CSS zie ik het op mijn telefoon soms ook. Moet wel zeggen @ACM dat ik er geen fan van ben. Af en toe een blokje is prima, maar ik kom op mijn telefoon om het nieuws te lezen, niet om eerst naar beneden te scrollen om dan te zien of er iets nieuws staat..
Inderdaad. My disappointment is immeasurable and my day is ruined.
Heel stiekum is het iets meer dan een ATS, maar dat bewaar ik voor de volgende .plan. We hebben namelijk ook de firewalls (laten) vervangen ;)
Waarom gaat Tweakers niet verhuizen naar de cloud? Scheelt weer gezeik met hardware. :)
We zijn Tweakers .... Het is ook gewoon veel te mooi om het zelf in beheer te hebben en je houd feeling met de hardware. Geloof me, Cloud diensten hebben zo hun eigen problemen en zijn zeker niet altijd zaligmakend. Als er nu iets is kun je er zelf misschien nog iets aan doen. Bij vele Cloud diensten ben je een van de velen en moet je wachten en hopen dat het goed komt.
Ik heb zelf ervaring met AWS op professioneel niveau en nooit storingen voorbij zien komen waar het productieplatform wat door door hun gehost word door geraakt is.
Azure en anderen kan ik niet over meepraten op dit moment. :)
Lol ja iets met afkloppen ;)
Zo zie je maar. Alles gaat een keer kapot. Niemand kan een 100% sla garanderen.
Welk deel van AWS was dat? Inderdaad, het US gedeelte. Aangezien Tweakers in de EU zone zou gaan zitten is er dus nog steeds niks aan de hand. :)
Draai er lekker omheen...
Het gaat erom dat jij liep te roepen dat AWS nooit storingen heeft...
Klopt toch nog met wat hij zegt? Hij zegt dat het productieplatform wat zij op AWS draaien nog nooit down is geweest door een storing bij AWS. Dat betekend niet dat AWS geen storingen heeft of heeft gehad.

Daarnaast kan je bij AWS/GCP/Azure hosten op meerdere regions, als er dan onverhoopt eentje down gaat dan kan er automatisch overgeschakeld worden naar de andere region zonder downtime.
De halve wereld zit zonder problemen in de cloud. Ze zijn zeker niet altijd de juiste oplossing: de vraag is vooral wat voor problemen je wilt hebben :) en wat dat kost.

Tweakers betaalt niet voor colocatie en stroom (sponsor) dus dat maakt de prijscalculatie al meer interessant qua self hosting, ik weet niet of ze nog voor traffic betalen.
De halve wereld zit zonder problemen in de cloud.
Laat dat "zonder problemen" maar weg. Cloud diensten hebben regelmatig problemen. Zie bijvoorbeeld de berichtgeving hier op Tweakers:
https://tweakers.net/zoeken/?keyword=storing+azure
https://tweakers.net/zoeken/?keyword=storing+amazon

Dat wil niet zeggen dat zelf hosten ook geen problemen kent, zie dit artikel. Maar de cloud is zeker niet zaligmakend wat betreft beschikbaarheid.
Alles gaat een keer plat maar uptime is niet (alleen) waarom je naar de cloud gaat, er zijn natuurlijk nog veel meer redenen, het gaat om het hele plaatje.
Alles gaat een keer plat maar uptime is niet (alleen) waarom je naar de cloud gaat, er zijn natuurlijk nog veel meer redenen, het gaat om het hele plaatje.
Wellicht moeilijk voor te stellen, maar er zijn partijen waarbij up-time het meest belangrijke is. Belangrijker dan de rest van 'het totale plaatje'.

En net zoals dat niet de enige reden is om niet naar de cloud te gaan zijn er veel meer redenen om niet naar de cloud te gaan. Het gaat om 'het totale plaatje' :+

Beetje dooddoeners allemaal.
Tja een paar nieuwsberichten over incidenten bij cloudboeren is nog geen case om niet voor de cloud te gaan, dus over dooddoeners gesproken.

Je negativiteit over de cloud zal voor jouw situatie of werkgever misschien relevant zijn, maar heel erg veel partijen hebben er baat bij.

Die incidenten betekenen niet zo veel. Zeker in de context van toko’s waar de interne ICT waarschijnlijk nog veel meer ellende veroorzaakte.
Tja, maar als de cloud stuk is, en Tweakers zit ook in de cloud, hoe ga je dan lezen dat de cloud stuk is? :+
Tja, maar als de cloud stuk is, en Tweakers zit ook in de cloud, hoe ga je dan lezen dat de cloud stuk is? :+
Da's gek, hoe zou ik daar toch achter komen anders dan het op Tweakers lezen :D
En weer een reactie waarbij je ook precies omgekeerd hetzelfde kunt zeggen en het ook helemaal waar is. En ditmaal ook een generalisatie over mij.

Heb je nog meer dooddoeners?
Jazeker!

Jouw post dat er zeker incidenten in de cloud zijn, doet niets af aan mijn opmerking, dat een groot aantal bedrijven zonder problemen in de cloud zit en dat je opmerking er eigenlijk niet zo toe doet. :)
Naast dat cloud diensten ook met een heleboel issues komen kunnen ze soms duurder zijn dat zelf iets hosten.
Tuurlijk, zelf hosten als Tweaker(s) is niets mis mee natuurlijk. En de sponsoring van True helpt enorm in de kosten want datatransfer kost natuurlijk (veel) geld op andere plekken :).

Bij vele Cloud diensten ben je een van de velen en moet je wachten en hopen dat het goed komt.

Dat is niet helemaal waar, support is vaak erg goed. Dat argument kan je trouwens ook voor een colo-provider zeggen. Begin je dan maar je eigen DC? Clouddiensten zijn bewezen betrouwbaar (mits goed uitgevoerd!). Alleen zal Tweakers daar misschien niet direct de vruchten van kunnen plukken.

[Reactie gewijzigd door Jay-v op 24 juli 2024 08:50]

Hadden ze het in de comments van een vorige .plan over. Lang verhaal kort: Veel duurder dan zelf hosten.
Dat komt in het geval van Tweakers ook omdat colocatie en stroom gesponsord wordt, dus het is wel een special wat dat betreft.
Is ook een onderdeel van het business model. In feiten heeft True gewoon een permanente advertentie banner is ruil voor hosting.

Echter, ik ben zelf ook al tegen kostenverrassingen aangelopen bij cloud leveranciers. Het is vaak goedkoop opzetten, maar het wil nog wel eens heel snel oplopen. Zeker als je veel data hebt of als jezelf in de hoek laat zetten met een bepaald beheer platform.

O, dus u heeft nu 10x zoveel gebruikers, ja dan moet u van dit prijsboek gebruik maken. En nee dat is niet onderhandelbaar.

[Reactie gewijzigd door Eonfge op 24 juli 2024 08:50]

Tja, met de cloud heb je gewoon andere problemen :)

Ik ben er van overtuigd dat een paar dikke hardware doosjes over een paar datacenters gecolocated stiekem prima te managen valt en lange termijn goedkoper is.

Natuurlijk is dit heel erg context afhankelijk of dit realistisch is.

Maar het aller grootste probleem binnen het IT-landschap?

Goede mensen vinden die snappen wat kwaliteit is, snappen wat nodig is en zelfstandig kunnen werken met minimale sturing.
Klopt. Dat is de reden dat cloud succesvol is. Te weinig goede mensen.
Dat scheelt behoorlijk op de rekening inderdaad.
Omdat je dan de hardware niet meer in eigen beheer hebt :?

Je verplaatst het "probleem" alleen maar namelijk. Niet meer onze hardware, maar die van iemand anders.
En hoezo is dat een probleem? Niet meer mijn hardware dus hoef het ook niet meer te onderhouden en als het kapot gaat vangt andere hardware het automatisch op.
Ja en ben je dus ook wachtende 200(0) in de rij. Iets wat je niet moet willen met een site als tweakers imho.
Hardware heeft niet heel erg veel onderhoud nodig, en als het kapot gaat zet je de (toch al minimaal redundante) services over naar een andere server - als dat al nodig is. We voeren de meeste hardware met (minimaal) een 2+1 redundantie waardoor in het slechtste geval je met 1/3de van het serverpark nog de volledige site kan serveren (alleen pieken opvangen word dan lastiger)
Want in de Cloud zijn nooit outages...?
Cloud kan een oplossing zijn, maar hoeft zeker niet DE oplossing te zijn.

Cloud heeft ook heel veel nadelen, kosten zijn meestal flink hoger en je creëert extra complexiteit, maar bied je ook extra mogelijkheden die je met eigen hardware niet hebt.

Ik heb ondertussen ook al de nodige cloud storingen voorbij zien komen.
Hebben ze vast wel berekend, voor Tweakers pakt de cloud waarschijnlijk duurder uit. Wie weet hebben ze wel een goede deal met True ofzo ;)
There is no cloud, it's just someone else's computer.
Ze hebben net een test gedaan. Het resultaat: Amazon Web Services kampt met storing :+
Waarom gaat Tweakers niet verhuizen naar de cloud? Scheelt weer gezeik met hardware. :)
Tweakers is toch al 'in de cloud' ?

cloud is iemand anders zijn servers.

Het hele "in de cloud" is allemaal zo'n bullshit-term.
Technisch zit je allemaal 'in die cloud' en niet alleen de locatie van de daadwerkelijke hardware is bepalend.
Nee hoor, tweakers heeft gewoon 2 rekjes in t dc. Moest daar vlak bij in een rek wel is aan t werk, kijk ik naar links, oh verrek hier staan de spulletjes van tweakers. Cloud is allemaal onzin. gewoon, vloer, stroom, rek, koeling.... zoiets heet datacentrum.. ;)
Hebben alle servers (en overig apparatuur) niet een dubbele PSU? Met een ATS introduceer je een nieuw SPOF.

Ik ben benieuwd waarom hier voor gekozen is.

Als de servers een enkele PSU hebben, maar je wel meerdere servers hebt met dezelfde taken, is het dan niet slimmer om de ene server op de ene powerfeed aan te sluiten en de ander server op de andere feed? In plaats van een ATS te gebruiken.
Onder de foto staat dat het er in totaal 3 zijn. Dus als ze het een beetje netjes hebben aangesloten maakt het nog steeds niets uit als er 1 stuk gaat.
Waarvan zijn er 3 stuks? Wat als de ATS stuk gaat?

Hoe zie jij het voor je om een server met 1 PSU aan te sluiten op meerdere ATS's?

Of bedoel je meer dat er meerdere servers zijn met dezelfde taken en de server verdeeld zijn over de ATS?

[Reactie gewijzigd door c-nan op 24 juli 2024 08:50]

...en we gemist hadden dat er twee servers met dezelfde taak op dezelfde stroomfeed waren aangesloten.
Dat laatste bedoelde ik dus. Met meerdere ATS'en kun je dat dus prima opvangen.
... ons halve rack zonder stroom zat vanwege gepland onderhoud en we gemist hadden dat er twee servers met dezelfde taak op dezelfde stroomfeed waren aangesloten.
Uit het kleine artikeltje zelf. Twee servers met dezelfde taak achter verschillende ATS'en dus. :)
Ja, je hebt een valide vraag..

Wat ik in dit artikel lees, is dat er een menselijke fout gemaakt is bij het aansluiten van de servers. Dit kan gebeuren en het is redelijk snel gefixt toen het probleem ontdekt werd. Maar wat ik vervolgens lees is dat een ATS geplaatst is om het probleem te verhelpen. Hier raak je me kwijt...

Hoe lost deze ATS op dat er een bekabelingsvergissing gemaakt is? Hoe weet je zeker dat een zelfde soort bekabelingsvergissing niet nog een keer gemaakt is bij het aansluiten van de ATS?

Imho lijkt het me veel logischer om alle servers een dubbele PSU te geven en een minimale requirement op te nemen om alle kabels, incl power kabels, te labellen en documenteren. Tijdens dit proces haal je alle fouten eruit, en je hebt vervolgens ook nog een strakke admin van alle kabels. Dit kan je zelfs nog laten auditen op locatie, als je het noodzakelijk vind.
Alle andere servers (op die 3 monitor servers na) hebben dan ook een dubbele psu, en zijn redundant en goed aangesloten. Het probleem met de twee monitor servers is dat ze niet in 1 rack hangen, maar in twee racks. Hierdoor is het lastiger te dubbelchecken of ze 'goed' zijn aangesloten, je moet dan niet alleen de kabel naar het eerste verdeelpunt checken, maar er ook zeker van zijn dat dat verdeelpunt een andere feed is dan het verdeelpunt in het andere rack. Overigens is daar bij het plaatsen van deze twee servers gewoon niet over nagedacht en zijn ze beide op de 'onderste feed' aangesloten.

De ATS'en zijn wel gewoon goed redundant aangesloten (want in 1 rack is dat makkelijk te controleren) en de belangrijkste switches hebben ook twee voedingen. Mocht de ATS nu uitvallen dan valt er wel wat apparatuur uit, maar minder dan wanneer dezelfde stroomfeed in beide racks uit word gezet.

Overigens zijn ook alle powerkabels aan beide kanten gelabeled; het is welliswaar niet gedocumenteert, maar als je bij het rack staat en je hebt een powerkabel met 'ATS-H23-A' vast die in de ATS zit, dan kun je op het stekkerblok 100% zeker een kabel vinden waar ook 'ATS-H23-A' op staat, en als je die eruit trekt dan heeft de ATS geen stroom meer van feed-A ;)
Een ATS is ook weer een single point of failure. Als deze stuk gaat, dan gaat je server ook uit.
Klopt maar waarschijnlijk is de kans meerdere ordes van grootte kleiner dan een stroomstoring of gewoon onderhoud dus. Anders zou niemand een ATS kopen lijkt me.
Je ATS moet je toch ook testen?
Inderdaad, maar is heel simpel te testen, gewoon even de stroom van 1 supply afhalen en kijken wat er gebeurd. Vervolgens doe je hetzelfde op de andere supply line. :+
Klopt, maar daarom hebben we ook twee ATSen, in elk rack 1. Mocht de ATS uitvallen dan heeft slechts 1 rack daar last van, mocht een van de beide stroomfeeds uitvallen dan heeft in theorie geen enkel rack daar meer last van, terwijl hiervoor dan beide racks er last van hadden.
ATS .... Weer wat geleerd. wist niet dat het bestond. thnx tweakers. ik ga ook maar even zo n ding bestellen. top tip! :)
Hoeveel kost zo'n ding eigenlijk? Wat is een goede prijs?
Ik kan mij herinneren dat google intern de apparatuur op 12V gestandardiseerd heeft. Een simpele 12V akku per server maakt dat spanningsdips een tijdje overbrugd kunnen worden. Veel goedkoper, wellicht wel meer onderhoud aan opbollende akku's ...
ik zag met een googletje rond de 600 eu van Eaton.
ATS .... Weer wat geleerd. wist niet dat het bestond. thnx tweakers. ik ga ook maar even zo n ding bestellen. top tip! :)
Werkt alleen lekker als je 2 onafhankelijke bronnen van stroom hebt hé
op zijn minst 2 aparte groepen.
Maar als de toevoer stopt, heeft zo'n ding ook weinig nut, behalve misschien netjes de boel afsluiten voor je
Ik zit in een datacentrum he, met 2 aparte feeds. maar zoiezo thnx voor de tip, wordt gewaardeerd! :)
Om te voorkomen dat dit scenario zich bij het eerstvolgende onderhoud herhaalt, hebben we besloten om alle servers en netwerkapparatuur die niet redundant waren aangesloten
Wat ik van de vorige .plan begrepen heb, was de downtime veroorzaakt werd door dat het ceph monitor quorum niet toereikend was. Door dat er een aantal monitors uitgevallen was.
Is het niet beter om de monitors over meerdere racks te verspreiden? I.p.v. een ATS er tussen te schuiven, wat mij nog al een work around lijkt
Dat had in dit geval niet geholpen. Het datacentrum is onderhoud aan het doen op hele feeds. Als de A feed in rack 1 uit staat, staat die ook uit in rack 2 ;).
Het punt is dat er 3 monitor servers in Ceph zijn en maar 2 stroomfeeds. Dan heb je altijd 2 servers op dezelfde feed. Als de servers vervangen geen optie is, dan is een ATS een valide keuze imho.
We hebben het net iets slimmer aangesloten, de derde monitor draait ik een volledig ander datacentrum namelijk ;)

Het was mogelijk geweest om die downtime te voorkomen door de twee servers die last hadden van het onderhoud beide op een andere feed aan te sluiten.
Klassieke fout, electra monteurs die het belang van goed vastleggen niet inzien en daardoor fouten maken in de tekeningen met als gevolg dat stroom onderhoud vaak voor downtime in server ruimtes zorgt...keer meegemaakt bij groot ministerie in den haag..paar stroomgroepjes verkeerd ingetekend..oeps...50 server kasten ineens zonder stroom...foutje bedankt...
Ik heb het ook zien gebeuren door DataCenter Engineers, of daarna support/beheer teams een foutje maken.
Yep, voetballers op zaal met een rode noodknop, die ene shovel een straat verderop. Een failliete ISP die de energierekening niet betaalde, een baggerschip dat fiberkabels wat lichter maakte, een te snelle cooldown van een airco, paar centimeter water onder de vloer op zaal, overstroming in een kelder waar _ALLE_ bedrijfsappratuur van een uitgeverij stond, een bank die inbraakproef wilde zijn, een aardbeving triggerde alarm, digitale sleutels automatisch weg, geniaal, ach, theorie en praktijk komen niet altijd overeen. Enne don't worry, Murphy always strikes at least twice!
Het serverpark van Tweakers is iets van 8 jaar oud?

Wat zijn de plannen op dit vlak: worden ze nog vervangen door zuinigere en snellere varianten of is de cloud interessant?

[Reactie gewijzigd door Q op 24 juli 2024 08:50]

Waar haal je uit dat de servers 8 jaar oud zijn? We vervangen in principe de servers elke 5 jaar (en kopen ze met 5 jaar garantie). De cloud heeft voordelen, maar in ons geval zijn die niet zo groot.

"Je kan dan dynamische servers aan/uit zetten en zo kosten besparen"
We hebben een vrij constante belastig van ~7:00 uur tot ~0:00 uur, dus dynamisch schalen werkt maar voor een paar uur, bovendien voeren we juist in de nacht ook onderhoudstaken uit waardoor je alsnog minder kan afschalen

"Je hebt geen mensen meer nodig die servers ophangen (fysiek) onderhouden en bestellen"
Qua mankracht gaan we er ook niet op voor- of achteruit door naar de cloud te gaan. Ook in de cloud heb je gewoon iemand nodig die het opzet/bijhoud en beheert, het enige wat scheelt is dat ik dan niet een paar keer per jaar naar het datacentrum hoef te rijden om iets nieuws op te hangen

Daarnaast is de cloud ook nog eens veel duurder. Hardware kost gewoon niet zoveel, een vergelijkbare VM in de cloud kost 2-5 keer zoveel per jaar (afhankelijk van reserveringen, spot pricing, etc). Daarnaast doen we gewoon zoveel verkeer/requests etc dat, als je al naar iets als serverless wil kijken, er 'contact sales' bij staat.
> Waar haal je uit dat de servers 8 jaar oud zijn?

https://tweakers.net/stats/?Action=Serverstats

Ik ga puur op de CPU's af en natuurlijk zijn de servers jonger dan de CPU generatie. Dat laat in mijn ogen onverlet dat jullie draaien met hele oude CPUs. Machines uit die tijd waren in mijn ervaring ook flinke energie-vreters, de huidige machines zijn fors zuiniger.

Ik heb stiekem wel eens een grove berekening gemaakt dat het huidige Tweakers.net server park waarschijnlijk qua RAM/CPU past in 4 x moderne server waarvan er dan twee redundant zijn. :)
Misschien wil je er meer puur om onderhoud gemakkelijker te maken.

Verder hoef je voor mij niet te beargumenteren waarom Tweakers.net niet in de cloud zit, ik snap het helemaal :)

Als je colo en stroomkosten volledig wordt gesponsord dan scheelt dat fors in de kosten. Als jullie ook nog traffic gesponsord krijgen dan is de discussie helemaal over natuurlijk. Dus ik snap ook waarom relatief energie-onzuinige machines blijven draaien: dat maakt niets uit voor jullie kosten, als ik dat zo inschat.

Maar ik kan er helemaal naast zitten hoor, dat besef ik gerust.

[Reactie gewijzigd door Q op 24 juli 2024 08:50]

Klopt, die serverstats heb ik al een jaar of 8 niet geupdated :o

En inderdaad, wij krijgen van True 2 racks, stroom en een 2x10GBit internetverbinding, dat scheelt aardig in de kosten ook.
Zal het eens updaten (als ik ooit tijd heb) :P
Goed dat dit gedaan is! is er een rede dat dit niet allang al gedaan was ? anno 2020 is het niet heel vreemd om apparatuur in datacentra met 2 psu's te hebben (steeds meer) of een ATS in plaats te hebben...
In principe zijn de racks zo aangesloten dat er een heel rack, of 1 powerfeed op beide racks uit kan vallen. Omdat dat in de praktijk (deze keer!) niet helemaal het geval bleek te zijn hebben we als extra stap een ATS er bij gehangen voor de 4-5 apparaten per rack die geen redundante pdu hebben (te weten: de redundant uitgeruste, HA firewalls, de management router, de kvm-monitor, twee switches, en de ceph-monitor servers)
Mooie update weer! (y)

Op dit item kan niet meer gereageerd worden.