Nieuwe centrale opslag - development-iteratie #104 - IT Pro - .Plans

Iteratie #104 is afgerond en in deze iteratie zit een klein aantal verbeteringen waaronder jullie eigen Community Pick! Daarnaast hebben we de nieuwe centrale opslag in gebruik genomen.

Community Pick: Mention-tag mogelijk maken in reacties onder artikelen

Zoals beloofd is de feature waarop jullie het meest gestemd hebben, ontwikkeld door onze developers. En vanaf nu kun je je medetweaker ook in de reacties bij artikelen noemen. Hiervan krijgt de tweaker in kwestie een notificatie zodat hij weet dat je hem noemde. Overigens sturen we daarbij geen dubbele notificaties als het sowieso al een reactie op de reactie was. Dit om te voorkomen dat je je door een waslijst aan notificaties moet worstelen.

Vergeten jullie niet om in Mooie Features je favoriete feature een thumbs up te geven? Of misschien heb je zelf wel een briljant idee? Krijgt jouw idee genoeg duimpjes, dan is er een grote kans dat je deze terug zal zien in de volgende Community Pick!

Aangepaste karma-beloning voor V&A-advertenties

We hebben in het karmasysteem de berekening voor Vraag en Aanbod veranderd. Deze gaven een erg hoge bijdrage voor producten bij met name groot-adverteerders. Daardoor werden zij nog wel eens als karmakoning of -keizer aangemerkt. Maar het feit dat iemand een product vaak verkoopt, zegt nog niet dat hij dan ook veel concrete gebruikservaring met dat product heeft.

Vanaf nu krijgen adverteerders met veel advertenties minder karma per advertentie; hoe meer advertenties, hoe minder karma er nog per advertentie verdiend kan worden. Dit effect wordt overigens pas goed zichtbaar vanaf onze eerstvolgende herberekening in juli.

Zoekbalk boven aan elke pagina in de Pricewatch

De zoekbalk was altijd al beschikbaar vanuit de header binnen ons responsive design, maar heeft nu ook een prominente plek gekregen boven aan elke pagina binnen de Pricewatch. Zo kun je makkelijker verder struinen tussen alle producten.

Nieuwe centrale opslag: van ZFS naar Ceph

In 2015 schreven wij al over ons verlangen om de oude Solaris ZFS-omgeving te vervangen door iets wat aan al onze wensen voldeed. Zowel de reacties onder dat artikel als wijzelf kwamen tot de conclusie dat een Ceph-cluster de geschiktste oplossing zou zijn voor onze eisen. Onder die eisen vielen het automatisch opslaan op meerdere locaties van bestanden, het voorkomen van downtime als er een server uitvalt en de aanwezigheid van een Posix-filesysteem, zodat we zonder al te veel moeite over konden stappen. Daarnaast bestaat een Ceph-cluster veelal uit goedkope hardware, waardoor wij voor een volledige ssd-opzet konden gaan.

In de afgelopen maanden hebben we samen met 42on dit Ceph-cluster ontworpen en opgezet. In de afgelopen maanden hebben we dit nieuwe cluster langzaam in gebruik genomen. Dit cluster draait Ceph Kraken en bestaat uit drie Monitor-servers, twee Metadata-servers en zes servers die in de opslag voorzien. Dit cluster biedt vervolgens zijn files aan via cephfs en onze virtuele servers draaien nu allemaal met rbd.

Taak	Cpu	Mem	Opslag
3x Monitor	E3-1240 v5 @ 3,50GHz	16GB	2x Intel S3500 120GB-ssd
6x Opslag	E5-2640 v4 @ 2,40GHz	32GB	6x Intel S3510 1,6TB-ssd
2x Metadata	E3-1271 v3 @ 3,60GHz	32GB	250GB sata

Dankzij dit cluster hebben wij nu zo'n 57TB bruto beschikbaar om onze files op te slaan. Dat lijkt veel, maar netto blijft hier ongeveer 16TB van over omdat alle files op drie verschillende servers opgeslagen worden en je de disks niet voller dan tachtig procent wil hebben. Mocht dit niet genoeg blijken in de toekomst: alle opslagservers hebben nog plaats voor vier extra disks, waardoor wij de opslag relatief eenvoudig kunnen uitbreiden.

Bugfixes

Grafieken in tabs werden niet goed of helemaal niet getoond (o.a. in Firefox).
Een aantal re-directs voor oude url's van de aboshop gaven errors.
Bij een aantal notificaties werden dubbele e-mails verstuurd.

IT-banen

Reacties (90)

rogierslag 18 april 2017 13:04

11 bakken voor 16TB data? Is Ceph niet alleen handig als je richting petabytes gaat schalen, maar voor een dusdanig kleine setup is de overhead toch enorm... Wat was de gedachte hierachter?

Kees BOFH @rogierslag • 18 april 2017 14:17

Omdat wij een storage systeem wilden hebben dat 'gewoon' ontworpen is als highly available en eenvoudig over meerdere locaties gesplitst kan worden en geen handmatige failover nodig heeft op het moment dat er een server uitvalt.

Het probleem is dat met onze relatief kleine dataset en budget je daar eigenlijk geen fatsoenlijke 'vendor' oplossing voor kan vinden. Let wel, dit hele cluster kost nog steeds een stuk minder dan de offertes van 'de grote jongens' waarbij je dan nog niet eens een high-available-multi-site setup hebt.

Ja, het is overkil, we hadden een aantal rollen kunnen combineren maar dat werd afgeraden. Op deze manier kan een rebuild van je cluster niet de monitors onderuit halen en een crashende MDS server heeft geen invloed op je storage. We hadden de ruimte en budget ervoor dus het was geen probleem om dat te splitsen.

bbob @Kees • 18 april 2017 14:41

eenvoudig over meerdere locaties gesplitst kan worden en geen handmatige failover nodig heeft op het moment dat er een server uitvalt.

Staan de server nu dan ook op meerdere locaties of is dat voor de toekomst.

Kees BOFH @bbob • 18 april 2017 14:42

Die staan nu al over 2 locaties verdeeld (wel beide in amsterdam) om problemen met een hoster te voorkomen (zoals ddos aanval op 1 provider (niet perse op ons), stroom problemen, route problemen, overstroming, brand in een locatie etc).

x86dev @Kees • 19 april 2017 10:39

Want een overstroming treft maar één locatie in Amsterdam? Ik denk het niet. Zelfde als route of stroom problemen. Een andere locatie noem je oost/zuid Nederland en niet in één stad.

Kees BOFH @x86dev • 19 april 2017 13:05

Met route(r) problemen bedoel ik dat een hoster problemen heeft met zijn verbindingen en/of router. Het komt niet vaak voor, maar ook de corerouters van een grote hostingbedrijf kunnen onderuit gaan. Als je dan 2 hosters hebt blijft de tweede in het algemeen wel gewoon up.

Qua stroomproblemen hebben beide locaties hun eigen voorzieningen. Mocht er een volledige amsterdamse stroomstoring optreden dan moeten ook op beide locaties de noodvoorzieningen uitvallen voordat we er last van hebben.

En mocht een overstroming zo groot zijn dat heel amsterdam onder water staat dan hebben we - naast natte voeten - een probleem inderdaad.

djwice

@Kees • 18 april 2017 22:59

Hebben jullie ook overwogen om bijvoorbeeld AWS S3 in te zetten? En dan CloudFront of CloudFlare als CDN.
Was dat duurder? Of kon het niet met de wensen?

[Reactie gewijzigd door djwice op 23 juli 2024 07:47]

Kees BOFH @djwice • 19 april 2017 08:49

Even kijken; 15TB opslaan in 2 availabilty regio's UK en DE:
UK: 15×1024×0.024 =~ 370$
DE: 15x1024x0.0245 =~ 375$
Cloudflare laat geen prijzen zien voor het enterprise product dat wij zeker zouden afnemen, dus laten we dat zetten op 2x het duurste pakket: $400. Verder betaal je per 10,000 requests $0.0043 dat komt in ons geval op zo'n 275$ per maand uit (met zo'n 650 miljoen requests per maand)

Dan kom je dus uit op een kleine 1400$ per maand en over 5 jaar bekeken betaal je dan ongeveer 2x meer dan dat wij nu hebben neergelegt.

djwice

@Kees • 19 april 2017 13:53

AWS prijzen voor opslag dalen zo'n 20% per jaar.
Waarom wil in DE en UK opslaan? Elk bestaat opzich al uit 2 of 3 fysiek gescheiden data centra. En waarom niet Ierland?

[Reactie gewijzigd door djwice op 23 juli 2024 07:47]

Kees BOFH @djwice • 19 april 2017 13:56

Omdat je niet in 1 availability zone wil zitten. Als die onderuit gaat (zoals laatst gebeurde in de US) dan wil je nog wel bij je data kunnen komen.

djwice

@Kees • 19 april 2017 14:24

Dat zoals in de US was de eerste keer in 15 jaar en zal niet meer gebeuren.

Heb je nu de data van Tweakers ook over meerdere landen verdeeld? En elk met 3 data centra? Klinkt beetje overkill als je het mij vraagt.

Bovendien heb je dat risico al met je CDN ondervangen (CloudFlare); caching van je S3.

Endless_Death @rogierslag • 18 april 2017 13:14

Ik was hier zelf ook verbaasd over en zou graag meer horen van Tweakers. Ik begrijp dat performance een keuze is, ik begrijp dat je futureproof wilt zijn, maar deze setup schreeuwt "inefficientie". Wat storage betreft heb ik dan ook wel weer bij te leren, dus een wat uitgebreidere motivatie zou ik zeker waarderen.

Kees BOFH @Endless_Death • 18 april 2017 15:10

Dit is een HA storage cluster. Met 1 monitor zou het geen cluster meer zijn (monitor uit, cluster weg). Met 2 monitors is het ook nog niet veilig (1 monitor uit, 2de weet niet zeker of dat zo is, dus cluster weg). Met 3 monitors kan er altijd 1 uitvallen (dan kunnen de andere 2 hem uit het cluster schoppen want ze hebben een meerderheid). Dus 3 monitors.

Deze monitors zou je kunnen combineren op de storage servers, maar op het moment dat er dan iets misgaat in het cluster en zowel de storage als de monitors ineens heel veel werk moeten doen, dan heb je kans dat de verschillende taken elkaar gaan verdringen en bijvoorbeeld de monitor een heartbeat mist en daardoor uitvalt. Als dat dan ook met 1 van de andere twee gebeurd is het einde verhaal voor het cluster. Dus wil je die taken fysiek scheiden zodat ze elkaar niet in de weg gaan zitten.

Vervolgens wil je je data veilig opslaan. Dat kan met een 'raid-1', dus alles 2 keer opslaan, maar omdat dit op 'goedkope' hardware draait en het risico op uitval van individuele componenten hoger ligt dan bij een dure storageoplossing slaan wij alles 3 keer op. En op deze manier ligt tweakers.net er niet uit op het moment dat er iets mis gaat met de storageomgeving.

leuk_he @Kees • 18 april 2017 16:47

Als ik het goed lees dus je hebt 3 monitors waar er 2 van online moeten zijn. dus als er 1 uitvalt moet je er snel bij zijn voor er een 2e uitvalt. (snel erbij zijn kan dus ook betekenen dat je een storage server herconfigureert als standby monitor?)

Kees BOFH @leuk_he • 18 april 2017 17:36

Klopt, al zou ik dan waarschijnlijk een andere server dan de storage servers als monitor inzetten (bijvoorbeeld een webserver, daar heb ik er genoeg van). Maar dat doe ik alleen als die andere server echt niet meer gaat terugkomen. Een reboot oid zal meestal geen problemen opleveren.

Blokker_1999

Websites en community's
Software development

@leuk_he • 18 april 2017 21:20

Ze kunnen in essentie zelfs alle 3 online zijn, maar je netwerk kan een probleem hebben. Daarom wil je een minimum van 3 monitors die uiteindelijk in staat zijn om met een meerderheid te beslissen (je zal dus steeds een oneven aantal nodig hebben). Verdwijnt er 1 uit het netwerk dan weet die ene monitor dat deze geïsoleerd staat omdat deze het contact met de 2 andere is verloren en zal op dat moment geen enkele actie meer ondernemen.

DannyvdM @Kees • 19 april 2017 08:58

Hoe is dit geregeld met de twee locaties? Staan deze servers verdeeld over de twee locaties of heb je op de tweede locatie een ander opslagsysteem draaien?

Kees BOFH @DannyvdM • 19 april 2017 09:25

Deze servers staan verdeeld over de 2 locaties (4 opslag op de 1, 2 opslag op de andere locatie). Als de hoofdlocatie eruit valt hebben wij wel een 'probleem'. Het cluster zal dan niet meer werken. Maar alle data is er nog wel en we zouden door een aantal aanpassingen het cluster weer kunnen gaan gebruiken als blijkt dat de hoofdlocatie definitief verloren is.

Tussen de twee locaties ligt een redundante 10GBit/s verbinding waardoor de latency vrij laag is en dit mogelijk is.

DannyvdM @rogierslag • 18 april 2017 13:49

Met Ceph heb je altijd 3 monitors nodig. Je kan kiezen om dit op de storage servers zelf te draaien, maar je kan er uiteraard ook voor kiezen om dit apart te draaien. Hier is dan ook voor gekozen blijkbaar.

Daarnaast kan je de storage servers gewoon in de breedte uitbreiden. De monitor en metadata servers hoeven daarvoor niet uitgebreid te worden. Er zijn ook nog 6x4 slots vrij voor disks, dus dit kan nog uitgebreid worden in de toekomst.

rogierslag @DannyvdM • 18 april 2017 13:55

Gezien in 2015 (in het gelinkte artikel) men ervanuit ging dat ze onder de 30TB zouden blijven, en dan nu er ruim voldoende is met 16TB kun je aannemen dat je datagroei niet zo hard gaat. Bijschalen is leuk, maar tegen de tijd dat je de 100TB gaat bereiken is de technische levensduur van deze setup allang verstreken.

Oftewel: is het een IT speeltje en als setup een beetje over-the-top voor de toepassing of verwachten jullie expotentieel meer data op te slaan de komende maanden?

squaddie @rogierslag • 18 april 2017 15:12

Storagesystemen draaien niet uitsluitend om het opslaan van vele TBs, in het geval van T.net is high available in combinatie met multi site belangrijker. Mochten ze bijvoorbeeld in de toekomst op 4K video gaan opslaan dan is Ceph flexibel genoeg om te voorzien in deze data behoefte.

Het interessante van Ceph is dat als de hardware over bijvoorbeeld 5 jaar niet meer voldoet, je nieuwe hardware aanschaft en de oude hardware uitwisselt zonder dat het Ceph cluster down gaat. In theorie draait over 25 jaar T.net nog steeds op het zelfde Ceph cluster.

[Reactie gewijzigd door squaddie op 23 juli 2024 07:47]

PainkillA 18 april 2017 14:42

waarom draait tweakers niet bij amazon, de grootste cloud provider? Daar heb je diverse services beschikbaar zonder om te hoeven kijken naar details of fysieke aanschaf va hardware. s3, dynamodb, rdb etc zijn prima tools voor sql,nosql en redundant storage.

Kees BOFH @PainkillA • 18 april 2017 14:55

- Kosten (AWS zou ons -ballpark figure, maar vrij realistisch- ongeveer 2x-3x meer kosten per jaar dan dat we nu aan servers uitgeven; qua mankracht winnen we er ook niets mee).
- Snelheid/specificaties (onze servers zijn bloedsnel, maar ook specifiek samengesteld voor die performance, dus soms weinig snelle cores met veel geheugen; iets wat bij amazon niet kan).
- Betrouwbaarheid (AWS ligt er vaker uit dan onze hosting)
- Locatie (geen datacentrum in .nl, dus hogere latency voor gebruikers)
- Onze architectuur bestaat niet uit microservices, herschrijven kost domweg teveel tijd en geld, zeker als we daarna meer moeten uitgeven aan hosting dan dat we nu doen - dat kan ik niet verkopen intern.

Urk

@Kees • 18 april 2017 19:47

Heel goed Kees! Het wordt eens tijd dat mensen gaan inzien dat de cloud niet altijd de Holy Grail is

DigitalExorcist @Urk • 18 april 2017 21:08

Hear hear. Azure en AWS hebben dusdanig veel downtime dat je betrouwbaarder af bent door zelf te hosten. Een plaatselijk datacenter is dan nog vaak wel iets handiger qua hardware, backups, veiligheidseisen, infrastructuur et cetera maar die internationale providers maken er een puinzooi van.

PolarBear @DigitalExorcist • 20 april 2017 11:07

Azure en AWS hebben dusdanig veel downtime dat je betrouwbaarder af bent door zelf te hosten.

Dat valt wel mee, zeker als je de cloud gebruikt zoals het moet en dus niet een enkele instance maar meerder verspreid over de wereld. Dat vereist ook wat van je applicatie.

Verwijderd @Urk • 18 april 2017 21:27

Mensen die dat niet inzien noem je verkopers

Ik neem aan dat iedere respectabele manager of IT-er wel eerst een kostenoverzicht of PoC maakt voor ze in het 'diepe' springen....

djwice

@Verwijderd • 18 april 2017 23:12

Heb ik gedaan, ik ga van rond de €40.000 per maand naar nog geen €700,- per maand en van 2 data centra naar 3 en met nog eens 2 caching locaties in NL.

En mijn hele boeltje is in een paar uur van Ierland naar Frankfurt verplaatst, mocht dat nodig zijn.

Let wel, om dit te bereiken moet je zeer selectief zijn in je keuzes.

[Reactie gewijzigd door djwice op 23 juli 2024 07:47]

Urk

@djwice • 19 april 2017 13:32

OK, kun je dat eens toelichten? Je gaat nu van hosting in een eigen (gekozen) datacenter van EUR 40.000 per maand naar de Azure of AWS voor nog geen EUR 700 per maand? Of begrijp ik het verkeerd?
En hoe is dat mogelijk...??

djwice

@Urk • 19 april 2017 14:19

We haddeb IBM meuk met licenties met alles statefull, full blown shebang. ESB, Java Portal, CMS met PHP, meerdere lagen Firewalls, Routers, Loadballancers etc. voor 2500 pagina's content, 100 formuliertjes en een mijn omgeving voor ~ 2.2 miljoen klanten.

We gaan over op serverless met NodeJS, stateless, met Angular2 front end. Waarbij grote delen al pre-renderd uit build komt.

Dus van overkill en zwaar geschut naar; hoe doen we dit zo kosteneffectief mogelijk met zo veel diversiteit als nodig. Met allen open source en cloud native componenten.

Aantal randvoorwaarden gecreerd zoals DRY, BDD en interne NPM. Dievhelpen om dingen 1x te doen en daarna her te gebruiken. Dan wel hergebruiken en voor iedereen verbeteren. En dus ook minder complexitreit en dus simpel te hosten.

[Reactie gewijzigd door djwice op 23 juli 2024 07:47]

Kees BOFH @Urk • 19 april 2017 08:54

De cloud kan zeker nut hebben, maar het is niet altijd de oplossing. Als we nu met een nieuwe site zouden beginnen dan zou dat zeker in de cloud gebeuren.

djwice

@Kees • 18 april 2017 23:03

S3 heeft er in 15 jaar 4 uur uitgelegen.
Jullie minder?

AWS heeft twee EDGE locaties in Amsterdam. Je kunt daar naast je CDN (CloudFront) ook Lambda@Edge draaien voor logica zoals input filtering, A/B testen, routing, FireWalling, wel/geen cookie wall, etc.

200 miljoen REST API calls die elk 200ms duren kosten op AWS nog geen €100,-.

En door CloudFormation is mijn teststraat exact gelijk aan productie (op een paar firewall settings en persoonsdata na).

[Reactie gewijzigd door djwice op 23 juli 2024 07:47]

Kees BOFH @djwice • 19 april 2017 09:22

200ms voor een API call is wel vrij hoog, is het standaard dat het zo langzaam is?

Ik heb even gekeken naar onze huidige interne api calls. Daarvan doen we er zo'n 200 miljoen per week en die zijn gemiddeld in minder dan 2ms klaar. Bij amazon zou dat dus zo'n 400€ kosten per maand dus zou ik een budget van 24k€ kunnen reserveren voor servers die 5 jaar meegaan.

De cloud heeft zeker ook voordelen, vooral als je met een nieuwe applicatie begint. Een bestaande applicatie zul je eerst moeten omschrijven en met een applicatie die zo complex is als die van ons met heel veel onderdelen en oude code dan ben je al snel jaren daarmee bezig.

djwice

@Kees • 19 april 2017 14:27

Nee, 200ms was mijn overschatting van de CPU tijd die je API zou gebruiken om een overschatting van de kosten te krijgen (die dan m.i. nog pinda's is). AWS rekend API calls in CPU tijd af.

Bij ons zien we bijvoorbeeld 1.800 ruliere expressie tests in een API binnen enkele ms afgehandeld worden.

Incl. het loggen van elk resultaat.

[Reactie gewijzigd door djwice op 23 juli 2024 07:47]

Verwijderd 18 april 2017 12:46

Nu heeft ZFS veel van object storage en zou ik toch eens graag de voor en nadelen horen van een onpartijdige bron.
Waarom kozen jullie bvb voor Ceph en niet voor OpenIO bv en welke erasure encoding gebruiken jullie (10,4)? of enkel replicatie?

Kees BOFH @Verwijderd • 18 april 2017 12:53

We gebruiken enkel replicatie, geen erasurecoding. En de keuze voor ceph is omdat het al even stable is en, in tegenstelling tot openio, zich al zeker bewezen heeft in veel productieomgevingen.

ZFS is een filesysteem, dat is compleet iets anders dan een cluster als ceph. ZFS draai je op 1 machine, als die machine plat gaat heb je geen filesysteem meer. Dan moet je al naar andere oplossingen kijken zoals shared disks en kom je al heel erg snel uit op een oplossing die een veelvoud kost van wat wij nu hebben staan.

D11 @Kees • 18 april 2017 13:58

Je kunt ook nog steeds ZFS onder Ceph blijven gebruiken.

Zie bijvoorbeeld: http://kernelpanik.net/running-ceph-on-zfs/

xleeuwx 18 april 2017 13:00

Ben benieuwd hoe jullie setup er compleet uit ziet van de Ceph storage en waarom er bijvoorbeeld gekozen is om de monitoring en metadata apart op een server te zetten (logische wijze om performance maar kost ook meer).

DaTuX @xleeuwx • 18 april 2017 13:17

+1

Maar als "ijzerliefhebber" ben ik ook benieuwd naar zaken als:
Welk Chassis
Welke HBA's (en waarom)
Wel of geen (SAS Expander, Non expander) backplane (en waarom

Kees BOFH @DaTuX • 18 april 2017 14:04

Chassis zijn (voor de storageservers) 'gewoon' de R420 van Dell met ruimte voor 10x 2,5" schijven, een 10-core CPU, wat geheugen en een (dual) 10GBit/s SFP+ kaart. Verder geen spannende HBA's of enclosures.

De reden daarvoor is dat je niet 1 server teveel werk wil laten doen en we niet zoveel opslag nodig hebben (in ceph-cluster termen is ons cluster eigenlijk gewoon een minicluster). We hadden ook 4 servers kunnen opzetten die alle data aan boord hadden, maar als er dan 1 uitvalt heb je een probleem en moet je een kwart van je data herschrijven.

xleeuwx @Kees • 18 april 2017 16:48

de R420 hebben ruimte voor 8x 2,5" toch ?

daredevil__2000 @xleeuwx • 18 april 2017 17:34

@xleeuwx De R420 heeft ook een model met ruimte voor maximaal 10x2,5"
Zie ook http://www.dell.com/nl/bedrijven/p/poweredge-r430/pd en dan het kopje "Drive bays"

xleeuwx @daredevil__2000 • 18 april 2017 22:19

Zoals @Kees hieronder zegt is het de 430 niet de 420

Verklaard ook wel een hoop meer want de 420 is al een tijd uit (2012) en de 430 is nieuwer (2014) en dus logischer om aan te schaffen.

Kees BOFH @xleeuwx • 18 april 2017 17:34

Excuus, ik bedoel de R430

DaTuX @Kees • 18 april 2017 20:29

bedankt voor de aanvullende info @Kees

juist hier had ik het "verschil" verwacht
zoals de HBA's en backplane keuzes, onboard sas controllers hebben vaak niet de throughput (erg lage clockcycle processor)

aangezien juist CEPH de "RAID" functie voor zijn rekening neemt leek me een zo dom mogelijke,en zo snel mogelijke SAS HBA een belangrijke keuze.

wel of geen SAS expander backplane tja daar zijn verschillende meningen over, ik weet niet wat de default is voor een R430 (had zelf voor een non expander gekozen om het OS full controll te geven)

ik werk momenteel aan de (ff makkelijk gezegt) microsoft variant (S2D) waar dit juiste de bepalende factoren zijn voor performance (buiten disk keuzes)
vandaar dat ik juist hier benieuwd was naar jullie specificaties / visie

xleeuwx @DaTuX • 18 april 2017 13:22

Dit inderdaad, er zijn al best wat bedrijven die Ceph FS draaien maar hoor ook heel veel performance issues op dit gebied met backups enz enz.

basdej 18 april 2017 12:50

Oef, voor een 16TB systeem vind ik het wel heel erg prijzig. 1000 euro per SSD, 36.000eur dus voor 16TB... Waarom hebben jullie niet voor goedkopere disks gekozen ?

Bigs @basdej • 18 april 2017 12:55

De write amplification van Ceph maakt dat je erg snel door goedkopere SSD's heenbrandt als je veel schrijft. Er had wel voor erasure coding kunnen worden gekozen om meer netto opslag te krijgen, maarja dan moet je er toch weer een mirror cache tier boven plaatsen en dat is weer extra beheerslast. Een opstelling zoals hier beschreven is voor Ceph niet ongewoon, maar 11 fysieke servers draaiend houden om 16TB data op te slaan blijft natuurlijk een apart concept

[Reactie gewijzigd door Bigs op 23 juli 2024 07:47]

Kees BOFH @basdej • 18 april 2017 12:56

Omdat je dan ronddraaiende harde schijven hebt die veel trager zijn dan de SSD's. Mischien merk je het niet in het dagelijks gebruik maar op het moment van heftige lees/schrijfacties (backups, crashes, repairs, scrubs) merk je het wel erg goed. Overigens hebben wij geen 1k euro per ssd voor betaald, dat lag lager..

daredevil__2000 @basdej • 18 april 2017 13:07

@basdej de 1000€ is natuurlijk niet wat je betaald als meerprijs maar meer wanneer je ze per stuk koopt. Zeker in deze aantallen zit er vast een leuke korting op

daredevil__2000 18 april 2017 13:03

Begrijp ik uit het verhaal nu goed dat de storage op de servers verder niet in een raid set of iets dergelijks staan? Want als ik de hoeveelheid storage per server x het aantal servers doe dan kom je op die 57TB uit en bij raid zou je toch een verlies hebben.

DannyvdM @daredevil__2000 • 18 april 2017 13:45

Met Ceph is RAID niet aan te raden. Hoe meer verschillende disken, hoe beter je data verspreid is. Ceph regelt dan vervolgens de replicatie van alle data over 3 verschillende servers & disken, afhankelijk van je setup.

Als er een disk uitvalt, is er hierdoor altijd een andere kopie op een andere schijf verdeelt.

Wat ik mij in het geval van Tweakers wel afvraag, is of ze alle schijven van hetzelfde merk en type hebben? Volgens mij wel. Dit wordt juist niet aangeraden. Stel dat er een productiefout in de schijven zit, heb je sneller de kans dat dat over je gehele storage platform gebeurd. In een Ceph cluster die ik aan het opzetten ben heb ik daarom ook 6 sandisks en 6 intel disks. (3 servers met 4 schijven p.s.)

Kees BOFH @DannyvdM • 18 april 2017 14:26

Deze schijven komen allemaal bij Dell vandaan en het zijn allemaal Intel S3510's. Als ze allemaal gelijktijdig uitvallen hebben we inderdaad een probleem maar de kans daarop (en de kans dat ze binnen een paar dagen falen) lijkt mij niet overdreven groot *afklopt*.

daredevil__2000 @Kees • 18 april 2017 14:38

Ik neem aan dat jullie op deze servers iets van dell pro support Next businessday onsite hebben genomen of 4 uur mission critical?

Ik kan bevestigen dat de pro support van Dell erg goed is. Voor onze oude centrale storage hadden we een Dell EqualLogic. In 6 jaar tijd maar 5 defecte HDD's gehad. Wanneer dit midden in de nacht gebeurde werd ik netjes door Dell wakker gebeld met de vraag hoe laat de vervangende HDD per koerier afgeleverd kon worden en of ik daar wel of niet een engineer bij zou willen. De HDD is was dan nog geheel defect maar er werd een slechtere performance door unit geconstateerd waarop dus tijdig werd gehandeld.

Kees BOFH @daredevil__2000 • 18 april 2017 14:45

5 jaar NBD support zit er inderdaad op. De 4h mission critical is enigszins overdreven voor een cluster welke 3-dubbel is uitgevoert. Een disk kan dan makkelijk een dag later pas vervangen worden.

Er zit op deze servers (itt die van IBM/lenovo) helaas geen call-home functionaliteit, dus dell zou mij niet wakker bellen. Maar mijn eigen monitoring is goed genoeg dat ik dan zelf de dag erna bel en de dag daarna de disk kan vervangen

daredevil__2000 @Kees • 18 april 2017 15:05

@Kees dit zou je wel moeten kunnen inregelen op basis van de ingebouwde iDRAC en de Dell SupportAssistant. Zie ook pagina 7 van http://en.community.dell...._papers/20441294/download

Dus het is niet out-of-the-box direct actief maar het zou wel redelijk eenvoudig te realiseren moeten zijn

Kees BOFH @daredevil__2000 • 18 april 2017 15:26

Thanks

We zijn pas recent weer naar Dell overgestapt, dus ik heb nog wat bij te leren.

daredevil__2000 @Kees • 18 april 2017 15:51

Als je het op deze manier ingeregeld hebt hoef je dus niet meer zelf met support te gaan bellen en zij beschikken direct over de benodigde gegevens. In jullie geval zal de vervangende SSD dus maximaal een dag later bezorgd worden. Wij "misbruiken" onze storage beheer server voor het doen van de meldingen naar Dell voor zowel de vSphere servers als voor de Dell SAS compellent en het bijbehorende enclosure. Het grote voordeel van deze inrichting is dat je dus maar 1 server toegang hoeft te geven in de firewall en je jouw storage omgeving geen directe toegang tot het publieke internet hoeft te geven.

daredevil__2000 @Kees • 18 april 2017 15:56

Via de Dell lifecycle controller van deze servers kun je makkelijk updates doorvoeren. Zowel wat drivers betreft als voor firmware en het BIOS. Dit kun je centraal allemaal inregelen. Gezien het beperkte aantal servers die wij hebben staan staat dit bij iedere server gewoon op zich. Je dient dan gewoon te zorgen dat de server toegang tot het internet heeft en bij het opstarten van de server geef je aan dat je wil booten naar de dell lifecycle controller. Vanuit daar kun je dan aangeven dat je direct vanaf de online servers van dell wil updaten. Eventueel een private FTP behoord in deze setting ook tot de mogelijkheden

DannyvdM @Kees • 18 april 2017 14:43

In een duister verleden heb ik wel eens gehad dat we 60% van de schijven moesten vervangen in de eerste maand. Iets met de naam Maxtor. Maar dat is ook het enige moment dat ik het heb meegemaakt, of mee heb gekregen.

Dit is wel echt een flinke tijd terug, maar al die nachtelijke uren in het datacenter blijven je wel bij eigenlijk.

Kees BOFH @DannyvdM • 18 april 2017 14:46

Dat is wel vervelend inderdaad. Ik heb ooit 1 server gehad die elke schijf die we in een specifiek slot staken binnen een week dood kon krijgen en dan ook echt stuk. Daar hebben zijn we in 3 weken tijd 3 disks aan 'kwijt' geraakt totdat er een stuk ducttape over dat slot ging

daredevil__2000 @DannyvdM • 18 april 2017 14:20

Dus het is een beetje te vergelijken met een virtual SAN van VMware? De website van Ceph is niet echt heel duidelijk met zijn uitleg van hoe het in elkaar zit.

Die metadata servers zijn dan voor de raid achtige functionaliteit?

Als ik zo de spec van tweakers lees is er best veel hardware nodig om de opslag te realiseren. Ik vraag met toch af of een SAS-compellent zoals wij die hier hebben staan dan niet al snel goedkoper gaat zijn.

Kees BOFH @daredevil__2000 • 18 april 2017 15:14

De metadata servers doen alleen het 'cephfs' gedeelte van ceph. Dat is - heel kort gezegt - een drop-in replacement voor NFS dat wij tot nu toe gebruiken (maar dan wel veel schaalbaarder en high available).

Ik weet niet wat een virtual SAN van VMware is, maar ceph is inderdaad een 'software defined storage' omgeving waarbij ik dit cluster als virtuele SAN gebruik. In het geval van de VM's gebruik ik de 'iscsi' variant RBD voor het opslaan van de images zodat alle 3 de VM servers bij dezelfde images kunnen komen.

joker1977 @Kees • 19 april 2017 20:56

Virtual SAN van VMWare is dat je in de hosts local storage zet die met mekaar via de vCenter-server gedeeld en redudant wordt uitgevoerd. Dus bv. 7 hosts die allemaal met local storage uit zijn gerust en waar vSphere er 1 datastore van maakt (waar alle hosts dan mee kunnen werken).

http://www.vmware.com/con...virtual-san-datasheet.pdf

[Reactie gewijzigd door joker1977 op 23 juli 2024 07:47]

Perkouw Moderator GCC 18 april 2017 12:57

Interessante upgrade. Gezien we nu over zijn op een volledig SSD-platform, is er ook prestatiewinst geboekt bij het serveren van pagina's. Ben wel benieuwd naar de overall performance winst als die er is.

En ja, gewoon voor de l0lz.

Bigs @Perkouw • 18 april 2017 13:04

In de praktijk zal dat wel meevallen voor deze aanpassing denk ik; alle 'warme' content, dus afbeeldingen van frontpage artikelen of avatars van users in actieve topics, zitten over het algemeen toch al in de cache van de webservers. Het voordeel van SSD's is vooral dat de impact niet zo groot is als die caches een keer geleegd worden, plus dat je natuurlijk sneller zaken weg kunt schrijven.

Kees BOFH @Bigs • 18 april 2017 14:23

Klopt, de voornaamste winsten zie ik in de performance van mijn VM's (en daar draaien alleen dingen op die de eindgebruiker niet raken zoals Jenkins e.d.).

Verder zie ik een enorm voordeel op het moment dat er grote video's worden geupload; vroeger blokkeerde het schrijven van een 4-5G grote videofile soms alle operaties op de storage waardoor alle webservers ineens met een load van 100+ zaten en een hele rits apache proccessen in de 'D' state, of in het ergste geval zelfs tweakers helemaal onderuit trokken.

En daarnaast zijn SSD's gewoon hip en paste het in het budget

Bigs @Kees • 18 april 2017 14:26

Hehe.. atijd frustrerend als storage systemen (die zonder SSD's) ineens trager zijn dan de SSD in je laptop

SSD's zouden gewoon de norm moeten zijn in servers, maar helaas heeft nog niet iedereen het budget daarvoor.

daredevil__2000 @Bigs • 18 april 2017 14:50

Naast het budget heb je natuurlijk ook nog het doel waarvoor het wordt gebruikt. Daarom maken wij op het werk bijvoorbeeld gebruik van een SAS compellent met een extra enclosure er aan. De compellent zelf heeft SAS HDD's en SSD's. Op de SSD's zit een volume met caching en de SAS HDD's zijn vervolgens voor de opslag. In de encolusure zitten vervolgens SATA HDD's aangezien deze puur voor de backup worden gebruikt. Met alle deduplicatie enz. hebben snellere disken verder ook geen nut.

Naast dat het voor mij dus weinig nut heeft om in zo'n configuratie volledig op SSD's te gaan draaien zou het ook een flinke aanslag zijn op mijn budget. En gezien het om een onderwijsinstelling gaat betekent dat dat je ergens anders op zou moeten bezuinigen om hier meer budget voor vrij te maken. Ik begrijp dus wel waarom bedrijven voor andere oplossingen kiezen.

b2vjfvj75gjx7 18 april 2017 12:51

.mentionDiv.dropdown ul li .thumb img {
width: 100%;
height: auto;
}

Nog even deze code doorvoeren en de avatars passen weer in de typeahead-preview

crisp Senior Developer @b2vjfvj75gjx7 • 18 april 2017 14:04

Thanks, bij deze gefixed

ShadowLord

18 april 2017 13:38

Waarom hebben de Metadata servers geen SDD? Binnen het kostenplaatje moet dat vast nog wel gepast hebben. Zit er nu alsnog een HDD bottleneck in het systeem?

Kees BOFH @ShadowLord • 18 april 2017 14:27

Het waren 'oude' servers die ik nog had liggen. Maar de metadataservers doen vrijwel niets met hun disks, al het werk gebeurd in het geheugen. SSD is daar overkill.

svennd 18 april 2017 13:46

5 'overhead' bakken voor 6 storage bakken, voor een totaal aan 16TB storage ... waw. Ik ben per direct geboeid waarom Ceph ...

Wanneer wordt dit als efficient gezien ?

Een achtergrond artikel van Ceph mag wel eens langskomen

m-m @svennd • 18 april 2017 14:13

Wat is efficiënt? Je kunt het eigenlijk niet vergelijken met een RAID 1 pizzadoos met ZFS.

Je bent met een dergelijke ceph-opstelling inderdaad meer diskspace kwijt (alles 3x in plaats van 2x) maar je krijgt er wel een high available cluster voor terug dat ook lekker schaalbaar is naar hoeveelheden storage die je sowieso niet in een simpelere oplossing kwijt gaat kunnen.

Mijn werkgever heeft nu ongeveer een half jaar twee ceph clusters in omgeving en tot nu toe absoluut geen spijt van deze keuze.

Op dit item kan niet meer gereageerd worden.

Community Pick: Mention-tag mogelijk maken in reacties onder artikelen

Aangepaste karma-beloning voor V&A-advertenties

Zoekbalk boven aan elke pagina in de Pricewatch

Nieuwe centrale opslag: van ZFS naar Ceph

Bugfixes

Lees meer

IT-banen

Reacties (90)

Sorteer op:

Weergave: