Wikimedia vergroot opslag mediaserver naar 48TB

De organisatie achter Wikipedia bereidt zich voor op een stijging van de hoeveelheid digitale content die het op zijn servers moet opslaan. De opslagcapaciteit van de mediaserver van de stichting is in een jaar tijd vergroot van 2TB naar 48TB.

Behalve het flink vergroten van de opslagcapaciteit van de primaire bestandsserver, is de afgelopen tijd ook de uploadlimiet voor bestanden opgeschroefd van 20MB naar 100MB. Hoewel er momenteel 'slechts' 5TB van de opslag wordt benut, verwacht Brion Vibber, technisch directeur van de Wikimedia Foundation, dat dit in rap tempo zal stijgen.

De nieuwe servers en de opslag voor deze uitbreiding zijn geleverd door Sun, die behalve een financiële bijdrage ook korting gaf op de aanschaf van enkele Sun Fire x4500- and x4150-servers en StorageTek-arrays. Suns MySQL werd al gebruikt als primaire databasesoftware om de meer dan tien miljard pageviews per maand te helpen serveren, schrijft PC World.

Wikimedia, de organisatie achter Wikipedia, gebruikt in totaal ongeveer 450 servers van verschillende fabrikanten. Het primaire datacentrum staat in Florida, waarbij er ook nog gebruik wordt gemaakt van datacentra in Amsterdam ten behoeve van de caching.

Begin dit jaar maakte Wikimedia bekend dat een grootscheepse actie om donateurs te vinden succesvol is afgerond, waarbij er ruim zes miljoen dollar aan giften op de rekening kon worden bijgeschreven. Het geld zal onder andere worden gebruikt voor het onderhoud en uitbreiding van het serverpark. Daarnaast moeten met de verworven fondsen ook de salarissen van de 23 Wikimedia-medewerkers worden betaald en wil de stichting de gebruikte opensource-software verder ontwikkelen.

Door Wilbert de Vries

19-01-2009 • 15:36

67 Linkedin

Reacties (67)

67
53
7
2
0
1
Wijzig sortering
Ja ja ja.. Iedereen weet dat het 6 miljoen is.. Nou stoppen daarmee, het zal echt wel veranderd worden |:(

/ontopic.
Ik had echt niet door dat wikipedia zoveel data gebruikte, maar ja.. Wikipedia is ook best wel groot, in de afgelopen 2 jaar heb ik wikipedia steeds meer en meer gebruikt, omdat de data daarvan heel erg behulpzaam is, en zeer correct. Ik hoop dat zelf ook dat Wikipedia lang mag blijven bestaan. Het innitiatief is goed enz.. Maar zeg nou zelf..

Van de 5TB die ze nu gebruiken.. en dan upgraden naar 48TB.. dat is gewoon OVERKILL..
en daar gaan dan de centjes van de donateurs.. hier zou ik me dus kwaadgemaakt over hebben ALS ik geld had gegeven.. sorry hoor.. maar dat is gewoon weggegooid geld :+
Vergeet niet dat met het stijgen van de bandbreedte, het populairder worden van HD-materiaal en het steeds krachtiger worden van computers, de bandbreedte ook exponentieel stijgt per jaar, ipv lineair. Waarschijnlijk is deze schijfruimte over 3 jaar al niet meer voldoende, misschien max 5 jaar.
Denk dan ook dat ze meer van plan zijn.. zoals boven al gezegd is. ;)
Dat is absoluut geen weggegooid geld. Dat het investeren voor de toekomst. Nu is het overkill, maar over twee jaar nier meer. Waarom dan nu niet al vast zekerheid regelen voor over twee jaar als je nu het geld er voor hebt?

[Reactie gewijzigd door dev10 op 19 januari 2009 15:49]

Ben het ergens wel met em eens. Moet je de prijzen van twee jaar geleden eens opzoeken, die zijn veel hoger dan nu. De ontwikkelingen gaan zo snel, het is zonde om nu hardware te kopen die je nog niet van plan bent te gebruiken. Hetzelfde spul kost over een jaar misschien nog maar de helft.
(en ja, snap dat je zo een grote order kunt maken en korting kunt bedingen)
Omdat de schijven die ze nu kopen over een half jaar nog maar de helft kosten? Oftewel: zet nu 8TB (beetje op overschot mag wel), en wacht even met de rest & zet iets later effectief het dubbel neer voor evenveel kosten (en dan pluk je nog even rente van het geld ook)

Zeker in de informatica-sector heeft het niet veel zin om onnodige capaciteit op te bouwen vermits je diezelfde capaciteit een tijdje later, als je ze wel gaat nodig hebben, voor een fractie van de prijs kan kopen...
De nieuwe servers en de opslag voor deze uitbreiding zijn geleverd door Sun, die behalve een financiële bijdrage ook korting gaf op de aanschaf van enkele
Kortom: ze krijgen een mooie deal aangeboden en hebben die aangenomen. Nu zitten ze save voor de komende tijd. En hoeveel tijd dat is dat kan niemand weten want als er bijvoorbeeld straks filmpjes bij gepost mogen worden dan schiet het verbruik hard omhoog......
Over 2 jaar kosten de harde schijven VEEL minder dan nu. Daarom is het weggegooid geld. Als ze nu naar 20TB waren gegaan, had ik het kunnen begrijpen. En over een jaar naar 48TB, dat bespaard je ECHT wel geld hoor!

(met andere woorden, geld opzij zetten voor over een jaar.. )

[Reactie gewijzigd door Lightmanone1984 op 19 januari 2009 15:51]

Dat dachten wij hier ook toen we van databaseserver wisselden: 2x Xeon met HT, 4GB geheugen en 4x 73GB WD Raptor RAID-10 -> 2x Xeon 5130 dualcore, 12GB geheugen en 4x160GB WD Raptor RAID-10. Leuke upgrade, maar na 4 maand trok die bak het niet meer en konden we nog eens: 2x Xeon L5420, 32GB geheugen, 6x Cheetah 15K SAS 300GB RAID-10. Deze keer hebben we gekozen voor een moederbord met 16 slots en 4GB per module.
Je kunt nu gaan besparen op kosten voor een server, maar als je na een jaar of nog eerder de hele boel weer moet verbouwen kost het je nogmaals tijd, geld en evt downtime.
Ja en over 2 jaar kosten ze dan VEEL minder dan over 4 jaar, zo kan je doorgaan en nooit investeren in de toekomst. Je moet op een gegeven moment gewoon de knoop doorhakken en het doen.

Ik hoor overigens net op de radio dat ze bezig zijn met 2TB SSD's. Allemaal heel leuk en aardig maar ik heb nog niemand gezien die alleen maar SSD's gebruikte.
Sorry maar in het bedrijfsleven is het heel gebruikelijk om minimale systemen neer te zetten en die ALS het nodig is uit te breiden. Dat is juist een reden voor een san, webserver farms enz enz. Daarnaast gebruikt met SUN storage oplossingen. Laat SUN nu juist een goedkoop systeem hebben wat ssd met grote Sata disks combineert. In mijn ogen is 48 tb dus overkill tenzij wikkipedia opeens veel grote bestanden gaat toelaten en dit systeem in een jaar of twee volstaat. Maar dat verwacht ik in ieder geval niet.
Gelukkig denken bedrijven niet in de vorm van: "binnen een paar jaar zien we wel weer"
Zoals in het artikel te lezen is Wikipedia meer van plan dan alleen ruwe data en afbeeldingen te serveren. Waarschijnlijk gaan ze in de toekomst ook Video en Audio leveren, en dan is 20TB in het begin misschien genoeg, maar ook dat zal gauw vollopen. Nu hebben ze het geld, over twee jaar misschien niet meer.
Zo blijf je bezig natuurlijk. In de consumentenmarkt werkt dat hetzelfde. De wet van Moore valt nu éénmaal niet te ontwijken.

http://nl.wikipedia.org/wiki/Wet_van_Moore
Koop jij ook pas over 3 jaar die nieuwe videokaart die je wilt hebben omdat die dan goedkoper is? Nee want die is dan ook hopeloos verouderd.
het is niet echt een kunst om dit te voorspellen. Elk mens die een beetje nadenkt snapt wel dat de prijzen gaan zakken..
Voor die 48 TB hebben ze max 1 miljoen voor nodig... Iets in mij zegt dat ze nog véél meer van plan zijn.
@ Lightmanone1984
Overkill of niet, ze moeten wel vooruit kijken naar wat er allemaal te komen staat.
De uploadlimit is ook opgeschroeft van 20MB naar 100MB per file.
Dat zal ook de nodige impact hebben.

[Reactie gewijzigd door ]Byte[ op 19 januari 2009 15:51]

Anoniem: 176826
@]Byte[19 januari 2009 15:53
Als je even verder had gelezen, dan wordt er in de laatste alinea vermeld dat er ook nog personeel van betaald wordt.

23 man, 1659 uur per jaar a 60 euro is toch ook weer 2,3 miljoen.

n.b. 1659 uur per jaar is de "onderwijsnorm", ik weet het. 60 euro per uur is een redelijk standaard norm in de IT voor de kosten van een eigen medewerker. Op basis daarvan is die 2,3 miljoen nog niet eens zo veel.
Zelfs die 2,3 miljoen is niets vergeleken met de donaties die ze verkregen hebben (volgens het artikel zes miljard dollar).

EDIT: Was ook al andere bronnen aan het raadplegen ... het is dus 'maar' 6 miljoen.
Sorry hiervoor :-)

[Reactie gewijzigd door Nullius op 19 januari 2009 16:06]

Ligt het aan mij of is 2 TB nu niet zo bijzonder veel voor een mediaserver?
Wanneer die hoofdzakelijk gebruikt wordt voor foto's, zal dat meer dan voldoende zijn (2 miljard foto's van 100kb). Maar van zodra er video's bijkomen, is 2TB eerder peanuts. Mijn fileserver hier thuis heeft al dubbel zoveel capaciteit...
Maar draai jij ook backups daarvan met regelmaat en heb je daar redundantie bij ingebouwd dmv Raid1 of 5?
Anoniem: 247354
@Umbrah19 januari 2009 16:14
RAID5, maar zonder regelmatige backups. De belangrijkste zaken, zoals foto's & documenten, worden af en toe op externe HD gekopieerd.

Maar mijn punt was gewoon dat, volgens mij, de wikimedia servers tot nu toe voornamelijk foto's bevatten, en dan nog foto's van zo'n 50-500kb. Daarvoor heb je geen gigantische opslagcapaciteit nodig. In de toekomst zullen meer en meer artikels waarschijnlijk ook video's bevatten (zoals bvb enkele filmpjes van de US Airways crash bij het artikel), wat volgens mij de reden is dat ze nu zo een grote upgrade doen.
De vraag blijft natuurlijk wat is het nut van dat soort filmpjes? Ik bedoel het is leuk voor de mensen die het hebben mee gemaakt om nog eens aan hun kinderen/klein kinderen te laten zien, maar daar na is het nog belangrijk om te bewaren heeft de mensheid als geheel iets aan dit soort informatie?

Ik kan me voor stellen dat filmpjes van bijvoorbeeld de instalatie van een president bewaard worden, net als belangrijke toespraken of het ondertekenen van verdragen, maar nieuws items?
Het risico is dat wikipedia ten onder zal gaan aan haar eigen wil om dit soort "kennis" van lokale nieuws berichten etc op te slaan en beschikbaar te maken. Want anders dan de mensen die direct bij de crash betroken waren en de mensen die er onderzoek naar doen spreekt over een maand niemand hier meer over, gewoon omdat het niet belangrijk is voor hun of de mensen om hun heen.
Je vraagt eigenlijk naar het nut van een openbaar nieuwsbeeldenarchief. Zoek voor de lol eens op hoeveel aanvragen men zo bij nieuwsdiensten wel niet te verwerken krijgt. Mij lijkt het voor de hand liggend dat live beelden bijhouden van belangrijke momenten uit de geschiedenis op een openbaar beheerd netwerk intrinsieke waarde heeft. Hoe relatief belangrijk pakweg een vliegtuigcrash is valt te bezien, maar de servers zijn publiek beheerd dus als iedereen het zo nutteloos vindt als jij raakt het vast wel verwijdert na verloop van tijd.

Aan de andere kant, deze 48TB is maar het begin...
Waarom denk je dat ze het verhoogd hebben ;)
Daarom is het nu ook 48 TB :)
Om dat te vullen met bestanden < 20MB (en waarschijnlijk vooral <2MB) kan best wel even duren.

Tis nu maar wachten op de eerste onderzoek die zegt hoeveel energie het kost om 1 wikipedia-pagina te openen.
kan ik wel voor jou ramen:
450 servers à 250W = 112,5Kw
112,5Kw * 30,48 * 86400s = 296265600Kj
296265600Kj / 10^10 requests = 29,62656 Joule

Oftewel in de ordegrote van 30watt×seconden.

Als we er nu vanuit gaan dat een request 0,1sec duurt, nou dan 'belast' je voor de duur van die 0,1sec 300watt! :D


Dit zijn dus écht peanuts!

[Reactie gewijzigd door Paul C op 19 januari 2009 16:42]

Ehm, mooi sommetje maar 30x0.1 is toch niet 300?

Maar goed dat daar gelaten ik betwijfel of de servers een constante 250W uit het lichtnet slurpen. Ik denk dat het eigenlijke verbruik wat lager zal zijn omdat er ook heus wel een aantal van die servers zich zal staan vervelen dan wel een backup aan het maken is waardoor hij juist gedurende langere tijd een hoog verbruik heeft zonder dat er een echte belasting is van het oog punt van de gebruiker.
Nee, maar 0.1 seconde maal 300Watt is 30 Watt*seconde, wat volgens pcmadman de energie is die 1 query kost.
Waar haal je die 450 servers in godsnaam vandaan :) wellicht van de wikipedia maar in denk dat 450 servers wat overkill is voor deze website.

Ik neem aan dat een bedrijf als wikipedia gewoon een SAN gebruikt voor opslag van videomateriaal, mochten ze sata schijven gebruiken heb je aan 3 disk cabinets (12Units in rack) meer dan genoeg. Mochten ze SAS gebruiken (aannemelijker) dan nog hebben ze enoeg aan 24 disk cabinets wat ongeveer 1,5 rack in beslag zou nemen. Dan nog wat load balancers en wat webservers, al met al kom je op minder KW uit als jij zegt. Maar goed het enige wat we hier doen is speculeren, wie weet zijn er wel ergens de 'specs' van wikipedia online te vinden.
Wikimedia, de organisatie achter Wikipedia, gebruikt in totaal ongeveer 450 servers van verschillende fabrikanten. Het primaire datacentrum staat in Florida, waarbij er ook nog gebruik wordt gemaakt van datacentra in Amsterdam ten behoeve van de caching.

staat gewoon in het stukje :)
Wikimedia, de organisatie achter Wikipedia, gebruikt in totaal ongeveer 450 servers van verschillende fabrikanten. Het primaire datacentrum staat in Florida, waarbij er ook nog gebruik wordt gemaakt van datacentra in Amsterdam ten behoeve van de caching.
Ik denk dat jij het wat onderschat. Met 10 miljard page-views per maand ( bijna 4000/s ) denk ik dat het een en ander ook wel redundant uitgevoerd is.

Je moet niet denken dat dat door 1 simpel servertje opgelost kan worden.
Ik heb de caching gezien. Dat zijn 60 servers, als ik zo even snel schat. 450 vind ik geloofwaardig.

Rob Coops: Total AC Power In Use : 959W

Dat zijn twee dual Xeon blades. Delen door twee en je weet wat een dikke server _gemeten_ gebruikt. Exclusief koeling. Om een kilowatt te koelen heb je zeker 250W nodig. Da's 1250W voor twee machines. Doe je het rekensommetje zelf?
om een kilowatt te koelen, heb je n kilowatt nodig, wet van behoud van energie.
48TB is toch helemaal niet zo veel
Nou het is wel veel maar voor een groot bedrijf als Wikipedia vind ik niet
Rapidshare heeft bijvoorbeeld een paar PB

[Reactie gewijzigd door HitDyl op 19 januari 2009 16:36]

Ze deden het met 2 TB. Daarmee vergeleken is 48 TB toch een hoop meer. Daarnaast hadden ze een limiet van 20MB. Maar zulke grote bestanden kom je niet zo heel veel tegen. De grootste die ik tegenkwam was op WikiSpecies, een plaatje van een plant van 4,5MB.
Om dan te gaan vergelijken met Rapidshare, waar iedereen upload wat hij/zij te uploaden heeft met een veel grotere limiet,tsja. niet helemaal gerechtvaardigd natuurlijk.
Als je weet dat er pakweg 10 miljoen artikels zijn op wikipedia staan, wil 48 TB zeggen dat er 48 TB / 10miljoen = 4.8 MB per artikel. De meeste artikels nemen pakweg 0.5 MB in, dus dan is 48 TB wel veel voor op het moment.

Voor in de toekomst kan dan anders worden, als er meer video's gepost gaan worden e.d.
Volgens mij gaat het hier om SSD's en dan is 48TB toch aanzienlijk wat. Rapidshare heeft geen baat bij snelle schijven (accesstimes), maar voornamelijk opslag is belangrijk, waardoor de logische keus op goedkopere hdd's valt.
ik snap die discussie niet van het wel overschot nemen op grote of juist wachten op dat het goedkoper is.
ik denk dat je een veel grotere risico loopt als je te weinig opslag date heb, zo moet je het over een jaar weer aanpassen en weer vergroten, zo loop je alleen maar achter de feiten aan. nu kan je er een een aantal jaar tegen aan als het aan mij ligt ;)

ze zullen vast een goede deal weten te sluiten om het toch zo betaalbaar mogelijk temaken.


De nieuwe servers en de opslag voor deze uitbreiding zijn geleverd door Sun, die behalve een financiële bijdrage ook korting gaf


dit betekend toch ook dat ze een donatie hebben gehad van Sun.
dus het zal vast een goede deal zijn geweest waardoor ze niet hoeven te wachten wat de toekomst ze zal brengen.
idd, naar mijn idee is het fijn om nog wat ruimte achter de hand te hebben. Op deze manier hebben ze ook wat ruimte om te gaan experimenteren.
En als je in 1 klap een aankoop doet kan je er meestal een mooi dealtje voor sluiten.

[Reactie gewijzigd door poepkop op 19 januari 2009 19:07]

ben heel erg benieuwd wat die beestje van Sun kosten. vermoed dat er voor die 48TB (ondanks de financiële meevaller) grof geld is neer geld?

Hadden beter even bij Dell aan kunnen kloppen om een Equallogic op de kop kunnen tikken van 48TB in 1 enclosure. PS5500E.

2 stuks verspreid over 2 continenten en klaar ben je.
2 naar 47 tb. Dat is nog eens een overstap. Ik ben blij dat ze het gedoneerd geld wel goed gebruiken :)
Anoniem: 276075
19 januari 2009 21:46
"Het primaire datacentrum staat in Florida, waarbij er ook nog gebruik wordt gemaakt van datacentra in Amsterdam ten behoeve van de caching"

Gaat dit over nederland, of is het datacenter in Amsterdam wereldwijd zo belangrijk?
(of misschien voor europa?)

[Reactie gewijzigd door Anoniem: 276075 op 19 januari 2009 21:52]

Wellicht is het je nooit duidelijk geworden, maar de AMSIX is de grootste exchange in de wereld. Daar vallen alle andere knooppunten, inclusief alles in Amerika, volledig bij in het niet. Als je iets wilt op wereldschaal is Amsterdam negeren gewoon geen optie.
Anoniem: 274606
20 januari 2009 08:04
Lijkt me eigenlijk alleen maar logisch. Terabytes hebben mensen (nu al) binnenkort gewoon in hun PC'tjes hangen. Wikipedia en alle andere projecten zullen in de toekomst blijven groeien en misschien was tot nu toe een terabyte of twee genoeg,maar met de integratie van video zal de opslagruimte enorm veel groter moeten zijn.

Natuurlijk kan je wachten tot opslag weer goedkoper is. Je kan altijd wachten, maar soms dwingt de realiteit je om te handelen. Misschien konden ze op dit moment gewoon behoorlijk goedkoop handelen met sun. Waarom zou je het dan niet doen?

@alle mensen die het over foutjes in het artikel hebben. Lezen jullie dan niet? Dat de eerste er nog intrapt en zich om laag laat modden, tja... Maar 10 keer in een artikel?

Op dit item kan niet meer gereageerd worden.

Tweakers maakt gebruik van cookies

Tweakers plaatst functionele en analytische cookies voor het functioneren van de website en het verbeteren van de website-ervaring. Deze cookies zijn noodzakelijk. Om op Tweakers relevantere advertenties te tonen en om ingesloten content van derden te tonen (bijvoorbeeld video's), vragen we je toestemming. Via ingesloten content kunnen derde partijen diensten leveren en verbeteren, bezoekersstatistieken bijhouden, gepersonaliseerde content tonen, gerichte advertenties tonen en gebruikersprofielen opbouwen. Hiervoor worden apparaatgegevens, IP-adres, geolocatie en surfgedrag vastgelegd.

Meer informatie vind je in ons cookiebeleid.

Sluiten

Toestemming beheren

Hieronder kun je per doeleinde of partij toestemming geven of intrekken. Meer informatie vind je in ons cookiebeleid.

Functioneel en analytisch

Deze cookies zijn noodzakelijk voor het functioneren van de website en het verbeteren van de website-ervaring. Klik op het informatie-icoon voor meer informatie. Meer details

janee

    Relevantere advertenties

    Dit beperkt het aantal keer dat dezelfde advertentie getoond wordt (frequency capping) en maakt het mogelijk om binnen Tweakers contextuele advertenties te tonen op basis van pagina's die je hebt bezocht. Meer details

    Tweakers genereert een willekeurige unieke code als identifier. Deze data wordt niet gedeeld met adverteerders of andere derde partijen en je kunt niet buiten Tweakers gevolgd worden. Indien je bent ingelogd, wordt deze identifier gekoppeld aan je account. Indien je niet bent ingelogd, wordt deze identifier gekoppeld aan je sessie die maximaal 4 maanden actief blijft. Je kunt deze toestemming te allen tijde intrekken.

    Ingesloten content van derden

    Deze cookies kunnen door derde partijen geplaatst worden via ingesloten content. Klik op het informatie-icoon voor meer informatie over de verwerkingsdoeleinden. Meer details

    janee