Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Je kunt ook een cookievrije versie van de website bezoeken met minder functionaliteit. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , reacties: 25, views: 23.003 •

Amazon heeft laten weten dat er op zijn S3-cloudopslagsystemen inmiddels twee biljoen objecten zijn opgeslagen, een verdubbeling in nog geen jaar tijd. Daarnaast verwerkt het bedrijf op piekmomenten tot 1,1 miljoen requests per seconde.

Amazon Web ServicesDat het publieke cloudplatform van Amazon mede dankzij klanten als Dropbox en Netflix snel groeit, was al langer bekend. Het bedrijf heeft echter meer inzicht gegeven in de enorme hoeveelheden data die er op zijn Web Services-systemen zijn opgeslagen. Volgens AWS-topman Jeff Barr zijn er inmiddels twee biljoen opgeslagen objecten op de S3-servers te vinden, een verdubbeling die sinds juni 2012 zou hebben plaatsgevonden. Over de eerste biljoen, ofwel 1012, objecten op het S3- opslagplatform deden de klanten van Amazon nog zes jaar.

Een object is niets meer of minder dan een bestand zonder een gedefinieerde bestandsgrootte. Helaas meldt Amazon niet wat de gemiddelde grootte is van een file, waardoor moeilijk is na te gaan hoeveel opslagcapaciteit er ruwweg nodig zou zijn binnen de S3-infrastructuur. Wel wil het bedrijf nog kwijt dat het op piekmomenten tot 1,1 miljoen requests per seconde verwerkt; in januari 2012 noteerde Amazon nog maximaal 500.000 requests per seconde.

Analisten verwachten dat Amazon, thans de marktleider in het aanbieden van publieke clouds, de komende jaren marktleider blijft en rond 2020 mogelijk een marktwaarde heeft opgebouwd van 20 miljard dollar. Het bedrijf krijgt wel steeds meer concurrentie; eerder deze week kondigde Microsoft nog aan dat Windows Azure elke prijsverlaging van Amazon zal volgen.

Reacties (25)

"eerder deze week kondigde Microsoft nog aan dat Windows Azure elke prijsverlaging van Amazon zal volgen."
Dat heet dus concurrentie ;)

Het lijkt wel alsof Amazon een geheim maakt van de werkelijke hoeveelheid data. Een object is namelijk iets dat ze zelf hebben gedefinieerd. Dropbox maakt gebruik van een algoritme dat bestanden herkent die op elkaar lijken en slechts het verschil opslaat. Als het maar om kleine verschillen gaat dan is zo'n object misschien een paar byte of kb. Het blijft in ieder geval vrij mysterieus.
Dat van dat algoritme wist ik niet. Wel knap mechanisme om zo de opslagcapaciteit omlaag te brengen al snap ik dan ook wel weer dat sommigen hier uit privacy overwegingen minder voor voelen. (al kan ik mij niet voorstellen dat iemand het algoritme/de bestanden controleert imho)
Als het goed is dan merk je daar als gebruiker niets van. Daarbij gaat het om het zelfde bestand met de zelfde inhoud.
Het is en blijft een feit dat je je data naar een derde partij stuurt. Onafhankelijk van hun opslagmethode weet je eenvoudigweg niet wat er mee gebeurt. Zelfs als het bedrijf hoog aangeschreven is en over het algemeen te vertrouwen weet je niet hoe dat met de individuele medewerkers zit.
Het is veiliger om de data eerst te versleutelen alvorens deze op te slaan. De encryption key kun je vervolgens lokaal bewaren of nog beter, fysiek achter slot en grendel. Veel S3 backup software biedt die mogelijkheid. Je levert echter wel flink prestatie in voor veiligheid.
Al met al een flink verhaal optimalisatie en efficiŽntie, niet verwonderlijk dat hier vele studies aan zijn gewijd.
Daarbij vraag ik me ook af hoeveel % van die objecten nog 'hot' zijn. Ik heb het idee dat veel partijen bucket deletion helemaal niet implementeren. TwitPic stored alles naar S3, maar als ik een afbeelding wis blijft die nog gewoon op S3 staan. Idem voor vele andere diensten/sites. Dat is ook een interessant gebied: stel ik wil een afbeelding wissen maar de dienst die ik gebruik (en op zijn beurt S3 gebruikt) wist vervolgens die bucket niet. Kan ik Amazon dan dwingen handmatig die bucket te wissen?
Heb je een bron waaruit blijkt dat sommige diensten hun S3 objects niet wissen?
Eigen bevindingen (controleren of directe paden blijven bestaan) en een bevestiging per mail van TwitPic dat dit bij hen policy is.

[Reactie gewijzigd door Rick2910 op 19 april 2013 11:16]

Heb je een bron waaruit blijkt dat sommige diensten hun S3 objects niet wissen?

Het zou me verbazen als ze dat niet doen, aangezien het juist bij een pay-as-you-go dienst als S3 verstandig is geen onnodige data te laten slingeren. Je betaald immers voor elke gigabytemaand en zelfs een deel daarvan. Elke optimalisatie loont zich in je maandelijkse factuur.
Dat vraag ik me ook af. Wist dat alle bestanden gehashed werden maar heb geen idee hoe ze bestanden kunnen vergelijken met elkaar zonder ze te openen (wat volgens mij zelfs niet kan).

Git (github) werkt ook met hashing, maar die worden effectief gedecodeerd om vervolgens bestanden te updaten of te mergen.

Iemand hier een antwoord op?
Zelfs al lees je een bestand hoef je nog niets met de inhoud te doen. Zolang je de data niet interpreteert is het slechts een reeks cijfers zonder betekenis. Dan kan je nog steeds zien dat er maar een klein verschil tussen 2 bestanden zit.
De bestanden worden niet 'hashed' maar 'encrypted'. Een ieder die in het bezit is van de encryption-keys kan bij de data. Github is er van in het bezig, Dropbox is er van in het bezit: Ze kunnen bij je data ;).
Je kan in de objectstorage S3 in de metadata van je object bijvoorbeeld een md5 hash stoppen en deze opslaan in een database.

Elke keer als je een object upload kan je deze hash genereren en vergelijken met object. op basis hiervan maak je een beslissing om het bestand te uploaden of een verwijzing te maken naar het originele bestand wat dan aanwezig is todat de laatste versie verdwenen is. Dit is een simpele vorm van de-duplicatie
Dat vraag ik me ook af. Wist dat alle bestanden gehashed werden maar heb geen idee hoe ze bestanden kunnen vergelijken met elkaar zonder ze te openen (wat volgens mij zelfs niet kan).
Vergelijken is simpelweg de hashes vergelijken.

Ze hashen per block-grootte (uit mijn hoofd dacht ik 4Mb) dus als er 1 block dezelfde hash heeft wordt hij niet opnieuw opgeslagen.

Het enige is dat ze dit vroeger service-breed deden waardoor er piracy issues waren (als je de juiste hash naar de server stuurde kreeg je het bestand in je dropbox te staan) en tegenwoordig doen ze dit account-gebaseerd.
Dit heet dedublicatie en kan al jaren in de "enterprise" markt gebruikt worden. Het scheelt soms enorm veel data opslag en zeker in de backup wereld is het erg populair.

Visueel is het erg makkelijk te begrijpen

In de storage markt is dit meestal op block niveau wat betekend dat niet de bestanden gededupped worden maar daadwerkelijk de blokken data. Dus ook al heb je niet precies dezelfde data is er nog steeds winst te behalen.

[Reactie gewijzigd door dycell op 19 april 2013 00:16]

Nou ja dat mechanisme is niet zo baanbrekend hoor. Gewoon slim geimplementeerd. Neem bijvoorbeeld de incremental backups bijv.. dat kan je hier wel enigszins mee vergelijken.

Met mijn Synology CloudStation kan ik bijv standaard al 32 versies bijhouden van elk bestand. ;-)

Ontopic: Microsoft volgt Amazon.. nu maar hopen dat het alleen maar goedkoper wordt...
"eerder deze week kondigde Microsoft nog aan dat Windows Azure elke prijsverlaging van Amazon zal volgen."
Dat heet dus concurrentie ;)
Of prijsafspraken... (just my tuppence...)
De dataopslag capaciteit moet in de petabytes lopen. Met een behoorlijk aantal servers eraan gekoppeld want 1.1 miljoen request per seconde is meer dan de gemiddelde ddos aanval die een bank op zijn knietjes krijgt.
De dataopslag capaciteit moet in de petabytes lopen. Met een behoorlijk aantal servers eraan gekoppeld want 1.1 miljoen request per seconde is meer dan de gemiddelde ddos aanval die een bank op zijn knietjes krijgt.
Bij de DDos-aanvallen gaat het niet alleen zozeer om het aantal requests als wel om de hoeveelheid data die over de lijn heen gaat. Daar komt bij dat Amazons verdienmodel gebaseerd is op het aanbieden van zo enorm veel capaciteit, en een bank alleen baat heeft bij aanbieden van capacititeit voor een veel kleiner aantal klanten. Amazon kan er ook nog eens voor kiezen om de load te verdelen over tal van datacenters en access nodes wereldwijd, terwijl de meeste banken in Nederland voornamelijk capaciteit in Nederland (of in Europa) benutten.
Maar goed, de vergelijking gaat sowieso wel mank daar het hier om totaal andere situaties gaat ;).

------------

2 biljoen is wel een bizar hoog getal, hoewel "object" wel een breed begrip is. Als ik alleen al bedenk hoeveel "objecten" ik in mijn Dropboxmap heb staan, kan ik wel een zachte indruk maken van als Šlle Dropboxgebruikers wereldwijd + Netflix + alle andere diensten bij elkaar opgeteld worden.

Ik herinner me nog dat Amazon jaren geleden aankondigde met clouddiensten in de weer te gaan, en ik dacht "huh, dat is toch een soort Amerikaanse Marktplaats"? Typisch gevalletje van goed te markt in weten te schatten, inspelen op de vraag en professioneel uitvoeren. Netjes gedaan :).

[Reactie gewijzigd door Eagle Creek op 18 april 2013 19:43]

Erg knappen cijfers imo. Wel slim van Amazon eigenlijk dat ze hier enkele jaren terug in gestapt zijn. Het begint zich echt te ontpoppen tot nieuwe betrouwbare cloud-dienst.
Ik heb al tijden amazon s3 als backup voor mijn foto's op mijn synology nas, amazon en synology hebben een fijne samenwerking, gewoon met een wizard alles instellen en klaar ben je. Voor pakweg 25 GB aan foto's betaal ik nu ongeveer 3 euro per maand.

Ik vind het heerlijk werken, had laatst 1 keer een foto uit een backup nodig en dat werkte prima. Ik hoop het natuurlijk nooit nodig te hebben, maar ik vind het persoonlijk fijner werken dan andere diensten door de native synology ondersteuning.

Ik schat het als klant ook in als een van de betere cloudservices voor thuisgebruik, vele malen beter dan een dienst als van je internet provider (zie bijv. kpn ellende hiermee).
crashplan betaal je ook iets van 3E voor onbeperkte opslag :) en werkt ook nog als een tiet,

daarnaast doet het ook aan deduplicatie, waardoor minder verbruikt. Ik heb iets van 600Gb in backup staan, waarvan maar 400G echt daadwerlijke disc space is. Datadeup is aardig effectief.

[Reactie gewijzigd door xelnaha op 18 april 2013 20:30]

Als het echt alleen voor backup is kun je misschien beter Amazon Glacier eens bekijken. Je kan op S3 instellen wanneer je een object naar Glacier wilt verplaatsen (na 30 dagen ofzo). Wanneer het op Glacier staat duren retrievals wel lang (een paar uur), maar de opslagkosten zijn slechts $0.01 per GB per maand.
dat kan met crashplan ook, kunt ook naar vrienden backuppen en zij naar jou etc (wat trouwens gratis is). trouwens met 0.01$ zit ik al snel op meer dan wat ik nu betaal.
heb zelf de cloudopslag van Pogoplug (niet zo'n kastje, tegenwoordig hebben ze ook daadwerkelijk cloud-opslag). Voordeel daarvan is dat je ook net als bij dropbox overal bij je bestanden kunt via een virtuele harde schijf op je pc, of via het web of met een App (android en iPhone).

dan heb je dus online backup, en je kan er ook nog eens doorheen bladeren zonder het op te slaan op je devices. en de kosten zijn 5 dollar per maand. dus je betaald wel wat meer dan bij Crashplan, maar je hebt ook meer functionaliteit. heb zelf de trail van crashplan gebruikt en die beviel ook erg goed, goede uploadsnelheden ook.
Glacier is mooi voor backup, maar niet voor recovery. Het kan uren duren voordat je je data krijgt, en is relatief prijzig. Als je data binnen 3 maanden verwijderd van Glacier betaal je zelfs extra. Het is een mooi systeem voor lange termijn opslag, zolang je op de hoogte bent van de voorwaarden.

Ik heb zelf Crashplan geÔnstalleerd op mijn Synology, en maak daarbij gebruik van een Family Unlimited abo. §4,50 per maand voor onbeperkte data op 10 machines is echt een koopje. (Was een aanbieding bij 4 jaar vooruit betalen).
Ik ook al meer dan een jaar erg tevreden Crashplan user! Zo'n 700GB online :)
Amazon: aantal S3-objecten in nog geen jaar verdubbeld tot 2 biljoen
Deze titel deed me in eerste instantie even denken dat er in de webwinkel van Amazon wel 2 biljoen Samsung Galaxy S3 hoesjes en andere accesoires te vinden zijn ;)

Op dit item kan niet meer gereageerd worden.



Populair:Apple iPhone 6Samsung Galaxy Note 4Apple iPad Air 2FIFA 15Motorola Nexus 6Call of Duty: Advanced WarfareApple WatchWorld of Warcraft: Warlords of Draenor, PC (Windows)Microsoft Xbox One 500GBTablets

© 1998 - 2014 Tweakers.net B.V. Tweakers is onderdeel van De Persgroep en partner van Computable, Autotrack en Carsom.nl Hosting door True

Beste nieuwssite en prijsvergelijker van het jaar 2013