Samsung en Western Digital gaan samen 'zoned storage'-systemen ontwikkelen

Samsung en Western Digital kondigen een samenwerking aan om zoned storage-systemen te ontwikkelen. Het is de eerste keer dat de twee concurrenten op deze manier gaan samenwerken aan opslagproducten.

Samsung en Western Digital zijn beide fabrikanten van ssd's, hdd's en andere opslagapparaten. De twee concurrenten maken in een persbericht bekend dat ze gaan samenwerken aan een zoned storage-systeem. Zoned storage laat ssd's via zoned namespaces 'slim' data opslaan. Dat is het ssd-equivalent van de techniek die host-managed smr-hdd's gebruiken om te bepalen hoe data het efficiëntst kan worden opgeslagen. Deze technieken sorteren data op type, zodat de combinatie van ssd's en hdd's optimaal wordt gebruikt als het aankomt op snelheid, energiegebruik en levensduur.

De twee bedrijven streven ook naar standaardisatie van opslagtechnieken, al noemen de bedrijven nog geen concrete acties op dit gebied. Wel zijn Samsung en Western Digital samen een initiatief gestart voor zoned storage-zns-ssd's en smr-hdd's. De fabrikanten werken samen met de Storage Networking Industry Association en de Linux Foundation om nieuwe frameworks te ontwikkelen voor zoned storage-technieken.

De technieken zijn bedoeld voor enterprisegebruik en datacenters. Door samen te gaan werken hopen Samsung en Western Digital dat er minder fragmentatie ontstaat in de sector en dat opslagtechnieken niet onnodig complex worden voor ontwikkelaars.

Door Robert Zomers

Redacteur

30-03-2022 • 12:06

10 Linkedin

Reacties (10)

10
10
6
2
0
2
Wijzig sortering
2 bedrijven die gaan samenwerken aan standaardisatie van opslag technieken. Hoeveel standaarden willen we krijgen?

Deze bedrijven doen aan opslag op harde schijf of in ssd. Dat is blok-opslag en daarvoor zijn al jaren basis-standaarden, we schrijven naar een lokatie en daar achter aan een blok met een vaste hoeveelheid gegevens. Het adres van die lokatie was ooit in cylinder-track-sector mode en later gestandaardiseerd in wat ik nu een volgnummer zou noemen. Hoeveel meer is daar aan te standaardiseren?

Voor de out-of-band benadering en aansturing van de opslag systemen, daar valt wel wat eer te behalen: De s.m.a.r.t. standaard is daar al voor veel opslag systemen beschikbaar. Daar binnen een standaard op een rijtje zetten is welkom. Ik zou zeggen: kies er 1 die al gebruikt wordt en breidt die uit zodat alle functionaliteit die je kan verzinnen er op een logische en reële manier er in komt.

Daar tussen door de communicatie van het systeem naar de opslag: Pak de iso-osi standaard en zie wat je op welke laag wilt doen. Vul de lagen naarn keuze met scsi, i-scsi, ata, sata, fiber, fibre en dergelijke voor de onderste lagen. Op de hogere lagen dan de san en nas protocollen.

En daar dan tussen door hoe er met redundancy, wear-leveling en dergelijke om gegaan moet worden.


Werk genoeg lijkt mij maar zoek vooral aansluiting bij bestaande open standaarden zodat iedereen het ook goed kan en mag gebruiken. En biedt voorbeeld implementaties voor de bestaande open-source systemen.
Wat hier van wezenlijk belang is, is dat niet alle data hetzelfde is.
Sommige data gebruik je veel, andere nauwelijks. Sommige data schrijf je 1 keer en lees je dan vaak terug, andere data wordt vooral weggeschreven en maar zelden teruggelezen. Voor sommige data is een lage latency belangrijk, voor andere data is voor de doorvoorsnelheid van belang. Soms is data-integriteit het belangrijkste, soms de beschikbaarheid (en altijd de prijs).

We zien dit ook terug in het ontstaan van filesysteman als ZFS, BTRFS en CEPH die de traditionele grenzen van "filesysteem" vs "blockdevice" vs "raid" vs "cache" laten vervagen. De oude interfaces tussen die lagen zijn te beperkt en ook niet met een kleine aanpassing te moderniseren.
Deze bedrijven doen aan opslag op harde schijf of in ssd. Dat is blok-opslag en daarvoor zijn al jaren basis-standaarden, we schrijven naar een lokatie en daar achter aan een blok met een vaste hoeveelheid gegevens. Het adres van die lokatie was ooit in cylinder-track-sector mode en later gestandaardiseerd in wat ik nu een volgnummer zou noemen. Hoeveel meer is daar aan te standaardiseren?
Dat is toch al minstens 50 jaar niet echt waar? Er komt op z'n minst een filesysteem bovenop. Applicaties werken met files of misschien met blobs, maar niet met rauwe blokken en bloknummers. En bij moderne cloud storage is ook het concept van een file aan het veranderen.
Voor de out-of-band benadering en aansturing van de opslag systemen, daar valt wel wat eer te behalen:
Volgens mij is het doel hier is juist omgekeerd, een deel out-of-band weer in-band brengen.

Omdat er nog niks gepubliceerd is kan ik nog niet zeggen of ik het ook geen goede standaard vind. Op grond van de omschrijving komt het een beetje mager over, maar ik leg het toch uit als dat er tussen de klassieke lagen gecommuniceerd kan worden om onderscheid te maken tussen verschillende soorten data of gebruikspatronen.

Als unix-head ben ik erg vertrouwd met block-devices en de "alles is een file" aangevuld met steeds meer metadata zoals attributes en extended attributes. Maar ik zie ook dat die benadering z'n beperkingen heeft en dat we bepaalde concepten maar moeilijk kwijt kunnen. In sommige systemen kun je bv aangeven hoeveel replica's van een file je wil bewaren. Daarvoor moet je filesysteem op een of andere manier weten hoeveel fysieke/onafhankelijke schijven er onder zitten. Dat past haast niet in het klassieke model en (extended) attributes zijn ook niet echt het antwoord omdat die niet gaan over de onderliggende hardware.

[Reactie gewijzigd door CAPSLOCK2000 op 30 maart 2022 13:07]

Zeker weten, helemaal waar allemaal. Met zfs, btrfs, ceph en dergelijke is het maar duidelijk dat er veel van die zaken door elkaar heen lopen. Dergelijke filesystemen hebben duidelijk behoefte om alle onderlagen aan te sturen en te controleren zodat het voor veel verschillende gebruik door elkaar heen geoptimaliseerd kan worden.

[opa geeft les:]
Met het benoemen van cloud-opslag zegt mijn telecom hoofd met het 7 laags iso-osi model dat er daar een herhaling/stapeling van de zelfde lagen op elkaar gebeurt: In het rekencentrum staat vast ergens een fysieke disk. Die is onderdeel van een raid-systeem wat weer is voorzien van een filesysteem om de data te bevatten. Die data zijn dan weer disk-images van de virtuele systemen die er ergens boven op draaien. In die virtuele sytemen worden deze bestanden weer als blok-device gebruikt en voor de gebruikers-gegevens weer als netwerk-filesystemen aan de databases worden aangeboden voor database opslag. Zie daar dan maar weer eens een optimalisatie in aan te brengen.

De klassieke systemen zijn voor mij een basis om op terug te vallen, om mijzelf een beeld te vormen. Ik zie de harddisk, partitionering en het filesysteem als vergelijkbaar met de onderste 3 lagen van het iso-osi model. Zaken als raid, volumes en dergelijke zijn daar herhaling en stapeling van lagen, je zou een volume kunnen/mogen vergelijken met een file. Daar bovenop kan zomaar nog een herhaling van zetten gebeuren. En ja, er zullen altijd zaken door elkaar heen grijpen. Net zoals met de huidige telecom oplossingen en het iso-osi model.

Enneh ja, mijn achtergrond is naast de oer telecom ook een gedegen unix opleiding. Daar zijn de lagen van ouds dudelijker aanwezig dan op de msDos systemen en wat daar uit ontwikkeld is. Uiteindelijk is het allemaan niet zo bijzonder, het is vooral een herhaling van zetten. Dat kan je het beste bewust doen zodat je de fouten kan overslaan.
[opa geeft les:]
Als we dan toch op die toer zitten...
Met het benoemen van cloud-opslag zegt mijn telecom hoofd met het 7 laags iso-osi model dat er daar een herhaling/stapeling van de zelfde lagen op elkaar gebeurt:
Hehehe, treffende vergelijking. Het eerste feitje dat mensen leren over het iso/osi-model is immers "in praktijk werkt het niet echt zo". Althans, niet voor TCP/IP, wat het dominante protocol is. Ook voor storage klopt de praktijk steeds minder met wat onze theorie. Zelfs binnen een enkele HDD wordt er over de lijntjes heen gekleurd. We hebben de controller van het mobo afgehaald in de schijf gestopt (IDE: Integrated Device Electronics). Die controller praat nog steeds met de hardware als of het 1984 is. Volgens mij geldt voor de voorganger MFF, ook weer hetzelfde. In ieder geval is het intern allemaal nogal antiek.

In de tussentijd is die geintegreerde controller steeds slimmer geworden en bevat tegenwoordig niet alleen een CPU maar ook een sloot RAM en enorme hoeveelheid firmware. Die firmware managed de onderliggende hardware en vervangt bijvoorbeeld falende blokjes of zorgt voor wear leveling (SSD), zorgt voor caching en buffering etc.... Aan de buitenkant wordt het echter nog steeds presenteerd als een simpele lineaire lijst met blokken data die allemaal gelijk zijn.

En dat is dan alleen de hardware. Zoals je al aangeeft kan er zo nog een half dozijn lagen overheen liggen van abstracties en/of virtualisaties.

Ondanks dit alles werkt het op een of andere manier wel ;)


Pet peeve: het bestaan van "filesystems" en "database" is een falen van de IT-industrie. Wat is nu echt het verschil tussen die twee? Een filesysteem is een soort database met een zeer primitieve interface.
Omgekeerd is het bestaan van het woord "database" een aanwijzing dat "gewone" opslag van computers niet zo goed is. De taak van een database, data opslaan, terugzoeken en bewerken, is eigenlijk een algemene omschrijving van wat een computer is. Alles wat een computer doet met data kun je uitleggen als "opslaan, uitlezen, bewerken". Dat er naast je OS nog extra software nodig is voelt dus een beetje als een afgang.
Dat heb ik niet zelf bedacht hoor, er zijn al verschillende pogingen gedaan om "filesysteem" en "database" te verenigen. Voor zover ik weet zijn die allemaal mislukt. Vandaar dat ik het een falen van de IT-industrie noem.

[Reactie gewijzigd door CAPSLOCK2000 op 30 maart 2022 14:16]

Die tcp/ip heb ik bewust niet genoemdt bij het vermelden van de iso-osi lagen. Zo uit mijn hoofd is de ip-laag ergens halverwege laag 2 en de tcp-laag een punt halverwege laag 3. Maar als je bedenkt dat we in in 1995 via de telefoon en modem een ip-verbinding gingen opzetten, lag daar de hele telefoon verbinding ergens in laag 1 van de tcp-ip stack. Terwijl die zelfde telefoon verbinding ook een iso-osi representatie heeft met laag 1 t/m 4 of 5 waar dan de modem bovenop draait. Een voorbeeld van stapelen.

Tegenwoordig met voip is die spraak verbinding met de zelfde telefoon opeens boven op een ip-verbinding.

Dat zelfde gebeurt met de ide en mff interfaces die jij beschrijft. Daar zijn diverse logische lagen wel aan te wijzen maar zitten ze niet helemaal op een praktische schreiding en is de scheiding niet helemaal een scheiding in de logische lagen structuur. Wil je iets meer overeenstemming hebben tussen de echte techniek en de theorie, dan kan je beter met scsi beginnen dan met de andere interfaces uit die jaren. Scsi is ge-optimaliseerd voor de logica, de anderen zijn geoptimaliseerd voor andere voorkeuren.

Als je het over databases hebt, dan kan ik je vertellen dat een filesysteem zoals de meeste computers dat gebruiken alleen maar een hiërarchische database, niets meer en niets minder. Andersom: een oracle database werd vroeger vaak rauw op disk gezet werd, zonder filesysteem er tussen en soms zelfs zonder partitietabel. Voor de unix-kenners: De database stond in /dev/hdd en het transactie journaal in /dev/hdf of zo iets.

Als je filesystemen en databases wilt verenigen, dan kan je beginnen met kijken naar netwerk-verbonden opslag: nfs en smb en een remote verbonden database: Het komt op het zelfde neer: verbind met de overkant, adresseer en lees of schrijf. Schiet mijn twisted-mind meteen weer het iso-osi model er tussen. En als je daar van dan de hogere lagen (4 t/m 7) wilt invullen kan je daar de gemiddelde website voor gebruiken.

Uiteindelijk kan je elke gegevens opslag als een database zien. Bekijk het eerst qua taal: Data-Base. Data == Gegevens. Base =~ Opslag. Niets meer en niets minder. Een filesysteem zoals computers dat hebben is dus hiërarchisch. Een database zoals miranda/mysql/tsql/oracle en zo is alleen maar een relationele database. Het type gegevens en de manier waarmee je er mee om wilt gaan bepaalt als het goed is het type database.

[ff zeuren/zuigen]
Daarmee is een excel document ook een database, al beschouw ik dat als misbruik. Voor de rest van de microsoft-kiddies: het hier boven genoemde 'tsql' is de technisch formele naam van de database die microsoft verkoopt, net zoals nt nog steeds de naam is van het besturing systeem dat ze verkopen :-)

[Reactie gewijzigd door beerse op 30 maart 2022 15:42]

Een voorbeeld van stapelen.
Mijn favoriete voorbeeld is dat satellieten onderling communiceren via een protocol dat ooit is ontwikkeld voor telegraaf machines in de tijd dat die nog met gekleurde vlaggen werkte.
Als je het over databases hebt, dan kan ik je vertellen dat een filesysteem zoals de meeste computers dat gebruiken alleen maar een hiërarchische database, niets meer en niets minder.
Precies, dat vind ik een groot tekort. De belangrijkste "database" die we gebruiken is nog steeds enorm primitief. Zo erg dat we aparte indexdiensten hebben om een database er naast te zetten om bv snel in onze bestanden te zoeken.
Andersom: een oracle database werd vroeger vaak rauw op disk gezet werd, zonder filesysteem er tussen en soms zelfs zonder partitietabel. Voor de unix-kenners: De database stond in /dev/hdd en het transactie journaal in /dev/hdf of zo iets.
Dat doet Oracle nog steeds, het kan in ieder geval, wij hebben dat soort systemen draaien. Er is wel een hoop functionaliteit bijgekomen (zoals RAID-achtige technieken) maar uiteindeijk is het Oracle dat alles bepaalt zonder dat het OS er tussen komt.
Uiteindelijk kan je elke gegevens opslag als een database zien.
(...)
Daarmee is een excel document ook een database
Precies mijn punt. Het bestaan van de term "database" suggereert dat standaard opslag nogal dom is en dat klopt.
Je mist het belangrijkste stukje (wat ook best onderbelicht is in het artikel):
De twee concurrenten maken in een persbericht bekend dat ze gaan samenwerken aan een zoned storage-systeem. Zoned storage laat ssd's via zoned namespaces 'slim' data opslaan. Dat is het ssd-equivalent van de techniek die host-managed smr-hdd's gebruiken om te bepalen hoe data het efficiëntst kan worden opgeslagen. Deze technieken sorteren data op type, zodat de combinatie van ssd's en hdd's optimaal wordt gebruikt als het aankomt op snelheid, energiegebruik en levensduur.
Dat standariseren is volgens mij vooral door een marketing iemand erbij gefietst en niet de key van het bericht.
Is Samsung niet uit HDD industrie gestapt (ie verkocht aan een andere HDD-merk)?? SSD zijn ze volop aanwezig, maar HDD?
Is Samsung niet uit HDD industrie gestapt (ie verkocht aan een andere HDD-merk)?? SSD zijn ze volop aanwezig, maar HDD?
Dat klopt, Samsung heeft de HDDs aan Seagate verkocht. Zie dit handige schema: https://www.psdevwiki.com...acturer_Consolidation.svg
Klinkt alsof ze een nieuw verdienmodel hebben bedacht..

Op dit item kan niet meer gereageerd worden.

Tweakers maakt gebruik van cookies

Tweakers plaatst functionele en analytische cookies voor het functioneren van de website en het verbeteren van de website-ervaring. Deze cookies zijn noodzakelijk. Om op Tweakers relevantere advertenties te tonen en om ingesloten content van derden te tonen (bijvoorbeeld video's), vragen we je toestemming. Via ingesloten content kunnen derde partijen diensten leveren en verbeteren, bezoekersstatistieken bijhouden, gepersonaliseerde content tonen, gerichte advertenties tonen en gebruikersprofielen opbouwen. Hiervoor worden apparaatgegevens, IP-adres, geolocatie en surfgedrag vastgelegd.

Meer informatie vind je in ons cookiebeleid.

Sluiten

Toestemming beheren

Hieronder kun je per doeleinde of partij toestemming geven of intrekken. Meer informatie vind je in ons cookiebeleid.

Functioneel en analytisch

Deze cookies zijn noodzakelijk voor het functioneren van de website en het verbeteren van de website-ervaring. Klik op het informatie-icoon voor meer informatie. Meer details

janee

    Relevantere advertenties

    Dit beperkt het aantal keer dat dezelfde advertentie getoond wordt (frequency capping) en maakt het mogelijk om binnen Tweakers contextuele advertenties te tonen op basis van pagina's die je hebt bezocht. Meer details

    Tweakers genereert een willekeurige unieke code als identifier. Deze data wordt niet gedeeld met adverteerders of andere derde partijen en je kunt niet buiten Tweakers gevolgd worden. Indien je bent ingelogd, wordt deze identifier gekoppeld aan je account. Indien je niet bent ingelogd, wordt deze identifier gekoppeld aan je sessie die maximaal 4 maanden actief blijft. Je kunt deze toestemming te allen tijde intrekken.

    Ingesloten content van derden

    Deze cookies kunnen door derde partijen geplaatst worden via ingesloten content. Klik op het informatie-icoon voor meer informatie over de verwerkingsdoeleinden. Meer details

    janee