Een onderzoeksteam van Microsoft Research heeft naar eigen zeggen het MinuteSort-benchmarkrecord gebroken. Deze benchmark meet hoe snel datasets binnen een cluster van opslagsystemen kunnen worden gesorteerd.
Het nieuwe record voor de MinuteSort-benchmark werd op 1,4TB gebracht, bijna een verdrievoudiging van het oude record, dat op 500GB stond en sinds 2009 in handen was van Yahoo. Bovendien werd gebruikgemaakt van aanzienlijk minder hardware; in plaats van 5624 harde schijven op 1406 computers werden 1033 schijven op 250 systemen gebruikt.
Om het benchmarkrecord in handen te krijgen werd een nieuw model toegepast op het sorteren van data, flat datacenter storage geheten. In dit model, gebaseerd op een platte hiërarchie, wisselen alle systemen binnen een netwerk continu data uit. Microsoft Research bouwde daarvoor systemen die met een snelheid van 2GB/s data zowel konden versturen als ontvangen. Daarnaast werd gebruikgemaakt van een remote file system.
Volgens Microsoft zijn de behaalde sorteerprestaties niet alleen beter dan die van Mapreduce- en Hadoop-systemen, maar kan de technologie breed ingezet worden. Zo wordt het flat datacenter storage-model nu gebruikt om de zoekmachine Bing te versnellen. Daarnaast ziet Microsoft mogelijkheden om zijn sorteermodel toe te passen bij systemen waarbij enorme hoeveelheden data verwerkt moeten worden, zoals onderzoek naar medicijnen, dna-structuren en andere wetenschappelijke toepassingen.
[Reactie gewijzigd door Loller1 op dinsdag 22 mei 2012 16:49]
Het valt allemaal wel mee met die data. Het probleem is niet dat we de hoeveelheid data niet kunnen verwerken, het is meer dat de betekenis van de data zo verrekte moeilijk te bepalen is.Het is zo dat de onderzoeken zo als het kanker onderzoek voor een groot deel beperkt worden door de hoeveelheid data die men kan verwerken
[Reactie gewijzigd door mrlammers op dinsdag 22 mei 2012 17:54]
[Reactie gewijzigd door supertheiz op dinsdag 22 mei 2012 16:55]
Ik ben het niet met je eens dat het per definitie niet boeiend is.(...)En is dat boeiend? Nee. Want we zien in de computerwereld dat niet alleen de rekenkracht groeit, maar ook de gegevens die verrekend moeten worden, groeien mee. Daarom start een pc uit 2012 ongeveer even snel op als een pc uit 1992, met software en use-cases die bij dat tijdperk horen. Zo ook hier: de clusters worden sneller, maar de te verwerken data wordt ook alsmaar groter. De nettowinst is dan het verschil tussen die twee, en niet de brute rekenkracht.
Als de sorteerprestaties effectief beter zijn dan die van Mapreduce- en Hadoop-systemen (t.t.z. met gebruik van dezelfde hardware), dan is dit wel behoorlijk significant.Volgens Microsoft zijn de behaalde sorteerprestaties niet alleen beter dan die van Mapreduce- en Hadoop-systemen,
Contradictio in terminis?platte hiërarchie
[Reactie gewijzigd door gfgw op woensdag 23 mei 2012 17:45]
Op dit item kan niet meer gereageerd worden.
Populair: Tablets Samsung Websites en communities Mobiele telefoons Google Sony Microsoft Games Politiek en recht Consoles
© 1998 - 2013 Tweakers.net B.V. Contact Over Tweakers Jouw privacy Algemene voorwaarden Cookies
Tweakers wordt uitgegeven door De Persgroep en wordt gehost door True