Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Je kunt ook een cookievrije versie van de website bezoeken met minder functionaliteit. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , reacties: 20, views: 23.303 •

Een onderzoeksteam van Microsoft Research heeft naar eigen zeggen het MinuteSort-benchmarkrecord gebroken. Deze benchmark meet hoe snel datasets binnen een cluster van opslagsystemen kunnen worden gesorteerd.

Het nieuwe record voor de MinuteSort-benchmark werd op 1,4TB gebracht, bijna een verdrievoudiging van het oude record, dat op 500GB stond en sinds 2009 in handen was van Yahoo. Bovendien werd gebruikgemaakt van aanzienlijk minder hardware; in plaats van 5624 harde schijven op 1406 computers werden 1033 schijven op 250 systemen gebruikt.

Om het benchmarkrecord in handen te krijgen werd een nieuw model toegepast op het sorteren van data, flat datacenter storage geheten. In dit model, gebaseerd op een platte hiërarchie, wisselen alle systemen binnen een netwerk continu data uit. Microsoft Research bouwde daarvoor systemen die met een snelheid van 2GB/s data zowel konden versturen als ontvangen. Daarnaast werd gebruikgemaakt van een remote file system.

Volgens Microsoft zijn de behaalde sorteerprestaties niet alleen beter dan die van Mapreduce- en Hadoop-systemen, maar kan de technologie breed ingezet worden. Zo wordt het flat datacenter storage-model nu gebruikt om de zoekmachine Bing te versnellen. Daarnaast ziet Microsoft mogelijkheden om zijn sorteermodel toe te passen bij systemen waarbij enorme hoeveelheden data verwerkt moeten worden, zoals onderzoek naar medicijnen, dna-structuren en andere wetenschappelijke toepassingen.

Reacties (20)

Ik moest meteen aan dit filmpje denken:
http://www.youtube.com/watch?v=96dWOEa4Djs
Dat filmpje is oud... 2009! Al drie jaar oud. 2GB/s zou nu al wel zo'n 4 tot zo'n 12GB/s kunnen zijn voor hetzelfde geld.
Wel, gefeliciteerd, ik ben benieuwd hoelang het zal gaan duren voordat dit record alweer wordt overtroffen, opnieuw 3 jaar?

En als het kan worden gebruikt voor medicijnen etc. Misschien eindelijk een doorbraak in het ondezoek naar ziektes als kanker? Dat zou geweldig zijn!

[Reactie gewijzigd door Loller1 op 22 mei 2012 16:49]

Het zal waarschijnlijk na een paar maanden al verbroken kunnen worden alleen zal men dit niet snel doen omdat het simpel weg op dat moment niet nuttig is om dat te doen.

Wat betreft een doorbraak in kanker of welk ander onderzoek dan ook ga er maar niet van uit. Het is zo dat de onderzoeken zo als het kanker onderzoek voor een groot deel beperkt worden door de hoeveelheid data die men kan verwerken, maar daar naast is het ook van belang dat je begrijpt wat de uitkomsten inhouden en betekenen. En zo als zo vaak in de wetenschap levert meer kennis van een onderwerp meestal meer vragen dan antwoorden op. Als je dan bedenkt dat er niet zo iets is als kanker maar dat het een hele grote groep van cel mutaties is die allemaal een ongecontroleerde groei van cellen tot gevolg hebben dan begrijp je dat alleen veel meer data verwerken lang niet voldoende is om een doorbraak te forceren.
Nogmaals het zal zeker helpen maar een doorbraak zal het op zich zelf niet opleveren.
Het is zo dat de onderzoeken zo als het kanker onderzoek voor een groot deel beperkt worden door de hoeveelheid data die men kan verwerken
Het valt allemaal wel mee met die data. Het probleem is niet dat we de hoeveelheid data niet kunnen verwerken, het is meer dat de betekenis van de data zo verrekte moeilijk te bepalen is.
Hard-core number crunching en datasets sorteren is niet de oplossing. Interpreteren van je PK/PD data, binding, dosing, potency, efficacy, metabolisme en excretie, de betekenis van biostatistiek, etc. dáár zit de crux. Natuurlijk kunnen snelle databewerkingen een handje helpen, maar daarmee maak je niet significant sneller een geneesmiddel.

[Reactie gewijzigd door mrlammers op 22 mei 2012 17:54]

Het probleem met onderzoek naar kanker is de hoeveelheid verschillende soorten / vormen van kanker.
Kanker is tenslotte een celmutatie, dus voor elke soort cel is er minimaal 1 vorm van kanker.
Iets wat goed werkt tegen 1 bepaalde vorm van kanker hoeft dus niet goed te werken voor een andere vorm.
Buiten de verschillende celvormen van kanker zijn er ook nog eens meerdere oorzaken, die allemaal een ander soort mutatie kan veroorzaken.
Bijvoorbeeld mutatie door straling is een heel andere vorm van kanker dan mutatie door roken of asbest of cadmium.

Er is onderzoek wat gedaan wordt met enzymen die diverse verschillende soorten kankercellen "opeten".
Bij mijn weten is dit het enige soort onderzoek wat hoopvolle resultaten heeft opgeleverd wat betreft een "miracle cure" dat wellicht alle vormen van kanker kan bestrijden.

En voordat er mensen zijn die zeggen dat stralingstherapie en chemokuren ook gebruikt worden tegen diverse vormen van kanker:
Dit is geen geneesmiddel.
Zelfs de dokter die mijn moeders kanker behandelde zei dat het slechts uitstel van executie is.
Iedereen die bestraald is of chemo heeft ondergaan krijgt op den duur (vaak binnen 5 jaar) opnieuw kanker, op dezelfde plek, zelfde soort.
Dit is ook de reden waarom bij veel vormen van kanker het aangetaste gedeelte compleet verwijderd wordt, bijvoorbeeld bij borstkanker en baarmoederkanker.
Het is echter lastig om je longen te verwijderen, of je lever...
Wat natuurlijk wel interessant zou zijn is om te weten wat de storage overhead is van de verschillende gebruikte technieken.

Als het 'flat datacenter storage' model vier keer zoveel opslagruimte gebruikt voor dezelfde hoeveelheid gegevens, is dit natuurlijk niet sneller.
Volgens mij hangt dat dan of van je definitie van sneller. Wanneer het record gebaseerd is op tijd. En deze manier heeft minder tijd nodig. Is het sneller.

Kan je je afvragen of dat het ruimtegebruik / energieverbruik waard is...
3x sneller met minder hardware lijkt mij een verbetering op ieder front inclusief energieverbruik.
Sorry maar wat is de relevantie van jouw opmerking, we hebben het over een specifiek geval hier zoals geschetst in het artikel.
Een melding van we te verwachten vooruitgang. Dit kan weer tijd schelen voor grote data verzamelende onderzoeken en dergelijke inderdaad. Maar ik vraag me af hoe snel dit kan worden ingezet bij de echte toepassingen.
Op zich verwacht ik wel van Microsoft dat ze dat redelijk snel uitrollen.
Klinkt als een mooie ontwikkeling.
Mapreduce is een hele mooie techniek, maar is wel redelijk moeilijk om goed te doorgronden en daar hangt voor een deel ook de performance van de achterliggende database vanaf.

Als Microsoft er iets moois mee maakt dan kan dit wel eens leiden tot een bruikbare, snelle database binnen grotere bedrijven. Ik denk dat ondanks de mogelijkheden van Hadoop en Mapreduce, de toepasbaarheid alleen heel specifiek is. Als je aan de andere kant kijkt wat er aan gigantische informatie te vinden is binnen grote bedrijven: Gewoon totaal ontoegankelijk momenteel.

Een keer contact gehad met de projectleider van Microsoft Trinity over toepassen van Trinity bij een klant. Dit is gewoon een hobbyproject van MS waar ze nog geen toepassing bij hebben bedacht. Met andere woorden is het de vraag of het ooit als product op de markt gaat komen. Zal voor deze techniek waarschijnlijk voorlopig niet veel anders gaan....
http://research.microsoft.com/en-us/projects/trinity/

[Reactie gewijzigd door supertheiz op 22 mei 2012 16:55]

Vooral het feit dat er ~5x zo weinig hardware,in 3 jaar tijd, gebruiken is indrukwekkend. Maar ook in het originele artikel kan ik niets vinden over de gebruikte hardware. Maar zal het niet zo zijn dat het nieuwe systeem gewoon gebruik maakt van SSD's en die van Yahoo nog HDD's?

Overigens nog altijd een mooie prestatie. Het laat zien dat we nog steeds grote vooruitgangen boeken op het gebied van technieken en dat we nog lang niet de best, mogelijke prestaties behaald hebben
1033 SSD-schijven? Dat zou een dusdanig relevante sprong in kosten zijn, zelfs bij 5,5x minder schijven, dat ik niet verwacht dat men dit kleine feit onvermeld zou laten. MinuteSort heeft geen beperking in kosten, dus het is niet onmogelijk (en zelfs niet oneerlijk), maar ik zou in dat geval veel betere resultaten verwachten dan "slechts" 3x zoveel data binnen de minuut. Dan hoefde men ook niet zo hoog op te geven over de nieuwe softwaretechniek.

Er zouden wel SSD-schijven bij kunnen komen kijken, natuurlijk, ik verwacht alleen niet dat alle 1033 schijven SSDs zijn. Dat is namelijk niet echt realistisch: mensen die met grote hoeveelheden data werken kunnen dit wel makkelijk schalen naar grote hoeveelheden "commodity hardware", maar SSDs kunnen op dat punt nog niet echt als commodity aangemerkt worden als ze groot genoeg moeten zijn om de data ook op te slaan.
Vooral het feit dat men zegt dat het algorithme sneller werkt dan Mapreduce is heel interessant.

Want MS wil natuurlijk voorkomen dat men klanten kwijt raakt die een (Open Source) NoSQL oplossing gaan inzetten.
Een paar losse gedachtes:

In hoeverre is deze snelheidstoename toe te schrijven aan snellere hardware (record van Yahoo is drie jaar oud)?
En minder machines kan makkelijker zijn: groter geheugen per machine => minder onderlinge communicatie nodig.

Kan iemand hier iets over zeggen?
Het vorige record (pun intended jongens?) was van 2009, en het nieuwe record is met minder hardware gezet. Uhm ja. Logisch toch? Hardware is in de afgelopen 3 jaar niet even snel gebleven.

Zo kan ik ook records verbreken: elke keer als ik een nieuwe pc koop, heb ik weer een paar meer 3dmark-puntjes.

En is dat boeiend? Nee. Want we zien in de computerwereld dat niet alleen de rekenkracht groeit, maar ook de gegevens die verrekend moeten worden, groeien mee. Daarom start een pc uit 2012 ongeveer even snel op als een pc uit 1992, met software en use-cases die bij dat tijdperk horen. Zo ook hier: de clusters worden sneller, maar de te verwerken data wordt ook alsmaar groter. De nettowinst is dan het verschil tussen die twee, en niet de brute rekenkracht.
(...)En is dat boeiend? Nee. Want we zien in de computerwereld dat niet alleen de rekenkracht groeit, maar ook de gegevens die verrekend moeten worden, groeien mee. Daarom start een pc uit 2012 ongeveer even snel op als een pc uit 1992, met software en use-cases die bij dat tijdperk horen. Zo ook hier: de clusters worden sneller, maar de te verwerken data wordt ook alsmaar groter. De nettowinst is dan het verschil tussen die twee, en niet de brute rekenkracht.
Ik ben het niet met je eens dat het per definitie niet boeiend is.
Volgens Microsoft zijn de behaalde sorteerprestaties niet alleen beter dan die van Mapreduce- en Hadoop-systemen,
Als de sorteerprestaties effectief beter zijn dan die van Mapreduce- en Hadoop-systemen (t.t.z. met gebruik van dezelfde hardware), dan is dit wel behoorlijk significant.
platte hiërarchie
Contradictio in terminis? }>

[Reactie gewijzigd door gfgw op 23 mei 2012 17:45]

Op dit item kan niet meer gereageerd worden.



Populair:Apple iPhone 6Samsung Galaxy Note 4Apple iPad Air 2FIFA 15Motorola Nexus 6Call of Duty: Advanced WarfareApple WatchWorld of Warcraft: Warlords of Draenor, PC (Windows)Microsoft Xbox One 500GBTablets

© 1998 - 2014 Tweakers.net B.V. Tweakers is onderdeel van De Persgroep en partner van Computable, Autotrack en Carsom.nl Hosting door True

Beste nieuwssite en prijsvergelijker van het jaar 2013