Suggesties gevraagd voor storage benchmark suite

Harddisk / harde schijf aankondigingspicje (67x67) In het afgelopen jaar heb je op Tweakers.net een aantal RAID reviews kunnen lezen waarin testmethoden werden gebruikt die uniek zijn voor het internet. Storage performance is een gebied waar nog een grote schaarste heerst aan goede benchmarks en testmethoden. Er zijn weliswaar veel tools verkrijgbaar die low-level eigenschappen kunnen meten, maar veel relatie met real world performance hebben dergelijke benchmarks niet. StorageReview.com heeft baanbrekend werk verricht op het gebied van storage benchmarking. In onze StorageMark 2003 testmethodiek werd voortgeborduurd op de bevindingen van Storage Review. Na een jaar van ervaring met het testen van harde schijven en RAID-adapters is het tijd om onze eigen bevindingen in een nieuwe benchmark suite te verwerken. In deze .plan wordt een globale opzet van de nieuw te ontwikkelen testmethodiek gepresenteerd. We hopen met suggesties en feedback van bezoekers de puntjes op de i te zetten.

Uitgangspunt

Het uitgangspunt van de benchmarks is het meten van real world performance. Er is een ruime sortering van allerhande benchmarktools voorradig die de sequentiële transfer rates en de gemiddelde toegangstijd van harde schijven kunnen meten, maar dat is niet wat we zoeken. Harde schijven doen heel wat meer dan alleen sequentieel of juist volledig willekeurig lezen en schrijven. Factoren zoals command queuing en de cache op de harde schijf en de I/O controller kunnen een grote invloed op de prestaties uitoefenen. Dat is bij RAID-systemen nog veel meer het geval dan bij losstaande harde schijven.

Om de prestaties van harde schijven en RAID-systemen in natuurgetrouwe situaties te kunnen meten, maken we gebruik van een tool genaamd Intel IPEAK Storage Performance Toolkit. De ondersteuning van IPEAK SPT werd helaas al weer enkele jaren geleden door Intel stopgezet, maar nog steeds is het programma uniek in zijn mogelijkheden. IPEAK SPT bestaat uit verschillende onderdelen waarvan WinTrace32 de mogelijkheid biedt om schijfbenadering in Windows in een trace vast te leggen. De traces kunnen vervolgens met de tool RankDisk op elke willekeurige harde schijf of (hardwarematige) RAID array afgespeeld worden. RankDisk benadert de fysieke schijf zodat het bestandssysteem en de file cache van het besturingssysteem geen effect hebben op de uitvoering van de test. Zodoende kunnen de tests worden uitgevoerd in een geïsoleerde omgeving waarin enkel de harde schijven, de I/O controller en het moederbord (met name de PCI-bus) invloed uitoefenen op de resultaten. Overigens spelen het bestandssysteem en de file cache wel degelijk een rol in de benchmark. De invloed van deze factoren is al verwerkt in de trace en is daardoor constant voor alle keren dat de trace wordt afgespeeld.

Testconfiguratie

Gelijktijdig met de vervanging van de benchmarks zal het testsysteem worden opgewaardeerd naar een modernere configuratie. De dual Athlon XP 2400+ zal worden vervangen door een single Opteron 240 op een MSI K8D Master servermoederbord met 100MHz PCI-X. Voor het testen van Serial ATA-harde schijven zal een Promise FastTrak S150 TX2plus gebruikt worden. Een FastTrak TX4000 zal dienen als I/O controller voor parallel ATA tests en een Tekram DC-390U4B single channel Ultra320 SCSI-adapter zal gebruikt worden voor tests van SCSI-harde schijven. De processors, het moederbord, de ATA-adapters en de SCSI-adapter werden beschikbaar gesteld door respectievelijk AMD, MSI, Promise en Tekram. We hopen de FastTrak S150 TX2plus zo snel mogelijk te kunnen vervangen door een controller met ondersteuning voor tagged command queuing en Serial ATA native command queuing, zodat de komende generatie Serial ATA-harde schijven onder optimale omstandigheden getest kunnen worden.

- StorageMark 2004 testconfiguratie:

AMD Opteron 240 (1,4GHz)
512MB PC2100 ECC Registered DDR SDRAM
MSI K8D Master
Western Digital WD200BB bootdrive
Promise FastTrak S150 TX2plus
Promise FastTrak TX4000
Tekram DC-390U4B
Chenbro SR-103 behuizing
Zippy 460W EPS12V voeding

De traces voor de nieuwe desktop benchmarks zullen gecreëerd worden op het oude testsysteem, die voor deze gelegenheid zal worden voorzien van 1GB geheugen, een MSI GeForce FX 5900 videokaart en een Western Digital Raptor WD360GD harde schijf. De prestaties van deze configuratie zijn representatief voor een gemiddeld high-end systeem dat de tweaker thuis heeft staan. De serverbenchmarks zullen gemaakt worden op een dual Opteron 240 met 2GB RAM en een nog nader te definiëren SCSI RAID-configuratie.

Low-level benchmarks

Hoewel de belangrijkste rol in de benchmark suite is weggelegd voor RankDisk benchmarks, zullen er uiteraard ook tests gedraaid worden die de low-level prestatiekarakteristieken van harde schijven en RAID-systemen in beeld kunnen brengen. De volgende tests zullen hiervoor gebruikt worden:

Winbench 99 v2.0 Disk Inspection: sequentiële read transfer rate en gemiddelde toegangstijd
IOMeter: sequentiële read en write transfer rates
IPEAK SPT AnalyzeDisk: buffer transfer rate, read queuing optimalisaties en diverse andere eigenschappen
IOMeter file server toegangspatroon: gemiddelde toegangstijd en command queuing optimalisaties

Desktop benchmarks

De desktop benchmarks in de StorageMark 2003 testmethodiek bestonden uit vier algemene office en workstation tests, aangevuld met specifieke tests van I/O intensieve taken zoals een virusscan, backup, schijfdefragmentatie en het installeren van grote softwarepakketten. De algemene tests waren gebaseerd op traces van Business Winstone 2001 en Content Creation Winstone 2002. Deze waren beide in een light en een heavy variant uitgevoerd. De nieuwe testmethodiek zal geen onderscheid meer maken tussen lichte en zwaardere versies. De eigenschappen van beide uitvoeringen bleken behoorlijk dicht bij elkaar te liggen. Het is nuttiger om een breder spectrum van toepassingen te benchen dan om dezelfde toepassingen in verschillende versies te testen.

Als basis voor de algemene office en workstationtests zullen traces van Business Winstone 2004 en Multimedia Content Creation Winstone 2004 gebruikt worden. Winstone is een applicatiebenchmark die de handeling van een gebruik simuleert in bekende office en workstation applicaties, waaronder Norton Anti-Virus, de 2002-versies van Microsoft Office, Photoshop 7, Premiere 6.5, Windows Media Encoder 9, LightWave 7.5 en Steinberg WaveLab 4. We zijn van mening dat dit een snellere en betere methode is om een benchmark te maken dan wanneer we zelf in wat applicaties gaan rondklikken. De ontwikkelaars van Winstone hebben al veel onderzoek verricht naar de wijze waarop mensen hun pc gebruiken. Winstone concentreert zich op zogenaamde 'hotspots' - momenten waarop het systeem écht hard aan het werk gezet wordt. Dat zijn ook de activiteiten waarbij de performance van de harde schijf een belangrijke rol speelt. De schijfactiviteit van de applicaties in de Winstone suites zullen aangedikt worden met wat lichte achtergrond activiteit van een p2p-sharing programma en het branden van een cd gedurende een gedeelte van de test.

De gamers werden in de vorige testmethodiek nogal genegeerd. Ten onrechte, want games hebben altijd al hoge eisen gesteld aan de harde schijf of - in vroege tijden - de floppy disk en bandrecorder . De nieuwe suite zal traces bevatten van het opstarten en het in laden van levels in een aantal bekende games. De specifieke games moeten nog bepaald worden.

De drie basistests - office, workstation en gaming - zullen aangevuld worden met diverse tests van bijzondere I/O intensieve activiteiten. Dit zullen korte tests zijn zodat de gehele benchmarksuite binnen een praktische tijd gedraaid kan worden. Bij het testen van harde schijven is het geen probleem als de RankDisk benchmarks vijf uur duren, maar bij het testen van RAID-adapters is dat anders. Die moeten immers in veel verschillende RAID levels getest en worden. Voordat er met testen begonnen kan worden zal bovendien de optimale instelling van stripe size en cache strategie gevonden moeten worden. Dit kan zeer veel tijd kosten.

De voorstellen voor de desktopbenchmarks zijn als volgt:

- Office:

Business Winstone 2004

Microsoft Access 2002
Microsoft Excel 2002
Microsoft Frontpage 2002
Microsoft Outlook 2002
Microsoft PowerPoint 2002
Microsoft Project 2002
Microsoft Word 2002
Norton AntiVirus Professional Edition 2003
WinZip 8.1

Nero cd recording, eMule in de achtergrond

- Workstation:

Multimedia Concent Creation Winstone 2004

Adobe Photoshop 7.0.1
Adobe Premiere 6.5
Macromedia Director MX 9.0
Macromedia Dreamweaver MX 6.1
Microsoft Windows Media Encoder 9.0
NewTek LightWave 3D 7.5b
Steinberg WaveLab 4.0f

Nero cd recording, eMule in de achtergrond

- Gaming:

Game startup en level loads in verscheidene games

- Aanvullende tests:

File copy schijf A -> B
File copy schijf B -> A
File copy A -> A
Winzip compressie A -> A
Virusscan
Defragmentatie
Windows XP boot
Windows Explorer zoekopdracht
Windows switch user met draaiende applicaties
IfoEdit dvd strip A -> A
Software installatie
Photoshop open & save groot bestand (~200MB)

Server benchmarks

Voor het testen van server performance hebben we lange tijd vertrouwd op IOMeter, een tool waarmee kunstmatige toegangspatronen gegenereerd kunnen worden. IOMeter is perfect voor het meten van sequentiële transfers rates en willekeurige toegangspatronen bij verschillende niveau's van uitstaande I/O's. Daardoor is het ook een goede tool voor het meten van de prestaties van command queuing. Het kunstmatige karakter heeft echter tot gevolg dat optimalisaties door de cache nauwelijks mogelijk zijn, terwijl de cache in werkelijkheid een grote invloed op de prestaties heeft. Dit is voor ons reden om IOMeter te droppen als tool voor het meten van server performance en ook voor deze benchmarks over te stappen op de combinatie WinTrace32 en RankDisk.

Het probleem dat daarbij ontstaat is dat de aard van de trace bepalend is voor de kwaliteit van de benchmark. Server I/O workloads zijn sterk afhankelijk van het type applicaties en de omstandigheden waarin de server zich bevindt, bepaald door het aantal users, de grootte van de dataset, de spreiding van data enzovoorts. Het is daardoor onmogelijk om server performance met een eenvoudige benchmark samen te vatten. Om toch zo dicht mogelijk in de buurt te komen van de werkelijkheid zullen we de prestaties in een breed scala van scenario's gaan testen. De volgende ideeën liggen op tafel:

- Server performance:

Database-server: Tweakers.net frontpage en GoT onder MySQL, load generen met Apache en apachebench op clients
Webserver: statische afbeeldingen serveren onder Apache, load generen met apachebench op clients
'Workgroup server': combinatie van file-, mail-, proxy-, web- en database-server op één systeem.
Documentenserver: zeer grote hoeveelheid PDF's serveren via Apache en Windows filesharing.
Mediaserver: grote video- en audiostreams serveren
Backupserver: simultane backups vanaf netwerk naar één machine
Bootdrive performance: swap en logging

Hoe deze simulaties opgezet kunnen worden is nog een vraag die open staat. Hiervoor ontvangen we graag suggesties van bezoekers. Een voorwaarde is dat de server onder Windows moet draaien. Dit omdat WinTrace32 enkel onder Windows draait. Ook zouden we graag weten welke workloads servers in de praktijk te verduren krijgen: hoeveel gelijktijdige users, grootte van de dataset en de individuele bestanden (fileserver), wel of geen scheiding van data en logfiles op verschillende schijven of partities.

Reacties (44)

Leon T 14 maart 2004 22:16

Persoonlijk zou ik ook graag een test met Winrar zien, aangezien dit waarschijnlijk door ons tweakers vaker gebruikt wordt dan Winzip. Ook de resultaten van een tooltje als Quickpar of Smartpar zou ik een waardevolle aanvulling vinden.

Voor de rest vind ik het ook prima

Robin @Leon T • 15 maart 2004 09:29

Het gaat er meer om hoe snel een programma kan lezen van een HDD, dus een zwaarder programma pakken dan Winzip is dan overbodig. WinRAR en - ACE hebben meer aan een sterkere CPU dan een snelle HDD. Een rappe disk is handiger als je bestanden gaat compressen die niet inpakt hoeven te worden, daarentegen is een krachtigere CPU handiger als je vlot bestanden goed wilt inpakken.

we_are_borg @Robin • 16 maart 2004 02:57

Een programma zoals rar heeft idd meer aan een CPU als aan een HD nodig.

Ik zal wel graag een par2 test willen zien, waarvan de compleete file 4Gb groot is en opgedeelt is in blokken van 50Mb. Dan 10% par files en net zoveel bestanden weg halen dat je het minimaal aantal krijg voro herstel. Dit proces is zowel CPU als HD intensief.

Ook een test voor rebuild van het raid systeem kan een leuk gegeven zijn. Vul een HD met verschillende programma's en trek een HD eruit en zet een zelfde in de plaats.

Zoals pcmadman hier beneden zegt: Kijk hoe de Raid kaart het oplost en met welke snelheid het terug geplaats wordt. Ik weet niet of zelfs raid wel eens een fout maakt met een rebuild, maar dit is met een MD5 checksum te controlleren.

De HD's die jullie gaan gebruiken is contant het zelfde zodat iedere kaart de zelfde HD's gebruikt (behalve SCSI IDE).
Ook intressant is misschien de snelheid van de HD opzich. Voor alle HD appart te testen zodat je goed kan zien wat voor snelheid ze hebben appart van elkaar.

Verwijderd @Leon T • 14 maart 2004 22:49

Ik denk dat de soort compressietool niet echt uitmaakt, aangezien de soort diskbelasting die ze opleveren hetzelfde zal zijn. Uiteindelijk gaat het bij deze test om verschillende configuraties te kunnen vergelijken, en niet hoeveel seconden het compressen van 1 specifieke file duurt.

Verwijderd @Leon T • 17 maart 2004 19:59

Workstation Benchmarks..

Kernel compile?

Paul C 14 maart 2004 22:59

Een leuke test voor zowel I/O-controller als HDD zou zijn om Raid-5 op te zetten met een aantal schijven die lekker vol staat en om dan een crash van één van HDD's te simuleren en dan de rebuild-time te klokken en deze dan mogelijk ook nog uit te drukken in sec/GB of natuurlijk MB/sec rebuildsnelheid.

Dit is bij een server het interessants, omdat die goede prestaties en up-times behoeven en daarom een rebuild snel gedaan willen hebben. Ik heb ook meer dan eens gehoort dat 'er liever meerdere kleinere harde schijven worden gebruikt in arrays, omdat dit de rebuild time vergroot' wat natuurlijk duid op de behoefte van een lage rebuild-tijd.

mjtdevries @Paul C • 15 maart 2004 09:05

Er worden inderdaad liever meerdere kleinere schijven gebruikt in een array, maar niet omdat de rebuild time dan beter is, maar omdat de performance van de array beter is als er meer schijven in gebruikt worden.

Hoewel ik me afvraag in hoeverre dit echt een interessante test is voor mensen. Als rebuild time echt zo belangrijk is ivm performance verlies tijdens rebuilden, dan is de keuze van een andere soort raid daarvoor veel belangrijker.

Auteur

Femme UX Designer @Paul C • 26 maart 2004 13:01

Dit zou ik inderdaad kunnen gaan testen bij kleinere vergelijkingen van RAID-adapters. Bij grote vergelijkingen (zoals de SCSI RAID roundup met 15 adapters) kost het teveel werk. Dan is ook nog de vraag of het heel erg belangrijk is dat er wat prestatieverschil is tussen adapters met een degraded array als zo'n situatie zich maar heel zelden zal voordoen. Als er een hotspare naast hangt is je array binnen een paar uur gerebuild en zit je weer in een situatie met normale performance. Bij eén keer per jaar drie uur rebuilden is dat 99,97% van de tijd optimale performance.

nero355 14 maart 2004 22:31

Van alle Software de nieuwste versies gebruiken ??

Verder leek het me erg interessant om het volgende te zien :

Met Total Commander een stuk of X Aantal Transfers starten/draaien met "Op Achtergrond" bij allen als priority..

Doe ik vaak namelijk

Auteur

Femme UX Designer @nero355 • 15 maart 2004 00:45

Nieuwe versies gebruik in de Winstone suite is niet mogelijk, dan draaien de Winstone scripts niet meer. En versta je onder achtergrond transfers in Total Commander? Ik gebruik dat programma nooit.

nero355 @Femme • 15 maart 2004 18:25

Nou simpel ....... Je doet het volgende :

Je gaat een file kopieren van Partitie C:\ ofzo naar D:\ en als het kopieren begint dan druk je op "Background" Of Achtergrond" bij de NL versie

En dan een stuk of 4 minstens

Major 7 @Femme • 15 maart 2004 20:10

Total Commander (voorheen Windows Commander) is een windows versie gebaseerd op het idee van de Norton Commander (wie kent hem niet, ehm, nog? ). Je kunt het zien als de grote broer van de Verkenner, maar dan met veel meer mogelijkheden. Een werkelijk bijzonder handig programma. (www.ghisler.com for details).

Lennieboy83 14 maart 2004 22:11

Ik vind de huidige tests ok, alleen zou er van mij wel meer ATTO bij mogen

HDtach vind ik ook wel een goede benchmark app maar dat programma runt gewoon terwijl andere programma's ook runnen, en dan kan het eindresultaat aardig vertekend worden (net zoals ATTO natuurlijk maar daar merk je het niet erg.

Verder valt er echt weinig te veranderen, ik vind het prima zo

Auteur

Femme UX Designer @Lennieboy83 • 15 maart 2004 00:45

ATTO kan er ook nog wel bij. Het is leuk als vergelijkingsmateriaal voor de tweakers thuis en om de prestaties van de cache op RAID-adapters te benchen. Verder heeft het niet zoveel toegevoegde waarde.

JumpStart 14 maart 2004 23:36

In een PC markt waarbij RAID 0/1/5 steeds meer binnen handbereik komt èn er steeds meer produkten komen voor stillere systemen ligt het voor de hand om ook dB metingen te verrichten, zowel voor idle als voor seek. Meer platters, hogere toerentallen, meer schijven in systemen, het zorgt allemaal voor meer geluid.

Dat vereist wel het nodige aan voorbereiding en standaardisatie, zodat je iedere HD in exact dezelfde omgeving (CPU koeler, fan koeler) meet.

Om het nog even lastiger te maken moet je dit eigenlijk met "ingereden" HDs doen, want in de eerste 2 weken na in gebruikname kan de geluidsproductie van het idle geluid nog veranderen.

Verwijderd @JumpStart • 15 maart 2004 08:03

Volledig mee eens, ik wil nl. ook weten hoeveel herrie een schijf maakt.

Met name voor mijn serverbakkie waarmee ik bezig ben kan dit zeer interessant zijn!

ACM Software Architect 15 maart 2004 00:34

* Webserver: statische afbeeldingen serveren onder Apache, load generen met apachebench op clients

Dat is een geheugen- en netwerkbenchmark, je moet wel bijzonder veel plaatjes gaan plaatsen voor het uberhaupt van je hdd af gaat hangen. Kijk dan naar de usericons van GoT ofzo, ik gok alleen dat apache eerder aan zijn max zit dan de harddisk.
Kijk sowieso nog naar JMeter of MS' web benchmark tool in plaats van ab, die tools ondersteunen wel dingen als randomurls geloof ik.

Een andere benchmark die ik je een tijd terug nog aanbood is het indexeren van een stuk GoT-searchengine, als het goed is is dat ook voor windows te compileren (nooit geprobeerd) en dat is een zeer zware random read/write-test.

Auteur

Femme UX Designer @ACM • 15 maart 2004 00:48

Als de dataset groot genoeg is en er voldoende gelijktijdige connecties zijn wordt plaatjes serveren volledig I/O bound. Heel realistische is dat niet omdat er weinig webservers zullen zijn die dergelijke workloads hebben. Feitelijk wordt het dan meer een soort van fileserver benchmark met een hoop access logging er bovenop.

Het indexeren van de search lijkt me ook wel een goede.

Resistor 15 maart 2004 10:50

Ik heb eens een keer in de Computer Idee (nog voordat ik t.net kende, ) gelezen dat ze de invloed van fragmentatie op de prestaties meetten.

Ze gooien een schijf vol met 2 typen bestanden, ABABABA enz., vervolgens halen ze 1 type weg waardoor er gaten ontstaan, gooien er programma's op waarmee ze gaan testen, en vervolgens halen ze de andere bestanden weg. (de bestanden waarmee gewerkt gaat worden staan dus gefragmenteerd op de schijf met heel veel gaten er tussen)

Ze gingen dus testen met een gefragmenteerde schijf, wat dus mindere prestaties gaf dan een gedefragmenteerde schijf.

Real-life zijn de schijven ook gefragmenteerd, maar omdat testprogramma's random data lezen kunnen de resultaten per test bij de zelfde schijf verschillen.
Bij standaard-gefragmenteerd niet-random heeft de schijf in theorie iedere keer de zelfde score, omdat hij iedere keer het zelfde moet doen.

Zo zijn verschillende schijven iedere keer op de zelfde manier te testen.

star-saber 15 maart 2004 20:45

Wel leuk dat testen maar test het dan op machines die de meeste mensen hebben.
en niet op machines die bijna niemand heeft

Wouter Tinus @star-saber • 15 maart 2004 23:10

Als je alleen de harde schijf van een systeem wil testen dan is het juist belangrijk dat andere onderdelen zoals de controller of de processor de prestaties niet belemmeren. Je gaat immers ook geen Radeon 9800 XT testen op een Pentium II met 64MB RAM, want dan lopen alle spellen toch traag. Op een "gemiddeld" systeem heb je daar misschien nog geen last van, maar feit is wel dat een gemiddeld systeem van nu over een jaar oud is, en je je benchmark-gegevens zo lang mogelijk wil kunnen blijven vergelijken met voorgaande tests.

Auteur

Femme UX Designer @star-saber • 15 maart 2004 23:14

Een Promise FastTrak S150 TX2plus kan iedereen in zijn thuissysteem hebben. De bus van het moederbord moet gewoon voldoende snel zijn om alle soorten I/O controllers zonder vertraging te kunnen ondersteunen, zodat er een uniforme configuratie voor tests van mainstream en high-end hardware gebruikt kan worden.

erwinb 15 maart 2004 09:07

imho,
Ik denk dat het nuttig is om de test tools zo te kiezen dat er ook NAS (Network Attached Storage) en iSCSI in de test kunnnen worden meegenomen.

Een van de voorwaarden is dan wel dat de Netwerk adapter en de switch ook worden bepaald en van een voldoende nivo zijn.

Auteur

Femme UX Designer @erwinb • 15 maart 2004 16:17

Er zijn geen alternatieven voor IPEAK Storage Performance Tookit, althans niet dat ik weet. IPEAK SPT werkt alleen op de fysieke schijf en kan daardoor niet gebruik worden op software RAID partities of netwerkschijven.

erwinb @Femme • 15 maart 2004 23:05

een tool die voor dit doel bruikbaar is zou van de Storage Performance Council kunnen komen in de vorm van hun SPC tool.
zie http://www.storageperformance.org/ voor meer info.

Shift 18 maart 2004 00:04

Nou het beste methode zou zijn om een klein applicatie te ontwikkelen en dit verspreiden aan gebruikers die aan bepaalde hardware eisen voldoen.

Deze gebruikers zou bijv. een maandlang pc normaal gebruiken, de software zou informatie verzamelen van de huidige activiteiten zoals toegangstijd en transferrate enz enz. De resultaten zou kunnen gedumpt worden in een database van tweakers.net. Met die data een percentage en gemiddelde cijfers van aantal zaken uit rekenen. Dan zie je denk ik het beste real-world prestaties van bepaalde hardware.

Het is wel een grappige distributed-benchmark netwerk

. Het kwam opeens op me

Verwijderd @Shift • 19 maart 2004 14:20

Dan heb je alleen het probleem dat je computer langzamer word. En ik denk niet dat er veel mensen zijn de dat willen.

Shift @Verwijderd • 19 maart 2004 22:01

Het is natuurlijk niet voor heel jaar, maar 1 maand lang bijvoorbeeld.

Op dit item kan niet meer gereageerd worden.

Reacties (44)

Sorteer op:

Weergave: