Luistertest: verschil kwaliteit geluidsencoders minimaal

Een luisteronderzoek met achttien muziekfragmenten van verschillende geluidsencoders heeft als resultaat dat de kwaliteit van gecomprimeerde geluidsbestanden met een bitrate van 128kbps in combinatie met het gebruik van VBR niet of nauwelijks van elkaar verschillen. De Duitser Sebastian Mares kwam tot deze conclusie op basis van publieke beoordelingen van de kwaliteit van verschillende geluidsfragmenten die met diverse encoders gemaakt waren. De luisteraars waren daarbij veelal afkomstig uit de Hydrogenaudio Forums-gemeenschap, waarvan de leden bekendstaan om hun interesse voor geluidskwaliteit. Elk proefpersoon kreeg per fragment twee geëncodeerde versies te horen. Daarnaast werd er gebruikgemaakt van een breed scala aan fragmenten, waaronder stijlen die bekend staan als moeilijk encodeerbaar met behoud van geluidskwaliteit.

De deelnemende encoders waren de laatste versies van Nero AAC, iTunes AAC, LAME, Ogg Vorbis, WMA Professional en Shine. Afgezien van de Shine- en Nero-encoder bleken alle compressiemethodes te leiden tot hoge waarderingen die vrijwel gelijk waren aan elkaar. Organisator Sebastian Mares concludeerde daarom dat moderne encoders dusdanig ontwikkeld zijn dat ze op 128kbit en met gebruik van de VBR-technologie een prima geluidskwaliteit leveren. Alleen Shine bleek structureel lager te scoren dan het maximum van vijf waarderingspunten. De Nero AAC-encoder bleek daarnaast niet vergelijkbaar met de overige resultaten, omdat deze encoder gebruikmaakt van een truc om beter te klinken door het begin van een nummer een hogere bitrate mee te geven.

Update (11.52): de vergelijking met cd-kwaliteit is verwijderd, aangezien dit een interpretatiefout betrof van de schrijver.

Resultaten luistertest mp3-encoders (januari 2006)

Door Inge Janse

16-01-2006 • 10:02

217

Bron: Maresweb

Reacties (217)

217
210
113
38
9
64
Wijzig sortering
Is mijn gehoor dan exponentieel beter dan de mensen die deze test hebben uitgevoerd? Je hoort het verschil tussen 128kpbs en FLAC heel goed. Ik wil persoonlijk zelfs niet onder de 256kpbs omdat de dynamiek er anders te veel onder de lijden krijgt.

Of hebben deze mensen het met verkeerde speakers/versterkers geprobeerd zodat inderdaad alles hetzelfde klinkt?!

Zou eventueel ook nog kunnen liggen aan de duur van de fragmenten, en de tonen die tijdens deze periode afgespeelt moesten worden misschien?! Wanneer de variatie van de verschillende geluiden meer is, de kwaliteit van het gehaal omlaag gaat. (verschil dan een 5 sec fragment of een 5 minuten liedje)

Ik vertrouw het zaakje in ieder geval niet helemaal

EDIT: Spelling
Anoniem: 158555 @Hooker16 januari 2006 10:40
Ik heb zelf aan de test meegedaan en ik moet zeggen ik snap de resultaten gedeeltelijk. Zo was het aartsmoeilijk fouten te ontdekken in het stukje klassieke muziek, het leek me niet echt goed gekozen. Misschien hadden ze een stukje moeten kiezen met wat meer orkest in want dit was echt niet representatief voor "moeilijke" klassieke muziek.

Bij het klassieke stuk hoorde je bij 1 encoder duidelijk fouten maar al de rest, zelfs met tientallen keren herbeluisteren, klonk nooit slecht.

En verder nog iets over de bitrate. Dat ligt voor iedereen anders en moet je zelf afwegen he. als je denkt dat je 256 bits nodig hebt en je hebt er de ruimte voor op je mp3-speler is dat goed he. Ikzelf gebruik voor de meeste liedjes 192 kbits en voor klassiek 256 kbits en dat is meer dan goed genoeg voor mn sennheisserkes (of hoe je het ook mag schrijven :P)
Dan heb jij een super gehoor. Het is niet de eerste keer dat een test zoals deze gehouden word. Ik heb er ook al verschillende gezien in magazines, en daar bestond het test panel steeds uit mensen die dagelijks met muziek werken en die beschikken over een zeer degelijke muziekinstallatie.

Telkens is het resultaat hetzelfde. op 128 is het verschil amper tot nooit te horen, alles wat erboven zit word ervaren als dezelfde kwaliteit als een CD. enkel onder de 128 merkt men nog verschillen op.

Ofwel word (als we u mogen geloven) in elke test vals gespeeld, ofwel is het jouw verbeelding dat een verschil hoort.
Ik vraag me af of deze personen echt naar de geluiden luisteren, of gewone muziekluisteraars zijn.
Mijn IT Manager heeft vroeger in een exclusieve electrazaak gewerkt. Zij konden verschil horen in geluid tussen versterkers en cdspelers en een combinatie hiervan. Als men een muziekfragment afspeelde, kon met direct zeggen welk merk versterker en welk merk cdspeler het was. Dit diende men te kennen daar en werd dan ook dagelijks getraint.
Ik vraag me af of mensen met zo'n getraint oor, naar deze fragmenten hebben geluisterd of gewoon mensen zoals zo'n Henk-Jan Smits van Idols.
Het zijn mensen van een audiofielen forum. Dus dat zijn al liefhebbers met een "getraind" gehoor.

Overigens vallen de meeste "getrainde" gehoren meteen door de mand bij een dubbelblinde test.

Verder heb je geen getraind gehoor nodig om het verschil in geluid tussen versterkers, cd spelers en speakers te horen. Je hebt nou eenmaal aparatuur die neutraal of warm klinkt. In een beperkt assortiment, zoals een winkel voert, is het helemaal niet verrassend dat je daarmee dan kunt vertellen welk merk versterker er gebruikt word hangt.
Nou ik vermoed dat ze dan vooral te veel en te hard hun Ipod op hun kop hebben gezet want het is werkelijk onzin dat je op 128 Kb, zelfs VBR, geen verschil meer zou horen tussen het origineel van de CD en het ge-encode stuk. Het hangt er wel van af WAT je beluistert. Electronische muziek laat zich uitstekend comprimeren, maar ga maar eens naar een groot klassiek concert luisteren, en dan vooral als er een viool zacht op de achtergrond speelt met blaasinstrumenten op de voorgrond.

Ik heb voor een mp3-project bij een vereniging ongeveer 250 CD's geript, en voordat ik daarmee begon heb ik uitgebreide geluidstesten uitgevoerd. Op 192 Kbit, niet op 128 Kbit, want dat deed gewoon pijn hoe de muziek gemarteld werd. Het verschil tussen 192 Kbit mp3 vbr en 192 Kbit Ogg Vorbis VBR was ALTIJD duidelijk, ook bij electronische muziek. En het verschil tussen Ogg Vorbis 192 Kbit VBR (Q=5 of 6 geloof ik, rond 192 kbit kwam je vaak uit) enerzijds en de CD anderzijds was vaak ook nog wel te horen, maar niet altijd bij electronische muziek.

192 Kbit Ogg Vorbis is zeer goed, maar bij een vergelijkingstest met de CD mis je in complexe muziek, vooral klassiek, bepaalde diepte hier en daar. Maar alleen als je ernaar op zoek bent, als je gewoon doordeweeks een muziekje op wil zetten is het goed genoeg.

Maar om dan te gaan zeggen dat niet 192 maar 128 Kbit VBR Ogg Vorbis al nauwelijks meer uitmaakt tov de CD vind ik van de pot gerukt, die lui zijn naar te veel popconcerten geweest zonder oordopjes..

LP klinkt trouwens inderdaad zeer marginaal beter dan CD, ook weer met name bij klassieke stukken, en vooral met veel vioolwerk. Sommige mensen zijn daar nou eenmaal gevoeliger voor dan anderen.

En vergeet niet dat het bekend is dat het tegenwoordig met het gehoor van de gemiddelde tiener of twintiger niet meer zo fantastisch gesteld is , met dank aan de Walkman en de popconcerten.
Het is absoluut niet moeilijk om een verschil te horen tussen verschillende versterkers. Maar het is een stuk moeilijker om op dezelfde installatie het verschil te horen tussen CD en een encoder als MP3. Persoonlijk merk ik het enkel als er echte fouten in de encoding optreden.

Er zijn ondertussen genoeg testen geweest waarbij mensen met een bewezen goed gehoor betrokken zijn geweest dat duidelijk is dat bij een bepaalde bitrate het verschil gewoon niet meer te horen is. Maar ook daar gaat het hier niet om. Dit is een vergelijkend warenonderzoek van de codexen.

Punt is dat het hele gezeur over welke codex steeds minder interessant wordt. In deze test verschillen iTunes ACC, LAME, Vorbis en WMA in ieder geval niet significant van elkaar. (Dus kan zelfs LAME de beste van de vier zijn ondanks dat die hier onderaan staat)
@Crusty_Ass

Muziekgenot/beleving wordt vaak als alternatief voor geluidskwaliteit gebruikt. Ik ken genoeg mensen die dusdanig van muziek op een Type-I Compact Cassette in een eenvoudige Supertech-speler genieten dat ze die kwaliteit niet van CD-kwaliteit kunnen onderscheiden.

Zelf probeer ik zoveel mogelijk MP3 te vermijden. Als ik een CD koop en die omzet voor m'n portable (iAudio M5) dan doe ik altijd FLAC. Zoals je al aangeeft maakt het voor veel muziek minder uit, maar als het gaat om mooie soundtracks met bijvoorbeeld veel trompetten of saxofoons, dan valt MP3-geluid onmiddelijk door de mand en is FLAC de logische keuze. Ik vraag me alleen af waarom ze portables altijd, net als PC-audioformaten op 16-bit houden terwijl heel veel CD's allang op 24-bit of hoger worden gecodeerd.
@ wfh:
Ik vraag me alleen af waarom ze portables altijd, net als PC-audioformaten op 16-bit houden terwijl heel veel CD's allang op 24-bit of hoger worden gecodeerd.
Ehnee. De opname en de mixage mag dan wel in 24 bit gedaan zijn, een CD is gewoon fysiek beperkt tot 16 bit. Nou halen ze wel allerlei truukjes uit om toch een 'soort van' hogere bitdiepte te halen (noise-shaping bijv.), maar de CD is en blijft beperkt tot 16 bit, 44.1kHz, stereo PCM geluid.

Wat jij wilt is SACD, HDCD of DVD-audio. Die kunnen veel hogere samplerates en bitdieptes aan.
en daar bestond het test panel steeds uit mensen die dagelijks met muziek werken en die beschikken over een zeer degelijke muziekinstallatie.
- We weten niet of het testpanel in *deze* test bestond uit mensen die dagelijks met muziek werken. We weten uberhaupt niets over de achtergrond van het testpaneel. Deze mensen zijn niet geselecteerd, maar deden vrijwillig mee aan de test:
Who should take the test?

Anyone interested in lossy audio quality, or people who have no interest but would like to help making this test better are invited. You don't need excellent hearing, but some good gear is welcome.
- We weten niets van de mogelijke belangen van de deelnemers aan de test. Er was een groot aantal anonieme deelnemers (anon02 t/m anon25)

- We weten niets van de verscheidenheid apparatuur die gebruikt is om te testen. "Good gear" is een subjectief begrip.

De conclusie in de titel klopt overigens niet. De testers werd gevraagd een rating te geven van 1 tot 5 ten opzichte van het origineel. Hierbij was 1 omschreven als "Very annoying" en 5 als "Imperceptible". Alle encoders scoren lager dan 5. Zelfs als het 95% betrouwbaarheidsinterval in acht wordt genomen. Deze conclusie is dan ook niet afkomstig van de onderzoeker zelf! De correcte methode om dit te testen zou een blinde vergelijkingstest zijn.

aanvulling: heb nog eens beter naar de testmethode gekeken. Er is wel degelijk (dubbel)blind getest. M.a.w. de testers wisten niet welke sample het origineel was of encoded. Nu is de titel van dit artikel niet slechts ongestaafd, maar zelfs FOUT.

Velen werpen overigens kritiek op dat het dubbelblind moet worden getest. Dat zou ten eerste niet zo veel uitmaken in dit format van de test. Er is tijdens de test verder geen interactie tussen de onderzoeker en het testpanel. Ten tweede IS de test dubbelblind uitgevoerd. De software randomiseert zowel de volgorde van de testsamples, als de referentie en encoded samples.
en die tests worden bij hydrogenaudio zeker wel gedaan. er zijn weinig codecs die 'imperceptible' scoren, zeker o 128 kb/sec. als je met een goede koptelefoon en geluidskaart luisterd (met speakers hoor je minder snel verschillen) en je gebruikt de software die ze bij hydrogenaudio aanraden (abx) dan vind je met enige oefening wel dat er verschil is tussen 128kb (met elke codec) en de cd, zeker als je metalmuziek draaid.

de enige codec die rond 165 kb/sec 'transparant' (door 95% van de mensen niet te 'abx-en') is, is musepack.
Anoniem: 92540 @ProfPi16 januari 2006 12:14
Bovendien is de testgroep geen random steekproef uit de populatie; alle testers zijn vrijwilligers. Daardoor is er een mogelijke bias (bv. allemaal schrijvers van een van de decoders) waardoor geen ANOVA analyse mag worden toegepast.

De testopzet is prachtig, maar zou inderdaad dubbel blind en met random steekproef moeten worden uitgevoerd, op een standaard luisteropstelling. In zo'n dubbelblind onderzoek zou dan bovendien de uitslag van de cd-opname meegenomen moeten worden. [EDIT: het dubbelblind karakter van de test is alleen van toepassing op de encoders. Een echt eerlijke test (echt dubbelblind) zou de echte opname ook bevatten. EDIT2: blijkbaar is de echte opname er ook in gestopt. Waarom is deze dan niet in de staatjes opgenomen?
EDIT3: Tjonge, hoe meer ik lees hoe ingewikkelder ik het vind. Het blijkt dat elke uitslag eigenlijk uit twee delen bestaat: wat is het origineel, en hoe goed voldoet de benadering? De huidige representatie suggereert dat iedereen goed kan onderscheiden wat het origineel is. Dat lijkt mij echter onwaarschijnlijk.]

Een verder minpunt van het onderzoek (maar waarvan ik de consequenties nog niet zie - misschien valt dit mee) is dat het aantal deelnemers per test varieert van 30 tot 18. Dat is een flink verschil.

@ Maurits van Baerle
het maakt wel degelijk uit dat de steekproef niet random is. Stel bv. dat de makers van de decoders weten waar de sterke en zwakke punten van hun decoder te horen zijn, dan is de test voor hen niet blind. Stel dat het allemaal mensen zijn die meedoen omdat ze gewend zijn aan 64bps en het verschil willen horen - dan zijn ze altijd positief. Stel dat deelnemers allemaal al gewend zijn aan de nadelen van decoders en dus een iha. positief gebiasde mening hebben. Etcetera.

In al dergelijke gevallen is de uitkomst niet te generaliseren. Deze kritiek geldt overigens voor veel tests via internet.
De schrijvers van de codecs kunnen wel meedoen maar aangezien het een blind onderzoek is maakt dat niet uit. De test-deelnemers wisten niet welke codec ze horen. Dat is het hele idee achter een blind onderzoek.

Overigens heeft Sebastian Mares zelf ook al aangegeven dat er statistische problemen ontstaan. Deze ontstonden eerder al bij 192Kbit VBR onderzoek. Het aantal mensen dat de geteste codecs kan onderscheiden van de ongecomprimeerde versie is zo enorm klein dat de resultaten onbetrouwbaarder worden.

Aangezien mensen die het onderscheid wel kunnen horen of niet bestaan, of het beweren maar weigeren deel te nemen aan een dubbelblind onderzoek wordt de groep die het onderlinge verschil moet vaststellen wel heel klein. Als er van de 1000 deelnemers maar 10 uberhaupt een verschil kunnen vaststellen dan zijn die 10 wel erg weinig om te zeggen dat OGG beter scoort dan AAC of andersom.
Anoniem: 122960 @ProfPi16 januari 2006 13:09
Overigens mag je bij een dergelijke schaal (ordinaal) sowieso geen ANOVA (= ANalisys Of VAriance voor de onwetenden) uitvoeren, want je vergelijkt appels met peren. Een niet parametrische toets (zoals Chi Square) was beter geweest.
Anoniem: 92540 @ProfPi16 januari 2006 14:44
@Krap Nek -
je bedoelt, omdat het een 5 punts schaal is? Dat valt in een grijs gebied. Statistici voelen zich lekkerder bij een 7 punts schaal of nog fijner, maar het is aanvaardbaar om een ANOVA op deze variabele los te laten.

Een ANOVA zegt echter niet veel; alleen maar OF er verschil tussen de groepen zit - niet WAAR dat verschil dan zit. Het wordt meestal pas interessant om te kijken tussen welke groepen het verschil is (T-testen), maar met de kleine aantallen in deze tests zal er te weinig power zijn om daar veel uit te halen.
*was* musepack.. AoTuV doet het ondertussen tenminste zo goed..
nou het is lang geleden dat ik een mp3 test deed maar in toendertijd kon ik echt wel het verschil horen tussen een 128 en 160 kb. Ik vond de 160 kb wat beterder klinken.
Het ligt natuurlijk ook eraan hoe je het beluistert. Beluister je het muziek 1x dan zal je waarschijnlijk ook met de conclusie komen dat je geen verschil hoort maar luister het fragment vaker dan 3 keer en telkens lettend op lage en hoge tonen en dynamieken op bepaalde stukjes en muziekinstrumenten dan hoor je echt wel het verschil. Je moet er wel op gefocussed zijn.
Maar wel zijn de verschillen heeeel erg klein als je het over een 192 VB en 256 CB hebt. En mocht je het verschil goed horen dan luister je ook naar goede speakers die hard kunnen gaan zonder verlies of storing van tonen.
Anoniem: 95032 @Hooker16 januari 2006 10:30
Misschien als je de test blind doet dat jou gehoor exponentieel vergelijkbaar is met dat van het test publiek.
Anoniem: 141802 @Hooker16 januari 2006 10:37
Natuurlijk is het makkelijk roepen dat lossless zoveel beter is dan mp3. Maar heb je daadwerkelijk wel eens blind mp3 getest t.o.v. flac? Zeker met de laatste lame encoder zal je dat nog niet meevallen.

Hoewel ik altijd sterk overtuigd was dat mp3 op 128 kbit niet goed klinkt, heb ik mijn mening na een dergelijke test toch echt moeten herzien. Op bijna geen een sample kon ik de mp3 systematisch onderscheiden van het origineel.
Headphones... rings a bell? Lees even een stukje voor je over speakers begint: http://www.maresweb.de/listening-tests/mf-128-1/

Als je het forum eens bekijkt zul je zien dat er zeer diverse samples zijn gebruikt en dat de testers bij elkaar een 'aardig' kritisch clubje is. Kennelijk is voor 99,9% van de mensen VBR mp3/aac voldoende. Uiteraard mag jij blijven beweren dat je het verschil duidelijk hoort. Kennelijk zit dat inderdaad tussen de oren. :-)
Dit zal het standaard antwoord worden voor iedereen die commentaar heeft:

1: Heb je met 128kbps VBR getest?
2: Heb je dubbelblind getest?


(Met name dat laatste is altijd het grote probleem in de hifi wereld)
exponentieel? toe maar.

Maar het is maar waar je klritisch over bent. Ikj ben visueel kritisch. Maar soms moet je iets minder accepteren omdat ieder stapje beter exponentieel meer geld gaat kosten
Anoniem: 57270 @Hooker16 januari 2006 11:02
@Hooker

ik ben het helemaal met je eens, ik zelf kan ook het verschil horen tussen een mp3 en het origineel, ook als de mp3 een 320kb mp3 is, alleen heb ik daar wat tijd voor nodig om het verschil te horen tussen de twee.

het probleem met deze testen is vaak dat je een kort fragment hoort van een stuk muziek wat je al dan niet kent, en dan hoor je snel geen verschil tussen de twee, ik dan ook niet.
maar als je er langer naar gaat luisteren en er de tijd voor neemt hoor je zeker verschil tussen mp3 en het origineel.
Oow, oow, oow... wat een borstklopperij!

Nou fantastisch hoor dat je dit soort verschillen hoort.
Gefeliciteerd. Jouw bijdrage aan dit onderwerp is daarmee nu net zo groot als die van mij...

oftewel 0:0 B-)
begrijpend lezen is een vak blijkbaar, het ging er in mijn posting niet zozeer om dat ik zo goed ben, dat weet ik al :o.

het ging er meer om dat je niet van zomaar een fragmentje muziek direct kunt horen; ja, das nou mp3, en dit is echt het origineel, duidelijk hoorbaar.
zo werkt dat niet.

maar zo werken de meeste testen helaas wel, en dat maakt ze mijns inziens niet relevant kwa uitslag.
Let op, het gaat wel om VBR en niet om gewoon 128kbit, dat maakt nogal een verschil.
Leer Lezen
nofi

FLAC is in alle gevallen die ik ben tegen gekomen veeeeeel meer dan 128kbps.
Het gaat hier om een vergelijking tussen verschillende codec, waarvan de bitrate zelf te varieren is naar ongeveer 128kbps.
Ze hebben van iedere bitrate getest op 128kbps, en daartussen bleek het verschil minimaal te zijn.

Er word nergens beweert dat er met een hogere bitrate geen beter resultaat kan worden gehaald, slechts dat de keuze van encoder weinig uit maakt.
Nero speelde bijvoorbeeld een beetje vals, door in het begin een hogere bitrate te gebruiken, waardoor die beter leek te zijn.
Dat is een interessant uitgangspunt. Inderdaad de test gaat over een vergelijking tussen codecs op 128kbps. Niet over de vraag of het absoluut beter of minder dan weet ik veel is.

Om eens een vergelijking te maken, je kunt ook video codecs zoals XviD, DivX enz gaan testen door clipjes van 128x128 pixels te maken en dan zal ook blijken dat ze allemaal even 'goed' zijn. Alleen is er niemand die op deze manier video kijkt.

Zo lang bij die audio test niet word aangegeven waarmee de muziek word afgespeeld en waarmee de muziek is beluisterd vind ik het wetenschappelijk gehalte nul.

Daarbij, clipjes van zo'n 2 minuten zeggen niet veel. Luidsprekers of audioapparatuur koop je ook niet op een testje van 2 minuten. Pas na enkele sessies met diverse muziek ga je de verschillen horen, gaat je persoonlijke waardering een rol spelen. En dat is het enige wat telt, jij moet het mooi vinden.

Zowiezo is muziek luisteren een persoonlijke beleving die afhankelijk van iemands emoties, gehoor enz totaal verschillend kan zijn.
Anoniem: 75364 @Hooker16 januari 2006 17:37
Ik ben ook behoorlijk verbaasd door deze test. Het zal wel aan mijn geluidinstallatie liggen, maar LAME encodings op 128 kbit VBR klinken erg slecht in vergelijking met bijvoorbeeld OGG 128 kbit VBR. Voor oudere opnamen van klassieke muziek heb ik minimaal 256 kbit OGG nodig willen de zachte stukken een beetje heel blijven.
Hmm,

Ik snap het ook niet.
Ik heb standaard ST VBR 256 of const.192.

die vind iik nog steeds veel beter klinken dan 128.
En ook al verschilt het niet veel tegenover het origineel, ik vind dat het voller klinkt.

O ja, voor SONY enzo: ik neem ook mijn originele cd's op, ik ga echt niet 2 keer 20 euro lappen omdat die cd's te snel kapot gaan!! :( :( :(
ik zou bijna zeggen dat CD-R's beter zijn; die zijn bij mij niet kapot.. :o :( |:(
'Dubbelblind' is hier het magische woord!
Ga het maar eens zelf proberen op deze manier, niet wetende wat voor kwaliteit er afgespeeld wordt. De uitslag zou je nog wel eens kunnen verrassen!
Op deze manier zouden zoveel van die audiofiele 'fabeltjes' ontkracht kunnen worden
Op deze manier zouden een heel stel hifi fabrikanten failliet gaan....

(En zouden we veel goedkoper van kwaliteit kunnen genieten)
Levensgevaarlijk, dit soort berichten posten.

Ik verheug me nu al op de flames die gaan ontstaan over objectief luistergedrag. Ongetwijfeld komen ook mensen aan het woord die opmerkingen gaan maken over de kwaliteit van de snoertjes van de koptelefoontjes en of deze wel of niet magnetisch afgeschermd waren.

Daarbij compleet voorbij gaan aan waar het om gaat: voldoet de kwaliteit van het stukje muziek voor de gebruiker. Ik hoor op sommige tracks ook wel wat verschil bij slechte encoding. Maar dat weegt voor mij niet op tegen het voordeel van een volledig gedigitaliseerde collectie die ook nog een beetje binnen de perken blijft qua schijfruimtegebruik.

Wel mooi dat dit onderzoek is uitgevoerd door een aantal audiofreaks, die ongetwijfeld van zichzelf hadden verwacht moeiteloos het verschil tussen 128 en 160 te kunnen horen :)

edit:
typo
Man, mijn muziek klinkt duidelijk beter als ik onder elk pootje van mijn versterker een stroopwafel leg. :+
stroopwafels? dat is een goeie tip. Ik gebruikte nu krakelingen en dan is het geluid toch wat 'crunchy' |:(
Euh, ligt het aan mij, of gaat het niet enkel om MP3 maar juist vooral over alternatieven zoals AAC, OGG en WMA Prof.?

MP3 (LAME) komt juist als slechtste uit de bus zie ik :+
Statistieken liegen niet, statistici wel :)
De onderlinge verschillen zijn te klein om dit statistisch te onderbouwen:
Then I performed an ANOVA analysis. The results are graphed below. The results do not show anything new - all encoders are tied on first place, except Shine which of course comes out last.
Door deze bestanden te downloaden:

http://www.maresweb.de/listening-tests/mf-128-1/ABC-HR_bin.zip
http://www.maresweb.de/listening-tests/mf-128-1/readme.htm

kun je de test zelf doen (je moet dan ook nog de samples downen, zie de htm-file).
Zo'n soort test is ook al eens op het forum van Tweakers.net voorbij gekomen. Ook daar verhitte discussies: forum: Luistertest van lossy formaten ** Test staat online **

Het is overigens altijd hetzelfde. Ene kamp hoort het verschil altijd, maar wil niet meedoen met een soortelijke test. Het andere kamp wilt dat het ene kamp zo'n test doet :P
horen is slechts een van de zintuigen bij een goede muziekbeleving. Voelen is een tweede. Ook kun je dingen waarnemen die je niet bewust hoort maar wel beluistert. klinkt raar, maar is slecht onder woorden te brengen.
Anoniem: 119214 @boner16 januari 2006 11:57
klopt, o.a. een viool kan frequenties voortbrengen die wij niet kunnen horen tot 50 Khz.

Toch zijn er hifi-fabrikanten zoals KEF die tweaters hebben die deze frequenties kunnen weergeven. raar waar waar.

Onderzoekers hebben gemerkt dat mensen dit toch op een of andere mannier kunnen waarnemen. De juiste uitleg ken ik niet.
Hebben onderzoekers dat GETEST, of BEWEREN de audio fabrikanten dat?

Dat is een erg belangrijk verschil.

sinds kort gaan de tweaters van speakers een stuk hoger. Het blijkt namelijk als verkoopargument goed te werken. En moeilijk of duur is het niet, dus de andere merken volgen snel.

Feit is wel dat een heleboel zaken meespelen bij de muziekbeleving. De wetenschap dat je kabels een fortuin hebben gekost heeft ook een positief effect op de muziekbeleving.
De tonen boven de 20khz kan je inderdaad niet horen maar deze kunnen wel de tonen die we wel kunnen horen beinvloeden..Belangrijk bij zeer expressieve instrumenten, staart van een reverb effect enz ... wat zich vooral uit in ruimtelijk gevoel, en plaatsing van instrumenten.

De resultaten van de test ga ik niet betwisten, de gehoorsverschillen tussen 128 vbr en cd zijn verwaarloosbaar tot onbestaand, zelfs op zeer goede hifi apperatuur of studio monitors. Ze zijn dan beide ook digitaal en onderhevig geweest aan de dynamische en frequentie response beperkingen van A/D converters waar alles boven de 22Khz is afgekapt.En hierna nog eens bij het afspelen door de DAC's. Tussen opnames of gemasterd van analoog op 24/96 en 16/44 hoor je wel degelijk verschil. Over het verschil tussen vinyl or tape ...etc (analoog) en cd daar valt wel wat over te zeggen maar dat is een andere discussie.
Dit komt doordat alle frequenties invloed op elkaar hebben. Dus een 50KHz toon zal de (wel hoorbare) 10KHz toon beinvloeden.
Voor de mensen die zich afvroegen wat voor apparatuur ze geruikten: ze hebben de test laten uitvoeren door de audiopuristen zelf. Deze zijn meestal erg kritisch en hebben het systeem afgesteld op hun gehoor/smaak, waardoor ze verschillen dus extra goed zouden moeten waarnemen.

Daarnaast gaat het hier om 128kbit VBR, wat een aardig verschil is met vaste 128kbit encoding. Ik zelf hoor ook absoluut geen verschil, mits het goed geript is. Een MP3'tje dat door een KaZaA-gebruiker anaoloog geript is met een vaste bitrate van 128kbit/s klinkt natuurlijk wel weer een stuk minder.

Het enige wat ik mis aan deze test is de beoordeling die ze aan het originele stuk hebben gegeven. Dat is namelijk wel interessant bij een 'blinde' test, aangezien je dan van te voren niet weet welke wel of niet het origineel is(en dus niet bevooroordeeld kan zijn).
Anoniem: 105449 @BarôZZa16 januari 2006 10:20
Er zijn ook Bose-audiopuristen :)
De kenner snapt wat ik bedoel....
Mijn vader is ook zo'n voorstander van muziekinstallaties van +€10k geluidsystemen (studioboxen, versterkers met enkel volumeknop, SACD's...)
We discussiëren hier dikwijls over, maar ik blijf erbij dat 99% van de muziekliefhebbers het verschil niet zullen horen tussen een 256 kbps mp3 en een cd. En al zeker niet als ze niet direct na elkaar vergeleken worden. Laat staan in de auto...
De auto heeft dan ook de perfecte akoestiek hé :P
Die mp3 speler heeft vast minder goede DACs dan die CD speler. Dus dat hoort ie dan wel.

Nee, zet die mp3 over in WAV en brand dat op CD, en speel dat dan op zijn CD speler af.
zet je hem toch gewoon wat harder :D
Nou, sluit je mp3 speler aan op zijn installatie en laat hem geblinkdoekt zeggen wat de mp3 is en wat de CD! Ik ben erg benieuwd.
Net zoiets als een Lada-coureur?
Ook niet-kenners snappen dat soms wel ;)
In principe moet deze test op een computer uitgevoerd worden. De verschillende samples en codecs worden in een daarvoor ontworpen programma zo gepresenteerd dat de tester niet weet welke codec hij/zij hoort. Dus het gaat (vrijwel zeker) uitsluitend om soundcard/koptelefoon.

De meeste personen die aan zo'n test meedoen zijn geïnteresseerd in audiocompressie (en weten inmiddels hoe compressie artefacts kunnen klinken) en enkele die benieuwd zijn of zij verschillen kunnen ontdekken.

Ik zou zelf de meeste deelnemers van HA niet als audio-puristen bestempelen. Ze zijn wel vaak een beetje theoretische ingesteld (de wet van Niquist zegt dat 44.1kHz genoeg is) maar zijn terecht sceptisch als iets niet met een AB/X test (bewijs dat je echt verschil kunt horen) gestaafd kan worden.
Ik zie nergens in dat hele artikel de opmerking terug dat de cd kwaliteit benaderd is. De schrijver zegt wel dat de verschillen tussen de onderlinge lossy codecs inmiddels zo klein zijn geworden dat volgende testen op 128kbps misschien niet meer nodig zijn, maar hij stelt volgens mij nergens dat een van de codecs een goede vervanging zou zijn van CD kwaliteit. Beste Inge, waar haal je dat vandaan....

Ik wordt hier namelijk altijd een beetje boos (o.k., verdrietig) van, want dit is het soort onzin dat zo vreselijk veel tijd kost om weer uit te roeien. :(


edit:
nog wat feiten om het te ondersteunen:
De test is gedaan met 6 audiofragmenten. Deze zijn alle zes lossy. Hiermee is dus niet de relatie tot een lossless bron getest. Zo een krasse uitspraak als de titel van dit artikel daarover is dan ook ongefundeerd.
Als je beter had gelezen had je gezien dat er getest is tussen een ongecomprimeerd WAV bestand en de geteste codecs. Dat is namelijk het hele idee achter een ABX-test. Twee lossy codecs (A en B ) en een lossless (X, Wav in dit geval) en dan proberen een rangorde in kwaliteit vast te stellen. Dit alles natuurlijk blind voor de luisteraar, die moet zeggen welke van de drie de Wav is, dat kan hij zelf niet zien.

Een score van 5 betekend dat niemand het verschil tussen Wav en de betrokken codec met juistheid heeft kunnen vaststellen, de beste codecs scoren rond de 4,8. Bijzonder hoog dus.

Het probleem wat de houder van deze test beschrijft is dat mensen die het verschil tussen Wav en 128 VBR aac/ogg met juistheid kunnen vaststellen (dus niet iets schreeuwen maar het ook kunnen bewijzen met een verantwoorde dubbelblinde ABX-test) zo dun gezaaid zijn dat het testen bijna niet meer mogelijk is. Dit is een statistisch probleem dat eerder al testen met 192Kbps onmogelijk maakten. Als er duizend mensen aan een test meedoen en er 990 het verschil niet meer kunnen horen verliest een test haar waarde.
Hoe kom je daar nu bij. Ik kan het namelijk nergens vinden.

Je zegt twee dingen.
1) er wordt getest met wav
2) er wordt een ranglijst gemaakt.

Het eerste is volgens mij niet waar
Each plot is drawn with five1 codecs on the X axis and the rating given (1.0 to 5.0) on the Y axis
Ook de te4st van ABC/HR geeft aan dat je maximaal 8 files kan vergelijken. Daar hoeft geen wave file tussen te zitten.

Het tweede is ook onwaar.
De audio comparison tool geeft geen ranglijst. Het is perfect mogelijk alle sliders op 5.0 of 1.0 te zetten. De uitslag is dus een waardering van een bepaalde file, geen ranglijst. Een score van 5 betekent dat mensen een file heel goed vinden klinken, een score van 1 dat het bagger is. Hier zit dus niet per definitie een relatie met een CD in en ook geen ranglijst.

Het probleem is dus enkel dat deze 30 man geen significante voorkeur voor 1 der codexen hebben. That's it.
Misschien toch tijd voor een leesbril
Als ik de testopzet goed lees (die enigszins verouderd is omdat deze alleen de wav met een enkele encoded versie vergelijkt), dan moet je
1. Kiezen welk fragment de WAV is, en de waardering daarvoor ongemoeid laten;
2. de encoded fragmenten waarderen.

Het is mij onduidelijk of (1) expliciet aangegeven wordt, of uit de scores moet blijken. In het laatste geval is de uitslag ambigu bij twee 5-scores.

Als ik de gegevens zou moeten analyseren, zou ik allereerst alle gevallen verwijderen waar mensen alle sliders onder de 5 gezet hebben. Die hebben zich nl. niet aan het protocol gehouden.
Is mp3 codering niet gedeeltelijk medisch onderbouwd, en dat het waar is dat er tonen weg worden gehaald maar dat je de weg gehaalde dingen niet eens kan horen (normaal)??

Maar ik heb altijd mp3's 128 met vbr gedaan. En ik heb nooit kunnen zeggen dat de kwaliteit daarna slechter was en zeker niet te slecht om nog te gebruiken.

Je weet dat als je comprimeerd je gegevens verliest. Niet gaan zeuren dat je het verschil hoort dus. Het is een hele prestatie om met een fractie van de orginele bestandsgrootte toch goede kwaliteit te bewerkstelligen
Ik doe een beetje onderzoek op de uni en wat ik hier vaak zie is enquetes voor epidemiologisch gebruik. Nu is het voor mensen moelijk te beoordelen of iets op een 5 punten schaal: volledig oneens, oneens, niet oneens of eens, eens, volledig eens. 1 van die dingen is bij bijvoorbeeld pijn.

Nu is muziek wellicht beter te waarderen op een 10 punten schaal om de gevoeligheid van deze test beter te maken. Stel je hoort een nummer en je denkt, hmm, deze lijkt best wel op het origineel dan zou je eerder 4 kiezen dan 5. Terwijl je met een 7-8-9 veel meer nuance zou kunnen leggen.

Alleen als iets echt slecht is kun je het uit de resultaten halen (dat shine gebeuren)

De rest is allemaal 'tied' dus geen statistisch significant verschil.

De proefpersoon groep bestaat uit ongeveer 30 personen als ik de "user comments" op sample 1 tel.

Het is natuurlijk een leuk onderzoekje en een grappig statistisch grapje. Maar ik denk dat ze te weinig power hebben om deze conclusie te trekken.

-edit- Overigens die 'truc' van Nero is vergelijkbaar met VBR, aangezien VBR wanneer het nodig is ook de bitrate omhoogschroeft toch? alleen dat Nero dat consequent doet aan het begin van het nummer. (of dat slim is laten we in het midden) Om het verschil in encoders weer te kunnen geven tov het origineel interesseert het geen drol op wat voor manier de encoder dat doet, in mijn ogen.
Overigens die 'truc' van Nero is vergelijkbaar met VBR, aangezien VBR wanneer het nodig is ook de bitrate omhoogschroeft toch? alleen dat Nero dat consequent doet aan het begin van het nummer. (of dat slim is laten we in het midden)
Euh, krijg je bij de nero dan niet een hoger bitrate VBR ipv aan het begin een hogere constante bitrate???
De getrokken conclusie is prima. Juist wanneer je significante *verschillen* wilt vinden moet je een grotere steekproef gebruiken.

@ Pietje Puk -
Inderdaad, het onderzoek is niet zinvol met deze getallen of onderzoeksmethode. Oa nodig is verder:
1. Noem het percentage mensen dat correct raadt wat het cd-fragment is, en
2. gebruik een schaal van 7 of meer waarden, waarbij de deelnemer zich geroepen voelt om kleine verschillen al te vermelden. Een 5-punts schaal is niet erg goed voor een continue variabele, en de scores doen vermoeden dat veel deelnemers meestal geen onderscheid aan kunnen geven. Dat kan kloppen, maar is verdacht.

Gezien de huidige kleine verschillen kan het overigens best zijn dat er honderden deelnemers nodig zijn voor de koploper - encoders significant gaan verschillen.
En dat maakt het onderzoek betrekkelijk zinloos. Als ik een idee wil hebben wat iedereen bij de volgende gemeenteraadsverkiezing gaat stemmen loop ik ook niet bij de fractievergadering van de PvdA naar binnen.

Een onderzoek moet representatief zijn én een voldoende omvang hebben.

30 man is blijkbaar te weinig om een ranglijst op te stellen. Nu kun je beweren dat de 4 codexen allemaal even goed zijn, maar is die conclusie de werkelijkheid of het gevolg van de beperking van het onderzoek. Ik gok op het laatste.

Daarnaast heeft kahm-jai gelijk dat een waardering van 1 tot 5 redelijk snel tot dit soort gelijke resultaten leidt. Een schaal van 1 tot 10 of bv het door de testers laten rangschikken van de verschillende fragmenten zullen eerder verschillen aan het licht brengen.

Dus hoewel de uitslagen van het onderzoek wel kloppen, wil dat niet zeggen dat het onderzoek het doel bereikt heeft noch dat het optimaal is uitgevoerd.

Het zou mij bijvoorbeeld niet verbazen als de resultaten van de verschillende testers vrij constant zijn. Als iemand codex 1 een 4 gaf hebben codexen 2 t/m 4 waarschijnlijk een beoordeling van 3,5 tot 4,5. Een testje voor serial correlatie tussen de uitkomsten zou dus wel handig zijn.

Op dit item kan niet meer gereageerd worden.