Muziekherkenning middels compressiesoftware

Net zoals een standaard compressieprogramma kan aantonen in welke taal een gecomprimeerde tekst is geschreven, zou het ook mogelijk moeten zijn om zo'n zelfde programma te laten zien in wat voor genre een muziekstuk kan worden geplaatst. Onderzoekers van het Dutch National Research Institute gebruikten de techniek van taalherkenning en hebben deze aangepast om ook gebruikt te kunnen worden voor muziekstukken, zo meldt New Scientist.

Allereerst wordt alle overbodige data verwijderd, zoals ID-tags. Je houdt dus enkel het muziekstuk zelf over. De gezuiverde data wordt gecomprimeerd en de gecomprimeerde data wordt met elkaar vergeleken. Door te kijken naar de grootte van het gecomprimeerde bestand, is het mogelijk te achterhalen in wat voor genre een muziekstuk is te plaatsen. Door deze nieuwe techniek is het misschien ook mogelijk om bij tot nu toe anonieme muziekstukken de componist te benoemen:

Muzieknoot"I would love a technique that can work out who wrote something just by putting the notes on a page into a computer," says Jeremy Summerly of the Royal Academy of Music in London, who tries to identify the composers of unattributed fragments of 16th-century musical scores. The technique is promising, he says, because it detects features of a piece that the composer does not consciously think about, but which are actually their hallmark.

Door Tamara van Hal

Nieuwsposter

13-04-2003 • 11:52

27

Submitter: Zarc.oh

Bron: New Scientist

Reacties (27)

27
26
22
7
0
1
Wijzig sortering
Het muziekgenre wordt niet herkend aan de hand van de filegrootte, maar aan de hand van de frequentie van bepaalde patronen in de file.

Filecompressie werkt namelijk zo: Er wordt gekeken welke patronen in een file het meeste voorkomen. Die krijgen een nummertje, en in de gecomprimeerde file wordt dan in plaats van elk van die patronen telkens zijn nummertje ingevoegd. Dat scheelt een boel ruimte. Verder moet de gecomprimeerde file natuurlijk een tabel bevatten die voor ieder nummer aangeeft welk patroon daarbij hoort.

Het leuke van die tabel is nou, dat je aan de hand daarvan kan herkennen in wat voor taal de file geschreven was als het een tekstbestand was, of om wat voor muziek het ging.
Bijvoorbeeld als je een stuk Nederlandse tekst comprimeert zal daar heel vaak de lettercombinatie 'en' in staan, of bepaalde woordjes als 'de' en 'het'. Kijk je naar Engels, dan kom je juist weer vaak lettercombinaties als 'th' tegen.
Dat is huffman compressie, mp3 is een iets complexer process, maar het idee is wel bruikbaar.
Maar de tabel bepaalt ook hoe goed een file gecomprimeerd kan worden, waardoor de filesize toch weer wat zegt over het type muziek. Welliswaar heel ruw, maar veel makkelijker om statistiek op los te laten.
Anoniem: 77853 @Roland68413 april 2003 20:31
volgens mij gaat het hier juist wel om een huffman compressie, maar dan wel van de voorkomende frequenties..

wat huffman doet is kijken of bytepatronen overeenkomen. dit doe je dus door eerst 1 'bekend' stuk te comprimeren, en dan 1 onbekend stuk, en kijken in welke mate de compressie effectief is, m.a.w. kijken in hoeverre het toegevoegde stuk overeenkomsten heeft met het referentiestuk.

Op zich vind ik het wel frappant dat dit wel werkt, immers audio-data comprimeren heeft nogal wat haken en ogen. eerst fft-en en dan met huffman bewerken (wat mp3 dus doet) is logisch; het artikel laat een beetje in het midden of ze wel of geen fft hebben gebruikt (lees: daar hebben ze het helemaal niet over) maar eigenlijk vermoed ik van wel.

Met een beetje goeie wil lijkt het me echter dat een beetje programmeur makkelijk een programma'tje schrijft wat de correlatie onderzoekt en beter presteert dan domweg zippen.

oja, voor degenen die niet weten wat fft is: fft staat voor Fast Fourier Transformatie, en is een versnelde methode van de Fourier Transformatie, met als enige beperking dat de blokgrootte een macht van 2 moet zijn.
Een fourier transformatie zet een tijdsdomein om in een frequentiedomein, m.a.w. bepaalt de voorkomende frequenties in een stukje van een functie. Bovendien is een fourier transformatie reversibel.

Een fast-fourier transformatie is niet discreet: er worden losse punten genomen. Toevallig is dit perfect toepasbaar op digitale gesampelde audio, en niet geheel toevallig wordt dit principe dus gebruikt voor mp3 compressie, door alle niet gebruikte/amper hoorbare frequenties eenvoudig weg te gooien, danwel de fase informatie weg te gooien (bij hoge tonen).

Analyse d.m.v. compressie van frequenties klinkt mij logisch, analyse van rauwe wave data niet.
mp3 gebruikt eerst de fft+eliminatie(volgens acoustisch model) methode, met daarbovenop een huffman compressie.
Anoniem: 31180 13 april 2003 12:26
Gelukkig zijn er al consumenten programma'tjes die de gegevens van een nummer uit een database plukken d.m.v. audio-fingerprinting (ook wel frequency of TRM acoustic fingerprinting geheten)

ID3Man
MoodLogic :9~
MusicBrainz Tagger

Deze programma'tjes scannen .MP3'tjes of .WMA'tjes (en bij MusicBrainz Tagger ook .Ogg's) en vergelijken de gevonden informatie (calculated fingerprint) met de gegevens uit een database. Als er een match is, dan worden de gegevens gedownload en naar wens naar de ID3-tags geschreven (eventueel ook automatisch re-namen van muziekbestanden).


Voor MoodLogic (aanrader!) en ID3Man moet je zelf informatie toevoegen aan de database (profilen) om informatie terug te krijgen. Wil je dat niet dan moet je er voor betalen. MusicBrainz Tagger is iets minder gebruiksvriendelijk, maar je hoeft zelf niets aan de database toe te voegen.
Maar ja, dan heb je de info van de betreffende muziek al in een database zitten, volgens mij bedoelen ze hier juist dat je van onbekende muziek ook het genre kunt bepalen en dat staat niet in de database van moodlogic etc ;)
Anoniem: 31180 @blobber13 april 2003 13:15
MoodLogic gebruik je als stand-alone programma of als Winamp plugin om dingen als genre-data uit een 'community music metadatabase' te plukken, niet om deze informatie zelf te genereren.

Ik wilde het puntje maken dat applicaties als MoodLogic gebruik maken van dezelfde techniek, de toepassing is hier wel anders.
Dit is niet helemaal dezelfde muziek, MoodLogic maakt voor zover ik jouw info heb gelezen een hash van een muziekstuk. Hij vergelijkt die hash met een database, en bij een match heeft hij dus de info van een nummer.

Ik denk niet dat hij aan de hand van alléén een hash de informatie kan verzinnen :)
Als ik het goed begrijp kan ieder genre tot zoveel procent gecomprimeerd worden. En is dat zo precies dat die paar procent verschil niet uitmaken?

Is het niet makkelijker om de muziek "gewoon" te analyseren? Als het altijd even sterk gecomprimeerd kan worden, zal er wel een patroon in de muziek zitten?
Ze bedoelen dus dat een computer het kan herkennen.
De mens zal vooralsnog hier superieur in zijn, maar laat een computer maar eens een vorraad van honderdduizenden muziekjes catalogiseren. Als mens zijnde gaat daar nogal veel tijd in zitten en een computer is dan een stuk makkelijker. :)

Waarschijnlijk is de grootste gegadigde echter de RIAA die graag snel wil zien wat voor muziek iemand of een bedrijf of een netwerk of zowieoz in newsgroupen of p2p-netwerken rondgaat, wil catalogiseren...
Anoniem: 20824 13 april 2003 12:15
Om eerlijk te zijn klinkt het ongeloofelijk Broodje Aap-achtig. Muziekgenre en filegrootte hebben toch weinig met elkaar te maken :?
Misschien is het makkelijk duidelijk te maken met een voorbeeld. Bekijk (met een oscilloscoop) eens het verschil tussen het geluid wat, bijvoorbeeld, een gitaar maakt met het geluid van een (computer gegenereerde) housebeat. Je zult zien dat de beat veel 'simpeler' (minder data) in elkaar zit dan de gitaar, en zeker als je bedenkt dat zo'n beat vaak herhaald wordt moet het toch logisch zijn dat sommige stukken beter comprimeerbaar zijn dan andere stukken.
Jij kunt je niet voorstelen dat een rustig muziekstuk zich beter laat comprimeren dan een heel druk stuk?
Zou het "Dutch National Research Institute" niet gewoon TNO zijn???
Nope, ik vond het een interessante vraag, en ben es even gaan zoeken...

hier is een link naar het (of de??) orginele paper...

http://www.cwi.nl/~paulv/papers/music.pdf

CWI = Centrum voor Wiskunde en Informatica = National Research Institute for Mathematics and Computer Science = Dutch National Research Institute :D

www.cwi.nl
Anoniem: 51493 14 april 2003 03:04
Automatisch? Kan nooit waterdicht zijn net als vertalen van Engels naar Nederlands en vice versa (GoT/HK)

Bij het beoordelen van het genre denk ik ook aan:
-de lyrics en de betekenis ervan
-welke maat (bpm)?
(wat nog meer???)

En bovendien probeer maar eens snel en hard metal van snel beukende digital hardcore te onderscheiden, bijvoorbeeld.

Of R&B en emo a-la Radiohead? Hoe wil men dat doen? Bij rustige muziek lijkt het me makkelijker instrumenten te herkennen.

Zou je kunnen denken aan of foutcorrectie/tollerant zijn om een wijdere guess te maken of intolleranter en meer duidelijk.

(URL ligt trouwens plat momenteel)
Uhm... wat ik zelf erg 'lekker' zou vinden, is het meteen apart weergeven van de accoorden van de melodie en tegenmelodielijnen, of misschien beter, per instrument. Maar of dat kan?!?
Anoniem: 38024 13 april 2003 12:18
Mja, maar NASA gebruikt TAR signatures om te kijken of een foto over iets natuurlijks gaat of over Compu Generated Images. tar heeft zoveel extra features behalve compressie
Anoniem: 2072 13 april 2003 12:33
hmm... Music Digest Checksum

root@allevil:~ #md Britney\ Spears.ogg
md: this music stinks

lijkt me nuttig voor jukeboxes...
hmm

na heel in het kort ff het artikeltje gelezen te hebben.

Ik ben deze techniek al eens eerder tegen gekomen en wel in de toepassing van spam-email filters.

Enkele gewone mails worden met gzip gecomprimeerd en enkele spam mails worden met gzip gecomprimeerd... aan de hand van de signatures die dat oplevert wordt dan een redelijke hoeveelheid spam gefilterd.

(al die hoofdletters enzo)... zeer interessante toepassing!

Op dit item kan niet meer gereageerd worden.