Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 37 reacties

Hardwarefabrikant Hitachi heeft een methode ontwikkeld om grote hoeveelheden audio in zeer korte tijd op sleutelwoorden te doorzoeken. Het bedrijf ontleedt hiertoe de audio in zogeheten fonemen en indexeert deze.

SpeakerDe techniek die Hitachi ontwikkelde, analyseert een geluidsstroom eerst en zet de data om in fonemen. Een foneem is een 'geluidselement': de kleinste klankeenheid die een betekenisverschil aangeeft. Deze fonemen worden in een index opgeslagen. Wanneer de data eenmaal geïndexeerd is, kan gericht naar specifieke fonemen gezocht worden.

Om het doorzoeken van de fonemen te versnellen, heeft Hitachi de indexeermethode zo ontworpen dat onnodige opslag van gegevens wordt voorkomen. Hitachi zegt ook de bestaande zoekalgoritmes voor stemgeluid te hebben verbeterd en versneld. Volgens Hitachi moet de methodiek het mogelijk maken binnen drie seconden tweeduizend uur aan geluidsdata op sleutelwoorden te doorzoeken.

De zoektechnologie zou ingezet kunnen worden om in video's naar specifieke audiopassages te zoeken. Een andere mogelijke toepassing is het analyseren van opgenomen gesprekken bij bijvoorbeeld callcenters.

Moderatie-faq Wijzig weergave

Reacties (37)

Maar volgens mij is het belangrijkste probleem nog steeds het herkennen van de goede fonemen, oftewel het verbeteren van de spraakherkenning.
Daar ga je de fout in. Spraakherkenning is wat anders dan het opvragen van een woord.
"Spraakherkenning maakt het mogelijk een computer,terminal te bedienen met behulp van de menselijke stem."

Bij deze methode zoeken ze algoritmes.
Erhm .... om die index aan te maken zal je toch wel eerst de audio stream moeten interpreteren.
Als jij iemand hoort praten maakt het toch niet uit hoe hij het zegt. Je hoort wat hij zegt. De toon doet er in dat/dit geval niet toe.
Puur algoritmes dus. De algoritmes moeten idd wel aanwezig zijn. Vandaar de indexering.

[Reactie gewijzigd door T.Rijkers op 8 oktober 2008 15:34]

Helaas heeft Qreed gelijk: om de audio te kunnen indexeren moet je hem eerst interpreteren.

Het herkennen van fonemen klinkt hierbij heel makkelijk, maar dat is het niet. Gedetecteerde klanken zijn vaak niet 1-op-1 te koppelen aan fonemen, hier wordt meestal een taalmodel voor gebruikt die het systeem verteld welke klanken het meest waarschijnlijk op elkaar volgen. En dan heb je ook nog eens het probleem dat door woorden uit te spreken sommige fonemen zullen veranderen. Denk bijvoorbeeld aan 'de ezel' waarbij de 2 e's van dE en Ezel zullen samensmelten tot 1 klank.

Kortom, het herkennen van fonemen is niet zo heel triviaal. Al is het wel goed dat we er dankzij Hitachi sneller in kunnen zoeken :)
Nou, ik raad je aan om es een nummer van Devourment op te zetten en de tekst te noteren. Veel succes...
Zou je een lijst kunnen krijgen van alle liedjes op aarde waar het woord "F*ck" in voorkomt :P als ze het allemaal netjes geindexeerd hebben
Licht eraan of de index ongecensureerd is, anders moet je op *beep* zoeken :p

Ik denk alleen dat er nooit een index zal komen met zowat alle audio, gezien veel audio in de vorm van muziek en films gecopright is krijg je zo al snel problemen en het gewoon moeilijker te zoeken is dan een stuk tekst. Een enorme index van een hele hoop audio zoals google nu met text heeft zal er dus wel niet komen de komende tijd. Maar zeg nooit nooit offcourse :)
Ik zou niet weten waarom niet...

Ik bedoel er zijn ook al idioot veel internetpagina's geindexeerd (thank you google) en daar komen er per dag meer van uit dan van liedjes (jaja.. liedjes zijn al ouder en meer van MAAR tegenwoordig is het indexeren van bestaande dingen makkelijker dan nieuwe dingen die NET uit zijn) alles is tegenwoordig al digitaal.. (zelfs oudere dingen zijn digitaal overgezet) dus het is puur analyseren door het programma en klaar..

je zet het even in een supercomputer, runned het een paar uurtjes en je bent klaar..

Nee. dit zal op een gegeven moment gewoon zaak worden, net zoals dat het normaal is dat je binnen ettelijk milliseconde een webpagina vind waar je nog nooit van hebt gehoord die jou de specifieke informatie geeft die je wilt hebben.. (nogmaals: thank you google :D )
Beetje nutteloze claim 2000 uur in 3 seconden.
Over wat voor hardware hebben we het dan?
In vergelijking tot welke andere zoekalgoritmen?
Zo nutteloos vind ik het zelf niet. Zoals een poster boven jou al aangeeft dat hiermee dus zo'n 125 dagen binnen 3 sec te doorzoeken is.
Ik neem aan dat ze hier geen supercomputer voor hebben gebruikt; als je de index op basis van een audio stream eenmaal hebt gemaakt dan is het uitvoeren van een query peanuts.
Waarschijnlijk is het maken van die index de bottleneck en zal waarschijnlijk nog niet on the fly gaan.

2000 uur in 3 sec is een vrij praktische toepassing.
De zoektechnologie zou ingezet kunnen worden om in video's naar specifieke audiopassages te zoeken. Een andere mogelijke toepassing is het analyseren van opgenomen gesprekken bij bijvoorbeeld callcenters.
Of natuurlijk bij de CIA of Homeland security... 8)7
Of Blackwater....

Evengoed, ik vind het wel stoer dat het kan. Afgezien van toepassing door bepaalde instanties, is het erg handig als implementatie voor een zoekmachine.

Dat je wel een stukje tekst van een nummer weet, maar meer niet. Das frustrerend. Nu niet meer. Dankzij Hitachi.
Daarvoor heb je lyrics ;).
Dit is vooral om bijv. relevante stukken video te zoeken die te maken hebben met jouw zoekopdracht zonder dat je opdracht in de tags van een video staat.

Google is ook met deze techniek (zoeken naar tekst in audio). Zie dit: http://labs.google.com/gaudi
Of het scannen van Skype gesprekken op woorden als "vrijheid" "tibet" en andere zaken die de doodstraf verdienen.
Ik vraag me af hoe lang de indexering duurt.
Daarnaast heb je veel zoekwoorden welke fonetisch niet overeenkomen met hun schrijfwijze, wat dan moeilijk is om met de opgeslagen fonemen te vergelijken.
Maar als het allemaal netjes werkt is dit natuurlijk erg mooi :)
Daarnaast heb je veel zoekwoorden welke fonetisch niet overeenkomen met hun schrijfwijze, wat dan moeilijk is om met de opgeslagen fonemen te vergelijken.
En wat dacht je van accenten? Als je net op zoek bent naar een leuk Schots of Iers accent ofzo, dat klinkt toch echt totaal anders dan het Oxford-Engels om maar even iets te noemen, terwijl het in principe dezelfde taal is.
Ik ben benieuwd hoe goed dit gaat werken en of we het terug gaan zien in commerciele toepassingen.
Waarom zo ver zoeken? Wel es West-Vlaams gehoord?
Wie zei er dat je toetsenbord de enige juiste manier is om search queries op te geven?

Lijkt me niet zo moeilijk dit "probleem" op te lossen: gewoon de microfoon gebruiken voor de input, het systeem kan het dan omzetten naar fonemen, en fonemen met fonemen matchen. Koekie! O-)

[Reactie gewijzigd door bavanandel op 8 oktober 2008 17:21]

Vind dit wel zeer interessant alleen in dit artikel vraag ik me meteen af hoelang het nou duurd om 2000 uur audio te indexeren.
Dit is wel ideaal voor de typische "Hoe heet dat liedje ook al weer?" momenten :)
Daar hebben we reeds de 'songtapper' al voor.. ;)

http://www.bored.com/songtapper/
Kostelijk :9 ^^

Hij kent zelfs allemaal kinderliedjes :9~


Bestaat deze techniek van hitachi trouwens niet al bij Google (GAudI)?
http://labs.google.com/gaudi
Ik zie Google Music nu al gelanceerd worden. Alhoewel erg natuurlijk ook al een heleboel gevonden kan worden dmv de lyrics.
zoiets zit ook in aftereffects (of premiere, weet ik zo niet meer) cs4.

En je kan het nog altijd voor karaoke gebruiken;)

[Reactie gewijzigd door jspekken op 8 oktober 2008 14:47]

Lijkt volgens mij heel erg op de techniek die in Amerika (dacht ik) ontwikkeld is, waarmee bijvoorbeeld liedjes herkent worden. Die techniek wordt bij nog veel meer dingen gebruikt, er zijn immers genoeg toepassingen voor geluidsherkenning. Zo heb ik op vakantie nog een Amerikaanse dame gesproken welke bij een bedrijf werkte die mensen gratis van telefoon voorzien om deze vervolgens non stop af te luisteren (met medenweten van proefpersoon) om zo echt nuttige statistieken te krijgen in wat voor reclame ze allemaal in het dagelijks leven horen.

Dit is meer op woorden gericht lees ik, maar dat hele fenomenen gebeuren lijkt sterk op dat klanken verhaal van die techniek (dat algoritme) waar ik het over heb. In de basis versimpelen ze allebei de audio waardoor het simpel digitaal te vergelijken valt, zoals een index.

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True