Hitachi-methode vindt zoekwoord binnen drie seconden in 2000 uur audio

Hardwarefabrikant Hitachi heeft een methode ontwikkeld om grote hoeveelheden audio in zeer korte tijd op sleutelwoorden te doorzoeken. Het bedrijf ontleedt hiertoe de audio in zogeheten fonemen en indexeert deze.

Speaker De techniek die Hitachi ontwikkelde, analyseert een geluidsstroom eerst en zet de data om in fonemen. Een foneem is een 'geluidselement': de kleinste klankeenheid die een betekenisverschil aangeeft. Deze fonemen worden in een index opgeslagen. Wanneer de data eenmaal geïndexeerd is, kan gericht naar specifieke fonemen gezocht worden.

Om het doorzoeken van de fonemen te versnellen, heeft Hitachi de indexeermethode zo ontworpen dat onnodige opslag van gegevens wordt voorkomen. Hitachi zegt ook de bestaande zoekalgoritmes voor stemgeluid te hebben verbeterd en versneld. Volgens Hitachi moet de methodiek het mogelijk maken binnen drie seconden tweeduizend uur aan geluidsdata op sleutelwoorden te doorzoeken.

De zoektechnologie zou ingezet kunnen worden om in video's naar specifieke audiopassages te zoeken. Een andere mogelijke toepassing is het analyseren van opgenomen gesprekken bij bijvoorbeeld callcenters.

Reacties (37)

marktm 8 oktober 2008 14:40

Maar volgens mij is het belangrijkste probleem nog steeds het herkennen van de goede fonemen, oftewel het verbeteren van de spraakherkenning.

T.Rijkers @marktm • 8 oktober 2008 14:59

Daar ga je de fout in. Spraakherkenning is wat anders dan het opvragen van een woord.
"Spraakherkenning maakt het mogelijk een computer,terminal te bedienen met behulp van de menselijke stem."

Bij deze methode zoeken ze algoritmes.

Qreed @T.Rijkers • 8 oktober 2008 15:18

Erhm .... om die index aan te maken zal je toch wel eerst de audio stream moeten interpreteren.

T.Rijkers @Qreed • 8 oktober 2008 15:33

Als jij iemand hoort praten maakt het toch niet uit hoe hij het zegt. Je hoort wat hij zegt. De toon doet er in dat/dit geval niet toe.
Puur algoritmes dus. De algoritmes moeten idd wel aanwezig zijn. Vandaar de indexering.

[Reactie gewijzigd door T.Rijkers op 24 juli 2024 03:00]

marktm @T.Rijkers • 8 oktober 2008 15:54

Helaas heeft Qreed gelijk: om de audio te kunnen indexeren moet je hem eerst interpreteren.

Het herkennen van fonemen klinkt hierbij heel makkelijk, maar dat is het niet. Gedetecteerde klanken zijn vaak niet 1-op-1 te koppelen aan fonemen, hier wordt meestal een taalmodel voor gebruikt die het systeem verteld welke klanken het meest waarschijnlijk op elkaar volgen. En dan heb je ook nog eens het probleem dat door woorden uit te spreken sommige fonemen zullen veranderen. Denk bijvoorbeeld aan 'de ezel' waarbij de 2 e's van dE en Ezel zullen samensmelten tot 1 klank.

Kortom, het herkennen van fonemen is niet zo heel triviaal. Al is het wel goed dat we er dankzij Hitachi sneller in kunnen zoeken

Andros @T.Rijkers • 8 oktober 2008 15:51

Nou, ik raad je aan om es een nummer van Devourment op te zetten en de tekst te noteren. Veel succes...

Qreed @Andros • 8 oktober 2008 18:10

Hehehe

RiCkY82 8 oktober 2008 14:40

Zou je een lijst kunnen krijgen van alle liedjes op aarde waar het woord "F*ck" in voorkomt

als ze het allemaal netjes geindexeerd hebben

svenk91 @RiCkY82 • 8 oktober 2008 15:12

Licht eraan of de index ongecensureerd is, anders moet je op *beep* zoeken

Ik denk alleen dat er nooit een index zal komen met zowat alle audio, gezien veel audio in de vorm van muziek en films gecopright is krijg je zo al snel problemen en het gewoon moeilijker te zoeken is dan een stuk tekst. Een enorme index van een hele hoop audio zoals google nu met text heeft zal er dus wel niet komen de komende tijd. Maar zeg nooit nooit offcourse

Lightmanone1984 @svenk91 • 8 oktober 2008 17:09

Ik zou niet weten waarom niet...

Ik bedoel er zijn ook al idioot veel internetpagina's geindexeerd (thank you google) en daar komen er per dag meer van uit dan van liedjes (jaja.. liedjes zijn al ouder en meer van MAAR tegenwoordig is het indexeren van bestaande dingen makkelijker dan nieuwe dingen die NET uit zijn) alles is tegenwoordig al digitaal.. (zelfs oudere dingen zijn digitaal overgezet) dus het is puur analyseren door het programma en klaar..

je zet het even in een supercomputer, runned het een paar uurtjes en je bent klaar..

Nee. dit zal op een gegeven moment gewoon zaak worden, net zoals dat het normaal is dat je binnen ettelijk milliseconde een webpagina vind waar je nog nooit van hebt gehoord die jou de specifieke informatie geeft die je wilt hebben.. (nogmaals: thank you google

)

Soldaatje 8 oktober 2008 15:13

Beetje nutteloze claim 2000 uur in 3 seconden.
Over wat voor hardware hebben we het dan?
In vergelijking tot welke andere zoekalgoritmen?

Qreed @Soldaatje • 8 oktober 2008 15:27

Zo nutteloos vind ik het zelf niet. Zoals een poster boven jou al aangeeft dat hiermee dus zo'n 125 dagen binnen 3 sec te doorzoeken is.
Ik neem aan dat ze hier geen supercomputer voor hebben gebruikt; als je de index op basis van een audio stream eenmaal hebt gemaakt dan is het uitvoeren van een query peanuts.
Waarschijnlijk is het maken van die index de bottleneck en zal waarschijnlijk nog niet on the fly gaan.

2000 uur in 3 sec is een vrij praktische toepassing.

kalechinees 8 oktober 2008 14:38

De zoektechnologie zou ingezet kunnen worden om in video's naar specifieke audiopassages te zoeken. Een andere mogelijke toepassing is het analyseren van opgenomen gesprekken bij bijvoorbeeld callcenters.

Of natuurlijk bij de CIA of Homeland security...

Verwijderd @kalechinees • 8 oktober 2008 14:42

Of Blackwater....

Evengoed, ik vind het wel stoer dat het kan. Afgezien van toepassing door bepaalde instanties, is het erg handig als implementatie voor een zoekmachine.

Dat je wel een stukje tekst van een nummer weet, maar meer niet. Das frustrerend. Nu niet meer. Dankzij Hitachi.

PinQ @Verwijderd • 8 oktober 2008 14:58

Daarvoor heb je lyrics

.
Dit is vooral om bijv. relevante stukken video te zoeken die te maken hebben met jouw zoekopdracht zonder dat je opdracht in de tags van een video staat.

Google is ook met deze techniek (zoeken naar tekst in audio). Zie dit: http://labs.google.com/gaudi

TtL8e7ay @kalechinees • 9 oktober 2008 12:41

Of het scannen van Skype gesprekken op woorden als "vrijheid" "tibet" en andere zaken die de doodstraf verdienen.

Whut?! 8 oktober 2008 14:40

Ik vraag me af hoe lang de indexering duurt.
Daarnaast heb je veel zoekwoorden welke fonetisch niet overeenkomen met hun schrijfwijze, wat dan moeilijk is om met de opgeslagen fonemen te vergelijken.
Maar als het allemaal netjes werkt is dit natuurlijk erg mooi

TERW_DAN @Whut?! • 8 oktober 2008 15:13

Daarnaast heb je veel zoekwoorden welke fonetisch niet overeenkomen met hun schrijfwijze, wat dan moeilijk is om met de opgeslagen fonemen te vergelijken.

En wat dacht je van accenten? Als je net op zoek bent naar een leuk Schots of Iers accent ofzo, dat klinkt toch echt totaal anders dan het Oxford-Engels om maar even iets te noemen, terwijl het in principe dezelfde taal is.
Ik ben benieuwd hoe goed dit gaat werken en of we het terug gaan zien in commerciele toepassingen.

Andros @TERW_DAN • 8 oktober 2008 15:51

Waarom zo ver zoeken? Wel es West-Vlaams gehoord?

bavanandel @Andros • 8 oktober 2008 17:19

Wie zei er dat je toetsenbord de enige juiste manier is om search queries op te geven?

Lijkt me niet zo moeilijk dit "probleem" op te lossen: gewoon de microfoon gebruiken voor de input, het systeem kan het dan omzetten naar fonemen, en fonemen met fonemen matchen. Koekie!

[Reactie gewijzigd door bavanandel op 24 juli 2024 03:00]

Snuffert 8 oktober 2008 14:41

Vind dit wel zeer interessant alleen in dit artikel vraag ik me meteen af hoelang het nou duurd om 2000 uur audio te indexeren.

Pathogen 8 oktober 2008 14:41

Dit is wel ideaal voor de typische "Hoe heet dat liedje ook al weer?" momenten

smokeandnoise @Pathogen • 8 oktober 2008 14:47

Daar hebben we reeds de 'songtapper' al voor..

http://www.bored.com/songtapper/

Gersomvg @smokeandnoise • 8 oktober 2008 15:07

Kostelijk ^^

Hij kent zelfs allemaal kinderliedjes

Bestaat deze techniek van hitachi trouwens niet al bij Google (GAudI)?
http://labs.google.com/gaudi

Jorizzz @smokeandnoise • 8 oktober 2008 15:10

Nee daar heb je dit draadje op GoT voor...

http://gathering.tweakers.net/forum/list_messages/1309842//

flipjevandejam 8 oktober 2008 14:46

Ik zie Google Music nu al gelanceerd worden. Alhoewel erg natuurlijk ook al een heleboel gevonden kan worden dmv de lyrics.

Verwijderd 8 oktober 2008 14:47

zoiets zit ook in aftereffects (of premiere, weet ik zo niet meer) cs4.

En je kan het nog altijd voor karaoke gebruiken;)

[Reactie gewijzigd door Verwijderd op 24 juli 2024 03:00]

!null 8 oktober 2008 14:47

Lijkt volgens mij heel erg op de techniek die in Amerika (dacht ik) ontwikkeld is, waarmee bijvoorbeeld liedjes herkent worden. Die techniek wordt bij nog veel meer dingen gebruikt, er zijn immers genoeg toepassingen voor geluidsherkenning. Zo heb ik op vakantie nog een Amerikaanse dame gesproken welke bij een bedrijf werkte die mensen gratis van telefoon voorzien om deze vervolgens non stop af te luisteren (met medenweten van proefpersoon) om zo echt nuttige statistieken te krijgen in wat voor reclame ze allemaal in het dagelijks leven horen.

Dit is meer op woorden gericht lees ik, maar dat hele fenomenen gebeuren lijkt sterk op dat klanken verhaal van die techniek (dat algoritme) waar ik het over heb. In de basis versimpelen ze allebei de audio waardoor het simpel digitaal te vergelijken valt, zoals een index.

Op dit item kan niet meer gereageerd worden.

Lees meer

Reacties (37)

Sorteer op:

Weergave: