Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Baidu introduceert via ai werkende transcriptie-app SwiftScribe

De Chinese internetgigant Baidu heeft SwiftScribe ge´ntroduceerd. Dit is een spraakherkenningsprogramma dat via kunstmatige intelligentie in staat is om spraak om te zetten in tekst en daarbij leert van eventuele tekstuele aanpassingen.

Het programma is met name bedoeld om bijvoorbeeld interviewers te helpen sneller spraakopnames in tekst om te zetten. Volgens Baidu zal de transcriptie gemiddeld 40 procent sneller gaan in vergelijking met het handmatig omzetten van spraak naar tekst. Het Chinese bedrijf nodigt dertig tot vijftig mensen uit om de bŔtaversie te testen. Dit heeft Baidu bekendgemaakt.

SwiftScribe maakt gebruik van Deep Speech 2, eenáspraakherkenningssysteem van Baidu. Het programma heeft geleerd om geluiden met bepaalde woorden en zinnen te associŰren. Het neurale netwerk is zo 'getraind' metáduizenden uren aan audio-opnames, waardoor het relatief accuraat moet kunnen transcriberen. Daarbij is SwiftScribe in staat om te leren van handmatige transcripties en door gebruiker aangebrachte tekstuele wijzigingen.

In het programma kan een bestand in het wav- of mp3-formaat worden geŘpload. Volgens Venturebeat, die een projectmanager van Baidu heeft ge´nterviewd,áduurt het transcriberen van een bestand van 30 seconden in totaal slechts 10 seconden; een audio-opname van een minuut duurt minder danádertig seconden. SwiftScribe kan audiobestanden van maximaal een uur transcriberen. Gebruikers moeten dan nog wel hoofdletters en interpunctieádoorvoeren en de spelling van bepaalde woorden corrigeren.

Vorig jaar bleek al dat de spraakherkenningáDeep Speech 2 in staat is om zeer accuraat gesproken woorden te herkennen. Onderzoekers merkten dat de technologie in sommige gevallen het Standaardmandarijn, de officiŰle spreektaal in China, beter kon transcriberen dan een persoon.

Door

Nieuwsredacteur

30 Linkedin Google+

Reacties (30)

Wijzig sortering
Heel interessant, vooral voor China omdat hier de services van Google geblokkeerd worden.
Of het ook zo goed werkt en bruikbaar is in luidruchtige ruimtes en met sprekers met een accent, is de vraag. Nette spraak, die goed opgenomen is, komt er ook goed uit.

Andrew Ng is een grote man, wat betreft machine learning en stel Baidu met Deep Speech 2 in staat om handige webapps uit te rollen. Perfect is het natuurlijk niet en wil je een 100% accurate transcriptie, moet je nog steeds zelf door de audio en tekst heen banjeren om zeker te weten dat er staat wat er gezegd wordt.

Wat betreft Deep Speech 2: het is een algoritme die zowel spraak in Engels als Mandarijn om kan zetten naar tekst. Dit is al erg bijzonder, omdat de twee talen erg van elkaar verschillen. Het is een end-to-end oplossing, wat in dit geval betekent dat ze als input de audio data gebruiken (en geen vorm van preprocessing gebruiken op deze data, maar dus de hele spectrogram, met wellicht wat normalisatie) en als output direct de tekst genereren.

Voorheen werd voor Automatic Speech Recognition (ASR) taken vaak gebruik gemaakt van veel domeinkennis en werd dit gebruikt om een pipeline te bouwen. Daar stappen ze bij Deep Speech 2 (en bij vele andere huidige implementaties van ASR) van af. Deze handcrafted modules uit de pipeline worden vervangen voor ÚÚn groot deep learning model. Dit maakt het makkelijker om de input/output relatie te trainen.

Om het model aan te passen voor een nieuwe taal (ze zijn begonnen met Engels en hebben het later aangepast voor Mandarijn), is het enige wat ze hoeven toe te voegen aan de architectuur van het model de extra karakterset van de nieuwe taal. Natuurlijk komt er wel nieuwe data bij kijken om het model opnieuw te trainen voor deze nieuwe taal.

Het model bestaat uit tientallen miljoenen parameters, waardoor het trainen van het model erg intensief is. Hiervoor hebben ze een systeem geoptimaliseerd door gebruik te maken van synchronous stochastic gradient descent, waarbij de verwerking van data natuurlijk gedistribueerd wordt over verschillende GPU's. Elk werkt aan hun deelprobleem van de data, maar ze moeten elkaar wel op de hoogte houden van de veranderingen in het model. Ze hebben veel aandacht geschonken aan deze communicatie, zodat dit zo snel mogelijk verloopt (onder andere door handmatige memory allocation).

Zoals genoemd is het model erg groot (deep learning), dit betekent dat er ook veel trainingdata aanwezig moet zijn om de parameters goed in te kunnen schatten. Voor het Engels is er 11.940 uur aan gelabelde (!) data gebruikt. En voor het Mandarijn 9.400 uur.

In de resultaten doet het model het goed, afgezet tegen handmatig getranscribeerde resultaten verkregen via "Mechanical Turk". De handmatige transcriptie doet het wel een stuk beter in "noisy environments" en bij het gebruik van accenten. Schone, nette audio met een goede spreker worden beter getranscribeerd door het model (aan de hand van de Word Error Rate).

Het uitbreidbare karakter en het generieke van deze aanpak staat mij erg aan. Ik ben benieuwd hoe de gebruikerservaring zal zijn van de app en of het ook echt een plek weet te vinden in de maatschappij. Ik blijf het altijd gek vinden om tegen een apparaat te praten, maar in China is dat misschien anders.
Dit is nog wel het oude Deep Speech model.

Inmiddels is Baidu verder gegaan met ontwikkelen en is SwiftScribe gebaseerd op Deep Speech 2. Dit model doet het een stuk beter dan Deep Speech 1, vooral in het geval van "noisy" en "accented" speech.

In dit paper vind je de vergelijking tussen DS1 en DS2 in termen van word error rate.

Op dit item kan niet meer gereageerd worden.


Call of Duty: Black Ops 4 HTC U12+ dual sim LG W7 Google Pixel 3 XL OnePlus 6 Battlefield V Samsung Galaxy S9 Dual Sim Google Pixel 3

Tweakers vormt samen met Tweakers Elect, Hardware.Info, Autotrack, Nationale Vacaturebank en Intermediair de Persgroep Online Services B.V. © 1998 - 2018 Hosting door True

*