De Chinese internetgigant Baidu heeft SwiftScribe geïntroduceerd. Dit is een spraakherkenningsprogramma dat via kunstmatige intelligentie in staat is om spraak om te zetten in tekst en daarbij leert van eventuele tekstuele aanpassingen.
Het programma is met name bedoeld om bijvoorbeeld interviewers te helpen sneller spraakopnames in tekst om te zetten. Volgens Baidu zal de transcriptie gemiddeld 40 procent sneller gaan in vergelijking met het handmatig omzetten van spraak naar tekst. Het Chinese bedrijf nodigt dertig tot vijftig mensen uit om de bètaversie te testen. Dit heeft Baidu bekendgemaakt.
SwiftScribe maakt gebruik van Deep Speech 2, een spraakherkenningssysteem van Baidu. Het programma heeft geleerd om geluiden met bepaalde woorden en zinnen te associëren. Het neurale netwerk is zo 'getraind' met duizenden uren aan audio-opnames, waardoor het relatief accuraat moet kunnen transcriberen. Daarbij is SwiftScribe in staat om te leren van handmatige transcripties en door gebruiker aangebrachte tekstuele wijzigingen.
In het programma kan een bestand in het wav- of mp3-formaat worden geüpload. Volgens Venturebeat, die een projectmanager van Baidu heeft geïnterviewd, duurt het transcriberen van een bestand van 30 seconden in totaal slechts 10 seconden; een audio-opname van een minuut duurt minder dan dertig seconden. SwiftScribe kan audiobestanden van maximaal een uur transcriberen. Gebruikers moeten dan nog wel hoofdletters en interpunctie doorvoeren en de spelling van bepaalde woorden corrigeren.
Vorig jaar bleek al dat de spraakherkenning Deep Speech 2 in staat is om zeer accuraat gesproken woorden te herkennen. Onderzoekers merkten dat de technologie in sommige gevallen het Standaardmandarijn, de officiële spreektaal in China, beter kon transcriberen dan een persoon.