Wikimedia gaat spraakengine via crowdsourcing verbeteren

Wikimedia Zweden werkt samen met een universiteit en een techbedrijf aan een engine die de teksten van bijvoorbeeld Wikipedia kan uitspreken en waarbij gebruikers verbeteringen kunnen aandragen. In 2017 moeten versies in het Zweeds, Engels en Arabisch klaar zijn.

De engine draagt de naam Wikispeech en wordt geoptimaliseerd voor Wikipedia maar komt opensource beschikbaar als een extensie voor Mediawiki zodat alle sites die gebaseerd zijn op dit platform tekst-naar-spraak krijgen. De bedoeling is dat niet alleen hele pagina's maar ook geselecteerde delen uitgesproken kunnen worden en dat bij de bediening de snelheid ingesteld kan worden en woorden of zinnen te skippen zijn. De engine moet op zowel desktop als mobiel gaan werken.

Via de Wikispeech-api wordt tekst naar de Wikimedia-servers gestuurd en daar gaan api's voor tekstverwerking, uitspraak en spraaksynthese er mee aan de slag. Gebruikers van Wikipedia die vinden dat de uitspraak verkeerd is, kunnen dat via een tool aangeven. Ze kunnen daarvoor de fonetische weergave aanpassen en eventueel de uitspraak als een audiobestand uploaden.

Wikimedia Zweden werkt voor het project samen met het Zweedse KTH Royal Institute of Technology, het bedrijf voor spraaktechnologie STTS en de Zweedse Post en Telecom-autoriteit. Doel van de deelnemers is dat gebruikers die moeite hebben met lezen of niet in de gelegenheid zijn om bijvoorbeeld onderweg te lezen toch de content van Wikimedia-projecten als Wikipedia tot zich kunnen nemen, met de juiste uitspraak.

Eerst komt de Zweedse Wikipedia aan bod bij het project, dan een beperktere Engelstalige weergave en ten slotte een rudimentaire Arabische versie. Tegen september 2017 moet de engine breder ingezet worden om ook de overige talen te ondersteunen. Overigens is er al een project om Wikipedia-pagina's als audiobestand te beluisteren, maar voor die dienst spreken vrijwilligers de tekst in.

Lees meer

IT-banen

Reacties (21)

martijnsch

10 maart 2016 23:42

Daar gaat de stem van Johan Bos.

AW_Bos

@martijnsch • 11 maart 2016 00:09

Eerste wat ik dacht. Daar gaat het legendarische Frietvorkje

AMS76 @AW_Bos • 11 maart 2016 09:31

Of het https://nl.wikipedia.org/wiki/Botermes botermes

JukeErwin @martijnsch • 11 maart 2016 10:44

Dan ga ik Bert en Ernie nog het meeste missen.
Sorry Johan.

djwice

10 maart 2016 22:21

Grappig, als een kleuter nu op een Android in Chrome Browser op het microfoontje klikt (Google zoekbox) en dan wat inspreekt. Krijgen ze zowel de foto en geschreven tekst uit Wikipedia, en vaak wordt die text in het Nederlands automatisch voorgelezen.

Waarom is dit project dan nog nodig?

[Reactie gewijzigd door djwice op 22 juli 2024 14:11]

Verwijderd @djwice • 10 maart 2016 23:10

Grappig, als een kleuter nu op een Android in Chrome Browser op het microfoontje klikt (Google zoekbox) en dan wat inspreekt. Krijgen ze zowel de foto en geschreven tekst uit Wikipedia, en vaak wordt die text in het Nederlands automatisch voorgelezen.

Waarom is dit project dan nog nodig?

Omdat de Wikipedia tekst door mensen ingesproken is en veranderingen niet automatisch meegenomen worden.
Tevens zijn niet alle artikelen ingesproken.
Deze problemen zijn opgelost als een spraakengine gebruikt wordt.

Cerberus_tm

@Verwijderd • 11 maart 2016 15:28

Toch denk ik dat een echte mens voorlopig nog veel mooier in kan spreken dan een algorisme. Daar luister ik veel liever naar, dus die worden gelukkig niet overbodig.

MaestroMaus

@djwice • 10 maart 2016 22:28

Omdat je zo min mogelijk afhankelijk wil zijn van een privaat bedrijf voor je publieke dienst. We doeken Linux ook niet op omdat Windows er is.

[Reactie gewijzigd door MaestroMaus op 22 juli 2024 14:11]

djwice

@MaestroMaus • 10 maart 2016 22:31

Waarom vragen ze niet of Google de technologie beschikbaar wil stellen?

MaestroMaus

@djwice • 10 maart 2016 22:37

Wie weet hebben ze dat wel gedaan?

Extra info; die spraak software is super duur en complex en wordt nog steeds ieder jaar beter. Het is software die veel goed doet bij bedrijven met een groot ecosysteem omdat je het bij iedere applicatie kan inzetten. Vanwege deze redenen is het onwaarschijnlijk dat ze concurrentie voordeel weg willen geven. MS, Google en Apple steken veel geld in hun spraaksoftware.

Het zou trouwens ook nog kunnen zijn dat Wikimedia het opensource wil hebben zodat anderen het ook kunnen gebruiken.

[Reactie gewijzigd door MaestroMaus op 22 juli 2024 14:11]

Douweegbertje @djwice • 10 maart 2016 22:37

Een gift aannemen en gebruiken bied indirect allerlei neveneffecten. Je gaat geen contract aan of je hebt geen verplichtingen maar toch gebruik je programma x van bedrijf y.
Om volledig open, onafhankelijk en wat dan niet meer te zijn, probeer je voornamelijk dat soort zaken te ontwijken. Zo is het bij menig bedrijf niet toegestaan om bijvoorbeeld relatiegeschenken te ontvangen, al dan niet met instemming van directe/leiding.

Daarbij nog; ze hebben meerdere 'features' wat domweg nog niet bestaat. Ik denk ook niet zo zeer dat het om de techniek gaat (voorlezen van) met het stukje community wat erbij komt (aanpassen van stukjes e.d.).

Verwijderd @djwice • 10 maart 2016 22:39

Omdat zelfs al zou google dat doen technologie weer afhankelijk is van andere resources van google en je dus nog steeds van ze afhankelijk bent.

En ik kan ze niet noemen maar de ene zal vast wel een significant voordeel hebben ten opzichte van de ander
Zelfde vergelijking is waarom zou je benzine rijden als er ook diesel is.

CMSTRR @Verwijderd • 11 maart 2016 00:01

Een diesel verdient zich terug wanneer je veel km rijdt.. ik rij namelijk benzine omdat ik minder dan 40k per jaar rijd. Daarnaast zal je geen nonprofit organisatie vinden in de maatschappij die draait om geld (denk aan hun patenten, contracten, click opbrengsten en reclametaferelen).

Verwijderd @CMSTRR • 11 maart 2016 00:24

in tegenstelling tot mijn eerste reactie word deze ontzettend off-topic.
Je gaat in jou reactie voorbij aan het punt wat ik zelf al maak.
Ik zeg namelijk ''
En ik kan ze niet noemen maar de ene zal vast wel een significant voordeel hebben ten opzichte van de ander" dat heeft benzine t.o.v. diesel ook dus daar sla je plank mis.

wat betreft jouw visie van een non profit organistatie vind ik die heerlijk naief.
Je statement heeft geen enkele relevantie op mijn reactie, maar als je denkt dat er binnen alle non-profit organisatie's geen drang is om winst te maken of om te groeien dan heb je in mijn opinie een goed vertekend wereldbeeld.
Zoals je op de basis of middelbareschool al leerde, het moet niet de doelstelling zijn van zo'n organisatie, maar wat ze er destijds niet bijvertelde is dat het wel mag.

djwice

@Verwijderd • 12 maart 2016 09:25

Volgens mij gebruikt Wikipedia ook techniek van facebook (denk aan de PHP engine, overigens inmiddels ingehaald, maar toen scheelde het veel).

Het is minder zwart-wit in de pendancy land. Er zijn gewoon ook mensen die elkaar willen helpen.

Wikipedia heeft niet voor niets een hoge waardering in Google: in kennis delen hebben de twee bedrijven beide groot belang.

[Reactie gewijzigd door djwice op 22 juli 2024 14:11]

fanatic_david @djwice • 10 maart 2016 22:38

Google's ondersteuning voor gesproken zoekopdrachten heeft toch helemaal niets te maken met bovenstaand project van Wikimedia en wat zij met dat project willen bereiken?

piccollo1985 11 maart 2016 04:20

Ik vind een goed initiatief van de mediawiki/wikipedia.

De huidzegestaat van de Text to speech in Linux is bar slecht voor grote lap tekst en de meeste niet Engels stemmen zijn niet op aan te horen (en daarbij bedoel ik op Nederlands stemmen) en heer door gebruik ik MS Sapi4/5 en Microsoft Speech platform onder wine.

Daar bij hoop ik dat ze naast server software ook libraries (c/c++/python) vrijgeven onder een mit/bsd/lgpl licentie voor nieuwe software voor mensen die slecht ziend zijn of dyslexie hebben.
En daar naast moeten de stemmen te minstens de kwaliteit van MS Sam hebben voor alle talen die ondersteunt woorden door het project.

mbb @piccollo1985 • 12 maart 2016 03:00

Ja, hopelijk wordt het inderdaad breder toepasbaar.
Ik was wat verbaast dat er niet van bestaande projecten gebruik gemaakt werd, er zijn er idd al 2 of 3. Maar zoals je aangeeft zijn die mogelijk slecht, en is er nu nieuwe betere/simpelere techniek beschikbaar.
En als de kennis van alle mensen die van Wikipedia gebruik maken meewerken kan het wel eens hard gaan.
Dat hoeft dat niet te betekenen dat de stemmen ook beschikbaar komen. Ik heb vroeger wel eens met TextAloud gespeeld, en op hun forum stonden heel veel correcties voor de code voor de uitspraak van woorden. Dat stond los van welke voices gebruikt werden.

Overigens is de help van LibreOffice ook Wiki-gebaseerd, dus zou de Document Foundation er in de toekomst ook gebruik van kunnen maken.

piccollo1985 @mbb • 13 maart 2016 00:33

Thx
Mijn mening is dat de 3 belangrijke spraakengine's (espeak, Festival, mbrola) die nu voor Linux beschikbaar hebben elk zijn eigen problemen.
Bij voorbeeld Festival meer bedoeld voor Interactive voice response en heeft problemen met lange lappen tekst (getest test 2 pagina's tekst met totaal 758 woorden) werkt alleen via een comandline(dit kan bron zijn dat ik problemen heb met lange tekst).
Voor Mbrola ten eerste geen vrij software(GPL,BSD,MIT,APACHE) en ten tweede dat meestal of altijd word gebruikt in combinatie met Festival.
Voor Espeak heeft zijn eigen problemen, dat de spraak synthesizer die ze gebruiken niet natuurlijk kink (een duidelijk een robot stem).

Een goede ondergrens voor de spraak synthesizer is MS Sam (default stem voor en-us in Sapi 4/5) met all zijn problemen (b.v. kan het woord soyuz niet uitspreken) is een prima stem.
Maar de uit eindelijke doel is om een stem van de vocaloid of ivona kwaltijd en dat is een combinatie van regels en woorden lijst voor uitspreken van woorden in een bepaalde taal, betere spraak synthesizer algoritmes en goede vocal samples voor synthesizer.

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (21)

Sorteer op:

Weergave: