Nederlandstalige gebruikers kunnen hun stem 'doneren' aan open Mozilla-dataset

Mozilla heeft de Nederlandse taal toegevoegd aan zijn Common Voice-project. Dat betekent dat vrijwilligers hun stem kunnen laten opnemen bij het voorlezen van bepaalde zinnen. Het project heeft tot doel om een open dataset te bouwen van verschillende talen.

Common voice mozilla

Common Voice bestaat al sinds de introductie halverwege vorig jaar, maar sinds kort kunnen gebruikers ook Nederlandse zinnen inspreken. Tot nu toe hebben vier sprekers een totaal aan 51 seconden opgenomen, de doelstelling is 1200 uur.

Er zijn maar weinig talen die veel bijdragen hebben, met uitzondering van Engels. De teller staat daar op 462 uur met in totaal meer dan 30.000 sprekers.

Bij de introductie van Common Voice zei Mozilla dat het de bedoeling is een open dataset met een CC0-licentie te bouwen aan de hand waarvan bijvoorbeeld onderzoekers spraakdiensten kunnen ontwikkelen die werken met machinelearning.

Samen met Common Voice kondigde Mozilla destijds ook het opensourceproject DeepSpeech aan, dat zich richt op speech-to-text. Op die manier moeten mensen meer keuze krijgen als het gaat om spraakherkenningsdiensten, is de redenering. Onder meer de slimme speaker Mycroft gebruikt DeepSpeech, dat op zijn beurt weer Common Voice gebruikt.

Door Sander van Voorst

Nieuwsredacteur

05-09-2018 • 13:23

85

Submitter: jfdaniels

Reacties (85)

85
82
52
6
0
21
Wijzig sortering
Anoniem: 710428 5 september 2018 13:33
Mooi project en heel goed dat Common Voice zo eenvoudig is ingericht. Je hoeft maar 5 zinnetjes voor te lezen en klaar.
Of nog leuker: Je kan ook 5 zinnetjes van ingesproken teksten beoordelen of deze duidelijk waren! :9

[Reactie gewijzigd door Salmon op 23 juli 2024 22:41]

Anoniem: 710428 @Salmon5 september 2018 13:56
Hoor jij ook telkens dezelfde <5 stemmen ongeveer?
Zoals in het artikel aangegeven:
Tot nu toe hebben vier sprekers een totaal aan 51 seconden opgenomen, de doelstelling is 1200 uur.
Dus dat kan zomaar kloppen.
Anoniem: 710428 @PinQ5 september 2018 15:25
Ja maar er komen toch telkens nieuwe stemmen bij van de mensen die mee doen aan het inspreken, of zie ik dat verkeerd?
Als bijna niemand er van af weet, wordt dat natuurlijk moeilijk zo snel te halen
Als je kijkt hoeveel er al ingesproken/gevalideerd is had ik eigenlijk wel meer stemmen verwacht. Maar kan ook zo zijn dat de input eerst door een andere check o.i.d. moet gaan voordat een andere persoon jouw input weer kan valideren.
Ik denk dat dat laatste ook meespeelt inderdaad. Ik schat dat mensen die het al lezen op tweakers er van af weten en dan ook nog maar eens 1 tot 5% er aan mee doet. Dus snel zullen ze niet hun info halen!
Is pas gisteren online gegaan en Tweakers is de eerste nieuwsbron die erover rapporteert. Sinds het artikel is het al gestegen van vier naar een 130 sprekers (op enkele uren tijdens een weekdag) en zitten ze al aan 2h30 gevalideerde uren.
Dat is wel relevante info! Thx!!!
Gaat het dan om 'onze' stemmen te gebruiken voor TTS applicaties, zoals de stem van Siri of Alexa? Maar dan dus met meer keuze?
Het doel is om een open database te maken zodat ook andere bedrijven dan Google en Facebook goeie stem herkenning kunnen maken. Zo'n database aanleggen kost veel tijd en moeite en veel bedrijven hebben daar de resources niet voor, en mozilla wil dat dus makkelijker maken.

Of zoals ze zelf zeggen:
Stem is natuurlijk, stem is menselijk. Daarom zijn we gefascineerd in het maken van een bruikbare stemtechnologie voor onze machines. Maar voor het maken van stemsystemen is een extreem grote hoeveelheid stemgegevens nodig.

De meeste gegevens die door grote bedrijven worden gebruikt, zijn voor de meeste mensen niet beschikbaar. We denken dat dat innovatie belemmert. Daarom hebben we Project Common Voice gestart, een project dat stemherkenning voor iedereen beschikbaar helpt te maken.

[Reactie gewijzigd door eekhoorn12 op 23 juli 2024 22:41]

Mooi streven, al vind ik het een beetje raar dat een geluidsopname van mij/mijn stem straks voor allerlei doeleinden gebruikt kan worden. Geef ik ook toestemming voor ander gebruik? Kunnen mensen mij nu rare dingen laten zeggen met behulp van Machine Learning?
Tot nu toe hebben vier sprekers een totaal aan 51 seconden opgenomen, de doelstelling is 1200 uur.
Kan iemand vertellen of dat nummer ondertussen al iet hoger ligt?
Kan iemand vertellen of dat nummer ondertussen al iet hoger ligt?
Dat is hier te zien https://voice.mozilla.org/nl/languages, ondertussen zitten we op 36 minuten

[Reactie gewijzigd door eekhoorn12 op 23 juli 2024 22:41]

En nu (2½ later) al op 3 uur.
Uiteindelijk wordt het CC0 dus mag je het overal voor gebruiken toch?

Verder loopt het getal nu hard op
> Mooi streven, al vind ik het een beetje raar dat een geluidsopname van mij/mijn stem straks voor allerlei doeleinden gebruikt kan worden. Geef ik ook toestemming voor ander gebruik? Kunnen mensen mij nu rare dingen laten zeggen met behulp van Machine Learning?

Dat doe je ja. Tenminste, als je wat inspreekt. Als je bang bent voor "Wat als" scenarios, dan kun je beter niet meer buiten komen. Of binnen blijven.
Mozilla heeft ook een location API welke gratis is, en zonder dat Google weet waar je bent. Kun je gebruiken via UnifiedNLP. Meest eenvoudige manier om die te gebruiken is via microG. Maar als je geen OpenGapps op je Android hebt geinstalleerd, is het ook te installeren.
Als ik het goed begrijp juist de andere kant op, voor bijvoorbeeld diensten als de automatische ondertiteling op YouTube en hoe apparatuur als Alexa, Siri, enz. 'ons' gaat herkennen.
Tot 2 jaar geleden was dit een logisch antwoord.

In 2016 kwam Google echter met WaveNet - een Deep Neural Network wat getraind is met menselijke stemmen, en gebruikt wordt voor Text To Speech. Machine Learning wordt nu dus beide kanten op gebruikt,

En aangezien deze dataset CC0 is, kun je'm ook voor andere doelen gebruiken. Zo kun je bijvoorbeeld een neuraal netwerk trainen om spraak van achtergrondlawaai te onderscheiden, nuttig in mobiele telefoons en voor spraakbediening in auto's.
Mycroft heeft de mimic2 engine die dit doet. Is normaal gezien open source. Je hebt wel een twintigtal uren nodig die zijn ingesproken door één persoon en de kwaliteit van de opname moet een stuk hoger zijn.

Binnen de common voice database is er ook geen koppeling naar je identiteit. Hoogstens enkele verwijzingen naar leeftijdscategorie, geslacht en accent, maar dat is niet voldoende om fingerprinting te doen als het aantal sprekers maar groot genoeg is. Bij het Engels zitten ze nu aan 30k+ individuele sprekers.
Dan zijn er heus wel weer ander Machine Learning projectjes die de stemmen gaan groeperen naar klank, etc, en toch uiteindelijk de bijdrage van een persoon er uit kunnen halen.
Natuurlijk, maar ze kunnen het niet aan je naam koppelen op basis van de gegevens die erbij horen. Ze hebben dan misschien wel 1000 clusters, maar niets dat zegt dat dit Jan uit Breda is.

Er zou een optie zijn om opnames te nemen van je stem en hiermee dan een search te doen. Maar als ze opnames van je stem kunnen maken ben je even ver van huis.
Nee, je helpt de software spraak herkennen. Ze doen dit dan door verschillende manieren van uitspreken te vergelijken.
Nee, ze willen met Common Voice een dataset opbouwen zodat computers mensen (beter) kunnen verstaan. Als 100 man een specifiek zinnetje inspreken, kunnen computers door die spraak te analyseren daarmee veel beter andere spraak verstaan, dan als 2 mensen datzelfde zinnetje hadden ingesproken.
Dus waar wacht je op!? :-)
Nee, het gaat er om dat je woorden / zinnen inspreekt om de herkenningsdatabase aan te vullen. Zo willen ze meer, sneller en accurater kunnen herkennen wat iemand zegt
Als je de verwijzingen leest wordt het duidelijk dat het gaat om het trainen van het spraakherkenningsmodel en de uitspraak zodat het model getrained kan worden hoe woorden worden uitgesproken en de spraak op een juiste manier naar woorden omgezet moet worden.
met mijn Engels Limburgs accent wordt het wel lachen ☺
Gaat het dan om 'onze' stemmen te gebruiken voor TTS applicaties, zoals de stem van Siri of Alexa? Maar dan dus met meer keuze?
Exact dat, een open vrij te gebruiken TTS engine. Wordt o.a. door MyCroft AI (een opensource privacy aware tegenhanger van Alexa en co) gebruikt.
Wordt oa. gebruikt voor de OpenSource variant (Mycroft) van Siri/Cortana/Alexa en andere datahongerige consorten.

Mycroft werkt inmiddels ook al op een Raspberry PI, waar je dan je eigen (domotica gerelateerde bv.) skills aan kan koppelen en laten uitvoeren.

https://mycroft.ai

Edit:
Zie net pas (werk via mobile) dat Tomba exact dezelfde reactie heeft gegeven :+

[Reactie gewijzigd door sarcast op 23 juli 2024 22:41]

Ik kan mij iets voorstellen bij het gebrek aan input.

Voor een deel zal het de bekendheid van het project zijn (ik hoor er nu voor het eerst iets van), maar daarnaast rijst ook meer en meer de vraag of het wel verstandig is om je stem 'weg te geven'.

Redelijk veel zaken hebben stem/spraakherkenning als vorm van (extra) authenticatie tegenwoordig, waaronder ook bijvoorbeeld banken die met stemherkenning werken.
Welke bank koppelt jouw stem aan jouw rekening?
Bijdragen aan Common Voice lijkt me nog het minste risico als je dit hebt ingesteld. Iedereen zou mijn stem kunnen opnemen terwijl ik een gesprek voer, in het openbaar of door mij te bellen met een smoes.

Dan gebruik ik toch liever mijn stem niet voor authenticatie...
Wauw, wat ben ik blij dat ik geen ING gebruikt. Dat is echt gevaarlijk
Het is natuurlijk niet verplicht... 8)7
Is ook al sinds juli verwijderd.
ING is er pas vanafgestapt vanwege de risico's. Het was sowieso optioneel.
Maarja, jij weet natuurlijk niet, als hacker, wie desbetreffende stem ingesproken heeft (ik gok dat de stem niet bekend gaat zijn als "JapyDooge", mocht je meedoen, maar als "Jeroen" of "Peter") en dan zou je daarnaast ook nog eens de juiste bank moeten hebben, met alle rekeningnummers en gegevens.

Ik betwijfel sterk dat dit een probleem gaat zijn.
Dat kan zijn, maar Mozilla is een internetbedrijf - die begrijpen alles van het fingerprinten van browsers.
Dit kan er voor zorgen dat dergelijke gegevens te koppelen zijn aan mijn stem-opname.

Of, andere mogelijkheid is natuurlijk een lokale browser-plugin die malafide is en hier iets mee doet.
Dat kan zijn, maar Mozilla is een internetbedrijf - die begrijpen alles van het fingerprinten van browsers.
Is het fingerprinten van browsers niet vooral mogelijk omdat browserbouwers er te weinig vanaf weten? Ze zijn nu een inhaalslag aan het maken om dit moeilijker te maken, maar als ze er alles vanaf hadden geweten was het vanaf het begin al moeilijker geweest.
Je stem wordt enkel gekoppeld aan een simpel profiel met accent, geslacht en leeftijdscategorie. Niet voldoende informatie om te fingerprinten. Aan 10*2*5 zit je al aan een honderdtal buckets. Op 25 miljoen sprekers van het Nederlands is het dus onmogelijk om je te identificeren.

Er is echter geen enkele link met andere persoonlijke informatie.
Precies mijn eerste gedachte. Ik weet niet hoe je toegang kunt verkrijgen tot deze "open" dataset. Maar zoals de naam doet vermoeden is dat vast niet ingewikkeld. Je geeft je stem niet aan Mozilla, maar aan internet. Dat is vragen om misbruik, nu alleen nog een manier vinden om te bepalen of er een ziel bestaat en hoe je dit kunt uploaden.

[Reactie gewijzigd door PizZa_CalZone op 23 juli 2024 22:41]

nu alleen nog een manier vinden om te bepalen of er een ziel bestaat
?
Ik snap je vraagteken niet, maar ik bedoel dat we ondertussen met uitzondering van onze ziel (als die überhaupt bestaat) alles al op internet hebben staan.

[Reactie gewijzigd door PizZa_CalZone op 23 juli 2024 22:41]

O, dat kwam bij mij niet over. Ik dacht aan een typefout.

Als je je ziel zoekt, die zit bij de meeste mensen ongeveer tussen de hurken en de donder :)
Gelukkig kan je ook op andere manier bijdragen dan zelf zinnen in te spreken. Iedere opname moet namelijk ook gecontroleerd worden, je kan dus ook naar opnames van andere luisteren en zeggen of deze wel of niet goed zijn. Daarbij heb je zelf geen risico dat ze je stem opnemen.
Ik vermoed dat na dit nieuwsbericht (het is ook op andere sites te vinden) het aantal Nederlandse stemmen snel gaat groeien. Zelf meedoen heeft wel als voordeel dat jouw stem later beter dan gemiddeld zal worden herkend.
Of het weggeven van je stem in de vorm van een aantal redelijk abstracte zinnen de kans verhoogt dat je stem misbruikt gaat worden betwijfel ik. Het gaat om spraak herkenning, dus verschillen in stem en uitspraak. De stem wordt niet gebruikt om teksten uit te spreken.
Kon het niet vinden maar vraag mij af wat de eisen zijn gezien er bijvoorbeeld bepaalde accenten in stemmen zitten.
Het idee is denk ik om een zo breed mogelijke selectie te krijgen, dus vooral ook de accenten. Dit maakt herkenning hiervan namelijk ook een stuk makkelijker.
Er is ook een instelling om jouw accent aan te geven. Bij de implementatie van de TTS engine kan er dus al dan niet rekening mee gehouden worden. De bedoeling is echter dat een algemene engine alle soorten Nederlands herkent, ongeacht het accent. Idem in het Engels trouwens.
Je kunt een profiel aanmaken en daarbij aangeven wat voor accent je hebt. Er zijn best wat keuzes, maar vooral op het niveau van Vlaams, Aruba etc (uit m'n hoofd hoor). Kleinere onderverdelingen zoals Brabants, Limburgs, Twents, Zeeuws, Goois, Haags en dergelijke accenten (die je er als mens wel uit kunt pikken) kun je niet aangeven.
Het is nog erger! ;)
Hier in Tiel "proaten" we Tiels, even verderop in Wadenooijen "woinois" en in Buren weer "búres"!
Da's in een straal van 10 km! :+
Wellicht een idee om ondertitelingen van open kanalen/uitzendingen te gebruiken, op die manier kun je snel een grote basis leggen.
Doordat je maar beperkte ruimte hebt bij ondertiteling, is dit vrijwel nooit letterlijk en dus niet echt een goede bron.
Daar heb je inderdaad een punt, wellicht dat in de toekomst machine learning krachtig genoeg word om hier slimmer in te worden, kortom dat het meer context kan herkennen tussen de omschrijving en de gesproken tekst.
Misschien is het op zichzelf wel weer interessant voor een algoritme om twee manieren om grofweg dezelfde boodschap over te brengen naast elkaar te kunnen leggen.
Dus alle tweakers verzamelen, elke week een uurtje spreken.
Net even gekeken, vijf niet al te lange zinnen. Minuutjes werk.
Yes! En eventueel kan je er meer doen, of een aantal controleren
Vraag me af hoe gevoelig deze methode is voor lolbroeken die expres verkeerde dingen gaan inspreken.
De input wordt 3x gecontroleerd
Weinig, ingesproken teksten worden gecontroleerd door deelnemers.
Waarschijnlijk ligt dit al kant en klaar bij Het Meertens Instituut.
Klingon voorstellen als extra taal zou wel passen bij een open source traject :+
Ze zijn alvast bezig met Esperanto :-)
Voor de grap ook even de Italiaanse versie er bij gepakt.
De voorbeeldzinnen:
"Se sciupate così la vostra polvere, non ve ne resterà per farvi saltare le cervella, se per avventura sdegnassimo noi di farlo." of
"La chiacchierata è importante perché i nuovi volontari possono lasciar perdere molto facilmente se non hanno capito le finalità del progetto oltre che come funziona ma questi dettagli devono essere spiegati in modo semplice e diluito nel discorso complessivo."

En dan klaagt de site dat de opname te lang is. 8)7

En dan even terugluisteren naar anderen die het soms klaarspelen om enorme lappen tekst wèl binnen de door het project gestelde tijd op te lezen. _/-\o_

[Reactie gewijzigd door Opa op 23 juli 2024 22:41]

Op dit item kan niet meer gereageerd worden.