Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

YouTube gaat livestreams voorzien van automatische ondertitels

YouTube heeft aangekondigd dat binnenkort ook livestreams kunnen worden voorzien van automatische captions. Deze Engelstalige ondertitels komen tot stand via spraakherkenningstechnologie die de gesproken tekst in een video omzet in woorden.

YouTube wil hiermee de toegankelijkheid van livestreams op het videoplatform vergroten. Zodra er geen professionele ondertitels beschikbaar zijn, zullen de captions beschikbaar zijn. Deze functionaliteit, die in 2009 werd geïntroduceerd en in 2010 algemeen beschikbaar kwam, wordt in de komende weken toegevoegd. Volgens YouTube is de lasr-spraakherkenningstechnologie verder verbeterd, zodat er minder fouten worden gemaakt en de vertraging kleiner wordt.

Om de ervaring van YouTube-gebruikers bij livestreams verder te verbeteren, maakt YouTube de live chat, die tijdens een livestream aan de rechterkant is te zien, ook beschikbaar voor gebruikers nadat de stream is afgesloten. Zodra de stream naderhand opnieuw wordt bekeken, zal de live chat synchroon meelopen met de video. Tot slot kunnen streamers op YouTube binnenkort ook hun locatie via geotagging beschikbaar maken.

Door Joris Jansen

Nieuwsredacteur

26-02-2018 • 21:06

54 Linkedin Google+

Reacties (54)

Wijzig sortering
Wat mij betreft geen goed idee, ik zie al zo vaak grove fouten in die automatisch gegenereerde subtitels, dat hoef ik er niet bij als ik een live stream kijk.
Hoe recentelijk heb je gekeken? En ik welke taal? En waar?

De methodes die worden toepast zijn in de afgelopen jaren zo verbeterd dat normale spraak tegenwoordig beter wordt herkend dan wij mensen zelf zouden kunnen! (zie bijv. het resultaat in https://arxiv.org/pdf/1709.06436 ).

Natuurlijk worden er nog fouten gemaakt, vooral als er door elkaar heengesproken wordt, of als niet alledaags vocabulaire gebruikt wordt. Maar vooral de technologie van Google voor het Engels is echt super tegenwoordig!

Ik denk trouwens dat de belangrijkste reden voor ondertiteling is dat de mensen de video kunnen kijken zonder geluid, bijvoorbeeld in de bus als ze hun oordopjes niet bij zich hebben.

[Reactie gewijzigd door Pete op 26 februari 2018 21:32]

Maar daar zit wel een verschil, wij snappen wel volledig wat mensen zeggen, maar hebben moeite met datzelfde ook 1 op 1 op papier te zetten. Je kan een snel engels gesprek probleemloos volgen (bv TGT etc), terwijl als je dit ook nog moet uittypen het een compleet ander verhaal is.

YouTube (en trouwens ook MS met hun realtime vertaling) gebruikt nog steeds een combinatie van herkenning en logische zinnen, als jij een zin zegt wat grammaticaal klopt, is de kans groot dat die software dat ook goed neerzet. Ben jij alleen wat live aan het vloggen en je doet wat 'straattaal', is youtube compleet de weg kwijt en gaat 'zoeken' naar kloppende zinnen.

Zeker termen en afkortingen gaat die compleet de mist in (zet voor de grap eens een division build met auto-ondertiteling aan), terwijl wij dit probleemloos kunnen verstaan.

Lomp gezegd, heb je een perfect ABN gesprek zonder interrupties van de 2 sprekers, gaat alles goed. Heb je 2 mensen op straat die gewoon elkaar tegenkomen en wat random lullen tegen elkaar, systeem is de weg kwijt.
Uit onderzoek door Google blijkt dat dat 'zoeken naar kloppende zinnen' veel beter werkt dan proberen een kloppend algoritme te bouwen: een 'dom' systeem met veel data wint het van een slim systeem. Een slim systeem raakt de weg inderdaad kwijt als mensen 'random lullen' maar een dom systeem niet omdat er nu eenmaal continu random geluld wordt en daar dus enorm veel data van te vinden is waarmee je jouw sample kunt vergelijken.
Klopt, daarom dat Artifical Idiot ook veel nuttiger is dan Artificial Intelligence.
Inderdaad, het is erg moelijk om "conversational speech" goed uit te schrijven. Helemaal omdat wij heel vaak woorden onderbreken, herhalen en halverwege een zin een nieuwe gedachte beginnen.

Wel is het zo dat je geen grammaticale superzinnen hoeft te gebruiken om goed herkend te worden; de modellen worden getrained op real-world data waar de zinnen ook vaak niet-gramaticaal-correct zijn. In de meeste modellen word alleen naar de 5-10 vorige woorden in de zin gekeken om te helpen met het herkennen van het huidige woord.
Youtube, gisteren.

Basis Engels gaat ondertussen inderdaad zeer goed, maar zodra mensen over niet standaard onderwerpen praten dan valt het systeem op zn snufferd en krijg je totaal zinloze ondertitels
Uiteraard, niet standaard (specialistische) onderwerpen gaan niet altijd goed.
Het zijn namen, specifieke inhoudsafhankelijke woorden en dialect waar het fout gaat. Kan het systeem niets aan doen, het kan niet net zoals ons interpreteren vanuit onderwerp.
Kun je uitleggen wat je bedoelt? Een spraakherkenner kan zeker weten wel uit de context halen welk woord het moet schrijven (bijvoorbeeld two vs to, dezelfde klanken maar goed te schrijven omdat er naar de context gekeken wordt).

Dialect is inderdaad een moeilijker probleem, alhoewel ook daar de modellen echt snel vooruit gaan. Kijk maar eens deze video, zij heeft zeker een dialect maar de automatische ondertiteling is erg goed: https://www.youtube.com/w...continue=46&v=NX-NVcNZBxg

[Reactie gewijzigd door Pete op 27 februari 2018 11:53]

Het probleem is dat het begrijpen van die context niet ver genoeg gaat, als voorbeeld, iemand heeft het over een 'M2 Nut' (een bepaald formaat moertje) dan word dat bijvoorbeeld vertaald naar 'Doughnut' omdat het systeem niets kent wat begint met 'M2', maar wel iets vond wat eindigde in 'Nut'

Simpel gezegd, 'basis' Engels kan het systeem echt wel aan, maar zodra het specifiek ingaat op bepaalde gespreksonderwerpen (die verder niet eens zo ver gezocht zijn) dan gaat het systeem op zn snufferd, het is niet bedacht op specifieke onderwerpen ondersteunen, het is bedacht om algemene content te kunnen ondertitelen.

Word het helemaal moeilijk als het systeem op een later moment ook andere talen gaat ondersteunen (wat vast en zeker gaat gebeuren) Er zijn bijvoorbeeld woorden die per taal iets anders betekenen, als ik zeg 'ho stop' snapt iedereen hier dat ik bedoel 'hey kijk uit', maar een vertaal systeem denkt misschien dat ik het in het Engels bedoel, en dan betekend het iets anders.
Kun je een youtube link geven (met tijd) waar zoiets nog steeds fout gaat? M2 Nut bijvoorbeeld is echt normaal genoeg dat dit in hun taalmodel zit.

Ik weet dat er limitaties zijn (ik doe er onderzoek naar), maar just zulke problem als de M2 nut waar je het over hebt zijn tegenwoordig bijna allemaal opgelost!
Klingon heeft nog wel wat werk nodig (zet ondertitels aan):
https://www.youtube.com/watch?v=R3vF9LXZePE
Hoe recentelijk heb je gekeken? En ik welke taal? En waar?

De methodes die worden toepast zijn in de afgelopen jaren zo verbeterd dat normale spraak tegenwoordig beter wordt herkend dan wij mensen zelf zouden kunnen! (zie bijv. het resultaat in https://arxiv.org/pdf/1709.06436 ).
Persoonlijk constateer ik het tegenovergestelde. Ik kijk erg graag Engelstalige content met Engelse subs. Elke zin zitten wel één of meerdere woorden in die gewoon niet kloppen welke ik wel goed gehoord heb.

[Reactie gewijzigd door Typecast-L op 27 februari 2018 10:56]

Kun je een voorbeeld Youtube video geven waar dit het geval is?
Je kan de techniek trouwens ook zelf testen in Google Translate. Als je een tekst van 10 zinnen dicteert zie je ook dat het algoritme van Google per woord de hele tekst controleerd of de tekst grammaticaal (en misschien qua geheel?) nog logisch is. Er treed echter een flinke vertraging op, dus ik ben benieuwd hoe de techniek in YouTube anders is dat dit niet gebeurd.
Het laatst dat ik gehoord heb is dat de Google Translate modellen anders zijn dan die van Youtube, dus het is niet helemaal vergelijkbaar.
Ook is het zeker geen grammaticale correctie, meer updates omdat door de context later in het zoeknetwerk een andere hypothese voor de eerdere woorden geselecteerd wordt.
Ja dan bevestigd dat toch mijn vermoeden; dat de techniek in Youtube anders is. Het grammatica effect is dan trouwens omgekeerd? Want de contextuele verbetering waar jij over spreekt resulteert wel in grammatisch correcte zinnen, dan kijk ik overigens ook naar de vertaalde tekst die goed in elkaar zit. Dat heeft overigens weer heel weinig met youtube te maken.
Het gaat er in mijn ogen niet echt om dat er erg kwaliteitsvolle ondertitels afgeleverd worden, maar wel dat een persoon die om welke reden dan ook de spreker niet/nauwelijks verstaat, toch een goed beeld kan krijgen van de algemene inhoud. Hier en daar een foutje of zelfs grove fout maakt dan op zich niet echt iets uit, en anders is er nog steeds die uit-knop :)
Het hangt er maar erg vanaf, vaak herkent hij een specifiek woord niet en als dat juist belangrijk voor de inhoud is dan zijn ze in mijn ogen onbruikbaar. Ik heb ze af en toe aan staan om dat ik iets zonder geluid kijk, maar vaak zet ik ze snel weer uit omdat het totaal niet te volgen is.

Als ze het zo graag verder willen pushen dan moeten ze ook meer effort in het genereren er van gaan steken.
Precies dit, ik zet zelf vaak ondertitels aan bij het kijken van een kanaal van een chinese 'hacker' (lees: hardware modder/enthousiast) en die vult ze zelf handmatig in, en dat is ook wel te merken als ik vervolgens een paar willekeurige (edit: engelse) videos over hetzelfde onderwerp kijk, aan die ondertitels is vaak geen touw vast te knopen (juist de wat technischer details in zulke videos zijn belangrijk, maar dan vaak ook woorden waar dat systeem echt geen raad mee weet)

[Reactie gewijzigd door olivierh op 26 februari 2018 21:53]

Ik denk dat ze het nu pushen omdat ze er zoveel effort in hebben gestoken in de laatste paar jaren!
Dat is misschien wel zo maar als je deels slechthorend bent kan het best een uitkomst zijn, dan heb je toch een extra puzzelstukje om het mee te ontcijferen wat soms het verschil maakt. het maakt uiteindelijk ook wel uit hoe duidelijk er gearticuleert wordt in het filmpje en hoe zwaar het accent van de spreker is.
Begrijp me niet verkeerd, de kleine foutjes hier en daar storen mij persoonlijk ook niet zo, maar toch is dat niet 'netjes', en als ik dan bedenk dat ik zelf als kind toch wel een vrij solide basis in Engels heb gekregen door simpelweg te kijken en luisteren naar TV (ondertitels lezen terwijl je luistert, leer je vrij snel wat basis woorden, en met de loop van tijd als je engels beter word allerlei moeilijke woorden & gezegdes) lijkt het me niet echt toe te juichen dat een van de grootste media platformen vandaag de dag (zo niet DE grootste) verkeerde ondertitels toont, dat helpt niet bepaald mee aan hoe steeds minder mensen Engels gebruiken in online communities & games.
Maar door het op grote(re) schaal te gaan gebruiken krijg je wel de mogelijkheid om het steeds te verbeteren. Je kunt in een lab bezig blijven totdat iets 100% perfect is, maar dan gaat het lang niet zo snel.
Het word nu echter ook op grote schaal gebruikt? het zit al jaren in niet-live videos.
Dat valt met Engelstalige ondertiteling toch wel mee? Ik zie voornamelijk niet begrijpbare teksten bij Nederlandse ondertiteling.
Op zich heb je gelijk, ware het niet dat ik weinig tot geen Chinees, Hindi, Russisch of Swahili ken.
Ik heb gemerkt dat het de afgelopen weken een stuk beter is als voorheen. Het staat bij mij automatisch aan en bevalt op zich wel.
Het is en blijft gewoon optioneel, maar voor sommige mensen kan het handig zijn. En het systeem kan erdoor beter worden.
What me concerns no idea is good, I sea already so many grave mistakes automatically generated subtitles, that I do not have when I look as a live stream.
Zo, je kan blijkbaar ook in de andere richting [menselijk -> robotachtig] in de uncanny valley terechtkomen, zoals de mevrouw op de foto laat zien.

On-topic: hoewel die captions toch nog vaak de bal misslaan, helpt het je sowieso wel de algemene inhoud te begrijpen. Erg mooi hoe hard die spraaktechnologie is geëvolueerd. Ik spreek als complete leek, maar volgens mij is random spraak in een video toch nog tig keer moeilijker dan een gebruiker die in heldere taal tegen Siri/Alexa aan het leuteren is.

[Reactie gewijzigd door Dashter op 26 februari 2018 21:15]

On-topic: hoewel die captions toch nog vaak de bal misslaan, helpt het je sowieso wel de algemene inhoud te begrijpen.
Wat grappig dat jij hier (per ongeluk?) de spijker finaal op de kop slaat!

Want dit is inderdaad een van de lastigste opgaven geweest voor het team van 's werelds #2 zoekmachine, Youtube: hoe doorzoek je video's?

Jarenlang heeft Youtube gebruik gemaakt van de titel / beschrijving en comments om jou relevantie video's bij je zoekopdracht te geven. Tot ze nu al enkele jaren flink aan de weg timmeren om alle video's automatisch in het Engels en andere talen te ondertitelen om het zo de inhoud van de video's doorzoekbaar te maken. En wat denk je van targeted ads! Nog veel beter te doen als je weet wat er in een video gezegd wordt.

En door deze automatisch gegenereerde captions ook voor het grote publiek beschikbaar te maken krijgt Google ook nog eens een enorme berg aan feedback van miljoenen gebruikers die verbeteringen in het script toepassen.

Alles onder het mom van 'toegankelijkheid van livestreams op het videoplatform'. Al is dat ook mooi meegenomen. :Y)

[Reactie gewijzigd door ApexAlpha op 26 februari 2018 21:21]

Je slaat wat mij betreft de spijker precies op de kop.

Wat men wel is lijkt te vergeten, is dat Youtube niet primair een videostreamdienst is, maar een advertentieverkoopdienst is, en die advertenties worden tijdens/voor videostreams weergegeven op basis van het filmpje en de gebruiker. (net zoals dat (het product) Google dit ook is). Door te weten waar het filmpje inhoudelijk over gaat zou 'het systeem' dus in theorie A: betere op maat gemaakte advertenties laten zien, en misschien zelfs B op het juiste moment nog beter afgestemde advertenties kunnen laten weergeven op basis van de DAT moment in het filmpje.

Dit filmpje laat op een relatief simpele manier zien hoe Youtube als advertentiehandelaar opereert (en het geeft een beetje inzicht in hoeveel de makers 'ongeveer/gemiddeld/garantietotaandevoordeur' nou daadwerkelijk verdiend met die filmpjes): https://www.youtube.com/watch?v=KW0eUrUiyxo
Al was het wel primair een videosite, er moet geld verdiend worden. Z'n vetpot is YT overigens ook niet dacht ik. Als ze ondertussen al is winst draaien met YT...
Het was ook absoluut geen verwijt/sneer richting Google. Ik geef alleen aan wat de core business (advertenties verkopen), en welke middelen zij gebruiken om die core business te effectueren (profileren van mensen en content, waartegen een toko z'n advertenties kan inkopen).

Het feit dat Youtube als product niet/nauwelijks winst maakt (in dollars), maakt natuurlijk wel dat het weer een onderdeel wordt van de verdere profilering van haar gebruikers, wat op zich ook wat waard is. Maar goed. We raken off-topic :)
Hehe, in dat opzicht was het inderdaad per ongeluk! Je beschrijft een heldere gedachtengang, maar je moet er wel opkomen natuurlijk. Elke dag een nieuw inzicht :)
Klopt als een bus. Heeft ook een keerzijde, videos worden vaak onterecht demonitized omdat er een keyword getriggerd wordt.
Altijd lachen die ondertiteling. Klopt vaak geen hout van.
Lig soms in een deuk op Twitch met ondertitels.
Het meest speciale is aan dit bericht is dat ze nu live en doorlopend deze ondertitels kunnen maken. Voor offline gebruik konden ze tot nu toe meer rekenkracht inzetten, waarbij het bijvoorbeeld 3x zo lang duurde om de ondertitels te genereren dan dat de audio duurde. Dat ze het nu met zo weinig vertraging kunnen doen dat het geschikt is voor live video is het echte niews!
Op zich interesseert deze toevoeging me niet, maar wel moet ik zeggen dan ik erg onder de indruk ben van de technologie zelf. Live-stream dat vervolgens ook nog eens meteen vertaald wordt denk daar maar eens over na, zal ook wel een hoop rekenkracht kosten.
Als ze dan maar de engine van Deepl gebruiken, die vertaald tenminste wel goed.
Het zou ook leuk zijn om de ondertitelinstelling per kanaal te bewaren. Ik hoef meestal geen Engelse ondertiteling, maar andere talen wel.
Misschien nog belangrijk punt om dit te doen. Dit maakt het detecteren op copyright content ook weer wat eenvoudiger. Hier gebruiken ze de ondertiteling systemen namelijk ook voor. Op deze manier is het dus nog eenvoudiger voor YouTube om content met copyright te detecteren.
Ik wil helemaal geen ondertiteling: ik wil film. Daarvoor kijk ik Youtube.
Films op Youtube?
Staan er zat op, ook legaal. Werkt in NL alleen niet zover ik weet.

https://www.lifewire.com/...al-service-review-1846117
Ik zal Youtube vragen of ze onmiddellijk de werkzaamheden aan deze functie willen staken aangezien jij het niet wilt.
/sarcasm

Je kunt het ook gewoon uitzetten :+
Ik heb zo'n vermoeden dat hij eigenlijk audio bedoelt, hij kijkt youtube om (nederlands talige) films te kijken, niet om ondertitels te lezen. (@MarkS90 'correct me if im wrong.')

[Reactie gewijzigd door olivierh op 26 februari 2018 21:49]

Top!! Geweldig voor mensen met een hoorstoornis.

Op dit item kan niet meer gereageerd worden.


Call of Duty: Black Ops 4 HTC U12+ dual sim LG W7 Google Pixel 3 XL OnePlus 6 Battlefield V Samsung Galaxy S9 Dual Sim Google Pixel 3

Tweakers vormt samen met Tweakers Elect, Hardware.Info, Autotrack, Nationale Vacaturebank en Intermediair de Persgroep Online Services B.V. © 1998 - 2018 Hosting door True