Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Chrome helpt slechtzienden met beschrijvingen voor ongelabelde beelden

Een nieuwe functie van Googles browser Chrome genereert beschrijvingen voor beeldmateriaal op het web dat niet van een tekstlabel is voorzien. Dit is vooral nuttig voor blinde en slechtziende gebruikers die afhankelijk zijn van gesproken feedback of brailleschrift.

De nieuwe functie met de naam 'Get Image Descriptions from Google' werd in de voorbije maanden uitgebreid getest, meldt website 9to5Google. Er zouden intussen al ruim tien miljoen beschrijvingen voor ongelabelde beelden zijn gegenereerd en elke dag zouden er honderdduizenden beschrijvingen worden toegevoegd.

Chrome analyseert het ongelabelde materiaal niet zelf, maar legt de beelden voor aan de servers van Google. Die proberen de onderwerpen vervolgens aan de hand van machinelearning te identificeren. Volgens 9to5Google wordt tijdens dat proces niet alleen naar herkenbare objecten gezocht, maar ook naar teksten en symbolen in het beeld. Op basis hiervan zou Google omschrijvingen kunnen genereren die het hele plaatje definiëren in een volledige zin.

Er worden verschillende machinelearningmodellen op het beeldmateriaal losgelaten en de uitkomsten worden gerangschikt. Vervolgens stuurt Google alleen de nuttigste en informatiefste beschrijvingen terug naar de gebruiker, via diens zogeheten schermlezer of brailleleesregel. Als het niet mogelijk blijkt om met behulp van machinelearning een beschrijving te genereren, wordt de boodschap 'geen omschrijving beschikbaar' teruggestuurd.

In het Help Center voor Chrome legt Google stap voor stap uit hoe gebruikers de nieuwe toegankelijkheidsfunctie kunnen activeren. In Nederland en België lijkt Get Image Descriptions echter nog niet beschikbaar. Wellicht werkt de functie voorlopig alleen met beeldomschrijvingen in het Engels.

Afbeelding: 9to5Google

Door Michel van der Ven

Nieuwsredacteur

11-10-2019 • 10:11

16 Linkedin Google+

Reacties (16)

Wijzig sortering
Ik ben vooral benieuwd of dit ook uit te schakelen is op website niveau, eg. Ik wil niet dat plaatjes in een 'gesloten' omgeving die ik host langs de google servers gaan, omdat ik de inhoud wil limiteren tot een bepaalde groep voor een reden.

Goede ontwikkeling voor slechtzienden, maar slechte ontwikkeling voor mijn aluhoedje
Je kunt natuurlijk zorgen dat alle plaatjes netjes zijn voorzien van tekstlabels, dan is de nieuwe functie in Chrome niet nodig, en zullen de plaatjes waarschijnlijk niet naar Google gestuurd worden.
Mooie ontwikkeling hoewel het mogelijk is dat de machine learning de essentie van het plaatje mist. Als de focus van het beeld over iets anders gaat dan wat het algoritme detecteerd als zijnde het hoofdonderwerp in de foto, kan dit mogelijks tot meer verwarring zorgen.

[Reactie gewijzigd door Chuk op 11 oktober 2019 13:22]

Het hele punt van Machine Learning is dat deze detectie steeds beter wordt en leert wanneer het juist is omschreven. De foutmarge die je beschrijft zal steeds kleiner worden :)
Eigenlijk zou er context mee in de machine learning mee moeten komen. De focus van een plaatje kan anders zijn als de site context verandert. bvb in dat eerste plaatje met de gitaar, als dit op een laptop-promotende website zou staan, zou niet "de man met de gitaar" het belangrijke punt zijn, maar de "laptop in een huiselijke omgeving".

Maar zoals eerder aangehaalt is het zeker beter dan niets. Een goed begin om afzonderlijke plaatjes eerst te onderzoeken en daarna in een 2e stap, de context meenemen.
In dit geval zal dit een stuk trager gaan, en dus voor langere tijd minder precies, omdat de slechtziende niet kan rapporteren dat er niet iets klopt.
Ja, voor een voorbeeldje van wat Microsoft Cognitive Services zoal van plaatjes brouwt:

[Reactie gewijzigd door Henk Poley op 11 oktober 2019 12:32]

Interessant dat de herkenning nog moeite lijkt te hebben met perspectief en afstand.

Voor zo ver ik kon zien in de voorbeelden kon de binnenkant van een huis niet als zodanig worden herkend en werd niet herkend dat een bord niet op een huis maar voor een huis stond.
Dat zou inderdaad kunnen. Maar hij zal het vaak genoeg (en steeds vaker) wel goed (genoeg) hebben. Is het dan niet gemiddeld alsnog beter dan niks?

Ik vind het vooral jammer dat dit via servers van Google gaat en niet lokaal in de browser zelf kan gebeuren. Is het echt niet haalbaar om het trainen van het model op de servers te doen maar het daarna mee te leveren als onderdeel van Chrome (en misschien zelfs Chromium) om vervolgens alles lokaal te doen met behoud van privacy?
Mijn eigen ervaringen met bv. facebook en zijn beschrijvingen van foto's zijn: "leuke gimmick maar niets meer." Wat ben ik bv. met de woorden: "boom, gras 2 lachende mensen" Eigenlijk niet zo erg veel.

Als de toepassing ook tekst gaat herkennen in afbeeldingen lijkt me dit eventueel wel nuttig. Je ziet vaak genoeg mensen die een afbeelding van een krantenartikel posten...… Heb ik dus niet erg veel aan tenzij ik er een OCR tool op zou los laten.

Mocht iemand een manier kennen om dit toch in België aan de gang te krijgen...…. ik wil het namelijk wel graag eens testen.
Ook erg welkom op mijn telefoon om een bepaalde foto op te zoeken tussen de inmiddels duizenden foto's die erop staan. Ik lijkt mij dat het al mogelijk is om alles in groepen te verdelen. Bijvoorbeeld portretten, gebouwen, landschappen. Dat zoekt dan wat makkelijker en vooral sneller.

[Reactie gewijzigd door Oval op 11 oktober 2019 11:36]

Zou je dit ook toe kunnen passen op een film waardoor een film meer context krijgt voor blinden en slechtzienden?
Dit project helaas niet, omdat de terugkoppeling van de tekst naar de lezer gaat via gesproken feedback of brailleschrift. In de toekomst is de techniek misschien goed genoeg om de gebeurtenissen in een een video te omschrijven, maar dat zal wel een saaie boel worden met zo'n Microsoft Sam stem die in je oor fluistert.
Dit hadden ze enkele jaren geleden toch ook al?

Het was alleen even wat stil rondom het project toen die een donkere man een gorilla noemde.
Of was het andersom?
De descriptor zou niet direct in elke taal beschikbaar zijn... Het gaat volgens mij om key-words. En het komt van een leverancier die ook haar best doet met vertalen. Hoeveel moeite kan het zijn om dat te koppelen?


Om te kunnen reageren moet je ingelogd zijn


Apple iPhone 11 Nintendo Switch Lite LG OLED C9 Google Pixel 4 FIFA 20 Samsung Galaxy S10 Sony PlayStation 5 Sport

'14 '15 '16 '17 2018

Tweakers vormt samen met Hardware Info, AutoTrack, Gaspedaal.nl, Nationale Vacaturebank, Intermediair en Independer DPG Online Services B.V.
Alle rechten voorbehouden © 1998 - 2019 Hosting door True