Chrome helpt slechtzienden met beschrijvingen voor ongelabelde beelden

Een nieuwe functie van Googles browser Chrome genereert beschrijvingen voor beeldmateriaal op het web dat niet van een tekstlabel is voorzien. Dit is vooral nuttig voor blinde en slechtziende gebruikers die afhankelijk zijn van gesproken feedback of brailleschrift.

De nieuwe functie met de naam 'Get Image Descriptions from Google' werd in de voorbije maanden uitgebreid getest, meldt website 9to5Google. Er zouden intussen al ruim tien miljoen beschrijvingen voor ongelabelde beelden zijn gegenereerd en elke dag zouden er honderdduizenden beschrijvingen worden toegevoegd.

Chrome analyseert het ongelabelde materiaal niet zelf, maar legt de beelden voor aan de servers van Google. Die proberen de onderwerpen vervolgens aan de hand van machinelearning te identificeren. Volgens 9to5Google wordt tijdens dat proces niet alleen naar herkenbare objecten gezocht, maar ook naar teksten en symbolen in het beeld. Op basis hiervan zou Google omschrijvingen kunnen genereren die het hele plaatje definiëren in een volledige zin.

Er worden verschillende machinelearningmodellen op het beeldmateriaal losgelaten en de uitkomsten worden gerangschikt. Vervolgens stuurt Google alleen de nuttigste en informatiefste beschrijvingen terug naar de gebruiker, via diens zogeheten schermlezer of brailleleesregel. Als het niet mogelijk blijkt om met behulp van machinelearning een beschrijving te genereren, wordt de boodschap 'geen omschrijving beschikbaar' teruggestuurd.

In het Help Center voor Chrome legt Google stap voor stap uit hoe gebruikers de nieuwe toegankelijkheidsfunctie kunnen activeren. In Nederland en België lijkt Get Image Descriptions echter nog niet beschikbaar. Wellicht werkt de functie voorlopig alleen met beeldomschrijvingen in het Engels.

Get Image Description from Google — Afbeelding: 9to5Google

Reacties (17)

EngineerCoding 11 oktober 2019 19:49

Ik ben vooral benieuwd of dit ook uit te schakelen is op website niveau, eg. Ik wil niet dat plaatjes in een 'gesloten' omgeving die ik host langs de google servers gaan, omdat ik de inhoud wil limiteren tot een bepaalde groep voor een reden.

Goede ontwikkeling voor slechtzienden, maar slechte ontwikkeling voor mijn aluhoedje

arnold_m @EngineerCoding • 11 oktober 2019 23:29

Je kunt natuurlijk zorgen dat alle plaatjes netjes zijn voorzien van tekstlabels, dan is de nieuwe functie in Chrome niet nodig, en zullen de plaatjes waarschijnlijk niet naar Google gestuurd worden.

Chuk 11 oktober 2019 10:19

Mooie ontwikkeling hoewel het mogelijk is dat de machine learning de essentie van het plaatje mist. Als de focus van het beeld over iets anders gaat dan wat het algoritme detecteerd als zijnde het hoofdonderwerp in de foto, kan dit mogelijks tot meer verwarring zorgen.

[Reactie gewijzigd door Chuk op 23 juli 2024 14:15]

TimeWaster @Chuk • 11 oktober 2019 11:17

Het hele punt van Machine Learning is dat deze detectie steeds beter wordt en leert wanneer het juist is omschreven. De foutmarge die je beschrijft zal steeds kleiner worden

Chuk @TimeWaster • 11 oktober 2019 11:36

Eigenlijk zou er context mee in de machine learning mee moeten komen. De focus van een plaatje kan anders zijn als de site context verandert. bvb in dat eerste plaatje met de gitaar, als dit op een laptop-promotende website zou staan, zou niet "de man met de gitaar" het belangrijke punt zijn, maar de "laptop in een huiselijke omgeving".

Maar zoals eerder aangehaalt is het zeker beter dan niets. Een goed begin om afzonderlijke plaatjes eerst te onderzoeken en daarna in een 2e stap, de context meenemen.

tinustate @TimeWaster • 11 oktober 2019 11:47

In dit geval zal dit een stuk trager gaan, en dus voor langere tijd minder precies, omdat de slechtziende niet kan rapporteren dat er niet iets klopt.

Henk Poley @Chuk • 11 oktober 2019 12:29

Ja, voor een voorbeeldje van wat Microsoft Cognitive Services zoal van plaatjes brouwt:

[Reactie gewijzigd door Henk Poley op 23 juli 2024 14:15]

walterg @Henk Poley • 11 oktober 2019 16:22

Interessant dat de herkenning nog moeite lijkt te hebben met perspectief en afstand.

Voor zo ver ik kon zien in de voorbeelden kon de binnenkant van een huis niet als zodanig worden herkend en werd niet herkend dat een bord niet op een huis maar voor een huis stond.

Peetz0r @Chuk • 11 oktober 2019 10:52

Dat zou inderdaad kunnen. Maar hij zal het vaak genoeg (en steeds vaker) wel goed (genoeg) hebben. Is het dan niet gemiddeld alsnog beter dan niks?

Ik vind het vooral jammer dat dit via servers van Google gaat en niet lokaal in de browser zelf kan gebeuren. Is het echt niet haalbaar om het trainen van het model op de servers te doen maar het daarna mee te leveren als onderdeel van Chrome (en misschien zelfs Chromium) om vervolgens alles lokaal te doen met behoud van privacy?

falcon186 11 oktober 2019 11:29

Mijn eigen ervaringen met bv. facebook en zijn beschrijvingen van foto's zijn: "leuke gimmick maar niets meer." Wat ben ik bv. met de woorden: "boom, gras 2 lachende mensen" Eigenlijk niet zo erg veel.

Als de toepassing ook tekst gaat herkennen in afbeeldingen lijkt me dit eventueel wel nuttig. Je ziet vaak genoeg mensen die een afbeelding van een krantenartikel posten...… Heb ik dus niet erg veel aan tenzij ik er een OCR tool op zou los laten.

Mocht iemand een manier kennen om dit toch in België aan de gang te krijgen...…. ik wil het namelijk wel graag eens testen.

Oval 11 oktober 2019 11:35

Ook erg welkom op mijn telefoon om een bepaalde foto op te zoeken tussen de inmiddels duizenden foto's die erop staan. Ik lijkt mij dat het al mogelijk is om alles in groepen te verdelen. Bijvoorbeeld portretten, gebouwen, landschappen. Dat zoekt dan wat makkelijker en vooral sneller.

[Reactie gewijzigd door Oval op 23 juli 2024 14:15]

Jerie

11 oktober 2019 11:40

Zou je dit ook toe kunnen passen op een film waardoor een film meer context krijgt voor blinden en slechtzienden?

TheGreatAtuin @Jerie • 11 oktober 2019 17:23

Dit project helaas niet, omdat de terugkoppeling van de tekst naar de lezer gaat via gesproken feedback of brailleschrift. In de toekomst is de techniek misschien goed genoeg om de gebeurtenissen in een een video te omschrijven, maar dat zal wel een saaie boel worden met zo'n Microsoft Sam stem die in je oor fluistert.

Gopher 11 oktober 2019 14:15

Dit hadden ze enkele jaren geleden toch ook al?

Het was alleen even wat stil rondom het project toen die een donkere man een gorilla noemde.
Of was het andersom?

Henk Poley @Gopher • 11 oktober 2019 19:46

Dat was eerst bij Flickr, maar inderdaad ook bij Google Photos.

[Reactie gewijzigd door Henk Poley op 23 juli 2024 14:15]

beerse 11 oktober 2019 15:28

De descriptor zou niet direct in elke taal beschikbaar zijn... Het gaat volgens mij om key-words. En het komt van een leverancier die ook haar best doet met vertalen. Hoeveel moeite kan het zijn om dat te koppelen?

draak42 21 oktober 2019 14:17

Hier werkt deze functie al enkele maanden. Ik heb het echter uitgezet omdat het meer kwaad dan goed doet. Ik ben volledig blind en gebruik dus een screenreader, maar het aantal afbeeldingen waarvoor google geen beschrijving kan vinden is erg groot, en als er wel een beschrijving terug komt is die vaak zo slecht of beknopt dat ik er geen nuttige informatie uit kan halen. Wat in het artikel staat over de functie binnen Nederland is dus niet waar, hier (win10 en Nederlandstalige chrome) werkt het al enkele maanden.

Op dit item kan niet meer gereageerd worden.

Lees meer

Reacties (17)

Sorteer op:

Weergave: