Google ontwikkelt geautomatiseerde dataset die Wikipedia-afbeeldingen beschrijft

Google Research heeft een geautomatiseerde dataset gemaakt die afbeeldingen in diverse talen relatief gedetailleerd kan beschrijven. Hiervoor gebruikt Google afbeeldingen en artikelen die op Wikipedia staan en machinelearning. De dataset zou vooral handig zijn voor onderzoek.

Mensen die onderzoek doen naar hoe afbeeldingen en tekst zich in verschillende talen tegenover elkaar verhouden, gebruiken volgens Google Research datasets die bestaan uit afbeeldingen en beschrijvingen van afbeeldingen. Deze datasets kunnen handmatig van bijschriften worden voorzien, wat beschrijvingen van hoge kwaliteit oplevert, maar lang duurt.

De beschrijvingen kunnen ook geautomatiseerd worden, maar bij de huidige technieken zijn heuristiek en veel filtering nodig om de datakwaliteit te kunnen garanderen. Daarbij zijn deze datasets amper verkrijgbaar in niet-Engelse talen. Google Research vroeg zich daarom af of het mogelijk is om een geautomatiseerd proces te bedenken dat datasets in verschillende talen maakt waarbij de beschrijvingen van hoge kwaliteit zijn, er veel beschrijvingen zijn en het ook om verschillende soorten afbeeldingen gaat.

Het resultaat daarvan is WIT, kort voor Wikipedia-based Image Text Dataset. Dit systeem gebruikt machinelearning, Wikipedia-pagina's en Wikimedia-afbeeldingen om bijschriften te ontwerpen. Het model bekijkt de beschrijving van een pagina, de titel, het bijschrift bij een afbeelding en metadata om een omschrijving van een afbeelding te kunnen bedenken.

Daarbij past Google Research bepaalde filters toe om de kwaliteit van de beschrijvingen te verbeteren. Zo verwijdert het model 'generieke standaard filler tekst' om te voorkomen dat de tekst onnodig lang wordt. Daarnaast kijken de filters naar de gebruikte licentieovereenkomsten van de afbeeldingen en worden haatdragende afbeeldingen geweerd om er zeker van te zijn dat ze geschikt zijn voor onderzoek.

Uiteindelijk heeft het systeem 37,5 miljoen bijschriften gemaakt voor 11,5 miljoen unieke afbeeldingen verspreid over 108 talen, waarbij het per afbeelding verschilt in hoeveel talen er beschrijvingen zijn. Meer dan een miljoen afbeeldingen hebben beschrijvingen in minimaal zes talen. Menselijke redacteuren zouden bij 98 procent van de samples hebben gezegd dat de tekst goed overeenkomt met de afbeelding.

Google Research hoopt dat met de dataset beter onderzoek gedaan kan worden naar het ontwikkelen van multimodale, meertalige modellen en er betere leer- en weergavetechnieken kunnen worden gevonden.

Google Research Wikipedia-based Image-Text DatasetGoogle Research Wikipedia-based Image-Text DatasetGoogle Research Wikipedia-based Image-Text DatasetGoogle Research Wikipedia-based Image-Text Dataset

De eerste afbeelding is een voorbeeld van door WIT geschreven beschrijvingen; de drie overige afbeeldingen tonen het proces dat WIT gebruikt.

Door Hayte Hugo

Redacteur

22-09-2021 • 14:22

18

Reacties (18)

18
17
12
0
0
3
Wijzig sortering
Dit lijkt mij een zeer goede stap om het internet toegankelijker te maken voor mensen met een visueel handicap.
Wel positief, overlaatst nog ontdekt dat die feature ook in PowerPoint zit, maar een stuk minder uitgebreid en nuttig.
Is dat geen een schending van eigendomsrecht?
Is dat erg dan? Als de data die gebruikt wordt representatief is voor de data die op Wikipedia te vinden is en niet bewust 'niet-caucasian' resultaten weggefilterd worden lijkt mij dat prima?
Ik denk dat ie het volgende probleem bedoelt: HP computers are racist. Even voor de goede orde, wat de titel van de video ook beweert, dit heeft niets te maken met racisme, het probleem is dat het algorithme alleen getraind heeft op blanke mensen.

Dat gezegd hebbende zie ik zo snel even niet waarom dat probleem ook bij de in het artikel genoemde dataset zou spelen.
Is het niet gewoon een slechte grap omdat het systeem WIT heet?
"Never attribute to malice what can be adequately explained by stupidity"
Hanlon's razor
Je punt komt een beetje raar over omdat je ras erbij betrekt, wat een bekend probleem is bij ML, maar in dit geval zal het eerder aan de dataset per taal liggen; als er in het Engels goede beschrijvingen bij 10 miljoen plaatjes zijn maar in het Fries maar 100K, èn als de beschrijving alleen gebaseerd wordt op de 'huidige' taal (en bijv. niet Engels naar Fries via Google Translate), dan kunnen de Friese beschrijvingen van mindere kwaliteit zijn dan de Engelse.

Maar daar komen als het goed is ook weer mensen bij terecht; de ML-gegenereerde beschrijvingen zouden de 'minimal viable' zijn, als er vervolgens een echt persoon bij komt om de beschrijving te corrigeren zou die leidend moeten zijn en weer teruggekoppeld moeten worden aan de ML-engine.
Oef tijd om weer wakker te liggen om niks!
Helaas wel een echt probleem met machine learning, waar voornamelijk blanke mensen worden gebruikt in een dataset gaat deze technologie minder goed werken voor mensen met een andere huidskleur. Ik zie alleen niet hoe dat hier relevant is.
Het is nergens op gebaseerd. ML is prima in staat om huidskleuren en rassen uit elkaar te houden en te benoemen. Het gaat hier niet om veiligheid voor zelfrijdende auto's waarbij mensen met donkerdere huidskleur wellicht minder goed te zien zijn.

Machine learning kan zelfs het ras bepalen van botten, waar mensen dat niet kunnen: https://www.wired.com/sto...-x-rays-detect-your-race/

[Reactie gewijzigd door Dramatic op 24 juli 2024 14:31]

Je mist volledig het punt dat hierboven gemaakt wordt. Het probleem is niet dat machine learning (i.e. algoritmen) het onderscheid niet kunnen maken. Natuurlijk kunnen zij dat wel. Het gaat om een ongebalanceerde dataset: als de dataset niet gebalanceerd is, dan zal de output van je model ook biased zijn. Dit is een self-propelling issue:

1. er bestaat minder info (foto's + informatie) over minderheden op Wikipedia
2. de machine zal voor die minderheden geen (goede) multilinguale beschrijvingen kunnen maken omdat het niet genoeg (gebalanceerde) data heeft
3. de Wikipedia-artikels van minderheden worden minder gelezen, verbeterd, aangepast (want niet ruimer beschikbaar)
4. er is nog steeds minder data

Dit probleem komt in gigantisch veel ML-taken terug, ook in machinevertalingen (waar bv. "nurse" altijd als "verpleegster" vertaald wordt maar even goed "verpleger" kan zijn). Het is belangrijk issue waar gelukkig aan gewerkt wordt, zowel architecturaal als in post-processing als in datavergaring, maar waar nog veel werk aan de boeg is.

Source: ik werk binnen NLP waar dit soort issues (voornamelijk gender) vaak voorkomen.
Dit probleem komt in gigantisch veel ML-taken terug, ook in machinevertalingen (waar bv. "nurse" altijd als "verpleegster" vertaald wordt maar even goed "verpleger" kan zijn). Het is belangrijk issue waar gelukkig aan gewerkt wordt, zowel architecturaal als in post-processing als in datavergaring, maar waar nog veel werk aan de boeg is.

Source: ik werk binnen NLP waar dit soort issues (voornamelijk gender) vaak voorkomen.
Is de oplossing hiervoor niet om zoveel mogelijk termen dan als genderneutraal weer te geven?

In plaats van verpleger of verpleegster, gebruik gewoon verpleegkundige en alleen de niet-gender neutrale term gebruiken als het daadwerkelijk relevant is?
Zeker, maar dat is ook niet in alle talen mogelijk of is zelfs niet gewenst. Nederlands is een relatief genderneutrale taal: wij maken niet snel het onderscheid tussen mannelijk en vrouwelijk in onze grammatica in vergelijking met sommige romaanse talen als het Frans of het Spaans. In het Engels is het omgekeerd en zit er enorm weinig gendered informatie in de taal en het is vaak niet duidelijk wat er bedoeld wordt zonder context.

Als je dus van Engels naar Spaans vertaalt, is het vaak moeilijk of zelfs onmogelijk voor het systeem om te weten wat je nu juist bedoelt, en het systeem zal dan de vertaling kiezen die het meeste voorkomt in de data die het heeft gezien. Dat noemen we gender bias. In een ideaal scenario geeft een vertaalsysteem alle mogelijkheden, en dat is ook waar Google Translate naartoe evolueert. Voor sommige taalparen en sommige vertalingen geeft het nu meerdere vertalingen.

Terzijde: gender-neutraal is niet altijd de beste optie. De Europese Unie heeft richtlijnen voor gendergelijk taalgebruik, en daarin staat bijvoorbeeld dat in het Italiaans het onderscheid tussen genders net erg duidelijk moet worden aangehouden omdat dat voor de Italianen (blijkbaar) een teken van respect is naar de kracht van elk gender toe. Er speelt dus ook voor een groot deel cultuur in mee.
Dank voor de heldere uitleg.

Er is zeker een boel om over na te denken met betrekking tot dit onderwerp en ik had inderdaad niet nagedacht over talen waar geslacht een groter verschil maakt dan in het Nederlands of Engels.
1. er bestaat minder info (foto's + informatie) over minderheden op Wikipedia
2. de machine zal voor die minderheden geen (goede) multilinguale beschrijvingen kunnen maken omdat het niet genoeg (gebalanceerde) data heeft
3. de Wikipedia-artikels van minderheden worden minder gelezen, verbeterd, aangepast (want niet ruimer beschikbaar)
4. er is nog steeds minder data
Dan moet je het probleem aanpakken, dus meer info mbt minderheden op Wikipedia zetten. Het aanpassen van de ML is symptoombestrijding..
In theorie: volledig akkoord, in de praktijk: niet evident.

Als je data van het internet scrapet en die gebruikt is het "use what you get" (the more the better). Wil je die herbalanceren dan moet je ofwel een groot stuk wegknippen, ofwel de minderheidsklasses toevoegen. Dat laatste zou het ideale scenario zijn, maar dat kost tijd en vooral geld - wat veel bedrijven er niet voor over hebben. Dat is jammer, maar zo gaat het nu eenmaal. Overigens gebeurt het ook dat een gebalanceerde set gewoon niet mogelijk is: het is best mogelijk dat er bijvoorbeeld minder bekende personen zijn uit minderheidsgroep, net omdat dat absoluut gezien een kleinere populatie is. Dat is ook een probleem op zich waar je met data augmentation niets kan aan veranderen.

Op dit item kan niet meer gereageerd worden.