Google Research heeft een geautomatiseerde dataset gemaakt die afbeeldingen in diverse talen relatief gedetailleerd kan beschrijven. Hiervoor gebruikt Google afbeeldingen en artikelen die op Wikipedia staan en machinelearning. De dataset zou vooral handig zijn voor onderzoek.
Mensen die onderzoek doen naar hoe afbeeldingen en tekst zich in verschillende talen tegenover elkaar verhouden, gebruiken volgens Google Research datasets die bestaan uit afbeeldingen en beschrijvingen van afbeeldingen. Deze datasets kunnen handmatig van bijschriften worden voorzien, wat beschrijvingen van hoge kwaliteit oplevert, maar lang duurt.
De beschrijvingen kunnen ook geautomatiseerd worden, maar bij de huidige technieken zijn heuristiek en veel filtering nodig om de datakwaliteit te kunnen garanderen. Daarbij zijn deze datasets amper verkrijgbaar in niet-Engelse talen. Google Research vroeg zich daarom af of het mogelijk is om een geautomatiseerd proces te bedenken dat datasets in verschillende talen maakt waarbij de beschrijvingen van hoge kwaliteit zijn, er veel beschrijvingen zijn en het ook om verschillende soorten afbeeldingen gaat.
Het resultaat daarvan is WIT, kort voor Wikipedia-based Image Text Dataset. Dit systeem gebruikt machinelearning, Wikipedia-pagina's en Wikimedia-afbeeldingen om bijschriften te ontwerpen. Het model bekijkt de beschrijving van een pagina, de titel, het bijschrift bij een afbeelding en metadata om een omschrijving van een afbeelding te kunnen bedenken.
Daarbij past Google Research bepaalde filters toe om de kwaliteit van de beschrijvingen te verbeteren. Zo verwijdert het model 'generieke standaard filler tekst' om te voorkomen dat de tekst onnodig lang wordt. Daarnaast kijken de filters naar de gebruikte licentieovereenkomsten van de afbeeldingen en worden haatdragende afbeeldingen geweerd om er zeker van te zijn dat ze geschikt zijn voor onderzoek.
Uiteindelijk heeft het systeem 37,5 miljoen bijschriften gemaakt voor 11,5 miljoen unieke afbeeldingen verspreid over 108 talen, waarbij het per afbeelding verschilt in hoeveel talen er beschrijvingen zijn. Meer dan een miljoen afbeeldingen hebben beschrijvingen in minimaal zes talen. Menselijke redacteuren zouden bij 98 procent van de samples hebben gezegd dat de tekst goed overeenkomt met de afbeelding.
Google Research hoopt dat met de dataset beter onderzoek gedaan kan worden naar het ontwikkelen van multimodale, meertalige modellen en er betere leer- en weergavetechnieken kunnen worden gevonden.
De eerste afbeelding is een voorbeeld van door WIT geschreven beschrijvingen; de drie overige afbeeldingen tonen het proces dat WIT gebruikt.