Meta toont ImageBind, een opensource-AI-model dat zes verschillende soorten gegevens aan elkaar moet kunnen verbinden om 'multisensorische' content te kunnen genereren. Het AI-model bevindt zich nu enkel nog in de onderzoeksfase.

Het ImageBind-model moet in staat zijn om gegevens die betrekking hebben op tekst, audio, visuals, beweging, temperatuur en diepte-informatie te combineren, schrijven onderzoekers van Meta in een researchpaper. Dit moet op eenzelfde soort manier gebeuren als bij text-to-imagemodellen als Dall-E, die tekst koppelen aan foto's. ImageBind moet dus in staat zijn om niet twee, maar zes soorten data met elkaar te verbinden. Volgens de techgigant hoeft er niet specifiek op elke combinatie van gegevens getraind te worden.

Meta geeft als voorbeeld dat er op basis van een audiofragment van pinguïns, een afbeelding van pinguïns gegenereerd kan worden. Als gebruikers zowel een geluidsfragment van een motor als een afbeelding van een vogel aanleveren, dan wordt er een AI-afbeelding gemaakt waar zowel een motor als vogels op te zien zijn. In een demo toont Meta ook de mogelijkheid om audio te genereren op basis van tekst of afbeeldingen. Het bedrijf zegt dat het model gebruikt zou kunnen worden om een video met bijpassende audio te genereren.

Voorbeelden van de toepassingen van het ImageBind-model

De beweging moet door het neurale netwerk gemeten worden door middel van een inertial measurement unit, hetgeen ook in camera's van onder meer smartphones en VR-headsets aanwezig is. Meta zegt dat er in iteraties meer soorten gegevens aan toegevoegd kunnen worden, waaronder 'aanraking, spraak, geur en fmri-signalen van hersenen'.

Meta hoopt dat andere onderzoekers dit model, waarvan de code open source is gemaakt, als grondslag zullen nemen voor de ontwikkeling van nieuwe, 'allesomvattende systemen'. Het bedrijf noemt als voorbeeld dat er 'meeslepende, virtuele werelden' mee gebouwd kunnen worden, waarbij de AI in theorie niet alleen de audio en beelden kan genereren, maar ook onder meer de beweging en diepte.

Eerder dit jaar toonde Meta al een verzameling relatief kleine AI-taalmodellen genaamd LLaMa, die onderzoekers moeten helpen taalmodellen te onderzoeken. Een jaar geleden kwam het bedrijf al met een ander machinelearningmodel voor wetenschappelijk onderzoek.