Meta toont opensource-AI-model ImageBind dat zes soorten data kan combineren

Meta toont ImageBind, een opensource-AI-model dat zes verschillende soorten gegevens aan elkaar moet kunnen verbinden om 'multisensorische' content te kunnen genereren. Het AI-model bevindt zich nu enkel nog in de onderzoeksfase.

Het ImageBind-model moet in staat zijn om gegevens die betrekking hebben op tekst, audio, visuals, beweging, temperatuur en diepte-informatie te combineren, schrijven onderzoekers van Meta in een researchpaper. Dit moet op eenzelfde soort manier gebeuren als bij text-to-imagemodellen als Dall-E, die tekst koppelen aan foto's. ImageBind moet dus in staat zijn om niet twee, maar zes soorten data met elkaar te verbinden. Volgens de techgigant hoeft er niet specifiek op elke combinatie van gegevens getraind te worden.

Meta geeft als voorbeeld dat er op basis van een audiofragment van pinguïns, een afbeelding van pinguïns gegenereerd kan worden. Als gebruikers zowel een geluidsfragment van een motor als een afbeelding van een vogel aanleveren, dan wordt er een AI-afbeelding gemaakt waar zowel een motor als vogels op te zien zijn. In een demo toont Meta ook de mogelijkheid om audio te genereren op basis van tekst of afbeeldingen. Het bedrijf zegt dat het model gebruikt zou kunnen worden om een video met bijpassende audio te genereren.

Meta ImageBind
Voorbeelden van de toepassingen van het ImageBind-model

De beweging moet door het neurale netwerk gemeten worden door middel van een inertial measurement unit, hetgeen ook in camera's van onder meer smartphones en VR-headsets aanwezig is. Meta zegt dat er in iteraties meer soorten gegevens aan toegevoegd kunnen worden, waaronder 'aanraking, spraak, geur en fmri-signalen van hersenen'.

Meta hoopt dat andere onderzoekers dit model, waarvan de code open source is gemaakt, als grondslag zullen nemen voor de ontwikkeling van nieuwe, 'allesomvattende systemen'. Het bedrijf noemt als voorbeeld dat er 'meeslepende, virtuele werelden' mee gebouwd kunnen worden, waarbij de AI in theorie niet alleen de audio en beelden kan genereren, maar ook onder meer de beweging en diepte.

Eerder dit jaar toonde Meta al een verzameling relatief kleine AI-taalmodellen genaamd LLaMa, die onderzoekers moeten helpen taalmodellen te onderzoeken. Een jaar geleden kwam het bedrijf al met een ander machinelearningmodel voor wetenschappelijk onderzoek.

Door Kevin Krikhaar

Redacteur

10-05-2023 • 16:19

7

Lees meer

Reacties (7)

7
7
3
0
0
4
Wijzig sortering
Wat bedoelen ze met 'temperatuur'? Dat als jij 'koud' zegt, ze er sneeuwvlokjes in gaan plakken? Dat is toch gewoon tekst-input dan?

Hetzelfde met aanraking en geur, of lopen ze vooruit op zaken waarbij mensen over 50 jaar eindelijk geur televisie hebben (die ook nog kan ruiken)?

OK, bij nader inzien is aanraking nu al mogelijk met trilmotoren en de sensoren die meten hoe hard je op je touchscreen drukt of tikt.

Anyway, ik moet het nog zien, dit soort zaken klinkt mij als het proberen te creëren van een hype zoals ze met de Metaverse deden. Hoeveel miljard hebben ze daar ook alweer aan verspild?

[Reactie gewijzigd door Alxndr op 22 juli 2024 17:55]

Nee, ze bedoelen dat het model ook kan leren op basis van heatmaps:

The model learns a single embedding, or shared representation space, not just for text, image/video, and audio, but also for sensors that record depth (3D), thermal (infrared radiation), and inertial measurement units (IMU), which calculate motion and position
Op die fiets.

Ik dacht dat ze allang van een 2D plaatje een 3D model konden maken, zeker als het een bewegend plaatje, video is. Daarmee is motion en position ook al direct afgedekt. Gedetailleerdere input van een specialistische sensor is natuurlijk wel makkelijker om mee te werken.

Snap nog steeds niet wat ze met warmte en geur kunnen en willen doen, maar de toekomst zal het leren... of niet.
Ben benieuwd of je hiermee van bvb een YouTube filmpje, een stripboekje kan maken.
Ik gebruik niks van meta, maar als zij het kunnen, zal de rest wel volgen....
Het gaat er toch uiteindelijk niet om hoeveel soorten data, maar hoeveel data er gecombineerd wordt?

Er kan vanalles gecombineerd worden..

Maar als er maar een paar simpele bronnen aan ten grondslag liggen betekent het niet veel natuurlijk.
Een logische volgende stap. Geef de AI synesthesie door multimodaal te trainen. Dit gaat een grote sprong zijn in de kracht van AI. Ik voorzie legio mogelijkheden voor creatief gebruik, maar ook ongekend vergaand misbruik voor controle-doeleinden.
Vreemd dat dat Meta dit model wel open source maakt terwijl LLaMA alleen voor wetenschappelijke doeleinden gebruikt mag worden. LLaMA is super populair en wordt door vele nieuwe modellen als basis gebruikt. Doordat het niet helemaal vrij is hebben organisaties opnieuw zelf modellen ontwikkeld. Het wordt tijd dat Meta LLaMA open source maakt. De ontwikkelingen gaan in snel tempo en bijna iedere week wordt wel een nieuw model uitgebracht.., goede zaak als tegenwicht tov de groten zoals OpenAI, Google en Microsoft.

Op dit item kan niet meer gereageerd worden.