'Diverse techbedrijven hebben deals met Shutterstock om AI-modellen te trainen'

Verschillende Amerikaanse techbedrijven zouden een deal met Shutterstock hebben gesloten wat betreft het gebruik van media voor het trainen van AI-modellen. Amazon, Apple, Google en Meta zouden bij de groep horen en deals van minstens 25 miljoen dollar hebben gesloten.

Volgens persagentschap Reuters zijn de overeenkomsten tussen stockfotoplatform Shutterstock en de Amerikaanse techbedrijven eind 2022 afgesloten. De techbedrijven, waaronder Amazon, Apple, Google en Meta, zouden dankzij de overeenkomsten toegang hebben gekregen tot honderden miljoenen beelden van Shutterstock, maar ook tot video- en muziekbestanden van het platform. Aanvankelijk werden er bedragen tussen de 25 en 50 miljoen dollar op tafel gelegd voor de licentieovereenkomsten, maar deze deals zouden later zijn uitgebreid. De chief financial officer van Shutterstock zei tegen Reuters dat er ondertussen ook overeenkomsten met kleinere bedrijven zijn afgesloten. Dat gebeurde volgens het kaderlid tijdens de afgelopen paar maanden.

Reuters kon ook met de ceo van Freepik spreken: een concurrent van Shutterstock. Het kaderlid vertelde dat Freepik momenteel overeenkomsten heeft lopen met twee grote techbedrijven. Het is niet duidelijk om welke bedrijven het gaat. Het archief van Freepik bevat naar verluidt ongeveer 200 miljoen foto’s en de toegang tot elk beeld zou 2 tot 4 Amerikaanse cent kosten. Freepik stelt dat er nog een vijftal soortgelijke deals met techbedrijven in de maak zijn.

Shutterstock heeft eind 2022 aangekondigd dat het ging samenwerken met OpenAI. Het stockfotoplatform heeft OpenAI toen toegang gegeven tot zijn bibliotheek met miljoenen foto’s, afbeeldingen, video’s en muziekbestanden, inclusief metadata. Het bedrijf kreeg in ruil toegang tot de nieuwste AI-tools van OpenAI en kon diverse AI-tools integreren op zijn platform waardoor het voor klanten bijvoorbeeld eenvoudiger werd om stockafbeeldingen via kunstmatige intelligentie aan te passen. In de zomer van 2023 werd de samenwerking tussen Shutterstock en OpenAI verlengd met zes jaar.

Uploadpagina van Shutterstock
Uploadpagina van Shutterstock

Door Jay Stout

Redacteur

07-04-2024 • 12:33

34

Lees meer

Reacties (34)

Sorteer op:

Weergave:

Men gaat er vanuit dat de laatste training van een AI model is gebeurd door OpenAI GPT 3.5. Daarna is het internet vervuild door allerhande AI gegenereerde teksten en bots. De opkomst van slechte data woog toen nog niet op tegen de manueel gemaakte teksten.

Alle nieuwe of verbeterde AI modellen moeten dus op zoek naar ‘clean’ data gemaakt door mensen.

Bedrijven die een mooie database heeft met veel onaangetaste data zullen deze kunnen verkopen aan deze modellen.

Ik denk dat de uitspraak “data is the new oil” hier van toepassing is: iedereen die ruwe olie (rauwe data) bezit, kan deze verkopen aan bedrijven die deze olie nodig hebben om deze te raffineren naar het eindproduct.
Dat vind ik toch wel erg kort door de bocht allemaal.

Ten eerste kan je prima datasets kiezen die geen nieuwere data hebben dan het moment dat GPT 3.x breed beschikbaar kwam als je zo bang bent dat je door andere AI geproduceerde data meeneemt in de training van je model. Zeker bij LLM's, taalmodellen, is het niet zo'n ramp als je datasets iets ouder zijn. Je mist de laatste slang en jargon maar dat is het ook wel. Dat is nog los van of het wel zo onwenselijk is dat je wat data meeneemt die door recente AI geproduceerd is. Voor GPT 3.0 was AI voor tekstbewerking ook heel normaal trouwens, ordinaire spellingscontrole is ook een vorm van AI (al kwam dat tot enkele jaren terug nog zelden tot stand met machine learning). Sterker nog, de eerste keren dat de term artificial intelligence voor onderzoekscentra gebruikt werd ging het om spellingscontrole, het is veel ouder dan de PC en smartphone die ons het digitaal typen binnen handbereik gaf.

Ten tweede zit de meeste waarde voor het trainen van AI juist niet in die onbewerkte rauwe data, maar het zit in bewerkte data waar metadata aan gekoppeld is. Daarom zijn databases als die van Shutterstock zo waardevol, daar zitten al beschrijvingen bij de plaatjes zodat je de AI veel beter kan trainen.

Dan kom je ook nog eens met een discussie over GPT 3.5, wat een taalmodel is, onder een artikel die gaat over het verwerken/bewerken van afbeelding. Dat is gewoon compleet offtopic. Kwam dan met iets over stable diffusion, dall-e, etc. Compleet andere tak van sport gewoon.
Een LLM en Dall-E zijn gebouwd op dezelfde fundamenten. Het zijn wiskundige modellen. Dus dat statement blijft staan.

Tot op een bepaald punt kan je oude data gebruiken, maar de relevantie ervan wordt minder naarmate cultuur door evolueert.

De reden dat GPT 3.5 de laatste scraper van het internet is, is omdat het tijdstip was dat deze modellen voor iedereen beschikbaar zijn gekomen.

Daarom is het belangrijke om data in handen te krijgen. Met ruwe data bedoel ik dus data die origineel voor iets anders werd ingezet. Soms met metadata en soms zonder. Een AI kan perfect getrained worden door data zonder metadata, zolang er een Human-Feedback loop in bestaat. Dat was misschien onhandig verwoord van mij. De tijd dat je data kan gebruiken die vrijelijk te scrapen was van het internet is voorbij en je zal deals moeten maken met bedrijven die nog grote sets van data hebben.
Alle nieuwe of verbeterde AI modellen moeten dus op zoek naar ‘clean’ data gemaakt door mensen.

Bedrijven die een mooie database heeft met veel onaangetaste data zullen deze kunnen verkopen aan deze modellen.
Het is een beetje als wetenschappelijk staal voor bijvoorbeeld deeltjesversnellers, dat wordt gewonnen uit gezonken zeeschepen omdat alles na de nucleaire jaren '40 radio actief verontreinigd is door de vele tests met atoom- en waterstofbommen.

Schoon staal is erg gewild en oude gezonken schepen worden dan ook vaak gestolen.

[Reactie gewijzigd door Sando op 23 juli 2024 12:50]

Precies, en dat is de waarde van Reddit en de reden dat ze de beurs op zijn gegaan.
lol. er zijn extreem veel bots actief op reddit
Ja, dat is een probleem maar staat er los van.
edit:
dubbelpost

[Reactie gewijzigd door Sando op 23 juli 2024 12:50]

Hoe zit het met de compensatie van de auteursrechthebbenden die hun materiaal op Shutterstock hebben gezet en normaliter betaald krijgen voor het gebruik ervan/licentie erop?
Dat lijkt een van de meest heikele punten te worden bij het hele AI-trainings-vraagstuk.
Dat lijkt me voer voor juristen. Die zullen moeten gaan bepalen of de definitie van "gebruik" in dit geval van toepassing is. Als de prijslijst heel concreet is (bijvoorbeeld: publicatie in tijdschrift, formaat xyz, oplage abc, 100 dollar) dan wordt het een lastige discussie.

[Reactie gewijzigd door Frame164 op 23 juli 2024 12:50]

Ik ben zelf aangesloten bij Getty Images, en als zij zouden besluiten om mijn aangeleverde beelden te gebruiken (of laten gebruiken) voor ai training zonder compensatie en zonder aan te geven welke beelden hiervoor gebruikt worden, dan zou ik me gelijk (en beelden) terugtrekken.
Dat vraag ik me ook af. Wat gaat AI van je beelden maken, ga je dat mogelijk herkennen? Ga je er iets voor ontvangen, als nu iemand je materiaal gebruikt wordt je vergoed. Wat als AI het gebruikt en je trekt je foto terug van de hun website.
Ik denk ook dat het hele licentie, beschermd materiaal moet herbekeken worden. De miljoenen foto's die er overal staan zijn die het beschermen wel waard. Er zijn veel zaken die na een tijd algemeen goed worden, je moet ook niet betalen voor gebruik van vuur, wiel, alfabet en algemeen verworven kennis. De zoveelste mooie foto van een berg en de zee en een dolfijn is dat echt waard om voor te betalen.
25 tot 50 miljoen lijkt mij ook erg weinig voor toegang tot meer dan 550 miljoen fotos.
Het maximum wat een fotograaf zou kunnen verdienen is ongeveer 4 cent (dit neemt aan dat de fotograaf het max van 40% krijgt), dus als fotograaf met 100 foto's heb jij uit deze deal 16 euro verdient!
Stel je genereert dan een afbeelding met een AI model wat zijn ruwe data van Shutterstock heeft, moet ik dan OpenAI en/of Shutterstock gaan betalen voor de rechten bij commercieel gebruik?

[Reactie gewijzigd door Airw0lf op 23 juli 2024 12:50]

Als ik een nieuwe TV koop, dan hoef ik ook geen licentie te kopen bij Dolby voor Dolby Vision of Dolby Atmos. Dat zit al in de prijs van de TV en heeft de leverancier van de TV dus al gedaan.
Als ik naar een arts ga voor het een of ander, dan hoef ik ook niet te betalen aan de schrijvers van de boeken die hij gebruikt heeft voor zijn studie.
Ik zie dus niet in waarom ik überhaupt hoef te weten waar de ruwe data vandaan komt. Ik heb te maken met de maker van de AI tool en de licentievoorwaarden en licentiekosten van die tool.
Dat we de directe leverancier verantwoordelijk kunnen houden wil natuurlijk niet zeggen dat we omgekeerd dus maar geen verantwoordelijkheid hebben dat je zelf behoorlijke content gebruikt of er voor betaald. Ik lees niet dat we dat doen door simpel maar gebruik te maken en betalen. Zeker niet als we geen enkele interesse tonen of de makers wel redelijk betaald krijgen.
Ik schat in dat Dolby per verkochte TV een paar Euro krijgt voor voor het gebruik van hun technologie. Dus of dit een goede vergelijking is...

De arts mag dat boek vrij gebruiken voor zijn onderzoek - commercieel of niet.
Maar als over die onderzoeksresultaten gepubliceerd gaat worden zou het een ander verhaal kunnen worden. Dus ook hier: it depends...

Als ik beeldmateriaal gebruik van een bepaalde website heb ik wel degelijk de plicht om onderzoek te doen naar de bron - ook als ik akkoord ga met de kosten en licentievoorwaarden...

Kortom - ik heb zo mijn twijfels over de vanzelfsprekendheid waarmee je dit brengt... :)
Als het heel erg lijkt op de bron zul je wel een discussie krijgen. Als jij als fotograaf een foto maakt die als 2 druppels water lijkt op iets van Corbijn of Cartier-Bresson en dat commercieel wilt gaan gebruiken heb je ook een probleem.
Nee, als persfotograaf weet ik dat dit niet zo is. Het is vaak dat persfotografen (vrijwel) dezelfde foto's uit dezelfde hoek en moment maken, bijv. bij persconferenties of statische foto momenten..

Het is al diverse malen gebeurd dat rechtmatig gebruikers en makers van beelden (vrijwel automatisch) worden aangeschreven door zogenaamde copyright trolls die gebruik maken van 'ai' om te speuren naar ontrechtmatig gebruikte beelden. En daar worden vaak fouten bij gemaakt. De copyright troll die o.a. voor ANP werkt is zo'n voorbeeld weet ik uit eigen ervaring.

Het punt is niet dat het er erg op lijkt, maar dat het mogelijk delen/deeltjes van afbeeldingen zijn waar copyright op zit, en dat mag niet.
Shutterstock business model was om de makers (fotografen, artiesten, acteurs) te compenseren met een deel van de abonnementopbrengsten van afnemers.

Lijkt nu dat Shutterstock zelf een deal sluit met deze AI bedrijven en Shutterstock krijgt zelf toegang tot die AI modellen.

Straks zijn de makers voor Shutterstock niet meer nodig. En Shutterstock helpt indirect ook met het helpen van toekomstige directe concurrenten van zichzelf en haar makers.

Kan me voorstellen dat de makers nu bepaald niet meer staan te springen om nog langer content aan te leveren aan Shutterstock. Ben wel benieuwd hoe Shutterstock dit gaat brengen naar de makers toe, want voorlopig zijn ze nog wel afhankelijk van deze makers.
De eisen aan de makers zullen hoger worden. Je moet orginelere beelden gaan maken om relevant te blijven. En zeg nu zelf, de meeste beelden van stock agencies zijn niet bijster origineel of creatief. Ze dienen letterlijk slechts ter illustratie. Een opvallende reclamecampagne zal er niet mee gemaakt worden. Daarvoor vraag je toch creativiteit.
Dat ligt helemaal aan de stock photo agency. Getty Images waar ik zelf bij aangesloten ben is een mix van stock photo en news photo agency. Het gaat tegenwoordig vooral om snelheid en keuze

Vooral in het perswerk gaat het al een tijdje niet meer om het beeld zelf (kwaliteit/compostiie etc) maar om de snelheid waarmee het beschikbaar is. Als jij als 'nieuws'organisatie op basis van social media trending topics (die op basis van ai worden bepaalt) al een artikel door ai laat schrijven, waarom dan ook niet gelijk het beeld door ai erbij laten plakken. En ja, daar is nu al sprake van bij zogenaamde gerenomeerde en betrouwbare nieuwsorganisaties.
Van een backstabbing company gesproken, eerst op de content van een ander leven en dan ook nog eens langs de kassa passeren zonder zelfs maar de keuze te laten aan de creator of deze wil dat het werk hiervoor gebruikt zou worden. Dit is wraakroepend!
Waarom toch allemaal?

Ik snap dat er mooie dingen aan kunnen komen, zoals voor de wetenschap en medische wereld. En natuulijk diensten zoals ChatGPT en varianten. Maar ik zie nu eigenlijk voornamelijk maar onzin:

Filmpjes maken met AI, wow ....... leuk maar tjah.... zitten we er op te wachten.
Foto's bewerken eveneens, leuk maar niet meer dan dat.
Muziek maken, eveneens. Leuk dat het kan...... maar wie hou je nu voor de gek? laat het over aan echter artiesten zou ik zeggen.
Pornofotos van een ander hoofd voorzien, wow man............

Ik blijf denken aan deze ;-)
https://youtu.be/Q0VGRlEJewA?t=278

En ja, er komen vast mooie dingen aan, maar ik denk eerder dat het misbruikt gaat worden door criminelen en terroristen. Die zien ook de "voordelen", En wat denk je van het leger? , die robots kunnen niet alleen een appel vasthouden ben ik bang. ....
In sommige vakgebieden gaat het al hard.
Zo las ik laatst wat over tekstschrijvers in Amerika, waar de markt sinds chatGPT wel op z'n gat ligt.
Nog zeer weinig opdrachten, en zelfs vermoeden dat je om kleine voorbeeld stukjes wordt gevraagd om die te laten herschrijven door AI.
Beeld en video is lastiger. Maar je weet gewoon dat het gaat komen.

Dat er nog steeds mensen zijn die tot veel mooiere originelere dingen kunnen komen dan AI betekent niet dat de rest, het overgrote deel, wel gewoon vervangen wordt door AI.

Het kan je werk natuurlijk ook enorm ondersteunen. En dat is mooi.
Het kan echter ook betekenen dat je daardoor veel meer opdrachten aan kan nemen, en dat je op die manier zorgt voor minder werk in jouw vakgebied.
Als je een goede artiest bent dan gaat AI je alleen maar helpen/ondersteunen en beter maken.
Zeker niet kapot maken.
Alles draait om de kosten. Een artiest maakt zichzelf niet populair, dat doet zijn platenmaatschapppij. Voordat artiesten groot worden worden er miljoenen geinvesteerd in producers, componisten, styling en marketing.
AI kan de artiest vervangen. Maakt het leven voor de platenmaatschappij een stuk makkelijker. Krijg je Milli Vanilli 2.0.
De dingen die ik als fotograaf doe kan AI nog zeker niet.
Je vergist je in de mate mensen echt om het menselijke geven.
Er is maar weinig echts aan grote artiesten. Bijna alles is bedacht en verzonnen.
klopt, maar nog bijna niets is gepersonaliseerd.
Verschillende Amerikaanse techbedrijven zouden een deal met Shutterstock hebben gesloten wat betreft het gebruik van media voor het trainen van AI-modellen. Amazon, Apple, Google en Meta zouden bij het kransje horen en deals van minstens 25 miljoen dollar hebben gesloten.

oftewel money talks.. 8-)
Als je het mij vraagt is het kunstmatig gepushte zooi. Shutterstock, ook. Als je een random afbeelding zoekt in Google kom je uit bij die gewatermerkte schijn-produkties. Het is echt niet zo dat dat de top van het aanbod is.
Prachtige studio beelden van Shutterstock in een perfecte studio wereld leiden tot dezelfde gegenereerde perfecte beelden. Gebruik je beelden van TikTok bijvoorbeeld, dan hebben de gegenereerde beelden maar 40% wolken die je anders zou hebben als je gewoon fotografeert. Dat komt omdat de narcistische influencers (kijk mij succesvol zijn) vrijwel alleen mooie beelden bij zonnige luchten publiceren. Kortom: je krijgt één soort gelikte foto’s. Rauw fotowerk zal een unicum blijven. Een nicheproduct. Glad werk door de AI, echte mensenfoto’s door echte mensen. Ik ben niet bang voor AI.
Dat levert shutterstock dan een nieuwe entry op, op de zwarte lijst. How sad it is.

Op dit item kan niet meer gereageerd worden.