'Apple wil toegang tot content nieuwsuitgevers om AI-model te trainen'

Apple zou aan de onderhandelingstafel zitten met enkele Amerikaanse nieuwsuitgevers. De techgigant zou toegang tot de nieuwsarchieven van deze uitgevers willen om op die manier de ontwikkeling van zijn eigen generatieve-AI-model vooruit te helpen.

Volgens The New York Times voert Apple momenteel gesprekken met Condé Nast, NBC News en IAC. Condé Nast is de uitgeverij achter onder andere The New Yorker, Wired, Ars Technica, GQ, Pitchfork, Vogue en Vanity Fair. IAC is het bedrijf achter onder andere People en Daily Beast. Apple zou volgens enkele anonieme bronnen een deal willen bereiken die meerdere jaren van toepassing is. Het bedrijf zou daar een bedrag van ongeveer 50 miljoen dollar voor overhebben.

Eerder dit jaar deden er al geruchten de ronde dat Apple werk maakt van een eigen taalmodel, zoals ChatGPT van OpenAI. Persagentschap Bloomberg meent echter dat Apple nog niet weet hoe het de technologie wil inzetten. Enkele onderzoekers van Apple publiceerden eerder in december ook een paper waarin ze een oplossing voorstellen om large language models te draaien op mobiele apparaten, zoals een iPhone. Het bedrijf zou ook AI willen toevoegen aan Siri, Xcode en Keynote.

Door Jay Stout

Redacteur

23-12-2023 • 10:31

49

Lees meer

Reacties (49)

Sorteer op:

Weergave:

Naar mijn gevoel zijn ze hen met 50 miljoen aan het lowballen. Niet zozeer qua content, maar eerder door mogelijke toekomstige verliezen. Een generative AI zal hen in snelheid voorbij steken en als je het leert hoe die ook nog eens kwalitatieve content maakt, dan heb je plots veel minder voordeel om de beste (lees duurste) mensen in dienst te hebben die trager werken.
Generatieve AI kan geen onderzoeksjournalistiek uitvoeren. Nieuws verzinnen kan sowieso niet. Wat dat betreft zou het mes aan 2 kanten kunnen snijden. Journalisten die meer tijd kunnen besteden aan journalistiek werk.
Nieuwsgaring niet, maar het combineren van bronnen en er een artikel rond maken wel. Het is een hele industrie die valt of staat met het publiek dat een keuze maakt en die keuze zal zijn tussen deze groep van bedrijven zelf en Apple. Net zoals in alle andere takken van de economie zit de value-generation al lang niet meer in de bron, maar hoe die verwerkt wordt. De grootste winst is niet voor de boer die een wortel uit de grond trekt.
Waarom nieuwsgaring niet? Of een journalist of een AI-server nu een email verstuurt met vragen maakt weinig verschil.
real life menselijk contact zal niet zo snel te vervangen zijn in the field.
Het is in elk geval positief dat ze willen betalen, in tegenstelling tot de meeste andere bedrijven die het gewoon op alle manieren proberen te scrapen omdat het 'gratis online' staat.
Ach als zij het niet doen doet iemand anders het wel. Die toekomstige verliezen komen toch wel. Lijkt me nu juist het moment om aan de tafel te komen voor content eigenaren en deals te sluiten waarbij ze blijvend vergoedingen blijven krijgen voor het gebruik van hun content in modellen - en niet eenmalig voor het trainen.
Wat is er bekend van andere bedrijven ala een Microsoft of openAI en hun positie en transparantie over input data voor het trainen?

Ik denk dat het positief is dat Apple hier in ieder geval voor wil betalen en het transparant is waar de data vandaan komt.
Helemaal mee eens, was ook mijn eerste gedachte… goh ze willen het “above board” doen… en redelijk betrouwbare bronnen gebruiken ipv Reddit crawlen..,(ja ik weet het journalisten maken ook fouten die meestal maar niet altijd gecorrigeerd worden; en veel mensen op Reddit zijn hartstikke goed bezig. Maar de regels rond content op de belangrijkste pers outlets zijn toch veel strikter dan op Reddit - journalisten lopen het risico hun baan en carrière te verliezen als ze moedwillig fouten maken, dat is bij Reddit wel anders. Of ze gaan de politiek in zoals Boris deed toen hij ontslagen werd als journalist 😅

Ik zou bij Reddit tenminste ook proberen data over de persoon, scoring etc mee te nemen, en sommige reddits gewoon compleet overslaan…
Dit is wel een heel optimistische kijk op de zaken.

Het is de New York Times die dit naar buiten brengt, niet Apple zelf. Met die transparantie valt het dus wellicht mee. Daarnaast is het waarschijnlijk fysiek niet mogelijk om de nieuwsarchieven te plunderen zonder toestemming van de uitgevers.

Tenslotte is 50 miljoen dollar niet erg veel. Ik verwacht dat data van goede kwaliteit in de toekomst beduidend meer waard zal gaan worden.
Ik vermoed dat de opmerking over transparantie uitsluitend gaat over de bronnen waarop het model getraind is, niet over de onderhandelingen die eraan vooraf zijn gegaan om toegang te krijgen tot de bronnen. Een periode van ‘radiostilte’ is trouwens normaal en ook noodzakelijk tijdens een onderhandeling.

Of toegang tot het nieuwsarchief 50 miljoen dollar waard is, zal tijdens een onderhandeling vastgesteld worden. Niet meer dan logisch dat Apple een lage openingsbod heeft gedaan. Een beproeft onderhandelingstechniek.
Wat is er bekend van andere bedrijven ala een Microsoft of openAI en hun positie en transparantie over input data voor het trainen?

Ik denk dat het positief is dat Apple hier in ieder geval voor wil betalen en het transparant is waar de data vandaan komt.
Volgens mij zit het subtiel anders. Apple wil helemaal niet echt betalen voor data (niemand wil ooit betalen). Apple wil de concurrentie dwars zitten door die andere modellen "illegaal" te verklaren want getrained op "gestolen" data.
Je kunt het natuurlijk ook gewoon zien als een move van apple om beter aan komende wetgeving te voldoen, zoals bijvoorbeeld de regels die recent door de EU zijn opgemaakt.
Interessant dat Apple nu pas aan het zoeken is naar sources. Apple is wel vaak van het kijken en wachten om dan gelijk met een goed product te komen ipv een prototype, maar ze willen vaak wel teveel zekerheid waardoor hij eindproduct helemaal zonder randjes is en dan vaak ook veel saaier/minder goed, als het aankomt op AI en dergelijke natuurlijk.
Interessant dat Apple nu pas aan het zoeken is naar sources. Apple is wel vaak van het kijken en wachten om dan gelijk met een goed product te komen ipv een prototype, maar ze willen vaak wel teveel zekerheid waardoor hij eindproduct helemaal zonder randjes is en dan vaak ook veel saaier/minder goed, als het aankomt op AI en dergelijke natuurlijk.
Ik denk dat dit vooral een strategische move is. Het gaat ze niet écht om toegang tot die nieuwsbronnen, het gaat om het afremmen van iedereen die al een goed model heeft.

Als Apple betaalt voor deze data impliceert dit dat iedereen die niet heeft betaald voor diezelfde data dus illegaal bezig is. De beheerders van de data zullen het zeker zo zien en gaan eisen dat anderen ook betalen en hun oude model met "gestolen" data vernietigen. Traingingsdata uit zo'n LLM halen is vrijwel onmogelijk, je moet het oude model weggooien en opnieuw beginnen.

Dat geeft Apple een kans om bij te komen, of, als dat niet zou lukken, om een concurrent te dwingen om samen te werken om toegang te krijgen tot die nieuwsbronnen.
Denk dat de uitgevers ontzettend goed moeten uitkijken hier, want Apple zou zomaar een AI gegenereerde news feed kunnen maken (waar ze veel geld aan verdienen) terwijl de uitgevers voor peanuts zijn afgekocht. Als uitgever zou ik gewoon 30% van de omzet eisen van Apple voor elk gegenereerd bericht. Is zo een beetje een standaard commissie toch???
Zou je nog vies kunnen tegenvallen. Stel Apple maakt hiermee enkel een standaard ingebouwde digitale assistent voor AI ondersteunde taalgeneratie zonder meerprijs op de nieuwste 2024/2025 Macs, tablets, phones... krijgt de uitgever vervolgens 30% van nul euro.
Het lukt sommige mensen ook altijd weer om Apple in zo’n slecht mogelijk daglicht te zetten. Apple wil niet stelen? Oh dan zijn ze alsnog slecht bezig!
Om het nieuws te voorspellen? Fake news te genereren? Of om de schrijfstijl van journalisten te kunnen overnemen in gegenereerde content middels een vorm van neural style transfer?

Op deze manier klinkt het een beetje kolderiek, maar feitelijk zijn dat de drie uitkomsten als je een generatieve AI op een nieuws dataset gaan trainen.
Praktische toepassing zou kunnen zijn om zelf dmv LLM nieuws artikelen te produceren, maar daarvoor heeft Apple dan ook oorspronkelijke bronnen nodig: onderzoekjournalistiek/interviews, persberichten/persconferenties van allerlei organisaties/bedrijven/overheden etc, berichten van persbureaus e.d. Daarvan kan niet alles door LLM worden gedaan en kan nog flink wat geld kosten.
Ik wil niet pessimistisch zijn maar over het algemeen worden nieuwe technieken "misbruikt" voor zaken waar ze eigenlijk niet voor zijn ontworpen. Om problemen te voorkomen zeg ik nog maar eens dat een AI "uitgeschakeld" moet kunnen worden door geheel analoge techniek waar de AI nooit controle over kan krijgen.
AI nieuws leren genereren, waarom krijg ik steeds vaker het idee dat we weer een stapje dichter bij de ondergang van de mensheid zijn. Nou ja, hebben we in ieder geval een oplossing voor de klimaatcrisis.
Elke dag brengt je toch een stapje dichterbij het einde? Geldt ook voor de planeet 🌏.
Ja maar de tijdsschaal hebben we mogelijk wel invloed op.
Het gaat niet om nieuws, maar om taal. Nieuwsartikelen zijn over het algemeen bronnen van hoge kwaliteit, een stuk beter dan willekeurige bronnen van het internet scrapen. En juist die kwaliteit is belangrijk om een goed model te trainen.
Dit inderdaad, het gaat om de word embeddings waarschijnlijk. Journaliestieke teksten zijn vaak correct geschreven teksten in tegenstelling tot heel veel gewchreven teksten op het internet (spelfouten, incorrect woord gebruik, niet logisch opgebouwde zins constructies, etc…). Je kan hiermee dus goede kwaliteit embeddings mee opbouwen. Daarnaast staat er natuurlijk veel historische informatie in die ook weer gebruikt kan worden.
Niet nieuws genereren. Maar waarschijnlijk antwoorden genereren op basis van nieuwsfeiten.
Volgens The New York Times voert Apple momenteel gesprekken met Condé Nast, NBC News en IAC. Condé Nast is de uitgeverij achter onder andere The New Yorker, Wired, Ars Technica, GQ, Pitchfork, Vogue en Vanity Fair. IAC is het bedrijf achter onder andere People en Daily Beast. Apple zou enkele anonieme bronnen een deal willen bereiken die meerdere jaren van toepassing is. Het bedrijf zou daarvoor ook een bedrag van ongeveer 50 miljoen dollar voor over hebben.
Valt niemand anders op dat hier gebeurt, en goedgekeurd wordt, wat elders bekritiseert en afgekeurd wordt?

Google trekt # voor in zoekopdrachten, wel/niet tegen betaling.
Amazon doet het ook, zoek maar verder.

Op deze manier trekt Apple, tegen omgekeerde betaling, Condé Nast, NBC News en IAC. Condé Nast en The New Yorker, Wired, Ars Technica, GQ, Pitchfork, Vogue en Vanity Fair en People en Daily Beast voor.
En Apple betaalt daar 50 miljoen voor.
Ik ben benieuwd welk veelvoud van 50 miljoen er onder de tafel terug betaald wordt aan Apple.
Want iedereen die het LLM gebruikt, krijgt data/info van: Condé Nast, NBC News en IAC. Condé Nast en The New Yorker, Wired, Ars Technica, GQ, Pitchfork, Vogue en Vanity Fair en People en Daily Beast ...

Just my € 0.02
Op deze manier trekt Apple, tegen omgekeerde betaling, Condé Nast, NBC News en IAC. Condé Nast en The New Yorker, Wired, Ars Technica, GQ, Pitchfork, Vogue en Vanity Fair en People en Daily Beast voor.
En Apple betaalt daar 50 miljoen voor.
Ik ben benieuwd welk veelvoud van 50 miljoen er onder de tafel terug betaald wordt aan Apple.
Want iedereen die het LLM gebruikt, krijgt data/info van: Condé Nast, NBC News en IAC. Condé Nast en The New Yorker, Wired, Ars Technica, GQ, Pitchfork, Vogue en Vanity Fair en People en Daily Beast ...
Zeg je nu dat Condé Nast stiekem geld betaalt aan Apple? Waarom zouden ze dat doen? Wat voor voordeel heeft Condé Nast daar aan?

FYI: Naar mijn mening gaat het Apple om zelf toegang te krijgen tot goed geschreven artikelen én hun concurrentie te ondermijnen door ze te dwingen hun oude modellen weg te gooien omdat ze geen licentie hebben op de trainingsdata. Weer een typisch geval van hoe "intellectueel eigendom" vooral wordt gebruikt om innovatie en concurrentie dwars te zitten. Concurrentie toegang tot de markt ontzeggen is efficienter dan zelf een goed product maken.
PS. Ik ben niet voor of tegen Apple óf OpenAI, ik ben voor innovatie en tegen het dwarszitten van je concurrentie, wie dat ook doet.
Goeie analyse. Ik moest gelijk denken aan hoe Apple ooit de digitale muziekmarkt opentrok door met de muziekindustrie te onderhandelen voor opname in itunes (zonder DRM), waar de rest van de softwaremakers die stap niet kon of wilde maken. Het heeft Apple geen windeieren gelegd.
Weer een typisch geval van hoe "intellectueel eigendom" vooral wordt gebruikt om innovatie en concurrentie dwars te zitten.
Ja, en vuurwerk VOORAL wordt gebruikt om explosieven van te maken en schroevendraaiers VOORAL worden gebruikt om sloten open te breken of als steekwapen gebruikt te worden en social media's VOORAL worden ingezet voor haatzaaien en bedreigingen et cetera wordt 'intellectuele eigendom' VOORAL gebruikt om innovatie en concurrentie dwars te zitten.

Iets te simpel wereldbeeld.
[...]


Valt niemand anders op dat hier gebeurt, en goedgekeurd wordt, wat elders bekritiseert en afgekeurd wordt?

Google trekt # voor in zoekopdrachten, wel/niet tegen betaling.
Amazon doet het ook, zoek maar verder.

Op deze manier trekt Apple, tegen omgekeerde betaling, Condé Nast, NBC News en IAC. Condé Nast en The New Yorker, Wired, Ars Technica, GQ, Pitchfork, Vogue en Vanity Fair en People en Daily Beast voor.
En Apple betaalt daar 50 miljoen voor.
Voorlopig wel met en heel ander doel dan Google en Amazon: namelijk om LLM AI te trainen, niet ivm zoekopdrachten of producten.
Het zal wel aan mij liggen maar ik begrijp niet wat voor zin AI nu heeft voor het nieuws en wat dit dan zou kunnen toevoegen. Vooral dan voor het milieu en de prijs van de papieren krant lees ik deze nu digitaal maar met tegenzin. Blijf nog altijd de papieren krant het prettigste vinden en lees het nieuws ook het liefste in een krant vorm, ook digitaal dan.
Ik weet niet op welke nieuwsuitzending je doelt, maar kwaliteitsmedia gaan wel wat verder dan nu.nl of hart van Nederland. Of welke andere meuk je ook bedoelt.
Dat nieuws zit overigens vaak achter een betaalmuur, want journalistiek kost geld. Daarom is het ook netjes dat Apple wil betalen voor het gebruik.
Daarom is het ook netjes dat Apple wil betalen voor het gebruik.
Tsja, netjes. Je zou het bijna bijzonder gaan vinden dat tech-bedrijven gewoon doen wat moet.
Tsja, netjes. Je zou het bijna bijzonder gaan vinden dat tech-bedrijven gewoon doen wat moet.
Er is nog helemaal niet duidelijk 'wat moet'. Er zijn een handjevol rechtszaken geweest over de copyrightstatus van invoer en uitvoer van ML modellen die ook nog lang niet allemaal afgerond zijn. Maar je kan geen bedrijf runnen in een competitieve markt als je bij alles wat je doet eerst gaat wachten, zeker niet als je concurrentie gewoon doorstoomt.
Er is nog helemaal niet duidelijk 'wat moet'. Er zijn een handjevol rechtszaken geweest over de copyrightstatus van invoer en uitvoer van ML modellen die ook nog lang niet allemaal afgerond zijn. Maar je kan geen bedrijf runnen in een competitieve markt als je bij alles wat je doet eerst gaat wachten, zeker niet als je concurrentie gewoon doorstoomt.
Het is voor mij anders heel duidelijk hoor. Heeft iemand geld en moeite gestoken in kwalitatieve content (en overigens überhaupt content), dan zul je moeten betalen om daar gebruik van te maken. Ook als de concurrentie wel van diefstal gebruik maakt.
Jij vindt het diefstal, maar copyright is niet altijd zo absoluut als je vindt. Denk aan dingen als citaatrecht en parodie. Daarnaast is veel copyrighted content ook weer gebaseerd op publiek domein. Als ik een ai vraag om een samenvatting van Sneeuwwitje maakt het dan uit dat het ding de Disney versie als bron aanhaalt?
klinkt eerder alsof het tijd is om een andere nieuwsbron te gaan gebruiken die niet enkel uit is op sensatie, al heb ik geen voeling met het medialandschap in Nederland, dus ik hoop dat het er toch beter mee gesteld is dan wat je doet uitschijnen.
Sensatie is nieuws, niemand zit te wachten om te lezen dat tante Jo op de koffie is geweest bij haar buurvrouw.
sensatie is entertainment, maar dat maakt het nog geen nieuws. Imho is nieuws iets dat een grotere invloed heeft op mensen, zonder dat die mensen daar zelf iets voor/aan kunnen doen. Een artikel dat popster X een scheve schaats rijdt met een minderjarige kan misschien wel meer mensen interesseren en als reactie hebben dat ze die bvb boycotten, maar de nieuwswaarde ervan ligt lager dan een regeringsbeslissing over bvb een nieuwe snelweg.
Toch komisch dat figuren zoals jij dan wel 'alternatieve' nieuwsites lezen die dan 9/11 of de maanlanding gaan lopen ontkennen ofzo. Het zou komisch zijn als het niet zo triest was.
Mainstream media heeft toch echt meer feitelijke informatie dan gezichtenboek
Zeker, Nu.nl en de Telegraaf vertellen wie Dries Roelvink is. Ik ben benieuwd welke main stream media dat nog meer doen.
De volkskrant? https://www.volkskrant.nl...jn-wel-erg-zout~b80689d4/

Edit: Sorry, hiermee sleur ik anderen mee in mijn malheur. Hopelijk vergeven degenen die anders nooit van ons Dries hadden gehoord, en nu wel, mij.

[Reactie gewijzigd door theobril op 25 juli 2024 03:27]

Je hebt helemaal gelijk. Deze had ik gelukkig gemist in de Volkskrant.

Op dit item kan niet meer gereageerd worden.