'TikTok-moederbedrijf ByteDance gebruikte OpenAI-api voor trainen eigen chatbot'

ByteDance, het Chinese moederbedrijf van TikTok, zou de api van OpenAI hebben gebruikt om zijn eigen large language model te ontwikkelen. Dat is verboden volgens de gebruiksvoorwaarden van laatstgenoemde. OpenAI heeft het account van ByteDance voorlopig opgeschort.

ByteDance heeft voor de ontwikkeling van zijn eigen large language model in het geheim technologie van OpenAI gebruikt, en probeerde dat vervolgens te verdoezelen. Dat schrijft The Verge op basis van interne documenten. Voor vrijwel elke fase van de ontwikkeling van het concurrerende AI-model, dat intern bekendstaat als Project Seed, zou de api van OpenAI gebruikt zijn, waaronder voor de training en evaluatie van het model. Volgens The Verge is het misbruik zo ongebreideld dat werknemers regelmatig de limiet van hun toegestane hoeveelheid api-toegang bereiken.

Het TikTok-moederbedrijf heeft zijn werknemers naar verluidt gevraagd om het bewijs ervan 'wit te wassen' door middel van 'datadesensibilisatie'. In de gebruiksvoorwaarden van de api staat namelijk dat deze niet gebruikt mag worden 'om AI-modellen te ontwikkelen die concurreren met onze producten en diensten'. Toen het bedrijf enkele maanden geleden toestemming kreeg van de Chinese overheid om zijn eerste chatbot uit te brengen die wordt aangedreven door het Project Seed-model, vroeg ByteDance zijn werknemers om geen GPT-gegenereerde tekst meer te gebruiken voor de ontwikkeling, aldus The Verge. Desondanks zou de api ook daarna nog gebruikt zijn om de prestaties van zijn eigen chatbot te beoordelen.

OpenAI-woordvoerder Niko Felix laat aan The Verge weten dat het AI-bedrijf het account van ByteDance voorlopig heeft opgeschort: "Alle api-klanten moeten zich houden aan ons gebruiksbeleid om ervoor te zorgen dat onze technologie niet wordt misbruikt. Hoewel ByteDance minimaal gebruikmaakte van onze api, hebben we diens account opgeschort terwijl we verder onderzoek doen. Als we erachter komen dat het bedrijf dit beleid niet volgt, zullen we het vragen om de benodigde aanpassingen te maken of diens account beëindigen."

ByteDance ontkent in een verklaring dat het de licentieovereenkomst met OpenAI heeft geschonden. Het bedrijf heeft naar eigen zeggen aan het begin van de ontwikkeling door GPT gegenereerde data gebruikt, maar er wordt volgens het bedrijf inmiddels geen OpenAI-data gebruikt voor zijn model. "In markten buiten China gebruiken we GPT om producten en functies aan te drijven, maar voor chatbot Doubao, die enkel beschikbaar is in China, gebruiken we ons zelfontwikkelde model."

IT-banen

Reacties (44)

millee 16 december 2023 11:32

Het staat OpenAI natuurlijk vrij om API accounts te verbannen als ze de overeenkomst breken. Maar ik kijk hier niet raar van op. Het is ook vrij hypocriet om te verwachten dat dit niet zou gebeuren. OpenAI is niet transparant over hun training data, dus je kunt ervan uitgaan dat ze zelf ook in grijs gebied opereren als het om copyright en gebruikersovereenkomsten gaat.

ByteDance is zeker niet het enige bedrijf dat de OpenAI API gebruikt voor deze doeleinden. Het detecteren van dit soort gebruik is bovendien erg lastig. Dit zal niet het laatste artikel zijn in deze trend. Sterker nog, je kunt gewoon public datasets vinden die zijn gegenereerd met behulp van ChatGPT.

BramVroy @millee • 16 december 2023 16:35

Hierop een aanvulling/verduidelijking. Ik werk zelf in het veld en volg de ontwikkelingen goed op. Ik breng ook m'n eigen modellen en datasets uit.

Er is helemaal niets mis met het vrijgeven van datasets die je hebt aangemaakt met de OpenAI API. Dat mag gewoon. Het probleem zit 'em in de Terms of Use van de API en hoe je de data die je genereerde met hun API mag gebruiken. Als gebruiker van de OpenAI API ga je dus een gebruikscontract aan: als jij de API gebruikt, en dus een overeenkomst sluit met OpenAI, mag je hun output niet gebruiken voor het trainen van concurrerende LLMs. Dit is ENORM vaag:

1. er wordt geen definitie gegeven wat een "concurrerend" model is. Algemeen wordt dit strikt geinterpreteerd als: geen commerciaal gebruik. Echter lijkt me dat een te brede interpretatie. Normaal ga je bij concurrentie gewoonlijk uit van "redelijkheid van concurrentie": is een model echt concurrerend, of werkt het in een heel specifiek domein waar OpenAI niet relevant is? Of mag ik bv. wel een minuscuul model trainen met OpenAI data en dat commercialiseren als het slecht werkt (en dus niet echt concurrerende performance heeft)?

2. het verbod van OpenAI wordt vastgelegd in de Terms of Use van de API. Met andere woorden, het contract wordt gesloten tussen de gebruiker van de API en OpenAI. Dus als die gebruiker, Persoon A, de resulterende data online gooit (wat ie mag), en Persoon B haalt die data op, is er dan wel wettelijke grond waarop Persoon B die data niet mag gebruiken om een concurrerend model te bouwen? Persoon B heeft namelijk geen overeenkomst met OpenAI, want ie heeft nooit de API gebruikt!

OpenAI moet gewoon eens wat duidelijker zijn in de omschrijving. Ze zijn nodeloos vaag, wat tot enorm veel frustratie leidt. Ik ben "braaf" en maak mijn modellen dus niet commercieel beschikbaar en volg dus de "strikte" interpretatie. Maar anderen nemen het zo nauw niet en geven hun model vrij in apache-2.0 (wat dus eigenlijk niet mag). Dat zorgt onder modelbouwers tot heel wat wrevel en "concurrentie" want, ook al is het model van Persoon A bv. beter, dan zal het model van Persoon B model meer gebruikt worden omdat ie het apache vrijgeeft - ookal mag dat niet. En dat is allemaal een gevolg van hoe vaag OpenAI is over hun data.

Persoonlijk ben ik van mening dat ik het recht heb om te doen wat ik wil met de data omdat ik er nu eenmaal voor betaald heb. Maar als OpenAI zegt "njet" dan is het "njet" en daar heb je als klant weinig aan te doen. Maar ze moeten gewoon concreter/duidelijker zijn. Ik sprak hier ook met een jurist over en die zei me hetzelfde. Hiet is vaag en open tot interpretatie. Het is volgens hem afwachten tot de eerste rechtzaak er komt zodat er een precedent wordt gezet, en dan wordt het concreter in rechtspraak.

Helium-3

@BramVroy • 16 december 2023 16:58

Persoonlijk ben ik van mening dat ik het recht heb om te doen wat ik wil met de data omdat ik er nu eenmaal voor betaald heb.

Pas je dat ook toe op andere abonnementen, zoals die van de fysieke krant of een Netflix abonnement? Dat jij alles mag doen met de teksten, foto's en films, zoals verder verhuren, verkopen of je eigen film uit monteren? Omdat er een bankafschrift voor bestaat?

Pinkys Brain @Helium-3 • 16 december 2023 18:36

Of er een AI model mee trainen? Met niet openbare content waar je nog niet eens voor betaald hebt? Zoals OpenAI dat doet.

OpenAI heeft zo'n berg boter op zijn hoofd dat ze je toch nooit voor de rechter durven te slepen, de kans dat zo'n rechtzaak leid tot dingen die OpenAI totaal vernietigen is veel te groot. Je laars lappen aan de ToS is moreel gezien geen probleem en het risico is miniem.

[Reactie gewijzigd door Pinkys Brain op 22 juli 2024 23:01]

MSalters

Wetenschap
Kunstmatige intelligentie

@Pinkys Brain • 16 december 2023 22:34

Je haalt hier twee soorten recht door elkaar. Het auteursrecht beschermt de auteur tegen iedereen, maar alleen tegen specifieke handelingen. AI training staat daar (nog) niet bij.

Het contract recht legt alleen beperkingen op aan de contractanten, maar kan daarbij wel nieuwe ontwikkelingen volgen. OpenAI klanten tekenen dus voor verplichtingen die ze zonder dat contract niet hadden, in ruil voor mogelijkheden die ze zonder dat contract niet hadden

Pinkys Brain @MSalters • 17 december 2023 09:47

Auteursrecht beschermt de auteur tegen ongeoorloofd kopiëren van zijn creatie. AI training heeft meerdere kopieerstappen, of de gewichten in het model op zichzelf een kopie zijn is niet relevant voor de voorgaande letterlijke kopieerstappen. Van internet naar opslag, van opslag naar geheugen naar opslag om het in de training-set te stoppen, van opslag naar geheugen voor het trainen etc. Allemaal zonder expliciete licentie, wettelijk uitzondering op auteursrecht of zelfs maar impliciete licentie (de onbetrouwbare doctrine waar het internet op dreef voordat de DMCA/EUCD er waren)

De ECJ moest er aan te pas komen om te bepalen dat de kopie op je computer en scherm bij het bekijken van het internet zelfs maar vielen onder de uitzonderingen in de EU Copyright Directive. Het is heel erg optimistisch om te denken dat de letterlijke kopieerstappen voor AI training rechtmatig zijn zonder expliciete licentie of nieuwe wetten (om te herhalen, hiermee doel ik dus niet op de gewichten in het model, ik vind die discussie niet interessant, dit argument gaat om alle letterlijke kopieerstappen die nodig zijn om die gewichten te creëren).

Dit is de boter die OpenAI en de meeste AI bedrijven op hun hoofd hebben en waarom ze niet zo snel naar de rechter zullen stappen wanneer de kans bestaat dat ze bewijs moeten leveren die hun later de kop kan kosten als rechtbanken zich tegen hen keren over auteursrecht. Alleen in Japan is er een wettelijke uitzondering op auteursrecht voor trainen van AI. In de meeste landen hebben ze waarschijnlijk een expliciete licentie nodig, zoals Meta en Adobe dat bijvoorbeeld wel hebben voor hun beeld generatoren.

[Reactie gewijzigd door Pinkys Brain op 22 juli 2024 23:01]

MSalters

Wetenschap
Kunstmatige intelligentie

@Pinkys Brain • 18 december 2023 09:07

Ik heb 't jaren geleden al uitgezocht in verband met een EU subsidie project.

Je maakt hier een vergissing die wel vaker gemaakt word, en dat is denken dat technici en juristen dezelfde taal spreken. Als een jurist het heeft over "een kopie maken", dan bedoelen ze "een kopie maken zoals bedoeld in de jurisprudentie en het normala taalgebruik". Als jij schrijft "meerdere kopieerstappen", dan heb je het niet over de juridische kopie.

In sommige landen is ooit verduidelijkt dat een "kopie in RAM" geen kopie is. Dat is niet universeel; sommige andere landen zagen de noodzaak niet eens. Maar zelfs in de landen waar dat wel gebeurt moet je dat weer niet in de technische zin van het woord opvatten. Die uitzondering bevestigt wat ik hierboven schrijf: technische kopieën zijn geen juridische kopieën.

Pinkys Brain @MSalters • 18 december 2023 12:58

In de EU/VS was de RAM kwestie nog redelijk open totdat DMCA/EUCD de knoop doorhakte, die zeggen echter niet dat iets geen kopie maar dat het voor bepaalde doeleinden uitgezondert is.

RAM even daargelaten, er worden zeker twee kopien op vaste opslag gemaakt, de originele kopie en dan in het trainingsset formaat. De kans dat de trainingsset kopieën op vaste opslag als disk cache gaan gelden voor de uitzonderingen in de DMCA/EUCD is vrij miniem. Zelfs als het argument dat training van een model hetzelfde is als een mens wat het bekijkt even word aangenomen, waarvan de kans ook miniem is, gaat niemand zijn trainingsset weggooien nadat het huidige model is getrained, dat hou je voor de toekomst. Geen enkelijke rechter gaat dat een tijdelijke kopie noemen.

[Reactie gewijzigd door Pinkys Brain op 22 juli 2024 23:01]

Blokker_1999

Bedrijfsnieuws
China
Wetenschap

@MSalters • 16 december 2023 23:28

Maar AI is ook niet zomaar uitgesloten. Als ik AI vraag om een gedicht voor mij te schrijven en ik krijg iets dat gebasseerd is op een bestaand werk, dan valt dat gewoon onder schending van het auteursrecht.

blorf @Pinkys Brain • 17 december 2023 12:57

Volgens mij moet je er gewoon vanuit gaan dat onder concurrentie-druk alle AI-bedrijven alle data die ze kunnen krijgen permanent invoeren in hun modellen. Het zijn allemaal bunkers in aanbouw.

BramVroy @Helium-3 • 17 december 2023 20:25

Dat is bestaande content die gemaakt werd en waar dan copyright op zit. Het gaat hier om nieuwe content die enkel gegenereerd werd op basis van mijn input. Het werd dus gemaakt met mijn geld en met mijn input. Als ik een kunstenaar inhuur om een schilderij te maken over een onderwerp van min keuze, dan is het resultaat ook van mij.

Helium-3

@BramVroy • 17 december 2023 20:28

Ik snap wat je zegt, maar zo hoeft het natuurlijk niet te zijn. Wat vind je dan van de interactieve Netflix-productie Black Mirror: Bandersnatch? Door keuzes te maken (je invoer) compileer je zelf een filmverhaal (je uitvoer) op basis van vooraf ingevoerde data (het "model"?). Toch ben jij niet automatisch "eigenaar" van jouw eigen variant/verhaal dat je in de Netflix app maakt.

Het kán natuurlijk heel goed hé, dat jij een gebruikersovereenkomst met een taalmodel-uitgever hebt getekend die zegt dat jij wel het auteursrecht krijgt op de producties, maar dat is zéker geen gegeven of "automatisch universeel recht" dat ik hier bij sommigen lijk te proeven.

Cid Highwind @BramVroy • 16 december 2023 21:18

2. het verbod van OpenAI wordt vastgelegd in de Terms of Use van de API. Met andere woorden, het contract wordt gesloten tussen de gebruiker van de API en OpenAI. Dus als die gebruiker, Persoon A, de resulterende data online gooit (wat ie mag), en Persoon B haalt die data op, is er dan wel wettelijke grond waarop Persoon B die data niet mag gebruiken om een concurrerend model te bouwen? Persoon B heeft namelijk geen overeenkomst met OpenAI, want ie heeft nooit de API gebruikt!

In dit geval gaat het niet om personen, maar om bedrijven. Bytedance is daarin één en dezelfde entiteit, het maakt dan weinig uit of het door dezelfde persoon wordt gedaan, of door een collega.

Daarnaast kan ik me voorstellen dat er ook nog iets is wat je moet vergelijken met hoe heling werkt. Een Bytedance zal er zelf op toe te zien hebben dat de data die gebruikt wordt zuiver is en binnen de grenzen van de licentie. Dan heb je er op toe te zien dat de data die je uit een eventuele onbekende bron haalt voldoet aan de eisen, en anders niet gebruiken.

Maar goed, ben geen advocaat, laat staan eentje die bekend is met het recht wat voor deze partijen geldt, dus bovenstaande is hooguit een nuance in de discussie en ter overweging, geen oordeel over wie hier goed of fout zit.

MrMonkE @BramVroy • 17 december 2023 11:38

Hallo Bram,
Zijn er ook 100% Nederlandstalige modellen? De llama2- Dutch bijvoorbeeld begint vaak opeens Engels te praten tegen me. Een 100% Nederlandse zou dat niet hebben. En eerlijk gezegd als die Nederlandse versie niet weet wie een back-bencher was in 1950 in het VK maar wel weet over Nederland wie er destijds in de kamer zaten zou ik er evengoed veel waarde in vinden denk ik.

edit: Abstract voorbeeld, kon ook een 2e divisie club keeper zijn.
edit2: het was wel een door TheBloke gequantificeerde versie herinner ik me nu.

[Reactie gewijzigd door MrMonkE op 22 juli 2024 23:01]

BramVroy @MrMonkE • 17 december 2023 20:29

Er zijn oudere modellen die getraind zijn door Yeb Havinga. Zoek bv eens op "gpt2 large Dutch". Er zijn ook mijn finetunes op Nederlandse data maar die zijn niet erg goed. Eergisteren kwam er ook een finetune uit van Mistral. Die is al een pak beter! https://huggingface.co/spaces/Rijgersberg/GEITje-7B-chat

Obfzk8R @BramVroy • 17 december 2023 10:00

Maar als OpenAI zegt "njet" dan is het "njet" en daar heb je als klant weinig aan te doen.

Is het Russisch zo krachtig dat we in die taal moeten ontkennen?

BramVroy @Obfzk8R • 17 december 2023 20:27

Leenwoorden bestaan. Deal with it. https://nl.m.wiktionary.org/wiki/njet

uiltje @Obfzk8R • 18 december 2023 09:05

D'r is niks mis met het gebruik van de Russische taal. Of Jiddisch of Arabisch. Merk op dat veel Oekrainers ook Russisch spreken - nu wat minder natuurlijk, maar toch.

In Europa is er een aanzienlijk aantal Russischtaligen in onder meer Estland (± 25% van de bevolking), Georgië, Letland (± 28%), Litouwen, Moldavië en Oekraïne (± 30%). In geen van deze landen heeft het Russisch echter een officiële status.

Dus er zijn heel wat EU burgers die Russisch spreken.

Obfzk8R @uiltje • 18 december 2023 17:30

Het ging mij niet om het gebruik van de Russische taal. Of dat er iets mis is aan welke taal dan ook. Het gaat mij om het gebruik van Nederlands. Daar mag best wat aandacht aan besteed worden. De adoptie van vreemde talen is niet altijd en overal nodig. Dat zal wel aan mij liggen. Ik ben er wel zo een die moeite doet om de juiste woorden te gebruiken, wanneer ik mijn moederstaal spreek (en schrijf). Dat doe ik ook als ik in het Nederlands schrijf, in het Engels of welke andere taal dan ook die ik aan het gebruiken ben.
Ik vind dit soort berichten overigens ook best jammer, hoewel er genoeg mensen zijn die het hen worst zal wezen.

[Reactie gewijzigd door Obfzk8R op 22 juli 2024 23:01]

uiltje @Obfzk8R • 19 december 2023 00:26

Beetje overdreven om dat te doen voor een enkele "njet", niet? Ben je bang dat we het woord in het Nederlands niet kennen? Of dat we meer Russische woorden gaan gebruiken?

Obfzk8R @uiltje • 19 december 2023 08:42

Утомляет! (✿◠‿◠)

Tintel

Bedrijfsnieuws

@BramVroy • 18 december 2023 11:07

Persoonlijk ben ik van mening dat ik het recht heb om te doen wat ik wil met de data omdat ik er nu eenmaal voor betaald heb. Maar als OpenAI zegt "njet" dan is het "njet" en daar heb je als klant weinig aan te doen.

Nou, als een bedrijf zegt "je mag hetgeen jij koopt niet gebruiken zoals jijzelf wilt omdat we dit niet prettig vinden" - dat is wel degelijk een probleem. Dus OpenAI gebruikt allerlei bronnen maar wil zelf geen bron zijn....okay....maar als het niet om persoonlijke gegevens gaat gaat dat al weer wat moeilijker.
Wie is er eigenaar van data? I.v.m. privacy kunnen we dat definieren maar voor de rest...?

n4m3l355

China
Bedrijfsnieuws

@millee • 16 december 2023 13:52

Het gebruik van openaindata data om andere modellen te trainen is an zich niet verrassend. Maar dat Chinese bedrijven dit doen terwijl het Chinese publiek geen toegang heeft tot bijvoorbeeld openai maar ook andere westerse modellen is wel saillant. Op dit moment hebben Chinese tech giganten een enorme achterstand als het op AI aankomt. Byte dance begint net, Baidu eerste publieke model is bagger en andere partijen komen gewoon niet van de grond. Het is een aparte situatie dat men toegang heeft tot bergen data maar juist China dankzij het afschermen en scrubben van data zichzelf behoorlijk in de voet heeft geschoten.

Dus dat Bytedace dit doet is zeker uniek en dat zullen we vermoedelijk niet vaak zien.

centr1no @n4m3l355 • 16 december 2023 16:14

Het is een aparte situatie dat men toegang heeft tot bergen data maar juist China dankzij het afschermen en scrubben van data zichzelf behoorlijk in de voet heeft geschoten.

Dat is niet beperkt tot data en ook niet nieuw.
China 'kopieert' al decennia lang van overal nieuwe ontwikkelingen omdat ze (op sommige gebieden enorm) achter liggen op de rest.

Veel meer dan "het vragen om de benodigde aanpassingen te maken of diens account beëindigen" kunnen ze waarschijnlijk ook niet doen.

raro007 @millee • 16 december 2023 13:20

Maar is het verboden wat chatgpt deed?
hadden die sites gezegd je mag ons data niet gebruiken voor ai training?
Zo niet is toch niet het zelfde.
Er zullen vast wel wetten komen die het verbieden maar toen niet.

RJG-223 16 december 2023 11:37

Ik snap dat OpenAI dit niet wil, maar ik betwijfel ten zeerste of alle eigenaren van de data waarmee OpenAI z'n eigen model getraind heeft daarvoor toestemming hebben gegeven. Niet dat dat het gedrag van ByteDance rechtvaardigt, maar dit klinkt een beetje als pot en ketel: het is wel OK als wij (OpenAI) andermans data gebruiken, maar als anderen onze data gebruiken, dan is het niet OK...

Als OpenAI netjes toestemming had gevraagd aan iedereen, dan was dat zeker in het nieuws geweest. En het is onwaarschijnlijk dat ze alleen maar aantoonbaare public-domain data gebruikt hebben. Daarvan is er vermoedelijk veels te weinig.

MSalters

Wetenschap
Kunstmatige intelligentie

@RJG-223 • 16 december 2023 22:38

Het is niet dat OpenAI toestemming had. Dat was niet nodig. OpenAI gebruikt data zonder dat zulk AI training gebruik door wet of contract verboden is.

uiltje @MSalters • 18 december 2023 09:08

Zoals al eerder aangegeven zal je de data toch eerst op moeten halen (i.e. kopieren) voordat je het gebruikt om je LLM te trainen...

MSalters

Wetenschap
Kunstmatige intelligentie

@uiltje • 18 december 2023 09:10

Ja, en zoals ik daar aangaf: technische kopie, geen kopie in juridische zin.

RJG-223 @MSalters • 18 december 2023 14:36

Het probleem is, dat de outputs van zo'n AI-model een rehash zijn van de inputs. Als daar inputs met copyright bij zijn (zeer waarschijnlijk), dan zou de output onderscheidbare delen daarvan kunnen bevatten. Dat dat ook daarwerkelijk kan gebeuren is aangetoond. Dus het gaat potentiëel om copyright-inbreuk.

Afgezien daarvan: als de eigenaars van die data dit hadden geweten, dan hadden veel daarvan waarschijnlijk óók in hun licentie/gebruiksvoorwaarden opgenomen dat hun data (teksten, afbeeldingen, etc) niet gebruikt mogen worden voor AI-training. Ik zou dat in ieder geval doen, en ik vermoed dat veel (commerciële) content-eigenaren dit inmiddels al doen... Misschien dat OpenAI in juridische zin mazzel hebben, omdat dit soort gebruik niet voorzien was, en dus niet expliciet verboden toen ze hun data andermans data verzamelden om hun modellen te trainen.

Ik vraag me af, als ik een aantal afbeeldingen maak, of andersoortige content, over een zeer specifiek onderwerp, zodanig dat mijn content de enige is over dat onderwerp, en OpenAI verzamelt die data om hun model te trainen, of ik dan mijn data niet verbatim terug krijg als ik hun AI over dat onderwerp ondervraag.
(dat onderwerp zou natuurlijk een door mij verzonnen onderwerp moeten zijn, anders is het waarschijnlijk niet uniek...)

MSalters

Wetenschap
Kunstmatige intelligentie

@RJG-223 • 18 december 2023 14:56

Outputs van LLM's zijn inderdaad word vectors (paragrafen) waarbij de woorden identiek zijn aan de woorden van de trainingsdata. Alleen, woorden zélf zijn niet copyrighted, en de woordvolgorde is bepaald door de LLM. Ja, de mogelijke volgorde is geleerd uit de input, maar dat is grotendeels grammatica.

Wat betreft licenties/gebruiksvoorwaarden: de bulk van de teksten hééft geen gebruiksvoorwaarden, precies omdat ze onder het auteursrecht vallen. Dat is bealngrijk, omdat auteursrechten voor 8 miljard mensen gelden, en licentievoorwaarden maar voor diegenen die de licentie accepteren.

RJG-223 @MSalters • 20 december 2023 10:59

de woordvolgorde is bepaald door de LLM.de woordvolgorde is bepaald door de LLM.

En de LLM wordt bepaald door de trainingsdata. Als die trainingsdata behoorlijk divers is, zal de output dat ook zijn, en is er niets te herleiden. Als de trainingsdata niet divers is, dan is de output ook niet divers, en zal die behoorlijk op de input lijken. In het normale leven heet zoiets dan plagiaat, of copyright-inbreuk. Er zijn voorbeelden online van trainingsdata die gedeeltelijk gereproduceerd is in de output van AI tools. Bijvoorbeeld.dit. En ja, Microsoft heeft gezorgd dat dit niet meer kan. Maar alleen door het probleem te omzeilen. Niet door het op te lossen.

maar dat is grotendeels grammatica

Dat ben ik niet met je eens. Er zijn veeeeel meer grammaticaal correcte zinnen en teksten te verzinnen, dan zinnen en teksten die zinnig en leesbaar zijn. En nog minder teksten zijn werkelijk nuttig, en zullen mensen willen lezen. Dus dat is zeker niet grotendeels grammatica.

de bulk van de teksten hééft geen gebruiksvoorwaarden

Auteursrecht zijn gebruiksvoorwaarden. Die bepalen dat je teksten niet mag kopiëren, en/of als eigen werk mag verspreiden. Nu ben in geen jurist, en ik weet dus niet of het auteursrecht voldoende bescherming biedt dat auteurs kunnen verbieden dat hun output (teksten, maar ook plaatjes etc) gebruikt wordt voor AI-training. Maar ik sluit niet uit dat er in de toekomst vastgesteld wordt dat de AI's inbreuk kunnen maken op het auteursrecht van de makers van de trainingsdata. Het bovengenoemde voorbeeld is wat mij betreft een bewijs dat het kan, en dat het ook gebeurt. Het is dus wachten op een rechtszaak...

Daarnaast: als je de auteurs van alle bestaande teksten zou vragen of de vruchten van hun intellectuele arbeid gebruikt mogen worden voor AI-training, waardoor hun toekomstige intellectuele arbeid waardeloos wordt, omdat AI het sneller en goedkoper kan, dan denk ik dat veel auteurs daar tegen zouden zijn. Als ze ten minste begrijpen wat AI is, en wat het betekent. Ik vermoed dat als het auteursrecht niet aangepast wordt, heel veen auteurs in de toekomst expliciete gebruiksvoorwaarden / licentievoorwaarden zullen gaan hanteren... Het saillante detail is hier, dat het bedrijf dat als een van de besten weet wat AI is en wat het kan, expliciet niet wil dat de vruchten van hun intellectuele arbeid gebruikt worden voor AI-training...

RoestVrijStaal 16 december 2023 11:40

Ach, zo verwonderlijk en controversieel is het nou ook niet.

Vrijwel in elke bedrijfstak en -sector staan concurrenten elkaars product en service te testen. Desnoods het product van de concurrentie uit elkaar halen om er iets van op te steken.

Echter bij diensten via het internet zoals betaalde online API's valt er beter te monitoren wie de dienst gebruikt en hoe.

Dat er in de voorwaarden clausules in zitten die voorkomen dat er een concurrerende dienst ermee kan worden gemaakt, is vanuit het oogpunt van OpenAI logisch. (Maar misschien vindt de EU daar iets anders van).

We moeten nu niet doen alsof ByteDance OpenAI heeft gecrackt en code en/of bedrijfsgeheimen ermee heeft buitgemaakt.

djexplo @RoestVrijStaal • 16 december 2023 16:17

Dit is net iets meer dan kijken hoe de anders man product in elkaar steekt. Want binnen deze wereld is Knowledge Distillation (link) hip.
Het komt er op neer dat je zelf geen data meer gaat labelen. Maar teksten/plaatjes etc.. uit een grote vergaar bak ruwe data in een groot andere model stopt en dan het antwoord wat er uitkomt gebruikt om jou model te trainen. Dus wat het model "geleerd heeft" tap je als ware af. Waardoor je zelf dus voor een dubbeltje ook op de eerste rang zit.

Dit soort technieken werkt zelfs vaak beter dan door de mens gelabelde data. Want die labelt vaak hard, als dit plaatje is een hond. Terwijl knowledge distallation percentages geeft, b.v. lijkt 55% op een hond 45% op een kat. Waardoor een nieuwe model het niet op eens het "totaal" fout heeft en daardoor soepeler leert.

_Joe_ @djexplo • 17 december 2023 10:08

True, maar het was ook niet echt bepaald een geheim dat elke AI speler dit doet of gedaan heeft.

De controverse rondom Stanford’s Alpaca project heeft dit toen nog meer blootgesteld.

earvaag 16 december 2023 14:35

Het is me ook opgevallen dat hun crawler onze sites wel erg veel crawled, en robots.txt niet honoreerd ook. Naar wat ik begrijp ook voor hun ai learning. Terug te vinden als bytespider in trafficlogs.

uiltje @earvaag • 18 december 2023 09:09

Dat komt omdat je iedere AI specifiek moet buitensluiten. Da's natuurlijk achterlijk, en moet snel veranderen.

The Zep Man

Bedrijfsnieuws

@Gamebuster • 16 december 2023 11:42

Qiè dào: theft
Fùzhì: clone

Cute...

創新
Chuàngxīn: innovation

O.a. voor dit wordt het tijd voor wetgeving die afdwingt dat voor elk antwoord dat A.I. maakt er verantwoording afgelegd moet worden op welke data dat gebaseerd is, en onder welke licentie die data valt. Wellicht iets voor een blockchain...?

[Reactie gewijzigd door The Zep Man op 22 juli 2024 23:01]

MSalters

Wetenschap
Kunstmatige intelligentie

@The Zep Man • 16 december 2023 22:40

Als je met licentie een auteursrechtelijke licentie bedoelt: AI valt niet daaronder. Niet in training (input), niet in interferentie (output).

MrMonkE @The Zep Man • 17 december 2023 11:33

Nee. alsjeblieft niet. De 'ruis' en redundantie in AI antwoorden is nu al een drama.

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (44)

Sorteer op:

Weergave: