Brein: AI-trainingset verwijdert 2 miljoen ongeautoriseerd gebruikte artikelen

Common Crawl heeft op verzoek van Stichting Brein twee miljoen nieuwsartikelen van bekende Nederlandse nieuwssites en digitale kranten verwijderd. Brein stelt dat deze zonder toestemming zijn gekopieerd en gebruikt om generatieve-AI-modellen te trainen.

De aanbieder, Common Crawl, is een non-profitorganisatie die het internet crawlt en de resultaten in een dataset openbaar aanbiedt aan gebruikers en bedrijven. Volgens Brein zijn vrijwel alle grote AI-modellen onder meer op de dataset van Common Crawl getraind. Het zou onder meer om ChatGPT, Deepseek V3, Claude, Phi en OpenELM gaan. Het internetarchief Wayback Machine werkt samen met Common Crawl door het scrapen van het internet uit te voeren en de bestanden met de organisatie te delen.

Het materiaal dat Common Crawl aanbiedt, is volgens Brein veelal auteursrechtelijk beschermd. In samenwerking met een aantal Nederlandse nieuwsuitgevers werd er bezwaar gemaakt bij de trainingsdata-aanbieder. Die heeft dat verzoek nu gehonoreerd. Volgens de stichting zijn de twee miljoen artikelen echter slechts een fractie van de totale dataset, die ruim zes petabyte groot is.

Stichting Brein voert vaker actie tegen bedrijven die iets met kunstmatige intelligentie doen en daarvoor afhankelijk zijn van auteursrechtelijk beschermd materiaal. Zo haalde de stichting in 2024 een Nederlandstalige dataset voor het trainen van AI offline omdat hierin beschermd materiaal zat. Ook werd het Nederlandse AI-model GEITje om dezelfde reden op verzoek van de stichting offline gehaald.

Door Yannick Spinner

Redacteur

04-11-2025 • 10:35

121

Reacties (121)

Sorteer op:

Weergave:

Ik dacht vooralsnog dat als je iets openbaar deelt het "auteursrecht" niet meer van toepassing is. Zeker als dat op openbare websites (waar geen registratie voor nodig is) of in openbare groepen op sociale media gezet wordt.

Maar ik zal er wel naast zitten. Zo niet moet ik misschien ook maar auteursrecht op al mijn openbare berichten gaan zetten....

Bij deze, deze post is auteursrechtelijk beschermd en mag dus niet gekopieerd of gedeeld worden door derden zonder mijn expliciete toestemming!
Het auteursrecht gaat over publiceren. Het trainen van AI is dus geen, of in ieder geval geen duidelijke, schending van het auteursrecht. In deze situatie is er ook geen rechter of wetboek aan te pas gekomen. Brein heeft geclaimd dat de artikelen onrechtmatig werden gebruikt en Common Crawl heeft hier gehoor aan gegeven door deze artikelen uit de dataset te halen.

Overigens heb je dat auteursecht op alles wat je schrijft of maakt automatisch, maar heb je waarschijnlijk voorwaarden geaccepteerd die het gebruik van je berichten voor van alles en nog wat toestaan.
Common Crowl wil natuurlijk ook helemaal niet dat hier een gerechtelijke uitspraak over komt. Want nu is het een grijs gebied en als iemand piept halen ze een druppel uit de emmer, maar als een rechter bepaald dat het illegaal is, dan is het ineens zwart op wit en aangezien copyright in Europa op elkaar is afgestemd, betekend dat ze dan ineens gigantische delen van hun training set moeten verwijderen want nu gebruiken ze de data totdat er bezwaar komt en na zo'n uitspraak moet men eerst toestemming verkrijgen want dan hun business model een stuk moeilijker maakt...
Zo werkt auteursrecht niet. Openbaar publiceren zegt helemaal niets over de vraag of er wel of geen auteursrecht van toepassing is. Op heel veel foto’s die je op internet vindt is gewoon auteursrecht van toepassing. Degene die ze heeft gepubliceerd heeft toestemming of heeft ervoor betaald om ze te publiceren. Je mag die foto dan niet gewoon overnemen en zelf weer publiceren. Hetzelfde geldt voor teksten of muziek.
Je mag ze wel gebruiken in een citaat (maar dan moet je de bron vermelden) of in een collage (mits daarbij door "artistieke vrijheid" een eigen werk ontstaat dat zo origineel en nieuw is dat het oorspronkelijke werk ondergeschikt is). Dat laatste is in mijn ogen het geval als een AI-systeem teksten/afbeeldingen/video genereert (en zou dus geen inbreuk zijn).

De kopie die wordt gebruikt als trainingsdata (en nog duidelijker in dit geval, waarbij de trainingsset weer online wordt gepubliceerd) maakt in mijn ogen dan wel weer direct inbreuk op het auteursrecht.
Ja, dat klopt maar hierboven werd beweerd dat wanneer je iets publiceert (op internet) dat er dan geen auteursrecht meer van toepassing is. Dat klopt gewoon niet.
Ik dacht vooralsnog dat als je iets openbaar deelt het "auteursrecht" niet meer van toepassing is. Zeker als dat op openbare websites (waar geen registratie voor nodig is) of in openbare groepen op sociale media gezet wordt.

Maar ik zal er wel naast zitten. Zo niet moet ik misschien ook maar auteursrecht op al mijn openbare berichten gaan zetten....

Bij deze, deze post is auteursrechtelijk beschermd en mag dus niet gekopieerd of gedeeld worden door derden zonder mijn expliciete toestemming!
lol !
Bij deze, deze post is auteursrechtelijk beschermd en mag dus niet gekopieerd of gedeeld worden door derden zonder mijn expliciete toestemming!
Is al geregeld in de algemene voorwaarden van Tweakers:

10 Licentie en intellectuele eigendom

10.1 Met inachtneming van hetgeen is bepaald in deze Algemene Voorwaarden, behoudt het Lid in beginsel de auteursrechten en andere intellectuele eigendomsrechten op de door hem geplaatste Content.

10.2 Alle rechten van intellectuele eigendom, waaronder maar niet beperkt tot auteursrecht en databankrechten, op de Website en de door Tweakers geplaatste Content berusten uitsluitend bij Tweakers of haar licentiegevers.

10.3 Het Lid mag de op de Website opgenomen Content raadplegen en daarvan kopieën maken voor uitsluitend eigen persoonlijk gebruik, bijvoorbeeld door deze te printen of op te slaan. Elk ander gebruik van de Website of de Content, bijvoorbeeld het overnemen, reproduceren, distribueren of anderszins openbaar maken van (een deel van) de Website is niet toegestaan zonder uitdrukkelijke schriftelijke toestemming van Tweakers en/of het betreffende Lid.

10.4 Door het plaatsen van Content op de Website;
  1. verleent het Lid onherroepelijk toestemming aan Tweakers om deze Content zonder vergoeding te publiceren, aan te passen en commercieel te exploiteren via de Website of andere online of print media van DPG Media;
  2. verleent het Lid toestemming aan andere Leden en bezoekers van de Website om deze Content te raadplegen en daarvan kopieën te maken voor eigen gebruik;
  3. geeft het Lid toestemming aan Tweakers voor de openbaarmaking van zijn portret, voorzover dit voorkomt in deze Content; en
  4. doet het Lid, voorzover wettelijk mogelijk, afstand van de op de Content rustende persoonlijkheidsrechten.
10.5 Het Lid garandeert dat hij bevoegd is om voorgaande toestemmingen te verlenen en dat hij eventueel voor publicatie van deze informatie benodigde toestemmingen van derden heeft verkregen. Het Lid vrijwaart Tweakers, de Crew en de overige voor haar werkzame derden voor alle schade en kosten ter zake van aanspraken van derden dat het gebruik of de exploitatie van de door het Lid geplaatste Content inbreuk maakt op (intellectuele) eigendomsrechten van derden of anderszins onrechtmatig is jegens derden.
Is er nu eigenlijk al jurisprudentie over het gebruik van content die publiekelijk online staat voor AI training? Want het is leuk dat Common Crawl hieraan mee heeft gewerkt, maar het zegt natuurlijk nog niet of wat zij deden daadwerkelijk verboden was.

Overigens ook grappig dat sommigen hier in de comments Brein nu als redder zien, terwijl ze jarenlang in elke comment sectie die ik tegenkwam zijn verguisd.
De impact is veel groter dan LLMs. Ze verwijderen het uit de dataset van bijvoorbeeld de Wayback Machine, verwijderen het voor onderzoek dat duidelijk legaal is onder TDM artikel 3 (scrapen mag voor wetenschappelijk onderzoek), verwijderen het voor gebruik met woordenboeken.

Dit is een gigantische klap voor de Nederlandse taal en het pijnlijke is dat het big tech niet eens raakt (wat ik aanneem dat het doel is) want die hebben hun eigen scrapers.
Copyright bepaald dat het geen Common Crowl deed illegaal was. Je mag simpel niet zonder toestemming hele teksten overnemen en vervolgens doorverkopen.

Dit is niet anders dan dat radio in principe openbaar is, maar dat je in principe de uitzendingen niet mag kopieren. Dat is natuurlijk niet te controleren, dus is daar ooit de thuiskopie heffing voor geintroduceerd op lege media (cassette bandjes). Niet iedereen deed het opnemen voor zichzelf want op school deden we regelmatig bandjes van elkaar kopieren. Maar omdat je nog steeds een fysiek iets heb (het bandje) kan er maar 1 kopie op elk moment worden gemaakt. Napster bracht daar grote verandering in omdat je ineens je muziek collectie kon delen met de gehele wereld met als enige beperking jouw internet snelheid.

Je kan ook niet claimen dat Common Crowl de teksten gebruikt voor citaten. Het is toegestaan een citaat van een beschermde tekst te gebruiken in eigen werk, mits je natuurlijk aan bron vermelding doet.
Hoewel dat dit goed is voor de rechthebbende;

Is het kwaad niet al geschied? De AI's hebben er van geleerd en het lijkt me niet dat ze die kennis uit de al getrainde modellen kunnen halen
Filosofisch gezien, wat is het verschil met een mens die zaken bekijkt en daar inspiratie uit op doet?
Dat het een mens is. Een machine heeft geen eigen wil, en functioneert anders dan een mens.

Ik mag 24/7 op straat staan en alles bekijken, maar ik mag ook niet zonder meer 24/7 de straat filmen.
Het klopt niet helemaal wat je zegt. Van de wet mag je in principe als mens 24/7 op straat staan en alles filmen. Maar in de praktijk is dat niet mogelijk omdat je een mens bent. Maar je mag niet je telefoon in een houder zetten op dezelfde plek en alles 24/7 filmen.
Hah, ik had het beter moeten verwoorden maar dat is precies wat ik bedoelde. Je mag als mens de straat wel filmen, maar je mag geen camera neerzetten die de straat 24/7 filmt (zonder er zelf bij te staan).
't Is nochtans wel een leuk gedachte experiment die ook zelfs definities rondom eigen wil en functioneren dat wij eigen als mens zien, in vraag stelt. Wat als wij uiteindelijk ook geen vrije wil hebben, wat dus effectier ter discussie staat? Of het functioneren on par met ons staan?
Hoeveel mensen ken jij die miljarden boeken stelen om ze te kunnen lezen om dan een "origineel" verhaal te kunnen vertellen en daar geld mee verdienen?

Die vergelijking met "ja maar een mens kopieert ook GOTCHA!" is zo compleet van de pot gerukt.
Als ik een paar honderd 90’s swingbeat muzieknummers over en over luister en op basis daarvan een 90’s swingbeat nummer maak.. Ben ik niet strafbaar bezig

Als ik computersoftware heb die al die nummers analyseert en mij vervolgens een dataset geeft met kenmerken waarop ik een nummer kan maken… Is dat dan copyright schending?
Niemand heeft me tot nu toe uit kunnen leggen waarom het relevant is dat er miljarden boeken worden "gelezen". Wat maakt het anders dan het lezen van Twilight en daar vervolgens een BDSM verhaal schrijven wat daarop is gebaseerd? Het verschil in schaal maakt iets niet automatisch legaal of illegaal.
Klopt. Auteursrechtenschendingen gebeuren dan ook niet op basis van schaal. De afbakeningen die wij toen gemaakt hebben, staan onder druk met nieuwe ontwikkelingen. We moeten onze definities en logische gedachtegangen hier dan ook op afstellen.
Dat vraag ik me ook af. Als ik een aantal boeken over een bepaald onderwerp lees en, geïnspireerd op die boeken, zelf een boek schrijf waarbij ik niet letterlijk zaken uit die boeken overneem… Is dat dan een schending? Zelfde verhaal met foto’s of muziek die me inspireren om iets soortgelijks te maken zonder 1-op1 kopiëren
Nee, maar wel via gerechtelijke procedure de modellen offline halen. Uiteindelijk zit alle trainingsdata ergens centraal opgeslagen. Er zijn technieken om erachter te komen of er bepaalde data is gebruikt.

[Reactie gewijzigd door MrFax op 4 november 2025 10:46]

Een LLM slaat geen teksten op zoals een database. Het leert alleen taalpatronen uit de data. Daardoor kun je de originele auteursrechtelijke input niet simpel terughalen, al kan het soms wel kleine stukken onthouden, en precies daar ligt nu de juridische discussie.
Het model is al getraind op de inhoud, dus mosterd na de maaltijd.
Vraag me af hoe dat eigenlijk werkt. Wordt voor het trainen van een AI een kopie gemaakt van deze database? Neem aan van wel, want anders moet die tijdens de training steeds naar de servers van Common Crawl. Maar dan zou Brein ook de makers van de AI's moeten aanschrijven, want die hebben dan een kopie, waarin deze " illegale" data nog steeds staat.

Wat ik me ook afvraag is of OpenAI en anderen geld betalen aan Common Crawl? Anders hebben ze dubbel voordeel, gratis auteursrechtelijk beschermd materiaal en gratis voor je verzameld en opgeslagen.
Dat klopt. De AI bedrijven hebben kopieën van illegaal verkregen materiaal. Het is een directe auteursrechten schending.

De meeste AI bedrijven hebben het ook express gedaan, het kopen van materiaal is duur. Zeker voor startup's. Ga maar eens tienduizenden Nederlandstalige boeken bij de boekhandel kopen. Dus hebben ze er massaal voor gekozen om het materiaal illegaal te downloaden.

In de wetenschappelijke wereld was het helemaal schering en inslag. die kwamen ermee weg onder het mom 'voor de wetenschap'. Maar nu ze uit die wereld stappen en zelf ondernemingen beginnen of hun modellen commercieel gaan aanbieden, krijgen ze ineens Brein op hun dak.

O.a. Geitje had daar ineens behoorlijk last van. Het commercieel aanbieden van dat model moest teruggetrokken worden.
Maker van GEITje hier. Dat was een heel ander verhaal. Hier gaat het over webcrawls van openbare websites, en die is dus helemaal niet illegaal verkregen. CommonCrawl biedt wel een opt-out achteraf aan, en daar heeft BREIN gebruik van gemaakt.

Titel klopt mijns inziens dus ook niet (zie ook Geachte redactie).
Hier gaat het over webcrawls van openbare websites, en die is dus helemaal niet illegaal verkregen.
Je snapt niet hoe de wet werkt. Dat iets op een website staat, betekent niet dat je er maar alles mee mag doen dat je wilt.
Niemand snapt nog hoe de wet hier werkt. Er is een consensus dat content op het openbare web geconsumeerd mag worden (openbaarmaking, in de auteurswet). Kopieren mag niet. Maar is AI training consumptie of kopieren? Een compleet redelijke lezing van de wet is dat het geen van beiden is (want niet voorzien). En wat de wet niet verbiedt, is toegestaan.
Zodra er ook maar één persoonsgegeven op die website staat is het verboden in de AVG.
Want je gebruikt die data dan voor een ander doel dan waarvoor die gepubliceerd was.

Er zijn meer wetten van toepassing dan alleen de auteurswet.
Dat is echt veel te simpel, tot het punt dat het objectief onjuist is.

Stel dat er op een website " boom" staat. Er zijn mensen die dat als achternaam hebben. Is "boom" daarmee een persoonsgegeven? Nee - ik verwijs hierbij naar een oordeel van de Belgische GBA (tegenhanger AP) die vaststelde dat een gegeven een persoonsgegeven wordt zodra het op die manier verwerkt wordt, hoe minimaal ook, maar niet eerder. Interpreteer je "boom" niet als naam, dan is het geen persoonsgegeven.
Fraaie stroman heb je daar gemaakt. En volledig onjuist.

Ik geef aan: "wanneer er een persoonsgegeven op staat". Als de string "boom" er op staat in de betekenis van een plant, dan is het geen persoonsgegeven en is het dus niet van toepassing op mijn reactie.

Op het moment dat het er staat als naam van een persoon. (bv op LinkedIn) dan is het wel een persoonsgegeven. En dan mag je het niet gebruiken voor een ander doel dan waarvoor het gepubliceerd was. En AI trainen is niet het doel waarvoor het op LinkedIn gepubliceerd was.

En dan kan je niet zeggen dat je dat persoonsgegeven niet als naam gaat verwerken en dat je daarom dan ineens dat persoonsgegeven wel zou mogen gebruiken. Daar komt dan bovendien bij dat die AI wel degelijk in de gaten heeft dat het om een naam gaat en het dus als persoonsgegeven verwerkt.

Ik vermoed bovendien dat je het oordeel van de GBA verkeerd begrepen hebt.
Bij een woord als boom word uit de context duidelijk of het een persoonsgegeven is of niet. Als je de context nog niet weet, dan kan het zijn dat je nog niet weet of die string een persoonsgegeven is. Maar op het moment dat het op LinkedIn in het veld "achternaam" is ingevuld dan is die context bij voorbaat duidelijk en is het meteen een persoonsgegeven. Of je het nu al gelezen hebt in dat veld of nog niet, het is al duidelijk dat welke string er ook in dat veld staat, dat die string een persoonsgegeven is.
Wat als AI alleen openbare informatie presenteert zonder op te slaan bv. als je de info over "belasting vrije bedrag" bij de website van de belastingdienst gebruikt? Dit kan AI zelfstandig doen door info uit een of meerdere website(s) samen te vatten...
Dat is ook helemaal niet wat ik zeg, dat je er alles mee mag doen wat je wilt. Wel dat er op auteursrechtgebied wetten zijn over wat je er wel mee mag. Zie dat topic.
Er zijn meer wetten van toepassing dan alleen de auteurswet. Zie mijn reactie hierboven.
Maken ze een kopie of indexeren ze de data?
Ik weet zelf niet heel goed hoe zo'n model werkt, maar volgens mij wordt de informatie geindexeert, niet gekopieert toch?

Lijkt mij dat ze dan de index kunnen updaten waarbij de referenties naar deze ongeautoriseerde artikelen worden verwijderd? Of snap ik het dan helemaal verkeerd?
Common Crawl is een data boer. Die plukken al jarenlang gewoon alles van het Internet en bundelen dat in een dataset die ze aanbieden aan derde partijen die daar hun modellen mee kunnen trainen.

Nu AI commercieel een vlucht genomen heeft, worden de eigenaren van de content wakker en beginnen die hun rechten te claimen. Common Crawl haalt na klachten de artikelen weg uit de dataset die ze aanbieden aan derden.

Echter partijen die de data van Common Crawl gebruiken, gooien na het trainen de data niet weg. Die bewaren ze gewoon voor de volgende keer dat ze een model gaan trainen.
Het is een goed punt, want een index (zoals wat een zoekmachine gebruikt) heeft vanuit data processing perspectief best veel gelijkenissen. Een partij verzamelt een heleboel data, en ontwikkelt hier een dienst bovenop die vervolgens commercieel in de markt wordt gezet. Ook bij zoekmachines zitten we al jarenlang in een splagaat tussen wat wenselijk is (bescherming auteursrecht) vs een dienst die we nodig hebben (zoekmachines). Bij AI gaat hier nog een schepje bovenop, omdat het doorlinken naar de originele bron (het auteursrechtelijk beschermde werk) meestal ontbreekt, en het resultaat ook niet toe te wijzen valt aan 1 werk.

Dus, het bestaande auteursrecht voorziet hier helemaal niet hierin, omdat er totaal geen rekening gehouden is met dit scenario. Dus er is nieuwe wetgeving nodig. En dat is wat er nu ook aan komt met de Europese AI act. Die zegt ook iets over auteursrecht:
General purpose AI (GPAI):
  • All GPAI model providers must provide technical documentation, instructions for use, comply with the Copyright Directive, and publish a summary about the content used for training.
  • Free and open licence GPAI model providers only need to comply with copyright and publish the training data summary, unless they present a systemic risk.
Kortom, het verwijst terug naar bestaande copyright, en daarvan hadden we al geconcludeerd dat die niet geschikt is voor de nieuwe wereld van AI(*). Deze paper gaat hierop in(*), en verwacht dat grote recht houdende / claimende (Brein O-) ) partijen deals gaan sluiten met tech partijen, maar daarmee zijn de daadwerkelijke auteurs nog niet verzekerd van de juiste vergoedingen. En praktisch gezien: hoe gaan we dit afdwingen bij de vaak non-EU tech partijen? Schieten we onszelf niet in de eigen voet door onze eigen Mistral's geen kans tot overleven te geven?
(*) Beyond the overall complexity of the AI Act, its public law nature does not align well with the private law logic of copyright.
Overigens is het bouwen van een AI model (en dan eigenlijk: generatieve AI) niet hetzelfde als het bouwen van een index. Ze verzamelen data, classificeren het en vertalen het naar iets wat computers snappen (embeddings). Vervolgens trainen een gen-ai-model hierop (vaak hertrainen) en valideren de prestaties van dat model. De verzamelde data (vaak auteursrechtelijjk beschremd werk) gaat een soort van mixer in, en het resultaat bij gebruik (inference) zijn schaduwen van de vele originele werken. Die zoekmachine index verwijst wel altijd naar een origineel werk.
(edit: YouTube: Transformers, the tech behind LLMs | Deep Learning Chapter 5 is eigenlijk veel betere uitleg)

[Reactie gewijzigd door vargo op 4 november 2025 20:49]

Thanks!
Dit is echt een fantastisch antwoord.
Ik ga wanneer ik meer tijd heb de links die je gedeeld hebt eens rustig doornemen!
Klopt, maar de volgende modellen dus niet meer. Het is nu uit de 'bron' gehaald. Over een jaar zijn de huidige LLMs volledig irrelevant geworden. Wat nog wel een ding is, is dat er output is gegenereerd op basis van een 'illegale dataset'. Maar of die gegeneerde output dan ook 'illegaal' is, is denk ik moeilijk om te zeggen.

(( N.B. Het woordje illegaal is hier even bij gebrek aan een betere term van mijn kant :) ))
Dezelfde vraag kan je stellen over een set met nummers

123465315673213246841231564684132035456413212464

Dit nummer zou met de juiste encryptiesleutel prima een copyright protected film kunnen zijn (hoewel niet lang genoeg).

Hiermee is een willekeurig nummer dus illegaal.

Onze copyright wetgeving is hopeloos ouderwets en moet echt worden aangepast. Zeker de duur voor de bescherming is (veel) te lang.
Waarom "willekeurig"? De essentie van copyrightwetgeving is nu juist dat het geen willekeur is, maar een opzettelijk gemaakt nummer. (bestand).

Jouw onbegrip over de wet is geen reden om die aan te passen.
Wezenlijk is jouw stelling dus:

Is een copyright-beschermd object ook beschermd als het versleuteld is, wat op zich een interessante is. Maar jij stelt hem andersom. Je hebt een willekeurige string aan data, dat 'bij toeval' een versleutelde film blijkt te zijn.

Even los van de bijzonder onwaarschijnlijkheid ervan ;) (want ik vind hem wel leuk gevonden.), zal het deze string als string niet illegaal maken. Er is ook een factor 'intentie'. Als ik uit een film 1 frame weghaal en de titel met één letter verander, is het niet meer dezelfde film. Toch zal de rechter hier (terecht) niet mee akkoord gaan.

Wat we hier dus hebben, is een bibliotheek met illegaal verkregen informatie. Ik heb uit die illegaal verkregen informatie een verhaal geschreven. Is mijn verhaal illegaal? (ik denk het niet, onder Nederlandse wetgeving.) Ik weet ook niet of het uitmaakt, of ik 'weet' dat de bronnen die ik na heb geslagen illegaal verkregen zijn. (qua copyright)
Wanneer een 'willekeurig' nummer een specifieke encryptiesleutel nodig heeft om naar een film te decoden, zit de informatie dus niet in dat willekeurige nummer, maar in de sleutel.
Geen idee hoe die grote bedrijven de modellen trainen, maar het lijkt mij dat je een bestaand model gewoon verder kan trainen door nieuw materiaal aan te bieden? Hebben ze met GPT4.5 het trainingsmodel volledig in de prullenbak gegooid en zijn ze van 0 af opnieuw GPT5 gaan trainen? Lijkt mij niet toch?
Dat lijkt mij eigenlijk wel. Dat datamodel is een blok wiskundige data. Als je die data aanvult, krijg je twee verschillende versies van wiskundige data die samen moeten werken. Het lijkt mij logischer om hem iedere keer van scratch af aan te trainen.
Logisch vind ik het persoonlijk niet. Het is juist logisch om niet alles opnieuw te doen.

Dat wiskunde blok (matrix/tensor) van data bestaat uit rijen en kolommen. Je zou zeker wel een gedeelte van die data (uiteindelijk gaat het puur om de gewichten die je verkregen hebt uit je trainingsdata) kunnen "her"trainen / aanvullen.

Het is wel één van de grootste onderzoeksrichtingen in Machine Learning momenteel. Je kunt je voorstellen hoeveel het in tijd/kracht scheelt om niet van scratch te trainen. Veel geld te besparen.
Ik denk dat het mogelijk ligt aan bepaalde factoren en uiteindelijk hoe het allemaal werkt of het beter is of niet om opnieuw te beginnen. Denk bijvoorbeeld dat je een opstel moet schrijven. Als je klaar bent maar het bevalt niet is dan het beter om alles na te kijken en te veranderen of is het misschien beter of vanaf het begin weer te beginnen? Misschien wordt het beter en is het makkelijker door hier en daar dingen te veranderen / paragrafen toe te voegen (extra content toevoegen aan AI). Maar misschien is het beter om overnieuw te beginnen. Nu weet ik niet of het gebeurd is maar ik zou bijvoorbeeld kunnen bedenken dat GPT-5 toen het zakelijker was gemaakt dat het opnieuw getraind was met meer nadruk op zakelijkere / kortere content. Want AI wil niet altijd naar de instructies luisteren dus een model van "Hallo, dit is een geweldige vraag. Ik zal mijn best doen om te beantwoorden" naar "Het antwoord is: " te veranderen lijkt mij dus erg lastig dus.

Al zal het natuurlijk ook wel aan liggen hie het op de achtergrond allemaal werkt.
Voor beide is wat te zeggen. :)

De huidige LLM's zijn groot en bevatten veel data. Om die altijd "vanaf nul" te trainen kost veel rekenkracht. Dus daar kun je beter voortborduren op het bestaand model.

Maar in een LLM zit ook bias en fouten. Bij het opnieuw trainen zou je dus kunnen voorkomen dat die al in het model terecht komen ipv dat je het eruit traint. Plus je kunt dan de nieuwe inzichten direct gebruiken. Dus dan heb je een accurater model met minder fouten.

Welke manier er wordt gekozen hangt dus af van wat je hebt, wat je wil, wanneer je het wilt hebben en wat je kan betalen. Soms is dat een nieuw model maken. Maar vaak is dat verder gaan met een bestaand model.
Je past doorgaans geen gedeelte van een matrix aan. In backpropagation krijg je correcties op alle gewichten in een matrix. Wat wel kan, is besluiten om sommige matrices niet aan te passen.
Ergens lijkt het mij ook logischer, maar met als potentieel gevolg dat het model opnieuw gaat trainen op informatie die voor een groter aandeel al is geproduceerd door AI dan de voorganger. Ik kan niet inschatten of dat een groot probleem is, maar mijn boerenverstand zegt dat het er niet beter op wordt.
AI expert hier. Doortrainen van bestaande modellen is de normaalste zaak van de wereld, en standarad ondersteund in alle grote AI libraries. De meerderheid van AI modellen in het veld zijn op die manier gemaakt.
Ah, kijk is aan :)

Maar is dat dan ook het geval tussen de 'major releases'? (dus van ChatGPT 4.5 naar ChatGPT 5.0, en zo)
Een goede hint is te kijken naar het aantal parameters. Identiek? Doorgetrained. Dat kun je alleen niet omdraaien, zeker niet bij moderne modellen waar je nieuwe parameters makkelijk kunt toevoegen.
Waarschijnlijk wel. Maar de data van OpenAI (en andere AI bedrijven) is niet verwijderd, alleen in de openbare dataset.
Tegenwoordig hebben de "grote" taalmodellen voldoende data om zelf kunstmatige data te genereren op basis van bestaande data en deze te gebruiken als training...
Noem "illegaal" dan "zonder toestemming verkregen".
Hoezo dat ze trainen gewoon t bestaande model door. T is al te laat.
Ligt er aan hoe een AI modellen trainer deze data sets verwerkt. Het kan best zijn dat ze oude data sets gewoon meenemen in hun trainingsset, met daarbij alle mutaties behalve "delete" verwerkt. Dit lijkt mij gezonde argwaan te hebben bij bedrijven die oneindige data honger hebben, waarin "delete" mogelijk vertaald als "verberg mijn data voor mij".

Wellicht dat Brein wel heeft afgesproken dat ook nieuwe data niet wordt opgenomen in de data set.
Afspraken zijn niet nodig want CommonCrawl houdt zich gewoon netjes aan de robots.txt-standaard. En alle nieuwssites hebben al tijden terug de CCBot-geblokkeerd in hun robots.txt-files.
ai steelt van ai, welke paradijs leven we eigenlijk.
Man man, snap sowieso niet Ai, persoonlijk blijf ik er ver van af!
persoonlijk blijf ik er ver van af!
En toch heb je in je dagelijks leven vele malen per dag al te maken met AI. Zag recentelijk een rapport van een Europese luchtvaarfmaatschappij. Die hadden 112 AI modules lopen, sommige daarvan met enorme impact, de module die bepaald of een vliegtuig sneller moet gaan vliegen om sommige passagiers een verbinding te laten halen (na een vertraagd vertrek) bespaarde 12 miljoen per jaar vanaf de eerste minuut dat hij werd gebruikt.

Je kan niet ver van AI blijven. Onmogelijk. Daarom is het zo belangrijk dat we snappen was het doet, wat het niet kan en wat de implicaties zijn. Omgaan met AI zou een vak op school moeten zijn.
Die hadden 112 AI modules lopen, sommige daarvan met enorme impact, de module die bepaald of een vliegtuig sneller moet gaan vliegen om sommige passagiers een verbinding te laten halen (na een vertraagd vertrek) bespaarde 12 miljoen per jaar vanaf de eerste minuut dat hij werd gebruikt.
AI als term wordt echt veel te breed gebruikt. Wat nu populair is is LLM. Iets wat je beschrijft heeft helemaal geen AI nodig. Connectieplanning is behoorlijk standaard in de logistiek. Je had een tijd geleden dat alles "big data" werd genoemd. Toen werd gezegd (binnen het logistieke bedrijf) dat de connectieplanning mogelijk werd gemaakt voor "big data".
Fijn om te lezen dat we nog niet allemaal gek zijn gemaakt.... "112 AI modules" .... tuurlijk

Juist als het deze 'hippe' AI (dus de laatste veelal op LLM gebaseerde AI) zou zijn gebruikt had er veel meer mis gegaan...hallucinaties zijn onvermijdelijk.

Pure expert systemen (de nog oudere naam - nog voor big data), hebben daar gelukkig geen last van.
[...]
Omgaan met AI zou een vak op school moeten zijn.
Waarom een vak er van maken.
Ik ben al bang dat onze kinderen later dom zullen zijn, niet meer zelf onderzoek doen naar alles.
Leren vanuit een tablet, rekenmachine, het niet meer zelf schrijven, niet meer zelf opzoeken naar wat je zoekt. Rekenen, wiskunde noem maar op, alles wordt door Ai voorgeschoven etc.

Kinderen*ook mijn dochter* later zullen meer kapot maken, dom zijn dan we eigenlijk gewild hebben.
Dat mensen dit stimuleren maakt het alleen maar erger, we hebben al verschoven in 2000 waarom nog een keer? snap het niet .

ik ben er sowieso niet bezig, ik zoek ook niet meer op google, maar ga per direct wikipedia etc. om info te zoeken, de Gemini op je voorpagina nee dank je.

[Reactie gewijzigd door theduke1989 op 4 november 2025 11:11]

Ik zie het gewoon als een verschuiving van onze vaardigheden. Ik kon vroegahh nog rekenen met een rekenlineaal of de koppen van een casettedeck reinigen en demagnetiseren. Allemaal vaardigheden die we nooit meer nodig zullen hebben.

Dus dommer, nee ik denk het niet.
Verschuiven van vaardigheden.

Een munt heeft twee kanten.

Ja, het is handig als kinderen efficiënt met een rekenmachine, smartphone, pc en AI leren omgaan. Ze moeten het kunstje van het opzoeken, intoetsen, opschrijven en uitrekenen beheersen.

De andere kant is dat kinderen ook moeten leren schrijven met een pen (fijne motoriek), basaal taalgebruik aanleren, snel kunnen inschatten of een uitkomst klopt, inschatten hoe laat ze ergens aankomen. Dat zijn andere vaardigheden die iedere inwoner van NL vroeg of laat nodig heeft.

Het is schrikbarend gesteld met hoofdrekenen, fijne motoriek en de kinderen worden zo bijziend als mollen door al dat getuur.

Het ergste is, de andere kant van de munt heeft amper aandacht in het geweld van de nieuwe technische ontwikkeling.
Zo tussen 1995 en 2000 stonden de populaire media er vaak vol mee: ‘het internet’ zou op korte termijn het einde betekenen van de papieren media — en van ‘de krant’ in het bijzonder. Al dan niet wijselijk verpakt in woorden als ‘waarschijnlijk’, ‘mogelijk’ of ‘kans op’. Het zou een negatieve invloed hebben op de intelligentie van de mens, ervoor zorgen dat er minder gelezen werd en miljoenen mensen werkloos maken.

Wat we de afgelopen 25 a 30 jaar hebben gezien, is inderdaad een verschuiving. Net als toen zien we nu opnieuw naast een verschuiving ook weer een bubble ontstaan, waarop iedereen — positief dan wel negatief inspringt. De mens is slim genoeg om zich aan te passen, net als in relatie tot al die andere doom scenario’s die de komende decennia op ons afstevenen.

[Reactie gewijzigd door litebyte op 4 november 2025 12:18]

Dit is een echt probleem: veel studies laten zien dat IQ de afgelopen decennia gestaag aan het dalen is. Wat het precies betekend en waardoor het komt is nog onderwerp van debat. Een minderheid zegt dat het vooral te maken heeft met verouderde tests of bias in de onderzoeken. Maar velen zien een correlatie met onze digitale wereld: cognitive offloading, weinig geduld en aandacht, gebrek aan verveling en wrijving.

Ik denk dat het gezond is om de gevaren serieus te nemen. En baat het niet dan schaadt het niet.
Maar welke vaardigheden zijn daarvoor nu in de plaats gekomen? Ik noem het klikken op een knop op een scherm geen vaardigheid. Evenals een USB in een apparaat steken. Ja, je hebt nu 3d printers. Maar die worden gebruikt door de oudere generatie. Dus welke vaardigheid leert onze nieuwe generatie? Ik kan niet iets anders verzinnen dan 'TikTok'.
Maar het gaat niet om het kunstje - ook apen kun je kunstjes leren. Als je begrijpt wat je deed met je casette deck, heb je iets waar je meer aan hebt. Het kunstje zelf is niet zo belangrijk.

Rekenen met een rekenmachine maakt niet direct dom - als je maar een beetje begrijpt wat je doet. AI gebruiken is net zoiets.

Vaardigheden != kunstjes.
Wat mij betreft zijn vaardigheden aangeleerde kunstjes, b.v. het hanteren van een bijtel of solderen van een printplaat. Kennis is dat op theoretisch vlak maar nagenoeg allemaal aangeleerd.

IQ zou voor c.a. 70% aangeboren zijn.

Mijn opa kon prima hout bewerken, mijn vader was een meester in rekenen en boekhouden, ik kan prima programmeren en mijn zoon kan fantastische dingen met AI.
je klinkt als iemand die de pc op dezelfde manier zou omschrijven als je 50 jaar eerder geboren zou zijn.


AI is ook maar een tool. Je zult jog wel zelf na moeten denken en kennis moeten hebben over inzet ervan.
Daarom is het zo belangrijk dat we snappen was het doet, wat het niet kan en wat de implicaties zijn. Omgaan met AI zou een vak op school moeten zijn.
Waarbij het lesmateriaal uiteraard geschreven wordt met hulp van AI. Waarin overtuigend uitgelegd wordt dat AI vrijwel alle problemen kan oplossen en dat ook gaat doen, zoals het oplossen van het klimaatprobleem, kanker, het drink watertekort, regionale oorlogen, honger, griep, covid, aids. Net zoals sociale media ons ook meer inzicht en waardering heeft gegeven in andere mensen en ideeën en ons zo heeft verbroederd en we ons veel verbondener voelen met onze medemensen is het een prachtige ontwikkeling.

Het zeer kleine groepje multi-multimiljardairs dat de AI modellen aanstuurt -Peter Thiel, Elon Musk, Sam Atman, Mark Zuckerberg en andere bekende filantropen die het beste met de medemens voor hebben- zorgt er wel voor dat rare 'Woke' ideeen over mensenrechten, democratie en natuurbehoud de correcte plek en aandacht krijgen in de AI modellen in plaats van de overdreven aandacht die er nu aan wordt besteedt en zo het heil dat de AI gaat brengen niet langer wordt tegengewerkt.

Klopt, we kunnen niet ver van AI afblijven En gezien wie al die AI ontwikkelingen beheersen is dat een zeer, zeer verontrustende idee. En snappen wat AI doet en wel en niet kan helpt daar echt geen moer tegen.

[Reactie gewijzigd door CharlesND op 4 november 2025 13:25]

Dan heb je zo dadelijk toch wel een probleem als je het niet snapt. Want het gaat hoe dan ook je leven beïnvloeden. Of je het nou wilt of niet. Waarschijnlijk heb je het geen eens door altijd.
Ik slaap zonder ai, ik werk zonder ai, ik eet zonder ai. misschien is jouw reactie gegenereerd.van mij mogen ze al dat ai rotzooi wel verbannen, scheelt weer stroom en goedkopere videokaarten
Social media staat vol AI. Een hoop werk wordt vervangen door AI waar jij producten van afneemt. Dus nee het is niet te voorkomen en verbannen gaat het ook niet worden. Het zal alleen maar meer en meer worden. Tenzij je gaat wonen in een hutje in de bergen zonder internet.

[Reactie gewijzigd door TheDudez op 4 november 2025 11:10]

Nee hoor. mijn vrachtwagen word nog steeds geladen door mensen, ik mag mijn wagen zelf naar het distrubutie centrum rijden, ik mag zelf mijn wagen parkeren, en ik haal zelf mijn koffie uit een apparaat zonder AI
Vroeger zeiden mensen waarschijnlijk hetzelfde over trekschuiten, de porder, ijsdragers, en videotheekmedewerkers. De AH Online werkt met enorm veel personen in de productie om bijvoorbeeld te orderpicken, maar dat wordt langzaam uitgefaseerd. Twee jaar terug is het eerste Home Shop Center geopend dat bijna volledig geautomatiseerd is. Mijn schoonbroertje heeft in Californië dit jaar in een volledig geautomatiseerde taxi gezeten op weg naar het vliegveld. Gras kan volledig automatisch bijgebouden worden. Robots kunnen woningen stofzuigen.

Jouw vrachtwagen, die door mensen geladen wordt, zal binnen nu en 10 á 15 jaar volledig autonoom rijden en geautomatiseerd geladen worden. Van mening zijn dat AI en automatisering maar onzin is omdat je het nu onzin vindt slaat natuurlijk nergens op. Alles wat geautomatiseerd kan worden zal geautomatiseerd worden. De vraag is niet of, maar wanneer.
Bij AH zouden we de tablets van de boordcomputer ook gaan gebruiken in plaats van papier als we bij de super gaan lossen, dat komt ook maar niet van de grond.
Nog wel ja Maar je Bank niet en andere winkels zullen hier ook gebruik van gaan maken. Amazon bol noem maar op.. Verkiezingen. Hoe dan ook het gaat een onderdeel uitmaken. En beroepen zullen verdwijnen

[Reactie gewijzigd door TheDudez op 4 november 2025 11:22]

Je koffie zal je voorlopig nog wel zelf uit het apparaat mogen halen, maar je vrachtwagen gaat vrijwel zeker op den duur door machines worden geladen (al dan niet aangestuurd met AI), en dat zelf rijden gaat er ook nog wel een keer aan geloven. Het is enkel de vraag hoe lang het gaat duren.
Legio producten die gewoon door mensen van a naar b worden behandeld .kleine bedrijven zullen niet een aipakjesindebusstoppen aanschaffen
Nee die zullen uiteindelijk ten onder gaan. Of zwaar beneden de prijs moeten gaan zitten. Of iets moeten kunnen aanbieden wat AI niet kan.
Ik kan me ergens voorstellen dat de mens in zijn zelfrijdende busje de pakketten voorlopig naar de voordeur blijft brengen, maar we hadden het hier over vrachtwagens. Daarnaast zou het me ook niet verbazen als het busje in het distributiecentrum wel door een machine gaat worden gevuld. De software daarvoor is nu al te schrijven lijkt me, al zal de hardware nog te traag en duur zijn om dit rendabel te maken.
Ai is de toekomst, De mens is een last. misschien maar een geboortestop invoeren, AI kan straks alles. leuk black mirror aflevering
Maar jij gebruikt wel een routeplanner en kaartezen is er ook voor jou niet meer bij.

"Volgend jaar" geef je 5 adressen in en AI zoekt de beste (winstgevenste) route voor je uit, rekening houdende met weersverwachting, verwachte file druk en weet ik hoeveel parameters die betrekking hebben op jouw route.

Nee, natuurlijk wordt niet alles vervangen door AI maar ik weet wel dat er bij mij in het bedrijf behoorlijk minder fouten gemaakt worden door o.a. monteurs omdat we gebruikmaken van AI.
Welk internet? Het dode internet waar alleen bots nog maar reageren met elkaar?
Ja dat geloof ik ook wel, maar is het dan ook gelijk iets goeds of geweldig ? Kunnen er ook niet hele vervelende en wellicht veel gevaarlijke kanten aan zitten ?

Gaat het de wereld echt verbeteren of gaat het juist voor meer ellende zorgen ? Het is er nu en gaat waarschijnlijk ook niet meer weg, maar toch..., misschien is het niet onverstandig om er niet gelijk vol in te springen of direct in mee te gaan.

Dat je er mee te maken krijgt staat buiten kijf.
Zou mooi zijn als Brein dan ook nog even achter de gebruikers van die dataset aan gaat :+
Dat zal Brein waarschijnlijk niet doen, het bang maken van mensen of kleine organisaties met rechtsvervolging of boetes werkt alleen als de andere partij niet over de middelen beschikt om het aan te vechten.

Ik denk dat we wel kunnen veronderstellen dat de AI bedrijven ChatGpt, Deepseek etc. , wat diepere zakken hebben dan Brein, ook zal brein natuurlijk nooit de hand bijten die hen juist blijft voeden. (Microsoft/Google/Adobe etc)
Misschien goed om in deze context te verwijzen naar het werk wat gedaan wordt door:

https://gpt-nl.nl
GPT-NL is een reactie op bestaande taalmodellen. We ontwikkelen een taalmodel voor de Nederlandse taal en cultuur: betrouwbaar, transparant, wederkerig, en soeverein. We kiezen voor kwalitatieve, Nederlandse data en gebruiken alleen data als we die rechtmatig hebben verkregen. Daarnaast zijn we transparant over welke trainingsdata we gebruiken, zullen we open over beslissingen en afwegingen communiceren, en laten we een deel van de opbrengsten terugvloeien naar de auteursrechthebbenden. Op die manier helpen we de digitale positie van Europa versterken, en geven we auteursrechthebbenden een eerlijke plek in de ontwikkeling van technologie.
Ze verwachten begin 2026 een model beschikbaar te hebben wat getraind is op openbare en correct in licentie verkregen data.

Dus de dataset waar in dit artikel over gesproken wordt is dus GEEN onderdeel van GPT-NL
Ik word een beetje moe van BREIN. De hele industrie en iedereen die zonder zijwieltjes kan nadenken zegt: Deze technieken zorgen voor ongebreideld mondiaal aanbod van (betwistbaar) auteursrechtelijk beschermd materiaal. Iedereen die niet moedwillig zich tegen dit concept verzet uit winstbejag, zou dit ook moeten kunnen inzien. Hetzelfde zagen we met MP3tjes. Dan wordt een bedrijfje dus geslachtofferd voor een perfect verdedigbare innovatie te zijn (Metallica anyone?) - en aan het einde van de rit krijgt iedereen die aan het begin al zei dat het nodeloos vertragen en onheuse winstmaximalisatie betrof, alsnog gelijk en leven we dan hooguit een paar seconde op de eeuwigheid later alsnog in de voorstelbare nieuwe realiteit. Same met AI anno nu. Ik word echt moe van dit opzichtige machtsmisbruik om de wetgevers vooral te faciliteren en de industrie die niet wil veranderen erbij te helpen.

[Reactie gewijzigd door Ulysses op 4 november 2025 11:23]

Brein doet gewoon waar het voor opgericht is. Het is een stichting die wordt gerund door een aantal filmmaatschappijen en muziekmaatschappijen. Die hebben Brein de opdracht gegeven om auteursrechtenschendingen aan te vechten. brein kan niet een eigen koers gaan varen op basis van innovatie zoals jij beschrijft.
Ja, en ik doe waar ik voor ingehuurd ben, nadenken over mentale gezondheid - systeem kritiek formuleren en complexe vraagstukken aangaande de ethische implicaties van AI (o.a. in de Zorg) proberen te duiden. Het probleem is niet dat iedereen zijn werk doet, mijn vermoeidheid komt bij het stukje 'naar eer en geweten' - wat ik om strikt kapitalistische motieven, moeilijk vind te plaatsen. Natuurlijk begrijp ik als ondernemer echter ook wel dat het exploiteren van mijn gedachtegoed mijn boterham betekent, maar als dat moet ten koste van anderen, zo direct en zichtbaar - dan weet ik niet goed of ik het dan volhoud. Ik heb het niet over potentiële vergezichten van de kraan laten lopen en afrika dat uitdroogt - maar direct: Rechtspraakcapaciteit benutten ten koste van onvermijdelijke innovatie - die anderen (sociale advocatuur bijv.) beter hadden kunnen gebruiken.
Tot slot is BREIN dus geen strikte Non-Profit zoals te meer duidelijk wordt, maar duidelijk een gefinancierde lobby club met direct winst als effect bejag, want de hele organisatie bestaat bij de winsten die zij op dubieuze gronden vergaart in een complex juridisch taalverhaspeling spelletje, dat niet nodig was zonder gierigheid om mee te beginnen.
auteursrecht beschermen gaat niet ten koste van anderen. Er wordt helemaal niemand benadeeld. brein is inderdaad duidelijk gefinancierd door de stakeholders van Brein. Daar is geen enkele tijd fel over en ze dragen ook niets anders uit. Het is hun taak om auteursrechtschendingen tegen te gaan. Op dit moment kost Brein meer dan het oplevert. Als het voor de stakeholders niet rendabel is gaat de stekker er gewoon uit. Brein maakt geen winst.
Hmm. Is daar dan niet ondertussen al van geleerd? M.a.w. het kwaad is al geschied.
Waar ik me meer zorgen over maak is dat 90% van wat er op internet staat complete onzin is. En al die modellen daar maar van leren.
AI moet natuurlijk ook leren wat onzin is en welke onzin er op internet verspreid wordt.
En dit maakt het percentage zinnige informatie waar AI mee getraind kan worden alleen maar kleiner.

Maar dat mag geen argument zijn om auteursrechtelijk materiaal vogelvrij te verklaren.


Om te kunnen reageren moet je ingelogd zijn