Nederland trekt 13,5 miljoen euro uit voor ontwikkeling van eigen AI-taalmodel

Onderzoeksinstituut TNO gaat samen met SURF en het Nederlands Forensisch Instituut een eigen AI-taalmodel ontwikkelen, GPT-NL. Hiermee willen de partijen naar eigen zeggen een 'veilig alternatief' ontwikkelen voor buitenlandse taalmodellen als ChatGPT.

Voor dit project trekt het ministerie van Economische Zaken en Klimaat 13,5 miljoen euro uit, schrijft TNO. Het is de bedoeling dat het eigen taalmodel wordt ingezet door academische instellingen, onderzoekers en overheden, zodat ze een 'veilige, betrouwbare en open omgeving' hebben om grote taalmodellen te onderzoeken en uit te proberen, aldus het onderzoeksinstituut.

Volgens de partijen is het ontwikkelen van een eigen taalmodel belangrijk, omdat buitenlandse large language models 'meestal niet open zijn over de gebruikte data of de getrainde modellen'. Met een eigen taalmodel moeten de maatschappelijke, juridische en ethische waarden van Europa en Nederland worden nagestreefd, stellen ze. Daar zou grote behoefte aan zijn bij dergelijke partijen, zegt AI-onderzoeker Selmar Smit van TNO tegen de Volkskrant. "Als overheid kun je het niet maken om te leunen op de modellen van big tech waarbij er zo slordig wordt omgegaan met trainingsdata."

Het binnenlandse taalmodel gebruikt bijvoorbeeld alleen data voor het trainen van het model als ze daarvoor toestemming hebben van de rechthebbenden, tenzij er geen auteursrecht op de data berust, belooft Smit. Ook moet er rekening worden gehouden met duurzaamheidsaspecten, zoals het energiegebruik van dergelijke modellen.

TNO schrijft dat Nederland met de ontwikkeling van GPT-NL haar 'strategische autonomie, kennis en technologie' op het gebied van grote taalmodellen versterkt. Daarnaast moet dit alternatief bevorderlijk zijn voor 'het werven en behouden van AI-talent', en vormt GPT-NL een 'integraal onderdeel' van 'Europese initiatieven rond het ontwikkelen van gezamenlijke generatieve AI op basis van Europese waarden'. Ook is het de bedoeling dat het Nederlandse taalmodel kan bijdragen aan het verminderen van ongelijkheid en het bevorderen van digitale inclusiviteit en kwaliteitsonderwijs. De drie partijen trekken een jaar uit voor de ontwikkeling van GPT-NL.

Door Kevin Krikhaar

Redacteur

02-11-2023 • 15:17

113

Reacties (113)

113
110
29
3
0
55
Wijzig sortering
Ik vind het ergens wel slim dat ze er nu al mee beginnen, wellicht had ik het alleen nog eerder gedaan maar dat blijft achteraf praten. Als je wacht tot het nuttig wordt, of eigenlijk meer wacht tot men precies weet hoe het nuttig gebruikt moet worden (want aan een nut twijfel ik niet), is de Amerikaanse (of wellicht andere non-EU) Big Tech al lang hier met Nederlandse LLM's en loopt onze "goede" versie altijd achter in kunnen. En hoe langer we wachten, hoe erger dat wordt. Door tijdig te beginnen krijgen we een headstart (of iig lopen minder achter) die nodig is om daar tegenop te kunnen.

Ik weet overigens niet of het genoeg zal zijn. Wellicht voor Nederlands gebruik, gezien die nooit zo'n focus heeft internationaal. De vraag is groter voor gebruik in bijv. het Engels, wat wij als Nederlanders natuurlijk ook veel doen. Maar ik vind dit toch wel een goed initiatief. Het is toch weer een stap naar eigen opties van binnen Europa, en daarmee een stap in het loswrikken van de macht van Amerikaanse tech die door onze afhankelijkheid eraan stand houd. En zelfs als het altijd onder ChatGPT zou blijven kwa hoe goed het werkt, vaak hoeft het niet per se beter te zijn. Zeker als er meer belangen spelen dan enkel kwaliteit van output. Maar het moet wel goed genoeg zijn voor de beoogde toepassing. En daar gaat tijd en geld in zitten.
Ik vind het goed dat onze overheid dit probeert te centraliseren ipv dat diverse instanties het buskruit proberen uit te vinden. Want op div. lokale niveaus is onze overheid allang met ML, ook LLMs.
Elke overheidsdienst die ik spreek ontwikkelen interfaces en gebruikscasussen voor LLM's, met name de OpenAI variant. Ergens goed: "we" zien op tijd de kansen die dit biedt en springen er massaal op, Maar op een gegeven moment kan enige coördinatie handig zijn.

Als dan ook nog een eigen LLM wordt ontwikkeld is dat natuurlijk prima. Ik zou wel willen weten wat er mis is met de open source varianten (zoals Bloom) of zijn die ook te "buitenlands" ?
Ik ken de motivatie niet, maar ik kan al wel wat redenen bedenken waarom je niet afhankelijk wilt zijn van een LLM van derde partijen. Mij lijkt het namelijk heel moeilijk om vooraf te bepalen of zo'n model getraind is om op een specifieke manier te reageren in specifieke situaties.

Dat zou heel concreet kunnen zijn in de zin dat het altijd in het voordeel van bepaalde invloedrijke personen moet reageren, of juist heel subtiel door de gebruiker naar een specifieke "eigen" conclusie te begeleiden. Of juist wanneer je één specifiek codewoord invoert, dat hij dan opeens schadelijke broncode genereert of iets in die richting.

Maar ook voor bepaalde instanties, zoals wellicht defensie, lijkt het mij prettig om niet te afhankelijk te zijn van de technologie van particuliere bedrijven.
Hoeveel van de huidige beschikbare LLM's zijn getraind met Nederlandse wetten en jurisprudentie?

Een AI zou in de rechtspraak een uitkomst zijn voor het uitschrijven van een vonnis (niet het eigenlijke rechtspreken!!!), waarin veel regelmatig terugkomende passages worden opgenomen. Dan kan de rechter volstaan met het nakijken en aanvullen van het vonnis en tijd uitsparen voor het spreken van recht.
Anoniem: 80910 @CivLord3 november 2023 15:46
Ik zou hem eerst alle schoolboeken leren. Data ook labelen in de zin van feit / fabel / fictie etc...

Maarja, ik denk dat dat er nog niet inzit met het huidige budget
ik lees het meer dat het doel is om die kennis te ontwikkelen, dus niet om een nederlandstaal model te maken dat op grote schaal gebruikt wordt. Ik moet wel heel hard lachen om dit in relatie tot de poltiek gedreven discussie van meer Nederlands op de universiteit. Met een NL GPT komt die onzin discussie in een heel ander daglicht te staan.
Ik kan dit even niet volgen. Misschien kun je iets duidelijker uitleggen wat er grappig is en waarom de discussie over Nederlands op universiteiten in een heel ander daglicht komt te staan als er toch geen Nederlandstalig model wordt gemaakt?

Qua 'politiek gedreven discussie'.. Er zit toch per definitie politiek achter taalkeuze / taaleisen? Het is de normaalste zaak van de wereld om in wettelijk te regelen dat [vul hier taal van land x in] wordt gesproken in land x. Bij bepaalde studies begrijp ik het nog wel, omdat je dan per definitie moet kunnen samenwerken met anderstaligen en dan is Engels meestal het meest praktisch, maar als ik het goed begrijp zouden sommigen het hele hoger onderwijs in het Engels doen. Waarom zou je fysiotherapie in het Engels moeten onderwijzen? De enige reden die ik kan bedenken is het aantrekken van nog meer buitenlandse studenten. Het gaat vaak alleen maar geld verdienen.
ja excuses, een rare reactie en ingegeven uit frustratie over de discussie (en ja ik werk op een universiteit). Aan de ene kant is er de internationaliseringsdicussie die nu zich toespitst op het verzoek aan universiteiten om bachelors in het Nederlands te geven. Diezelfde politieke partijen drongen er een jaar of 12 geleden op aan om de taal naar het Engels om te zetten vanwege de wens dat NL meedraait in de top van de internationale wetenschap. En aangezien onderzoek en onderwijs nauw verweven zijn is dat logisch. Voor sommige bachelors is Engels onzinnig (bijv medische beroepen waar je later met NL patienten te maken hebt, zoals je zelf zegt) voor andere is het noodzakelijk (bijv software engineering, en veel andere engineering). Onze universitaire gemeenschap (Twente) heeft zo'n 40 nationaliteiten (!), buitenlands talent dat in NL wil werken vanwege de internationmale sfeer. Engels is simpelweg de voertaal. Iedereen spreekt ook wel wat Nederlands maar niet genoeg om les te geven. Die zet je buitenspel als je onderwijs om gaat zetten in het Nederlands. Al het onderwijs komt dan neer op 60% van de huidige staf den het gaat miljoenen kosten en ik schat een jaar of 5 om alles om te zetten. Die miljoenen worden door de politiek vergeten. Dat geld gaat dus niet naar innovatie. Onderwijs wordt daardoor slechter en studenten krijgen te maken een rommelige periode terwijl ze het al super druk hebben.
Dan hebben we de AI discussie. Heel veel studenten gebruiken ChatGPT voo4r van alles, maar ook voor het genereren van bijv onderzoeksvboorstellen, iets wat je zelf moet kunnen doen. Dus het is enorm moeilijk om te toetsen op kwaliteit als die kwealiteit gegegeneerd is. Het is enorm fraude gevoelig. En dan nu een Nederlandstalige AI (en er is al DeepL). Ik denk dat we dus sowieso daar meoten leren omgaan en anders gaan toetsen, maar taalkennis van stduenten gaat er niet op vooruit (en dat is ook niet de rol van de universiteit).

Hopelijk zo iets duidelijker, maar ik snap dat mijn eerste reaktie raar is!

[Reactie gewijzigd door tw_gotcha op 23 juli 2024 06:24]

Ah. Bedankt voor je toelichting. De overheid heeft er inderdaad een handje van om eindeloos over een besluit te doen en ook net zo makkelijk weer totaal van richting te veranderen. Maar àls er wat besloten wordt, is het vaak meteen 'wet'. In de landbouw is het gebruikelijk na de oogst al tarwe in te zaaien voor het volgende jaar. Die zit bij ons nu al in de grond. Ook plantgoed wordt uiteraard niet op de dag dat je gaat poten pas besteld, maar maanden eerder. Vorig jaar kwam de overheid in februari nog doodleuk met nieuwe eisen qua bouwplan. Ook wordt een nu toegestaan bestrijdingsmiddel soms midden in het seizoen verboden, terwijl er nauwelijks nog alternatieven zijn.

In het geval van de universiteit / hogeschool zou het natuurlijk veel logischer zijn om dat soort eisen geleidelijk te laten gebeuren. Dus niet bestaande profs wegsturen maar bij aanname van een nieuwe wel de nieuwe eisen toepassen. En bestaande contracten na een redelijke termijn laten aanpassen. Dan heeft een leraar bijvoorbeeld nog 3 of 4 jaar om zijn Nederlands te verbeteren.

Overigens staat er nergens, ook niet in de gelinkte artikelen, dat het Nederlandse AI-model exclusief in de Nederlandse taal werkt. Je kunt het dus ook opvatten als een Nederlands model in de zin: Deze variant is in Nederland ontwikkeld en werkt met Nederlandse normen en waarden, zoals: het IP (intellectual property) is netjes geregeld. Zo werd het in ieder geval uitgelegd op RTLZ journaal van 11 uur.
Software is daarintegen wel Engels. Altijd ff woordenboekje erbij. Want referer is zo'n gemaakte fout. Je hebt in het Engels ook streektaal. Dat wordt nog weleens vergeten.

Heb nu 450.000 Engelse woorden, moet ik nog de betekenis van crawlen. En dan kijken of ik met woorden kan toveren en letters kan voorspellen. En dan met zinnen, paragrafen antwoorden uit teksten van Wikipedia. Ik gebruik Engels als basis en het is een zijproject.
Van een universiteit beetje laat…
Tja zoals ik zei zou ik ook eerder zijn begonnen, maar dat is achteraf praten. Zullen ze zelf vast net zo over denken.

Maar ongetwijfeld zijn er op universiteiten al lang kleinere projecten bezig hiermee. Het is niet alsof elk klein project in het nieuws komt. Maar deze grotere hoger budget projecten zijn lastiger. Je kan die niet zomaar bij elke hype dat het nieuwe ít in techworld beloofd te zijn opzetten, zeker niet met hoe vaak tech weer wat nieuws bedenkt de laatste tijd. Daar is gewoon geen budget voor. En dus wacht je tot er meer zekerheid is op hoe veelbelovend iets daadwerkelijk wordt. Dat is er nu duidelijk.
Een veilig alternatief voor modellen als ChatGPT ontwikkelen met een investering van 13.5 miljoen. Ter vergelijking, Microsoft is van plan om 10 miljard te investeren in de doorontwikkeling van ChatGPT. Met een in vergelijking zo'n klein bedrag kun je toch geen serieus alternatief realiseren?
Niet per se, Microsoft investeert in onderzoek en experimenten om resultaten te kunnen behalen die beter zijn in allerlei aspecten dan de LLMs die we vandaag hebben.

Een puur Nederlandse LLM trainen is in principe redelijk "simpel". Je hebt een heleboel data nodig, een LLM framework en je hebt een heleboel dure GPU's (of GPU uren om te huren) nodig.

Meta heeft een bekend open-source model wat goed functioneert. De gebruikte trainingsdata is niet open, maar het model en de weights zijn dat wel. De grootste varianten functioneren in veel gevallen vergelijkbaar met GPT3.5. De hoeveelheid GPU uren op Nvidia's A100-80GB lijn zijn beschikbaar gemaakt door Meta op Github.

Het 7B model is ongeveer 180,000 uren getraind.

Het 13B model ongeveer 370,000 uren.

En het grote 70B model ongeveer 1,700,000 uren.

In totaal komt dat uit op ongeveer 2,250,000 uren

Nu vind ik het moeilijk om in te schatten hoeveel een A100-80GB uur zou kosten aangezien dat verschilt per cloud provider en per configuratie, maar ik kan een schatting maken met de advertentie op lambadalabs.com, die een on-demand prijs vragen van $1,10 per uur. Er zijn sinds kort ook nieuwere, snellere GPUs, dus deze prijs is geen ideale schatting maar je moet wat.

Als je nu als overheid een 7b, 13b en 70b GPT-NL-LLaMa wil trainen heb je dus ongeveer 2,250,000 * 1,10 = $2,475,000 nodig.

Dus het trainen van een state of the art open-source model is goed te betalen met 13.5 miljoen.

Ik kan geen inzicht bieden hoeveel het kost om de data te verzamelen en op te schonen, en ook niet hoeveel de salarissen e.d. zullen kosten, maar ik denk dat het een realistisch genoeg plan is om een of zelfs meerdere degelijke modellen te trainen.
En volgens mij heeft Surfnet met https://www.surf.nl/snellius-de-nationale-supercomputer voor de universiteiten ook gewoon capaciteit beschikbaar om dit met bestaande hardware te doen. Dus je kan vrij snel en vrij goedkoop schakelen verwacht ik. Mooie kans, mooi onderzoek en met een beetje mazzel komt er wat concreets uit.
Een functionerend taalmodel ansicht creëren en het trainen kan initieel makkelijk voor dat bedrag.

Microsoft is niet te vergelijken, hen jaar salarissen per AI engineer zijn al tussen de 150.000 en 250.000 per persoon in de staten. Verder hebben zij uit commercieel belang ook veel meer spoed om nr1 speler te blijven en investeren ze makkelijk 10 jaar vooruit door hen hele multinational heen. Ze kochten eigenlijk hen positie af bij OpenAI.

Sommige opensource alternatieven tot ChatGPT geven al een kosten indicatie als je zelf een LLM zou trainen, draaien en onderhouden.
Ten eerste is het primaire doel van dit project niet om investeerders geld uit de zak te kloppen, dat is wel het primaire doel van OpenAI.

Ten tweede zal dit zich richten op het Nederlandse taalgebied, met dus een aanzienlijk kleiner corpus aan data maar ook aan gebruikers. Dat maakt een aantal zaken een stuk goedkoper.

Of 13,5 miljoen genoeg is weet ik niet (en misschien weet nog niemand dat) maar maar ik kan je wel zo vertellen dat kijken naar de kosten van Microsoft niet zinnig is voor een één-op-één vergelijking. De doelstellingen en schaalgrootte zijn compleet verschillend.
Weer eens een overheidsgat van 13 miljoen dat uiteindelijk een dood product wordt. Dit is veel te complex om slechts een soort taalmodel te creëren. Het is gewoon slecht onderbouwd en zal vast veel voordelen hebben, maar je krijgt de hele social media platform vibe weer. Wij Nederlanders moeten Hyves hebben en behouden, veiliger met data, enzovoort. Echter gaat ondertussen iedereen naar Facebook. Dit voelt een beetje hetzelfde, we moeten maar wat bouwen.

Aan de andere kant vind ik dat je je beter kunt richten op bedrijven zoals verzekeraars die nu complete implementaties van GPT implementeren. Dit is zorgelijk, want je zou je uitgangspunt niet moeten hebben dat je verzekerings data buiten Nederland komt te staan... of toch wel?

En de vervolg stap zou moeten zijn, gelijk met regels beginnen te schrijven over wat wel en niet kan met deze techniek. Dan zorg je ervoor dat het verplicht is om Nederlandse bodem ontwikkelde GPT bestaansrecht te geven in plaats van het een loosly general kan handig zijn voor hun...
Nee sorry, je hebt hierin geen gelijk. Het zou goed een dood project kunnen worden, maar dit is nu dus blijkbaar de plek waar je moet zijn als persoon die hier aan wil werken in Nederland. En het laat zien dat er geld beschikbaar is, en dat er vraag is.

Het is heel mooi dat er nu mensen betaald worden om na te denken over 1. Hoe Nederland dit een beetje vorm gaat geven, en 2. bij te dragen aan AI in de Nederlandse taal (neem ik aan). Dat kan heel positief uitpakken voor de gerichtheid van generatieve AI in het algemeen als dat gedeeld word.

Vooral nu niet in paniek regelgeving op gaan laten stellen door mensen die er per definitie geen verstand van hebben. We zijn ook nog eens niet het enige land in de wereld.
Knap dat je op basis van een enkel persbericht al die conclusies kunt trekken.
Ik zie zo nog niet de meerwaarde. Het gaat getraind worden op data waarvan de rechthebbenden expliciet toestemming moeten geven dus. Klinkt heel netjes, maar ik denk dat het in de realiteit zorgt voor een model dat minder goed functioneert dan bijvoorbeeld ChatGPT.... Toch? Wat is voor mij de meerwaarde om dit model te gebruiken, als een ander model beter werkt. En hoe gaat een LLM bijdragen aan het verminderen van ongelijkheid?

Het klinkt alsof de partijen een probleem aan het oplossen zijn waar in het onderwijs zelf niet per se tegenaan wordt gelopen. Er zou eerst eens gekeken moeten worden hoe docenten en studenten uberhaupt effectief AI kunnen inzetten in het onderwijs. Ik heb veel docenten hierover gesproken en ik denk dat daar het grootste deel al strandt.
Er lopen momenteel zaken tegen ChatGPT omdat deze aantoonbaar is getrained op materiaal waar die toestemming niet voor is gegeven. Stel dat dat negatief uitpakt voor OpenAI, dan moeten ze die data eruit halen, wat technisch helemaal niet kan. Enige wat je dan kunt doen is opnieuw beginnen met trainen.

Dat is best een risico, een integratie met een model dat potentieel steeds weer opnieuw moet worden getraind omdat er weer een rechtzaak is aangespannen. Ja het werkt wellicht beter door de grote(re) hoeveelheden data, maar de kans op 'terug naar af' is er ook.

Dan kun je de overweging maken om voor een model te gaan dat wellicht in de basis minder goed werkt, maar wel overal goedkeuring voor is, zodat je die terugval nooit voor je kiezen krijgt.
We kunnen het toch niet laten gebeuren dat deze technologische stap voorwaarts nu de kop in word gedrukt omdat er mensen zijn die er liever geld aan verdienen?

Deze modellen zijn inmiddels te finetunen en met een 7B model, kun je maar zo dezelfde soort resultaten zien als gpt3.5. Dit is allemaal online te downloaden, het gaat dan om bestanden van enkele GBs grootte. Ik heb het hier letterlijk op mijn home server draaien. Ik gebruikt chatgpt alleen nog maar als ik er daar niet uit kom.

Deze geest gaat de fles nooit meer in, en hoe sneller we dat accepteren, hoe beter.

Mensen die te veel met de wet die bezig zijn, denken soms dat deze de realiteit beschrijft. Maar dat is niet waar. Het is andersom.
Ik ben het met je eens dat je al te veel blindstaren op de wet problematisch is. Wetten zijn meningen van een democratische meerderheid (als het goed is) en die worden gelukkig ook regelmatig aangepast.

Maar, juridisch is zo'n filosofisch standpunt niet heel veel waard voor een partij in het bedrijfsleven die graag ChatGPT zou willen integreren in hun producten maar die geen zin hebben om aangeklaagd te worden omdat ChatGPT een hele alinea uit een auteursrechtelijk beschermd werk heeft gekopieerd en dat doodleuk integraal in een antwoord heeft gestopt wat jouw bedrijf nu op de website heeft staan.

Ik zou zelf voor mijn bedrijven altijd de voorkeur geven aan een betrouwbaarder partij dan OpenAI waar je dat risico niet loopt.
Een alinea uit een ander werk? Oh nee...

Succes met de rechtszaak 😀
De grap is natuurlijk dat het model een statistische representatie heeft opgeslagen van de werken van iemand anders, zonder diens toestemming, en die informatie gebruikt om (heel veel) geld te verdienen. En de originele maker van het werk letterlijk 0,0 vergoeding geeft voor het gebruik en de herpublicatie en distributie van statistische representatives en afgeleiden van diens werk.

Zeg maar een architect ontwerpt heel veel mooie huizen, je traint een AI zonder overleg of vergoeding op zijn ontwerpen, en genereert nu huizen met exact dezelfde kenmerken als de huizen van de architect.
Het AI-model bevat wiskundige representaties, correlaties en eventueel generalisatie s van de originele ontwerpen van de architect.

Zonder het werkt van de architect zou het AI-model andere uitkomsten geven, dat betekent dat het werk van de architect significante invloed heeft op hoe het model functioneert. En dus het werkt van de architect is opgeslagen en actief wordt gebruikt door het model.

Op dit moment worden mensen betaald voor de muziek, boeken, films, ontwerpen etc. die zij gemaakt hebben. Ook nadat het een keer gehoord, afgespeeld of gebruikt is.

[Reactie gewijzigd door djwice op 23 juli 2024 06:24]

Anoniem: 80910 @djwice3 november 2023 16:11
Ik mis daar de techniek in dat rijtje. Muziek speelt zichzelf niet af. Een .txt als boek kan maar heb je geen opmaak / illustraties. Films speelt zichzelf niet af.

En laat de toepassing nu net anders zijn (nieuw) dan een boek. Al heb ik afleveringen van het herschrijven van boeken gezien. Je mag quoten, en dat zijn paragrafen. Die mag je volgens mij zo gebruiken...
Het juridisch aspect weegt doorgaans zwaarder dan andere aspecten. Is regelmatig ook doorslaggevend, ondanks dat het een mening van een democratische meerderheid is.
Inmiddels heb je modellen die compleet getraind zijn op een open source "foundation model" (die zijn echt heel erg duur om te maken) met synthetische data die rechtstreeks uit gpt-4 komt. Dus ookal zou OpenAI nu het onderspit delven, dan nog heb je op dit moment(ik kan het niet genoeg zeggen, deze draaien op een consumer videokaart en zijn enkele gigabytes groot, dat is niet te geloven.) modellen die DIE data weer gebruikt hebben. Dus waar eindig je dan? En wat heb je dan eigenlijk bereikt als aanklager als je hebt gewonnen? Dat je een het bedrijf met miljarden aan research en extreme gedreven, goede mensen om zeep helpt? Jouw data is daar eigenlijk gewoon nog steeds.

Hoe dan ook, laten we vooral vooruit kijken, en niet proberen ons grammetje te halen.
We kunnen het toch niet laten gebeuren dat deze technologische stap voorwaarts nu de kop in word gedrukt omdat er mensen zijn die er liever geld aan verdienen?
Als dat argument hout zou snijden zouden we sinds het delen van mp3 bestanden geen auteursrecht meer hebben.
De rechter in de VS heeft de eerste zaak van rentseekers grotendeels afgeserveerd. Dus ik zou me echt niet druk maken over rechthebbenden. Daarnaast is 13,5 miljoen lachwekkend weinig, dat kost het al om één ChatGPT trainingsrun uit te voeren.

Succes, NL. Het is weer eens te weinig, te laat en te voorzichtig om echt iets te kunnen. Maar wel leuk dat een aantal wetenschappers weer kunnen spelen met computers. Verwacht alleen geen product want ze gaan het tempo van OpenAI natuurlijk nooit bijhouden zo.
Anoniem: 80910 @bzzzt3 november 2023 16:33
Waar is die thuiskopie heffing voor dan, is al betaald, hebberigheid houdt geen stand in deze wereld...
Daar heeft de rechter al over geoordeeld: voor het maken van kopieën uit legale bron voor eigen gebruik.
Er lopen momenteel zaken tegen ChatGPT omdat deze aantoonbaar is getrained op materiaal waar die toestemming niet voor is gegeven. Stel dat dat negatief uitpakt voor OpenAI, dan moeten ze die data eruit halen, wat technisch helemaal niet kan. Enige wat je dan kunt doen is opnieuw beginnen met trainen.
En voor elk antwoord dat gegeven wordt aantoonbaar maken op welke datasets (en bijbehorende licenties) het model gebaseerd is waarop dat antwoord op dat moment in tijd is gegeven, en het antwoord reproduceerbaar maken gebaseerd op het model op dat moment in tijd.
Daarnaast zijn steeds minder datasets openbaar te lezen voor AI, en word de input tegenwoordig vervuild door onzin die eerder door AI is uitgespuwd. Het zou goed kunnen dat AI straks sowieso niet meer op het open internet getraint gaat worden. Het is immers garbage in, garbage out.

[Reactie gewijzigd door Wolfos op 23 juli 2024 06:24]

Als ethiek een belangrijke eis is kun je natuurlijk niet zomaar stellen dat bestaande systemen die andermans gegevens maar ongevraagd gebruiken beter zijn. We accepteren ook niet zomaar waardevolle gegevens van anderen als deze onredelijk tot crimineel verkregen zijn, dan is het ook gepaster om de gegevens van de AI-diensten niet zomaar te accepteren omdat het inhoudelijk goed uit komt.
Ik ben het met je eens dat de waarde dan niet genoeg kan zijn, maar het lijkt me dat ze genoeg geld krijgen om het tegendeel te bewijzen. En anders moet mogelijk de conclussie zijn dat AI-diensten het voorlopig niet halen zonder ethische grenzen te negeren.
Het ethische aspect van het gebruik van privacy gevoelige data zijn we helaas al vele jaren geleden gepasseerd. Kijk wat facebook of instadamn deelt aan (herknbare) data van personen die vaak nooit en te nimmr toestemming hebben gegeven, en dit zijn dan nog maar de visueel herkenbare aspecten. De soms meer dan 1500 prive kenmerken waar een zogenaamd 'profiel' uit is opgebouwd door 'digitale overheden' als facebook of google zijn niet eens zichtbaar.

Dat gaan we ook helaas nooit meer terugdraaien, deels door culturele veranderingen en om politieke en electorale redenen.

Dit initiateif is ook helemaal niet bedoeld voor de prive persoon, maar gericht op overheden en academici, Een soort van veilig gecontroleerde ai omgeving waar EU-waarden en normen aan verbonden zijn.

Vergeet niet kennis is macht, en ai is toepasbare macht, dat door Jan en alleman toegankelijk is. Ik kan me zo voorstellen dat er overheidsfuctionarisen en wetenschappers zijn die dit nu al niet meer zien zitten...we zijn pas in een prille fase van ai ontwikkeling. Vergelijkbare gedachtes had je ook begin jaren 90 m.b.t. het internet dat was voor velen ook heel eng en overheid wist toen ook nog niet hoe ze er richting aan moesten geven, zeker in relatie tot het publicren van (privacy) data (destijds nog een hele leuke bijeenkomst over gehad met Marleen Stikker)

[Reactie gewijzigd door litebyte op 23 juli 2024 06:24]

Als criminelen al jaren de wet overtreden dan is dat ook niet zomaar een argument om het maar te accepteren. Dat heeft meer weg van geen zin in ethische grenzen hebben dannze willen handhaven.
Ik vind de vergelijking wat krom. Er is namelijk geen wetgeving die facebook en andere legitieme spyware zo veel data te laten verzamelen. Los van het feit dat als ze zich niet aan de wet houden er met een 'foei toch' boete van af komen.
Onredelijk is een kwestie van perspectief. Het lijkt mij onredelijk om deze vooruitgang teniet te doen omdat een paar hele kleine partijen er geen trek in hebben.

Onrechtmatig is het ook al niet - trainen van AI is een expliciete uitzondering op het copyright.
Dat een paar bedrijven een ethische grens duidelijk makennwil niet zeggen dat men in een minderheid is. Het maakt daarmee net zo min de ethische grens (of gebrek daaraan) van de bedrijven en gebruikers die zich weinig tot niets van mijn en dein aantrekken belangrijker.
Wettelijk zijn er wel degelijk belangrijke grenzen om andermans gegevens niet zomaar te gebruiken. Voorbeelden zijn persoonlijke gegevens, gevoelige gegevens en wanneer er extra eisen zijn aan gebruik. En zolang de AI-bedrijven zich niet duidelijk tot niets van deze grenzen aantrekken lijkt het me eerder redelijk dat het wel duidelijk de grenzen respecteren de grens is.
Ik ben het met je eens, met "beter" heb ik het over functioneel "beter". Dus betere resultaten als ik een vraag stel. Dat staat natuurlijk los van het feit dat de trainingsdata misschien onrechtmatig verkregen is.

Die conclusie gaat niks veranderen ben ik bang... Als we kijken naar social media en soortgelijke diensten, worden deze grenzen al heel lang genegeerd. Zolang het ons leven makkelijker en leuker maakt op de korte termijn, is bijna iedereen bereid de rest van de gevolgen te negeren.

Vandaar mijn vraagtekens bij dit project. Er worden problemen opgelost die het gros niet ziet als een probleem. Zolang bijv. ChatGPT maar de beste en snelste antwoorden geeft, zal het de meesten niet interesseren.
We mikken dan ook niet op het gros, maar op partijen (zoals overheidsinstanties) die het niet kunnen maken om hun ogen te sluiten voor dat soort problemen
In principe kan bijna niemand het in de EU maken om gegevens te gebruiken waarmee men onvoldoende zekerheid heeft dat deze legaal verwerkt zijn. Dat veel bedrijven en personen er mee weg komen is daarbij geen argument. Daarbij kan er ook niet zomaar beargumenteerd worden dat het negeren van de grenzen een redelijke keuze is wanneer er alternatief is wat het wel toepast.
Maar dit is niet een AI van een commercieel bedrijf dat een product af moet leveren dat qua kwaliteit en volledigheid van de antwoorden moet concurreren met ChatGPT. (Al zou het daar wel toe kunnen leiden.)
Het is inde eerste plaats een project van een paar onderzoeksinstellingen waarbij (aankomende) onderzoekers opgeleid worden of ervaring opdoen in het ontwikkelen van AI en waarin onderzocht wordt hoe je een goed LLM op kan zetten zonder de minpunten van bv. ChapGPT.
ChatGPT is niet het eindpunt van LLM. Het is eerder het embryonale startpunt van door het brede publiek toepasbare LLM's. Er gaat nog een enorme ontwikkeling en komen en het is goed dat de overheid stimuleert om ook Nederlandse onderzoekers daar deel in te laten nemen.
Is GPT geen handelsmerk? Dacht dat LLMde neutrale term was. Of maken ze gebruik van de GPT techniek maar puur eigen bronnen voor training (zou relatief lage budget verklaren)
Goede vraag, het antwoord is dat het een algemene afkorting voor Generatieve vooraf getrainde Transformator:
https://nl.m.wikipedia.or...e_pre-trained_transformer
Fijn dat we nu Nederlandse partities krijgen :+
In de EU is het zeker een handelsmerk van OpenAI:

https://euipo.europa.eu/e...ails/trademarks/018836652

In de VS loopt de aanvraag nog.
Ik kan niet beoordelen of ChatGPT onveilig is of niet, als je ziet wat bedrijven als google, Amazon of facebook naar binnen vreten aan (zeer privacy gevoelige) data kan ik nog wle wat andere 'veilige' alternatieven bedenken waar de Nederlandse overheid geld aan kan besteden.

Wat ik wel zie bij ChatGPT is dat het tevens wil fungeren als een soort van moraalpolizei, dat vind ik een zeer enge ontwikkeling. Als ik een gerichte vraag stel over een bepaald onderwerp, wil ik niet een moralistisch verhaal krijgen of iets bijvoorbeeld kwetsend is of niet
(Technisch) onveilig is wellicht niet zo zeer het issue als je het bekijkt vanuit perspectief van OpenAI, die zullen wel aan bepaalde standaarden blijven voldoen. Ditto met cloud providers, maar ze kunnen maar tot op een bepaalde hoogte risk management als business garanderen.

ChatGPT zelf is ook helemaal niet open source bijv er zijn wel legitieme alternatieven die dat wel zijn overigens. Overheden hebben gewoon andere requirements. Zowat elk land is inmiddels een eigen implementatie aan het bouwen en dit wordt ook wel voor nationaal belang straks toegepast.

Zolang het in eigenbeheer blijft en in de eigen achtertuin omzeilen ze veel van de potentiële nadelen (privacy) en/of limitaties van een commerciële partij (uit het buitenland).

[Reactie gewijzigd door _Joe_ op 23 juli 2024 06:24]

Ik zie nergens aangegeven dat het Nederlandse initiatief wel open source wordt. Ik kan me ook voorstellen dat in de nabije toekomst taalmodellen elkaars data tot zich nemen, als dit nu al niet gebeurd.

Het punt is beetje ook of straks buitenlandse taalmodellen zich mogen blijven richten op NEUderland
Ik hoop dat ze dan ook meer Nederlandse teksten in de trainingsdata meenemen. Het beste taalmodel dat ik kon vinden dat specifiek op Nederlands getraind is, is https://huggingface.co/BramVanroy/Llama-2-13b-chat-dutch

GPT-4 kan redelijk goed Nederlands, maar kan niet lokaal draaien wat een must is voor sommige toepassingen waarbij de inputtekst niet naar het internet verstuurd mag worden. Ik hoop dat dit nieuwe model publiek / open source wordt!
En nog mooier, we gaan de corpus ook open beschikbaar maken voor anderen
Een model alleen op Nederlands trainen, is al optimistisch want er zijn maar een beperkt aantal teksten in het Nederlands. Het is wat simplistisch, maar hoe meer hoe beter. De beste zoals chatgpt en facebook gebaseerde profiteren van het Engels met zijn vele teksten aangevuld met andere grote talen zoals Frans, Spaans, ...

En dan gaan ze zich ook nog in de voet schieten door het veel sterker te beperken:
gebruikt bijvoorbeeld alleen data voor het trainen van het model als ze daarvoor toestemming hebben van de rechthebbenden
Auteursrecht is 70 jaar na de door van de auteur. Waardoor teksten zonder copyright van voor de eerste Wereldoorlog het grootste aandeel zullen hebben. Ik kan al voorspellen wat voor waardeloos dom en beperkt model ze hier mee zullen hebben, maar smijt gerust maar 13,5 miljoen weg om het ook te ontdekken.
En "veilig alternatief", 8)7 veel succes met oude teksten. Die hebben inherente waardepatronen waar mensen die vooral veilig willen, oprispend maagzuur van krijgen.
Het model gaat dan ook bi-langual (Nederlands/Engels) worden, en niet enkel op Nederlandse tekst worden getraind. Want anders heb je inderdaad een te beperkte set.
Zou mooi zijn als dit zo is. Hopelijk wel dat de tokeniser Nederlands-eerst worden getraind/gefit als ze van scratch beginnen.

Een Engelse tokeniser gebruiken op een Nederlandse tekst werkt op zich, maar het is veel efficiënter als je dit doet op de taal die je primair vast gebruiken. Hierdoor krijg je veel betere voorspellingen van de opeenvolgende tokens.
Je bedoelde vast “jullie” ipv “ze” 😄
Haha, ik had helemaal niet door dat je/jullie er aan ging (mee) ontwikkelen. Mooi werk!
Dat auteursrechten gerespecteerd worden hoeft niet enkel te betekenen dat enkel teksten gebruikt kunnen worden waarop geen auteursrecht (meer) rust.
Je zou ook de rechthebbende vriendelijk kunnen vragen of je zijn teksten mag gebruiken. Stel dat je zo krantenarchieven, universeitsarcheven ed. kan gebruiken, dan heb je al heel veel trainingsmateriaal. En zo zullen er meer archieven zijn met veel teksten die voor een dergelijk niet-commercieel project opengesteld kunnen worden.
Zolang ze zich maar beseffen dat dit een money-pit wordt om geld in te gooien. Die 13,5 miljoen brand je zo weg voor een dergelijk project, al is het alleen maar aan de mensuren om de output te classificeren, iemand gaat het model moeten zeggen wat goed of fout is. OpenAI gebruikt hier bijvoorbeeld laag betaalde off-shore resources voor, iets waar nogal vraagtekens bij geplaatst worden vanuit een ethisch perspectief.
Dat is waarom ze op de universiteiten (waar SURF een samenwerking van is) studenten en onderzoekers in opleiding voor hebben uitgevonden. :)
OpenAI heeft 10 keer een geldbedrag van 100.000 dollar ter beschikking gesteld voor waardevolle projecten met inzet AI. Van de circa 800 projectvoorstellen zijn er 10 gekozen (wereldwijd). Een project van de gemeente Eindhoven is er één van (en de enige in Nederland).

Ze hebben een 'AI gespreksleider' ontwikkeld waarbij sociale onderwerpen besproken kunnen worden die spelen in de gemeente Eindhoven (in gesprek met bewoners). De deelnemers praten via webcams met elkaar en de AI gespreksleider kan zien en horen of iedereen nog bij de les is, scheld, of te lang aan het woord is en kon dan bijsturen in het gesprek. Je mocht zo lang als je wilde deelnemen aan de gesprekken. Uiteindelijk zijn er circa 250 stellingen door deelnemers zelf geformuleerd en duizenden stemmen erop. De AI was louter de gespreksleider, en geen participant in het gesprek. De gesprekken zijn in het Nederlands, dus zo raar is een Nederlandse LLM niet.

Achtergrond: https://www.dembrane.com/blog/openai-grant-democratic-inputs
en eerste resultaten: https://www.dembrane.com/blog/report-openai-october-2023

Op dit item kan niet meer gereageerd worden.