Nvidia en Perplexity gaan met Europese bedrijven aan lokale AI-modellen werken

Nvidia en AI-bedrijf Perplexity gaan met zeker tien AI-bedrijven in Europa en het Midden-Oosten samenwerken om hun AI-technologieën te verfijnen. Zo gaat Nvidia met organisaties in Frankrijk, Duitsland, Italië, Polen, Spanje en Zweden werken aan AI-modellen in lokale talen.

Deze AI-modellen moeten redeneermodellen worden die complexere taken kunnen uitvoeren, schrijft Reuters. Er is echter veel data nodig om dergelijke modellen te trainen, maar zoveel data is niet altijd beschikbaar voor lokale talen. Nvidia gaat modelmakers daarom helpen om data te genereren voor deze lokale talen, zegt Kari Briski, vicepresident van generative AI software for enterprise bij Nvidia. "We genereren veel synthetische data voor talen waarvan weinig materiaal beschikbaar is en vertalen onze redeneerdata, zodat zij daarop kunnen trainen."

Als de lokale modellen getraind zijn, helpt Perplexity om ze in Europa te distribueren. Bedrijven kunnen de AI-modellen dan in lokale datacenters draaien en ze gebruiken om zakelijke taken uit te voeren. De financiële details van deze samenwerking zijn niet bekendgemaakt.

Door Eveline Meijer

Nieuwsredacteur

11-06-2025 • 14:36

12

Reacties (12)

12
12
10
3
0
2
Wijzig sortering
Ik ben waarschijnlijk te dom, maar...
We genereren veel synthetische data voor talen waarvan weinig materiaal beschikbaar is en vertalen onze redeneerdata, zodat zij daarop kunnen trainen.
Dus generatieve AI maakt fake brondata die dan de leerstof moet zijn voor... andere generatieve AI?
Of hoe komen ze aan die synthetische data?

Als het klopt dat AI data gaat genereren om andere AI op te trainen... Ben ik dan de enige die dat een niet-zo-geweldig (ofwel dom) idee vindt? Gelijkaardig aan hoe ik het ook geen geweldig idee vindt om AI te trainen op basis van input en bijhorende output uit een ander AI-model. Kostenefficiënt zal het wel zijn, maar kwalitatief...?

Ik begrijp dat je voldoende volume moet hebben om op te trainen en dat dit daar een oplossing voor is. Maar toch... Lijkt me een gevaarlijke piste. Of zie ik dat verkeerd?
Het is erg dubbel.

Belangrijk: synthetische data is niet nieuw. In machine learning wordt dit vaak gebruikt; het is een eenvoudige manier om je dataset te vergroten met "zilvere" data (data van niet-gouden kwaliteit). In machinevertaling gebeurt dit al decennia (back-translation). Ook belangrijk: van veel data op het net weet je al jaaaaren niet of die nu automatisch vertaald is of niet. Aangezien webdata gebruikt wordt voor het trainen van modellen, zit er dus ook veel "machinevertaalde data" in de trainingdata.

Het is dus een bewezen techniek. Maar wat is de impact ervan? Klaarblijkelijk is de impact positief als het om benchmarks draait. Modellen zoals Microsoft's Phi zijn op erg veel synthetische data getraind en dat leidt tot een model dat snel convergeert omdat je erg nauwe controle hebt over je data en de domeinen die je in je model stopt.

Maar wat dan met de rijkheid van de taal? Die gaat inderdaad achteruit: als je continu op deze manier zal blijven werken, krijg je een loop waar de rijkheid verdwijnt. Je hebt misschien al eens een filmpje gezien: wat gebeurt er als je dezelfde video uploadt, weer downloadt, weer uploadt, weer downloadt... op YouTube. Door compressie wordt de kwaliteit telkens slechter. Iets gelijkaardigs zou hier gebeuren: bij het generen van nieuwe data worden enkel de meest waarschijnlijke tokens/tekst gegenereerd (telkens het topje van de ijsberg), en de minder waarschijnlijke (maar wel taalkundig rijke) teksten krijg je dan niet mee. En als je van het topje het topje afknipt, en ook daar weer het topje af, en nog een keer... blijft er niet veel meer over. Taalkundig gezien (creatieve taal e.d.) gaat het er dus op achteruit.

Maar: ik vermoed dat de nadruk bij het pretrainen zal liggen op niet-synthetische data en dat gewone data de bovenhand heeft (of dat er in alle geval sterk gefilterd zal worden op synthetische data). Ik vermoed dat de synthetische data in dit artikel voornamelijk gaat over instructie-datasets. Die zijn veel moeilijker om te vinden en om aan te maken; daar kruipt erg veel tijd in en een sterke LLM inschakelen om de data voor je te maken, is meer vanzelfsprekend. Ook voor het Nederlands maken we gebruiken van synthetische datasets, maar dat gaat dus wel enkel op deze laatste trainingstap waar we modellen trainen om instructies te volgen. https://huggingface.co/co...-65a27566212d6aca9a49b873

Ideaal is het niet - maar het is kwestie van "roeien met de riemen die je hebt".

[Reactie gewijzigd door BramVroy op 11 juni 2025 15:44]

Zie je goed, echter ga maar eens een ‘gratis’ dataset met Nederlandse taal vinden die je mag gebruiken.
Veel van de LLMs die Nederlands kunnen, zijn afaik getraind met GigaCorpus-NL, en sinds brein die heeft genuked is er weinig cools over.
Volledig onjuist.

Er zijn verschillende web datasets beschikbaar waar Nederlandse data in zit, bv. CulturaX, FineWeb-2 en HPLTv2. [Fietje](https://huggingface.co/BramVanroy/fietje-2) is bv. getrained met een gefilterde versie van CulturaX.

Het probleem ligt 'em bij de tweede stap van het trainen. Synthetische data gaat vaak om de post-training stap (instruction tuning, preference alignment). Open, handgemaakte instructiedatasets zijn er bij mijn weten niet voor het Nederlands. Daarvoor gebruiken we dan inderdaad synthetische datasets, zie bv.: https://huggingface.co/co...-65a27566212d6aca9a49b873

[Reactie gewijzigd door BramVroy op 11 juni 2025 15:44]

Supercool om door de maker van Fietje te worden gecorrigeerd. Van de andere datasets wist ik het bestaan niet, maar wel fijn dat deze kunnen worden gebruikt.

Is het missen van de GigaCorpus-NL nog van invloed bij het maken van Fietje 2, of is dat eigenlijk nihil?

Overigens, ontzettend bedankt voor jouw inzet, ik maak er graag gebruik van :D
Moeilijk om in te schatten maar ik verwacht dat er best veel nuttige informatie in gigacorpus zit die voor bepaalde use cases interessant had kunnen zijn. Maar als het puur gaat om vloeiend Nederlands te produceren is het niet noodzakelijk, dat kan het model ook uit andere data leren. Maar specifieke kennis uit het gigacorpus vind je mogelijk niet elders terug. Al weet ik niet wat er exact in zat.
wat ik me dan afvraag, hoe lastig zou het zijn om 'met zijn allen' lees bijvoorbeeld hier op het tweakers forum een dataset te verzamelen die vervolgens te trainer is als personal asistent / home asistant.

bijvoorbeeld door te mikken op een dataset die klein genoeg is om op een super oude gpu te draaien, maar slim genoeg om lampen en andere aparaten in en uit te schakelen, het weer of het laatste nieuws op te halen een ontvangen email voor te lezen of er eentje te sturen (van het caliber: beste <persoon> dank voor je uitnodiging, ik ben helaas verhinderd hopelijk tot een volgende keer, met vriendelijke groet; en niet veel slimmer dan dat.

heel veel van die datasets zijn inmens groot en 16of liever nog 20+ gb vram is vaker noodzaak dan regel. OF ze zijn kleiner maar zijn werkelijk nergens goed voor. volgens mij moeten we als we als tweakers onder elkaar eens gaan puzzelen toch wel met iets beters kunnen komen. een dataset aan mail berichten, een zooi opnames van gesprekken met google home (als je die via take-out zou kunnen opvragen en misschien nog een zooitje andere data

wellicht denk je nu .. kon dat maar.. en dan zou ik heel graag eens van een expert horen/lezen waarom dit juist wel of niet kan.
Dat kan zeker! Er waren eerder all crowd source initiatieven on datakwaliteit te verbeteren zoals "data is better together". Maar jammer genoeg begin je daar met enkelen enthousiast aan maar loop je al snel tijd en energie te kort om er iets écht leuk van te maken.

Je lijkt wel dataset en model door elkaar te haken. De grootte van de dataset heeft niets te maken met hoeveel vram je nodig hebt of hoe modern je GPU moet zijn. Je traint een model in mini batches (stukje data per keer) en enkel dat stukje moet per keer naar de GPU verplaatst worden. Niet alles in een keer.

Veel van wat je al wil kan al met open modellen, alleszins de grote. Je lijkt specifiek te zoeken naar "tool calling" waarmee de LLM aangeleerd is om een query om te zetten naar een voorgedefinieerde functie, zoals het weer raadplegen. Wat ontbreekt zijn tool calling datasets voor het Nederlands en kleine modellen die goed zijn in het Nederlands en ook tool calling kunnen doen.
andere landen hebben innovatie, wij hebben brein
Is dit niet een model zoals de "Llama 4 Behemoth" die onmenselijk groot is, maar gebruikt wordt om de kleinere modellen op te trainen (of "to distill" zoals ze het noemen in AI)

voorbeeldbron

En natuurlijk alles wat bvb in het engels beschikbaar is, kan je naar het nederlands vertalen om hier vervolgens je ai op te trainen.

Zou wel leuk zijn moesten ze een soort van generic machine-taal maken die erg efficient kan omgezet worden naar eender welke taal.

[Reactie gewijzigd door Prince op 11 juni 2025 15:10]

Dat gebeurt in se al. Als je met een multinguale LLM werkt, wordt je input omgezet naar vectoren. Een Nederlandse inputzin en een Engelse inputzin met dezelfde betekenis komen neer op ongeveer dezelfde gemiddelde vector. Vectoren dienen dus als abstracte weergave van betekenis, en die zijn interoperabel tussen talen.
offtopic:
Ik heb nog geen Witte Ruis-model, dus mij lijkt het wel een leuke toevoeging voor de verzameling. :+

Maar serieus - daar hebben ze vast wel een beetje over nagedacht, want de exercitie is kostbaar genoeg.

Op dit item kan niet meer gereageerd worden.