Het is erg dubbel.
Belangrijk: synthetische data is niet nieuw. In machine learning wordt dit vaak gebruikt; het is een eenvoudige manier om je dataset te vergroten met "zilvere" data (data van niet-gouden kwaliteit). In machinevertaling gebeurt dit al decennia (back-translation). Ook belangrijk: van veel data op het net weet je al jaaaaren niet of die nu automatisch vertaald is of niet. Aangezien webdata gebruikt wordt voor het trainen van modellen, zit er dus ook veel "machinevertaalde data" in de trainingdata.
Het is dus een bewezen techniek. Maar wat is de impact ervan? Klaarblijkelijk is de impact positief als het om benchmarks draait. Modellen zoals Microsoft's Phi zijn op erg veel synthetische data getraind en dat leidt tot een model dat snel convergeert omdat je erg nauwe controle hebt over je data en de domeinen die je in je model stopt.
Maar wat dan met de rijkheid van de taal? Die gaat inderdaad achteruit: als je continu op deze manier zal blijven werken, krijg je een loop waar de rijkheid verdwijnt. Je hebt misschien al eens een filmpje gezien: wat gebeurt er als je dezelfde video uploadt, weer downloadt, weer uploadt, weer downloadt... op YouTube. Door compressie wordt de kwaliteit telkens slechter. Iets gelijkaardigs zou hier gebeuren: bij het generen van nieuwe data worden enkel de meest waarschijnlijke tokens/tekst gegenereerd (telkens het topje van de ijsberg), en de minder waarschijnlijke (maar wel taalkundig rijke) teksten krijg je dan niet mee. En als je van het topje het topje afknipt, en ook daar weer het topje af, en nog een keer... blijft er niet veel meer over. Taalkundig gezien (creatieve taal e.d.) gaat het er dus op achteruit.
Maar: ik vermoed dat de nadruk bij het pretrainen zal liggen op niet-synthetische data en dat gewone data de bovenhand heeft (of dat er in alle geval sterk gefilterd zal worden op synthetische data). Ik vermoed dat de synthetische data in dit artikel voornamelijk gaat over instructie-datasets. Die zijn veel moeilijker om te vinden en om aan te maken; daar kruipt erg veel tijd in en een sterke LLM inschakelen om de data voor je te maken, is meer vanzelfsprekend. Ook voor het Nederlands maken we gebruiken van synthetische datasets, maar dat gaat dus wel enkel op deze laatste trainingstap waar we modellen trainen om instructies te volgen.
https://huggingface.co/co...-65a27566212d6aca9a49b873
Ideaal is het niet - maar het is kwestie van "roeien met de riemen die je hebt".
[Reactie gewijzigd door BramVroy op 11 juni 2025 15:44]