Onderzoeksafdeling Foxconn traint taalmodel in vier weken tijd

Het Hon Hai Research Institute, een onderzoeksafdeling van Foxconn, heeft een nieuw taalmodel geïntroduceerd dat in vier weken werd getraind: FoxBrain. Het instituut heeft 120 Nvidia H100-gpu’s gebruikt en voortgebouwd op Llama 3.1 van Meta met 70 miljard parameters.

Foxconn Het onderzoeksinstituut schrijft in een persbericht dat FoxBrain aanvankelijk werd ontwikkeld om binnen Foxconn zelf te gebruiken. Het taalmodel zou bijvoorbeeld ingezet worden om aan data-analyse te doen, beslissingen te helpen nemen en om code te genereren. De onderzoekers hebben besloten om FoxBrain opensource te maken en dat blijft het ook in de toekomst.

De onderzoekers hebben een aangepaste trainingsmethode gebruikt waarbij de focus lag op efficiëntie in plaats van op enkel computerkracht. "We hebben zorgvuldig ontworpen trainingsmethodes ontwikkeld en de nodige optimalisaties doorgevoerd", zegt dr. Yung-Hui Li, directeur van het onderzoekscentrum. Dankzij deze aanpak werd het taalmodel in vier weken tijd getraind met 120 Nvidia H100-gpu’s die met elkaar verbonden waren via Nvidia Quantum-2 InfiniBand. De totale rekenkracht die daarvoor nodig was staat volgens de onderzoekers gelijk aan 2688 gpu-dagen.

FoxBrain zou in vergelijking met het gebruikte Llama 3.1-taalmodel veel betere resultaten halen in wiskunde. Het taalmodel zou ook het beste hedendaagse taalmodel zijn dat werkt met de traditionele Chinese Taal. Het model zou in sommige opzichten nog achterlopen op het DeepSeek R1-taalmodel, maar toch zeer goede resultaten halen. Het Hon Hai Research Institute heeft tijdens het trainingsproces ondersteuning van Nvidia gekregen. Foxconn zal op 20 maart meer details over FoxBrain delen.

IT-banen

Reacties (28)

olafmol 10 maart 2025 15:42

Ik zou het goed vinden dat Tweakers, als tech-site, niet meegaat in het marketing-verhaal dat dit soort modellen "open source" zijn. Dat zijn ze namelijk niet, voor zover ik het kan overzien. Ze stellen de "weights & biases" database beschikbaar, maar niet de onderliggende trainingsdata. Dat laatste kan ook niet, want dan zouden ze ook die van Llama moeten hebben, en die is ook niet opensource.

vriesdemichael @olafmol • 10 maart 2025 22:47

Het is inderdaad niet open source in de zin dat je de hele source inclusief data beschikbaar hebt.

De term open source wordt vaak gebruikt om het onderscheid te maken tussen proprietary modellen waar je alleen via door de eigenaar gehoste web service mee kan praten en modellen waarvan alle benodigdheden om het zelf te hosten beschikbaar zijn. In de meeste gevallen heb je aan de model gewichten genoeg om zelf een model te kunnen hosten en gebruiken.

De gewichten worden ook vrijgegeven met open source licenses op bijv. huggingface.co

Het vraagstuk wordt meer: wat is een source? Je kan bijvoorbeeld een dataset samenstellen van plaatjes waar je expliciet het recht krijgt om de beelden te verwerken en publiceren zonder limitaties. Voor het trainen van een ai model downscale je de plaatjes naar 1000x1000 pixels. De dataset en het model breng je uit met een open source license, maar de originele bron van de plaatjes kan je niet verpakken, hooguit een kopie of verwijzing. Is jouw dataset daarmee de source geworden?

Je kan beargumenteren dat de model gewichten bij large language models een gecomprimeerde versie van de teksten zijn, net zoals bij de dataset met plaatjes. Het is hierbij alleen een stuk lastiger te achterhalen wat de originele bronnen zijn. Je moet degene die de model gewichten dan vertrouwen dat er geen illegaal verkregen bronnen zijn gebruikt.

ApexAlpha @olafmol • 10 maart 2025 16:19

De weights is wat het open source maakt.

De weights is precies wat een taalmodel een taalmodel maakt, net zoals dat de broncode dat doet bij gecompileerde software.

Andere weights totaal ander model. Andere broncode totaal andere software.

Model aanpassen? Gewoon even aan de weights sleutelen, je hoeft niet te reverse engineeren. Net als bij open source software.

De onderliggende trainingsdata vrijgeven kan denk ik niet, dat is gewoon letterlijk het hele internet en meer.

[Reactie gewijzigd door ApexAlpha op 10 maart 2025 16:20]

olafmol @ApexAlpha • 10 maart 2025 16:22

In mijn optiek kan ik met "open source" bij de bron(code). Dat kan ik hier niet. Ik krijg puur het resultaat. Opensource broncode kan ik zelf reviewen, en compileren. Met een weights&biases vector-db kan ik niks zelf reviewen of (her)compileren. In mijn ogen is het niet anders dan een gecompileerde library die ik mag gebruiken.

Travelan @ApexAlpha • 10 maart 2025 16:27

De weights is precies wat een taalmodel een taalmodel maakt, net zoals dat de broncode dat doet bij gecompileerde software.

Hoezo? De executable machine code is dat dan toch?

Andere weights totaal ander model. Andere broncode totaal andere software.

Andere executable, totaal andere software?

Model aanpassen? Gewoon even aan de weights sleutelen, je hoeft niet te reverse engineeren. Net als bij open source software.

Weights = config, niet code.

PaulHelper @ApexAlpha • 10 maart 2025 18:22

Ho nee nee. Je hebt open weights en open source. Open source is echt open source en weet je ook welke data is gebruikt. Dat gaat denk ik niet zo veel voor komen. Open weights daarentegen komt vaak/steeds vaker voor.

Zie @Travelan

[Reactie gewijzigd door PaulHelper op 10 maart 2025 18:22]

latka @ApexAlpha • 10 maart 2025 19:19

Dan is een executable die gecompileerd is met een c compiler in jouw wereld ook open source: beetje disassemble een wat opcodes aanpassen en klaar ben je. De originele c sources vrijgeven hoeft toch helemaal niet je hebt de binary toch?

kuurtjes @ApexAlpha • 10 maart 2025 20:42

De weights is wat het open source maakt.

Dat is zeggen dat elke binary opensource is omdat je gewoon de computer instructies kan bezien...

midego @olafmol • 10 maart 2025 16:27

tl;dr: Foxconn's FoxBrain-model kan wel degelijk als open source worden beschouwd omdat ze de weights & biases openbaar maken. Het ontbreken van volledige trainingsdata doet hieraan geen afbreuk.

De reactie dat het niet 'open source' is omdat alleen de weights en biases beschikbaar zijn en niet de trainingsdata, klopt niet helemaal. De term "open source" in AI-context verwijst namelijk specifiek naar het openbaar maken van de modelparameters, zoals weights en biases, en eventueel ook de broncode van het model zelf. De beschikbaarheid van trainingsdata is niet noodzakelijk om een model als open source te classificeren.

AI-modellen leren door tijdens hun training parameters (weights en biases) aan te passen om patronen in de data te herkennen. Juist deze parameters bepalen hoe het model zich gedraagt en voorspellingen doet. Door deze parameters openbaar te maken, kunnen onderzoekers en ontwikkelaars het model reproduceren, verbeteren en aanpassen aan specifieke toepassingen.

Hoewel het ideaal zou zijn als ook alle trainingsdata openbaar waren, is dit vaak praktisch onmogelijk vanwege auteursrechtelijke beperkingen of privacyoverwegingen. Het ontbreken van trainingsdata betekent echter niet dat een model niet open source is. Integendeel, juist het delen van weights en biases maakt een AI-model open source, omdat dit ontwikkelaars in staat stelt om het gedrag van het model te begrijpen, te reproduceren en verder te ontwikkelen.

olafmol @midego • 10 maart 2025 16:36

Bij mijn weten is Llama niet (geheel) opensource, ze noemen het zelf "open-weight". Hoe kan een model dat op Llama is gebaseerd dan wel opensource zijn? En moeten we het idd niet "open weight" noemen dan?

DJ Henk @midego • 11 maart 2025 08:24

De term "open source" in AI-context verwijst namelijk specifiek naar het openbaar maken van de modelparameters, zoals weights en biases, en eventueel ook de broncode van het model zelf. De beschikbaarheid van trainingsdata is niet noodzakelijk om een model als open source te classificeren.

Er wordt juist betoogt dat dat niet zo is. Als je het daarmee niet eens bent moet je met wat meer argumenten komen dan alleen "Het is zo."

Arckedo @olafmol • 10 maart 2025 16:04

Mijn website is ook open source - je kan met rechterklik + "bekijk broncode" alle website javacript zo downloaden!

[Reactie gewijzigd door Arckedo op 10 maart 2025 16:04]

Loy @olafmol • 10 maart 2025 15:51

100% eens. De weights & biases zijn net als een executable: de uitkomst van het trainen resp. compileren.
Dat het niet op iemand anders z'n server, achter een API, met een accountssysteem, werkt wil niet zeggen dat het open source is.

Thonz 10 maart 2025 15:38

Nu dat trainen een kleiner probleem aan het worden is, hoop ik sterk op het verlagen van de eisen in het gebruik.

In mijn ogen is AI ook geen trainings uitdaging, maar een inference (gebruik) uitdaging.

midego @Thonz • 10 maart 2025 19:44

99% van de gebruikers doet alsof het Google is

Thonz @midego • 11 maart 2025 14:08

Reden te meer om er naar te streven om de eisen aan het gebruik te verlagen.

midego @Thonz • 14 maart 2025 15:06

Waarom? Het is geen Google. Het is een compleet ander product en heeft dus een ander gebruik nodig.

henk717 10 maart 2025 17:32

Voortgebouwd op, sorry hoor maar wij trainde modellen in een weekend voortgebouwd op met slechts 8xA100 voor de 8B. Dat ze dat kunnen zegt niets want het lastige werk is al gedaan. Er zal vast veel data in zitten en daardoor kan het toch nog knap zijn maar een model verder trainen in 4 weken klinkt niet bijzonder.

eth0 10 maart 2025 22:49

traint taalmodel in vier weken tijd? Ze finetunen een llama 3.1 model, de titel is een beetje misleidend alsof zij vanaf 0 begonnen zijn. Die gebuert aan de lopende band, kijk maar eens op huggingface, dus nieuws waare 0?

Jaapvaak 10 maart 2025 15:31

Das best snel, mij lukt het in negen weken, dat vond ik al snel van mezelf.

olafmol @Jaapvaak • 10 maart 2025 15:56

Mag ik vragen wat het jou gekost heeft, 9 weken 120 Nvidia GPU's laten stampen lijkt me niet goedkoop?

treative @olafmol • 10 maart 2025 16:03

Met 120 Nvidia GPU's red je het in 4 weken

olafmol @treative • 10 maart 2025 16:04

ok, 53,333 Nvidia GPU's 9 weken lang dan

Arckedo @olafmol • 10 maart 2025 16:04

Nee, maar wel snel!

Spikeey 10 maart 2025 19:18

voortgebouwd op Llama 3.1

Het is me niet helemaal duidelijk wat dat betekent.
Betekent dat fine tunen? Of dezelfde architectuur gebruiken, maar wel van scratch?
Ik vermoed het laatste want finetunen hoeft namelijk helemaal geen 4 weken te duren en zou dan ook een nietszeggende prestatie zijn, een soort van valse start.

k995 @Spikeey • 10 maart 2025 19:53

idd, ze fintetunen een al bestaande model, deepseek had dat ook.
Niet zo moeilijk dus als het zware werk al door andere gedaan is

TweakerCarlo 11 maart 2025 08:03

Ik kon na een bovenbeen amputatie ook lopen binnen 4 weken.
De manier waarop is dan een dingetje.

[Reactie gewijzigd door TweakerCarlo op 11 maart 2025 08:03]

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (28)

Sorteer op:

Weergave: