Onderzoeksafdeling Foxconn traint taalmodel in vier weken tijd

Het Hon Hai Research Institute, een onderzoeksafdeling van Foxconn, heeft een nieuw taalmodel geïntroduceerd dat in vier weken werd getraind: FoxBrain. Het instituut heeft 120 Nvidia H100-gpu’s gebruikt en voortgebouwd op Llama 3.1 van Meta met 70 miljard parameters.

FoxconnHet onderzoeksinstituut schrijft in een persbericht dat FoxBrain aanvankelijk werd ontwikkeld om binnen Foxconn zelf te gebruiken. Het taalmodel zou bijvoorbeeld ingezet worden om aan data-analyse te doen, beslissingen te helpen nemen en om code te genereren. De onderzoekers hebben besloten om FoxBrain opensource te maken en dat blijft het ook in de toekomst.

De onderzoekers hebben een aangepaste trainingsmethode gebruikt waarbij de focus lag op efficiëntie in plaats van op enkel computerkracht. "We hebben zorgvuldig ontworpen trainingsmethodes ontwikkeld en de nodige optimalisaties doorgevoerd", zegt dr. Yung-Hui Li, directeur van het onderzoekscentrum. Dankzij deze aanpak werd het taalmodel in vier weken tijd getraind met 120 Nvidia H100-gpu’s die met elkaar verbonden waren via Nvidia Quantum-2 InfiniBand. De totale rekenkracht die daarvoor nodig was staat volgens de onderzoekers gelijk aan 2688 gpu-dagen.

FoxBrain zou in vergelijking met het gebruikte Llama 3.1-taalmodel veel betere resultaten halen in wiskunde. Het taalmodel zou ook het beste hedendaagse taalmodel zijn dat werkt met de traditionele Chinese Taal. Het model zou in sommige opzichten nog achterlopen op het DeepSeek R1-taalmodel, maar toch zeer goede resultaten halen. Het Hon Hai Research Institute heeft tijdens het trainingsproces ondersteuning van Nvidia gekregen. Foxconn zal op 20 maart meer details over FoxBrain delen.

Door Jay Stout

Redacteur

10-03-2025 • 15:28

28

Reacties (28)

28
27
15
3
0
6
Wijzig sortering
Ik zou het goed vinden dat Tweakers, als tech-site, niet meegaat in het marketing-verhaal dat dit soort modellen "open source" zijn. Dat zijn ze namelijk niet, voor zover ik het kan overzien. Ze stellen de "weights & biases" database beschikbaar, maar niet de onderliggende trainingsdata. Dat laatste kan ook niet, want dan zouden ze ook die van Llama moeten hebben, en die is ook niet opensource.
Het is inderdaad niet open source in de zin dat je de hele source inclusief data beschikbaar hebt.

De term open source wordt vaak gebruikt om het onderscheid te maken tussen proprietary modellen waar je alleen via door de eigenaar gehoste web service mee kan praten en modellen waarvan alle benodigdheden om het zelf te hosten beschikbaar zijn. In de meeste gevallen heb je aan de model gewichten genoeg om zelf een model te kunnen hosten en gebruiken.

De gewichten worden ook vrijgegeven met open source licenses op bijv. huggingface.co

Het vraagstuk wordt meer: wat is een source? Je kan bijvoorbeeld een dataset samenstellen van plaatjes waar je expliciet het recht krijgt om de beelden te verwerken en publiceren zonder limitaties. Voor het trainen van een ai model downscale je de plaatjes naar 1000x1000 pixels. De dataset en het model breng je uit met een open source license, maar de originele bron van de plaatjes kan je niet verpakken, hooguit een kopie of verwijzing. Is jouw dataset daarmee de source geworden?

Je kan beargumenteren dat de model gewichten bij large language models een gecomprimeerde versie van de teksten zijn, net zoals bij de dataset met plaatjes. Het is hierbij alleen een stuk lastiger te achterhalen wat de originele bronnen zijn. Je moet degene die de model gewichten dan vertrouwen dat er geen illegaal verkregen bronnen zijn gebruikt.
De weights is wat het open source maakt.

De weights is precies wat een taalmodel een taalmodel maakt, net zoals dat de broncode dat doet bij gecompileerde software.

Andere weights totaal ander model. Andere broncode totaal andere software.

Model aanpassen? Gewoon even aan de weights sleutelen, je hoeft niet te reverse engineeren. Net als bij open source software.

De onderliggende trainingsdata vrijgeven kan denk ik niet, dat is gewoon letterlijk het hele internet en meer.

[Reactie gewijzigd door ApexAlpha op 10 maart 2025 16:20]

In mijn optiek kan ik met "open source" bij de bron(code). Dat kan ik hier niet. Ik krijg puur het resultaat. Opensource broncode kan ik zelf reviewen, en compileren. Met een weights&biases vector-db kan ik niks zelf reviewen of (her)compileren. In mijn ogen is het niet anders dan een gecompileerde library die ik mag gebruiken.
De weights is precies wat een taalmodel een taalmodel maakt, net zoals dat de broncode dat doet bij gecompileerde software.
Hoezo? De executable machine code is dat dan toch?
Andere weights totaal ander model. Andere broncode totaal andere software.
Andere executable, totaal andere software?
Model aanpassen? Gewoon even aan de weights sleutelen, je hoeft niet te reverse engineeren. Net als bij open source software.
Weights = config, niet code.
Ho nee nee. Je hebt open weights en open source. Open source is echt open source en weet je ook welke data is gebruikt. Dat gaat denk ik niet zo veel voor komen. Open weights daarentegen komt vaak/steeds vaker voor.

Zie @Travelan

[Reactie gewijzigd door PaulHelper op 10 maart 2025 18:22]

Dan is een executable die gecompileerd is met een c compiler in jouw wereld ook open source: beetje disassemble een wat opcodes aanpassen en klaar ben je. De originele c sources vrijgeven hoeft toch helemaal niet je hebt de binary toch?
De weights is wat het open source maakt.
Dat is zeggen dat elke binary opensource is omdat je gewoon de computer instructies kan bezien...
tl;dr: Foxconn's FoxBrain-model kan wel degelijk als open source worden beschouwd omdat ze de weights & biases openbaar maken. Het ontbreken van volledige trainingsdata doet hieraan geen afbreuk.

De reactie dat het niet 'open source' is omdat alleen de weights en biases beschikbaar zijn en niet de trainingsdata, klopt niet helemaal. De term "open source" in AI-context verwijst namelijk specifiek naar het openbaar maken van de modelparameters, zoals weights en biases, en eventueel ook de broncode van het model zelf. De beschikbaarheid van trainingsdata is niet noodzakelijk om een model als open source te classificeren.

AI-modellen leren door tijdens hun training parameters (weights en biases) aan te passen om patronen in de data te herkennen. Juist deze parameters bepalen hoe het model zich gedraagt en voorspellingen doet. Door deze parameters openbaar te maken, kunnen onderzoekers en ontwikkelaars het model reproduceren, verbeteren en aanpassen aan specifieke toepassingen.

Hoewel het ideaal zou zijn als ook alle trainingsdata openbaar waren, is dit vaak praktisch onmogelijk vanwege auteursrechtelijke beperkingen of privacyoverwegingen. Het ontbreken van trainingsdata betekent echter niet dat een model niet open source is. Integendeel, juist het delen van weights en biases maakt een AI-model open source, omdat dit ontwikkelaars in staat stelt om het gedrag van het model te begrijpen, te reproduceren en verder te ontwikkelen.
Bij mijn weten is Llama niet (geheel) opensource, ze noemen het zelf "open-weight". Hoe kan een model dat op Llama is gebaseerd dan wel opensource zijn? En moeten we het idd niet "open weight" noemen dan?
De term "open source" in AI-context verwijst namelijk specifiek naar het openbaar maken van de modelparameters, zoals weights en biases, en eventueel ook de broncode van het model zelf. De beschikbaarheid van trainingsdata is niet noodzakelijk om een model als open source te classificeren.
Er wordt juist betoogt dat dat niet zo is. Als je het daarmee niet eens bent moet je met wat meer argumenten komen dan alleen "Het is zo."
Mijn website is ook open source - je kan met rechterklik + "bekijk broncode" alle website javacript zo downloaden! :+

[Reactie gewijzigd door Arckedo op 10 maart 2025 16:04]

100% eens. De weights & biases zijn net als een executable: de uitkomst van het trainen resp. compileren.
Dat het niet op iemand anders z'n server, achter een API, met een accountssysteem, werkt wil niet zeggen dat het open source is.
Nu dat trainen een kleiner probleem aan het worden is, hoop ik sterk op het verlagen van de eisen in het gebruik.

In mijn ogen is AI ook geen trainings uitdaging, maar een inference (gebruik) uitdaging.
99% van de gebruikers doet alsof het Google is :+
Reden te meer om er naar te streven om de eisen aan het gebruik te verlagen.
Waarom? Het is geen Google. Het is een compleet ander product en heeft dus een ander gebruik nodig.
Voortgebouwd op, sorry hoor maar wij trainde modellen in een weekend voortgebouwd op met slechts 8xA100 voor de 8B. Dat ze dat kunnen zegt niets want het lastige werk is al gedaan. Er zal vast veel data in zitten en daardoor kan het toch nog knap zijn maar een model verder trainen in 4 weken klinkt niet bijzonder.
traint taalmodel in vier weken tijd? Ze finetunen een llama 3.1 model, de titel is een beetje misleidend alsof zij vanaf 0 begonnen zijn. Die gebuert aan de lopende band, kijk maar eens op huggingface, dus nieuws waare 0?
Das best snel, mij lukt het in negen weken, dat vond ik al snel van mezelf.
Mag ik vragen wat het jou gekost heeft, 9 weken 120 Nvidia GPU's laten stampen lijkt me niet goedkoop?
Met 120 Nvidia GPU's red je het in 4 weken
ok, 53,333 Nvidia GPU's 9 weken lang dan ;)
Nee, maar wel snel!
voortgebouwd op Llama 3.1
Het is me niet helemaal duidelijk wat dat betekent.
Betekent dat fine tunen? Of dezelfde architectuur gebruiken, maar wel van scratch?
Ik vermoed het laatste want finetunen hoeft namelijk helemaal geen 4 weken te duren en zou dan ook een nietszeggende prestatie zijn, een soort van valse start.
idd, ze fintetunen een al bestaande model, deepseek had dat ook.
Niet zo moeilijk dus als het zware werk al door andere gedaan is
Ik kon na een bovenbeen amputatie ook lopen binnen 4 weken.
De manier waarop is dan een dingetje.

[Reactie gewijzigd door TweakerCarlo op 11 maart 2025 08:03]

Op dit item kan niet meer gereageerd worden.