'Meta koopt hardware om groot taalmodel te trainen dat GPT-4 moet evenaren'

Meta is bezig met het kopen van hardware om een eigen groot taalmodel op te trainen. Tot nu toe gebruikt het bedrijf daarvoor hardware van Microsoft Azure. Het nieuwe taalmodel moet GPT-4 gaan evenaren, zo schrijft The Wall Street Journal.

Meta koopt onder meer Nvidia H100-chips, die vaak in gebruik zijn om AI-modellen op te trainen, schrijft zakenkrant The Wall Street Journal op basis van eigen bronnen. Het zou net als bij Llama 2 weer een opensourcemodel moeten worden, zo claimt de krant. De training zou begin volgend jaar moeten beginnen.

Het Facebook-moederbedrijf leunde tot nu toe op hardware van Microsoft Azure om modellen op te trainen, maar wil daar nu niet langer afhankelijk van zijn. Microsoft is zelf actief in de AI-community door grote taalmodellen te integreren in veel van zijn zakelijke software onder de naam Copilot en als consumentenproduct in zoekmachine Bing. Het gebruikt daarvoor een aangepast GPT-model van OpenAI. Llama 2 van Meta kwam deze zomer uit.

Terugkijken: uitlegvideo over grote taalmodellen

IT-banen

Reacties (61)

TLLRS 11 september 2023 10:15

Na de Metaverse heeft Facebook weer een manier gevonden om geld te verbranden. Al deze Chat GPT achtige investeringen gaan zichzelf, op een paar uitzonderingen na, bij lange niet terugverdienen.

[Reactie gewijzigd door TLLRS op 1 augustus 2024 17:55]

Tintel

Meta

@TLLRS • 11 september 2023 10:35

Ze moeten wel - zijn druk bezig om obsolete te worden....

invic @Tintel • 11 september 2023 22:58

Nou nee, Meta heeft heel veel krediet verdiend in de open source wereld mbt LLM en andere open source libraries zoals voor image segmentatie en speech to text. De standaard llama2 modellen worden bijna dagelijks gefinetuned door andere organisaties en benaderen steeds meer de prestaties van de close source modellen van openai, Microsoft, Claude etc. De open source wereld is zeker blij met Meta.

Tintel

Meta

@invic • 12 september 2023 09:20

Maar je denkt toch niet dat Meta dat niet met een alternatief doel doet? Ze hebben eigenlijk gewoon de open source ontwikkelaars gebruikt om een LLM te tunen - die zij dan gaan gebruiken. In dit geval maakt het niet uit dat anderen deze ook kunnen gebruiken - als zij deze maar goed kunnen inzetten, dat is wat telt.

svenk91 @Tintel • 12 september 2023 10:39

Misschien eens kijken wat LLMs tunen is voor je zo'n comment plaatst?

Tintel

Meta

@svenk91 • 12 september 2023 13:32

Eh? Wat voegt dat toe? Anders gezegd: wat maakt het uit wat het inhoudt? Ik beweer dat Meta niets doet vanuit een altruistisch idee.

svenk91 @Tintel • 12 september 2023 16:59

Omdat je comment gewoon kant nog wal raakt (met specifiek deze zin: "Ze hebben eigenlijk gewoon de open source ontwikkelaars gebruikt om een LLM te tunen - die zij dan gaan gebruiken.") voegt het niets toe aan de discussie.

Meta is zeker geen altruïstische instellingen, maar met onzin spuien verspreid je de boodschap dat ze dat niet zijn gewoon niet op een gezonde manier. Dan ben je gewoon aan het trollen.

Tintel

Meta

@svenk91 • 13 september 2023 09:12

Wat? Dit is toch geen trollen? Vraagtekens zetten bij Meta die tijdens een AI-hype bepaalde acties onderneemt, is niets meer dan een waarschuwing. Ze hebben de meest beroerde reputatie en zodra een dergelijk bericht wordt uitgebracht heb ik daarbij sterke bedenkingen.

En jij wil dan inhoudelijk iets toevoegen (maar doet dat niet...

) aan een artikel die juist als onderwerp heeft Meta en AI.

Ik heb bewondering voor de mensen die tijd en moeite steken in LLM tuning maar absoluut geen bewondering voor Meta omdat hun doelen - in mijn ogen - bijzonder verwerpelijk zijn.

Slashdotter @TLLRS • 11 september 2023 11:00

Maar als ze niets zouden doen met AI dan zou hun beurswaarde weer dalen omdat ze dan 'achterlopen op de concurrentie'

blorf @TLLRS • 11 september 2023 11:12

Volgens mij klopt er iets totaal niet aan die AI-hype onder enkel reuzen als Meta.De strategie lijkt vooral te draaien om het collectief uit handen van de consument te houden door rekenkracht te bunkeren. Behalve GPU's opstapelen, doen we ook nog iets anders relevants? Er had al lang een decentrale optie moeten zijn maar uiteraard gaat geen enkel relevant platform dat steunen omdat ze zelf op die stek zitten.

[Reactie gewijzigd door blorf op 1 augustus 2024 17:55]

Alxndr

@TLLRS • 11 september 2023 11:29

D'r zijn een paar duizend stakende schrijvers die daar anders over denken.

En hoewel de meesten het iddniet zullen halen is het IMHO vooral een kwestie van geld wat de kansen op succes groter maakt, en laat Meta daar nou net een heleboel van hebben.

Bert2000 @TLLRS • 11 september 2023 18:47

Als je ziet wat voor kansen AI heeft in het assisteren met dagelijkse werkzaamheden denk ik dat je het verdienmodel onderschat.

SuperDre

Meta

@TLLRS • 11 september 2023 17:08

AI is de toekomst en staat nu nog steeds maar in de kinderschoenen, en toch kan het al heel veel. Enkele generaties verder en het gaat de mens zo voorbij.

GekkePrutser

Meta

11 september 2023 09:59

Ondertussen... nieuws: TSMC: tekort van AI-datacenter-gpu's van Nvidia houdt nog tot eind 20...

Maar een partij als meta zal er niet zo'n probleem mee hebben deze te bemachtigen.

the_shadow @GekkePrutser • 11 september 2023 10:01

[...]

Maar een partij als meta zal er niet zo'n probleem mee hebben deze te bemachtigen.

Sterker nog: een partij als Meta draagt bij aan dit soort problemen.

GekkePrutser

Meta

@the_shadow • 11 september 2023 10:02

Ja maar ze zijn natuurlijk ook een van de weinigen die er last van hebben.

Zo'n H100 is niet iets dat je thuis gaat kopen. Zelfs de prosumer niet. Het kost zo'n 40.000 euro

Wisselgeld voor meta en andere big tech maar voor de prosumer onbetaalbaar.

[Reactie gewijzigd door GekkePrutser op 1 augustus 2024 17:55]

jfdaniels @GekkePrutser • 11 september 2023 10:07

Gewoon om een idee te hebben. Hoe vergelijk je zoiets met een 4090? Vooral meer videogeheugen? Meer performance?

nhimf @jfdaniels • 11 september 2023 10:12

Andere performance vooral. Deze dingen kunnen bijvoorbeeld heel goed double precision doen en veel minder goed de visualisatie zaken.
Heel kort door de bocht (en hier doe ik de waarheid echt wel geweld aan) kan je goed renderen met Blender op een 4090 maar bepaalde berekeningen lopen daar voor geen meter. Met een H100 is dat in wezen anders om. Een H100 heeft bijvoorbeeld HBM geheugen dat veel sneller is en zit ook meer op, je kan ze opsplitsen in kleinere virtuele kaarten en nog meer.
Voor consumenten voegen deze kaarten heel weinig toe. Voor AI dus heel veel.

De 40k is echt niet wat Meta gaat betalen, alleen de gek die er eentje besteld. Daarnaast is 40k voor Meta vast en zeker wisselgeld, maar ze komen er niet maar eentje natuurlijk en dan telt de 40k wel op (maar ze betalen echt veel minder)

ColonelPhantom @nhimf • 11 september 2023 11:52

Het lijkt me niet dat Meta FP64 gaat gebruiken om dit "Llama 3" model te trainen, FP64 in ML heeft weinig toegevoegde waarde t.o.v. FP32 of zelfs FP16/BF16. Bovendien, zelfs al zijn Nvidia's enterprise-kaarten bij mijn weten inderdaad beter in FP64 dan de hierin zwaar gecripplede consumer kaarten, zijn tensor cores (die extreem belangrijk zijn om een beetje snel deep learning te doen) bij mijn weten ook daar beperkt tot maximaal 16-bit floating point. En dat kan flink schelen, ik weet even niet de getallen voor Nvidia uit mijn hoofd maar op Intel Arc scheelt dat iets van 4-8x performance (mits je 100% compute bound bent, natuurlijk).

Grrrrrene

@nhimf • 11 september 2023 12:55

Klinkt een beetje als hetzelfde verschil als je hebt tussen een Geforce- en een Quadro-kaart. Je betaalt relatief veel geld voor wat betere precisie. Leuk als je het zakelijk nodig hebt, maar voor privé zelden rendabel.

Artimunor @nhimf • 11 september 2023 16:11

M.a.w. het is geoptimaliseerd voor OpenCL achtige berekeningen ipv OpenGL achtige, terwijl beide veel nut hebben van parallellisatie zijn het een ander type rekensommetje waarvoor er custom multi- en duplexers ingebakken zitten.

Xanaroth @jfdaniels • 11 september 2023 10:21

Vergis je ook niet in levensduur en betrouwbaarheid. Een consumenten GPU staat misschien 1-4 uur aan per dag, en soms ook dagen niet. Deze zakelijke draaien meer als een server, gewoon 24/7 constant belast.

Daar worden vaak niet alleen veel hogere verwachtingen aan gesteld, zowel rekenprestaties als betrouwbaarheid worden vaak ook contractueel vastgelegd. Dus je betaald niet alleen voor gegarandeerde prestaties maar ook een garantie/verzekering dat ze het misbruik jarenlang kunnen weerstaan (en zo niet, is de rekening voor de leverancier - en dat zijn dan ook misselijkmakende bedragen bij nonconformiteit).

lordawesome @Xanaroth • 11 september 2023 11:51

Daar staat dan weer tegenover dat een consumenten GPU ook moet werken onder niet ideale omstandigheden. Daarmee bedoel ik bijvoorbeeld 40 graden in China in een kast met brakke airflow. Die H100 leeft in een airconditioned serverruimte met een oorverdovende airflow.

Trouwens, bij de crypto hype zagen we dat consumenten GPU's 24/7 konden draaien in niet-professionele omstandigheden.

Dus ik denk dat de kwaliteit van een H100 weinig verschilt van een normale GPU.

Anoniem: 80910 @lordawesome • 11 september 2023 12:13

Heb 3 maanden met een laptop gemined, fans begonnen te ratelen dus garantie en gestopt met minen. Maarja heb de videokaart er wel uit gehaald financieel

xtlauke @Anoniem: 80910 • 11 september 2023 15:56

De fans zijn een bewegend onderdeel, goedkoop en kunnen vrij gemakkelijk worden vervangen. Totaal ander onderwerp dan de hardware waar we het nu over hebben. Het zegt nog niets over de GPU zelf of het geheugen.

Xanaroth @lordawesome • 11 september 2023 13:44

Er is een verschil tussen dat het kan, en dat het gegarandeerd wordt door de fabrikant onder zware sancties. Je betaald voor die garantie, het is een vorm van verzekering. Het hoeft niet per se verschil in hardware te zijn waar de kosten in gaan zitten.

Zo verkopen wij ook hier zakelijk iets van 30,- en met meerdere jaren garantie onder 24/7 gebruik. Echter defect kan zomaar >1000,- per event zijn.

Want personeel vrijmaken, reiskosten, planning afstemmen, beldienst 24/7, en ook nacht/weekend moet gewoon altijd direct gebeuren. Niet binnen 2 uur aanwezig na defect, dan gaan de boetes al oplopen met honderden euro's per stap. Niet tijdig gerepareerd (vaak 4 of 8 uur) is ook boetes. Op jaarbasis uptime niet halen, nog meer boetes.
Zo'n 2 uur reactie tijd klinkt leuk, maar die loopt als je de telefoon opneemt. Klacht aannemen/verwerken, jezelf klaarmaken, route instellen en in de auto springen zit je zomaar op 1,5 uur beschikbare reistijd - voor je het weet is de 1e boete binnen.

Gelet op de reistijd en formaat van het land staan er constant 2-3 man standby, met een extra laag standby om in te stappen als er iemand opgeroepen is (mocht er een 2e call komen van een andere klant/locatie, moet je die ook gewoon kunnen doen) en de verwachtte boetes neem je ook gewoon mee in je kostenplaatje. Dan ga je zomaar praten over componentprijs van honderden euro's en daarnaast nog een 4-5 cijferig onderhoudscontract voor 1 klein lullig ding dat praxis waardig is (waarschijnlijk goedkoper én sneller als ze hun eigen man naar de lokale bouwmarkt sturen....zucht).

Merendeel van de prijs is niks van performance, je bent hoofdzakelijk gewoon wanna-be (her)verzekeraar ipv component verkoper - al het risico overnemen van je klant, en daar betaald de klant voor.

[Reactie gewijzigd door Xanaroth op 1 augustus 2024 17:55]

lordawesome @Xanaroth • 11 september 2023 15:06

Dat zou goed kunnen, dat er een extreme garantie op wordt geleverd. Maar het bevestigt ook wat ik beargumenteer. Dat GPU's in kwaliteit niet zoveel verschillen.

Het verschil is trouwens wel extreem. $40k ipv $1600 voor 4090. En, even opgezocht, ze hebben beide rond de 80.000 transistors. Nu heeft de H100 80GB HBM geheugen ipv 24GB DDR6. Maar dat lijkt me niet 38k extra te kosten. Ik denk dat die extreme prijs met de AI hype te maken heeft.

ThaStealth @lordawesome • 11 september 2023 16:11

Je moet ook nog denken aan R&D kosten. Ik weet niet hoeveel stuks ze van een 4090 gaan wegzetten, maar ik denk dat het aantal H100's een fractie ervan is.

Osxy @lordawesome • 11 september 2023 17:36

Groot deel van kosten komen vanuit support. Je hebt volledig gelijk dat de Bill of material niet zo erg duurder is dan de 4090.

Neocortex-re @Xanaroth • 11 september 2023 11:17

Levensduur en betrouwbaar hoeven niet per se goed te zijn. Bij een supercomputer heb je vaak een inhoudelijk expert vast on site aanwezig om alles wat kapot gaat te vervangen. Het systeem wordt zo ongelofelijk hoog geklokt dat de boel met regelmaat de geest geeft. Na twee a drie jaar gewoon alle RAM vervangen (en meteen upgraden) is normaal. Een noodstop van zo'n systeem levert je zo een schadepost op van een. middenklasse auto. Dat is simpelweg een afweging van performance, levensduur en kosten.

OruBLMsFrl @Neocortex-re • 11 september 2023 11:52

"Het systeem wordt zo ongelofelijk hoog geklokt dat de boel met regelmaat de geest geeft."
lijkt naast het voldoen aan voorwaarden voor vendor support ook op gespannen voet te staan met:
"Een noodstop van zo'n systeem levert je zo een schadepost op van een. middenklasse auto."

Waarom worden zulke complexe en gevoelige systemen dan hoger geklokt, of bedoel je dat er SKU's gekozen worden met vanzichzelf een hogere klok, maar die dan wel nog op de door de fabrikant aangeraden specificaties draaien?

Neocortex-re @OruBLMsFrl • 12 september 2023 10:52

De schade en uitval wordt gewoon als kosten genomen. Alles voor de rekenkracht. Het is goedkoper om op max-max te draaien dan een twee keer zo grote machine te nemen. Afschrijven in vijf jaar, na drie jaar een mid life renovatie.
Maakt niet uit of de leverancier of de klant ervoor opdraait dat is slechts de contractvorm. (Als de leverancier de kosten moet nemen krijg je gewoon een duurder all in contract.)

GekkePrutser

Meta

@jfdaniels • 11 september 2023 10:08

Vooral meer geheugen. 80GB. Qua performance weet ik niet precies maar het zal veel meer op de tensor kant gericht zijn dan bijvoorbeeld shaders natuurlijk. Dus ik denk niet dat dat 1:1 te vergelijken is.

Edit: Hier zie je wat rauwe specs: https://www.tomshardware....-h100-80gb-price-revealed

Als ik naar een aantal punten kijk zoals de non-tensor FP32 TFLOPS dan lijkt hij ongeveer 4x zo snel(!) als een 4090.

[Reactie gewijzigd door GekkePrutser op 1 augustus 2024 17:55]

Alfa1970 @GekkePrutser • 11 september 2023 13:05

Ik heb een "foto" (https://www.nvidia.com/co...race-hopper-2c50-d@2x.jpg) van Nvidia gezien die ook het "binnenwerk" van de kaart laten zien, met name de grote tegel (links) wat volgens mij de GPU moet voorstellen, en het lijkt erop alsof er 4 separate blokken aan componenten op de tegel zitten, dus het zou me dan ook niet verbazen als iemand zou zeggen dat de tegel 4 maal een 4090 equivalente GPU chip bevat.

BramVroy @GekkePrutser • 11 september 2023 11:30

Je hebt nog heel wat andere geinteresseerden tussen multinationals and prosumers. Denk aan universiteiten. Ik had laatst een sales call met Nvidia over de aankoop van een hondertal GPUs voor het trainen van een (klein) taalmodel. En zij zeggen het gewoon rechtuit: een H100 moet je nu niet bestellen - die kunnen ze pas eind 2024 leveren, en tegen dan zijn er al nieuwe developments uit. Je koopt nu dus al verouderde hardware aan de huidige prijzen. Zij stelden zelf een L40S voor.

Uiteraard is dit met een korrel zout te nemen - het blijft een sales-call - maar het is wel moeilijk, want iedereen wil nieuwe hardware en over die L40S vind je bv. geen benchmarks. Je weet dus niet of je beter die L40S wel zijn prijs waard is, maar je hebt gewoon weinig andere keus. (Daarom dat de monopolie van Nvidia in de HPC-markt dringend onderuit gehaald moet worden. AMD is op weg (kijk naar hun hardware in e LUMI supercomputer), maar ze zijn nog lang niet op hetzelfde niveau.)

GekkePrutser

Meta

@BramVroy • 11 september 2023 11:35

Uiteraard is dit met een korrel zout te nemen - het blijft een sales-call

Yep en het sales pak aan de andere kant heeft er niks aan als je iets bestelt wat ze pas volgend jaar kunnen leveren. Want meestal wordt de commissie pas uitgekeerd als de order geleverd is

Maar die L40S lijkt zelfs sneller qua TFLOPS dan een H100, alleen heeft hij veel minder geheugen. Dus voor een taalmodel heb je er een stuk minder aan.

BramVroy @GekkePrutser • 11 september 2023 18:45

"Heb je er een stuk minder aan" is relatief. Met 3D parallelism kom je tegenwoordig al ver (distributed training tot het uiterste drijven). Het schaalt ook goed. Dus zolang je model past op de totale pool van GPUs is het geen probleem. En zelfs dan! Met zero offloading kan je zelfs modellen trainen waar delen op je CPU worden berekend en als je ook weinig CPU RAM hebt, kan je zelfs offloaded naar NVME storage! Dus, ja, in een ideale wereld is veel geheugen leuk. Maar het is geen onoverkomelijk probleem als dat niet beschikbaar is.

Genosha @GekkePrutser • 11 september 2023 10:08

Meta zal niet die 40k betalen.

GekkePrutser

Meta

@Genosha • 11 september 2023 10:11

Nee logisch maar die kopen er ook niet eentje

Op het werk betalen we ook maar ongeveer de helft van de winkelprijs voor onze laptops maar we kopen er dan ook 30.000 per jaar (120.000 totale 'wagenpark' met 1x in de 4 jaar refresh)

PolarBear @GekkePrutser • 11 september 2023 11:06

Op het werk betalen we ook maar ongeveer de helft van de winkelprijs voor onze laptops maar we kopen er dan ook 30.000 per jaar (120.000 totale 'wagenpark' met 1x in de 4 jaar refresh)

Laptop markt is veel competatiever dan de AI chips.

PolarBear @Genosha • 11 september 2023 11:06

Meta zal niet die 40k betalen.

Gezien de resultaten van NVidea, de vraag en het gebrek aan alternatieven zou de korting nog wel een tegen kunnen vallen.

Genosha @PolarBear • 11 september 2023 20:01

Het is toch voor Nvidia weer een naam van een FAANG bedrijven die ze kunnen toevoegen als klant. Dat dwingt wel korting af. De kans is nihil dat Meta met een andere chipbouwer in zee is gegaan voor AI kaarten.

SgtElPotato @Genosha • 11 september 2023 12:56

Maar een super hoge korting zullen ze ook niet krijgen, Nvidia heeft op dit moment de enige goede keuze als je dit soort chips in huis wilt halen.

Navi @GekkePrutser • 11 september 2023 12:07

Een H100 is niet voor thuis inderdaad, maar in plaats van een H100 had NVIDIA ook een stuk of 3-4 4090's kunnen maken, indirect bepaald het vanwege de productiecapaciteit wel degelijk de beschikbaarheid van consumentenkaarten.

kevlar01 @the_shadow • 11 september 2023 10:45

https://www.theregister.c...sla_nvidia_supercomputer/

Tesla doet iets soortgelijks, die kopen ook een hoop van die NVIDIA H100's op.

sharkzor 11 september 2023 10:05

Gaat dit niet tenkoste van andere productie capaciteit van nvidia?
Dus het kan zijn dat deze chips meer opleveren waardoor nvidia gpu's of bv de nieuwe soc voor de switch2 op een lager pitje gaat zetten.

kabelmannetje @sharkzor • 11 september 2023 10:17

Vast niet. De productielijn voor hightech AI appliances, staat los van ICs voor de switch. De capaciteit wordt geschaald op basis van de verwachtte afname.

[Reactie gewijzigd door kabelmannetje op 1 augustus 2024 17:55]

geert1 @sharkzor • 11 september 2023 14:32

Op de korte termijn niet, vanwege bestaande toezeggingen en contracten. Als Nvidia met Nintendo werkt aan de GPU van de volgende Switch, dan moet er waarschijnlijk gewoon geleverd worden. Ook brengen de gaming GPU's nog steeds aardig geld op dus het is niet oninteressant voor Nvidia.

Op de langere termijn zou er wel een verschuiving kunnen plaatsvinden, want de AI-accelerators zijn bizar populair en hebben waarschijnlijk een hogere winstmarge voor Nvidia dan de gaming-hardware gemiddeld heeft. De eigenaren denken vanuit ROI en zijn daar vaak glashard in; de meeste aandeelhouders en investeerders hebben geen feeling met gaming zoals fans dat hebben. Nvidia zou vele malen meer H100's kunnen produceren dan ze nu doen, en nog zouden die over de toonbank vliegen. Want niet alleen Meta wil duizenden accelerators bemachtigen; elke grotere corporatie wil dat van tech tot banken, en ook overheidsdiensten van elk land dat het kan betalen.

Aan de andere kant: de beide soorten producten leunen nog aardig op elkaar. Een GPU en een AI-accelerator zijn lang niet geheel verschillend dus doorontwikkeling van het één helpt ook het ander. En Nvidia is marktleider qua GPU's dus dat zullen ze niet zomaar opgeven. De chips moeten fysiek geproduceerd worden bij een beperkt aantal foundries; daar zit nu al de bottleneck en het bouwen van meer fabrieken en machines kost een hoop tijd. Ook kan de AI-hype nog meerdere gekke slagen op en neer gaan maken omdat het allemaal zo nieuw is, dus nu alles inzetten op AI-accelerators is ook een risico op zich.

[Reactie gewijzigd door geert1 op 1 augustus 2024 17:55]

Bender 11 september 2023 10:07

Evenaren? Waarom kiezen ze er voor om te communiceren dat het 'gelijkwaardig' is en niet dat het 'beter' is?
Normaal schermen bedrijven dat ze het beste van het beste geen releasen, maar nu kiezen ze voor een veiligere benaming?

Enai 11 september 2023 10:21

Waarom een nieuw algemeen taalmodel? Gebruik de GPU-capaciteit efficiënter en bouw een gespecialiseerd model. Dezelfde kracht als GPT-4 maar dan enkel toegesneden op pakweg programmeren en met een context window groot genoeg om een volledige applicatie in te laden. Daar ben je als bedrijf tenminste iets mee.

pauldebra @Enai • 11 september 2023 10:42

Wat ze er allemaal mee gaan doen weet ik ook niet, maar als dit nieuwe model kan helpen om de vertaling van teksten iets minder slecht te maken dan is dat al een hele stap. Van de automatische vertaling van facebook posts valt vaak ongeveer niets te begrijpen. Google translate is iets minder slecht maar ook niet om over naar huis te schrijven. De vertalingen zijn allemaal nog van een niveau dat je het op z'n best soms lachwekkend kan noemen... Het gaat misschien nog voor een beetje "algemene" chit-chat, maar wanneer een post echt over een "onderwerp" gaat dan blijft er in de vertaling vaak ongeveer niets van over.

likewise @pauldebra • 11 september 2023 11:33

De modellen worden dan ook getrained op de output van mensen. Dus ik heb weinig hoop op verbetering, ook gezien de taalfouten die ik zelf al maak.

YGDRASSIL

@likewise • 11 september 2023 12:07

Inidividuele fouten worden weggepoetst. Als een op de twintig een bepaalde fout maakt gaat het taalmodel het echt wel zo doen als die negentien van de twintig. Dat betekend niet dat alles meteen perfect is maar wel dat het taalmodel het best een stuk beter kan doen dan de individuele mensen het deden die de input voor het taalmodel produceerden (de schrijvers van de teksten).

rubenkemp @YGDRASSIL • 11 september 2023 18:06

Dat betekent*
(Case in point).
Dit is in het Nederlands een veelgemaakte fout. Bovendien klein taalgebied dus zeer veel invloed van buitenaf (Engels meeste). Ik zie niet in hoe de modellen dermate goed worden in het Nederlands als steeds meer kwaliteitsjournalistiek- en websites hun website niet laten scannen door modellen, tenzij er begrepen wordt hoe Nederlandse grammatica werkt.

[Reactie gewijzigd door rubenkemp op 1 augustus 2024 17:55]

likewise @YGDRASSIL • 11 september 2023 22:16

Het aantal mensen wat iets "goed" kan neemt daarmee af, want iedereen die de modellen klakkeloos gaat gebruiken neemt de weinige fouten voor lief. Deze laatste groep zal waarschijnlijk minder fouten maken, maar ook minder zelf nadenken.

Er is geen geld beschikbaar om zogenaamde "expert" training te doen, waarbij de modellen worden getraint (of getrained) met voornamelijk de input van experts. Dit gebeurt in sommige vakgebieden wel, zoals bij hersenscans evalueren.

Ik denk dat er een tweedeling aan het ontstaan tussen mensen die zelf kritisch kunnen nadenken en mensen die het model opvolgen. Deze kloof zal groter worden. Net zoals de kloof tussen rijk en arm.

Eigenlijk zien we dit allemaal al heel lang gebeuren. Mijn bescheiden mening.

pauldebra @likewise • 14 september 2023 11:29

Dat de taalmodellen geen verstand hebben van grammatica omdat ze leren van een bevolking die de grammatica niet kent dat is natuurlijk geen wonder...
Maar de modellen hebben helemaal geen verstand van de betekenis van woorden, en daardoor gaan vertalingen gruwelijk mis, tot op het punt dat als je niet weet wat het moet zijn je echt geen idee kan hebben van wat er wordt bedoeld.
Ik schrijf en lees nogal wat over de (het) accordeon, in verschillende talen. Zo kwam ik op Facebook een vertaalde post tegen die het had over de "sneakers" in de accordeon. Elke idioot weet dat er geen sneakers in een accordeon zitten, maar het (ver)taalmodel van Facebook dus niet... Wat er uit Facebook (en ook Google Translate) komt is gewoon bar slecht.

Anoniem: 80910 @Enai • 11 september 2023 10:57

Microsoft researchers zijn al zo ver, ik dacht boven 1 miljard tokens gelukt is, als input. Als die dan de code echt begrijpt zal wel mooi zijn. Alle tests laten schrijven en testen door ai

lordawesome 11 september 2023 11:41

En ik maar denken dat er maar één Skynet zou komen.

YGDRASSIL

@lordawesome • 11 september 2023 12:08

Binnenkort op FOX => Battle of the Skynets

SPee @YGDRASSIL • 11 september 2023 14:57

Of uit de "oude doos": Person of Interest, seasons 4 & 5.

Zyphlan 11 september 2023 17:12

Ja logisch vervolg niet heel slim als je het groot wil neerzetten om het niet zelf te doen je hebt Azure en AWS die volgens mij als alternatieven kunnen dienen ( en alibaba volgens mij ook nog).

Beiden zijn ook concurrenten op andere vlakken en weten dat je weinig onderhandelingsruimte hebt juist omdat je zo groot bent.

Ze hebben inderdaad ook niet echt een keuze , doen ze het niet dan zeggen de beurzen dat ze achter lopen ( zoals meerdere hier al aangeven).

Er zijn opzich genoeg use-cases te bedenken ( persoonlijk lijkt me het heel interessant om het te zien in gaming)
https://www.youtube.com/watch?v=0wCjosz1vOA

Ik gok dat zoals het er nu uitziet je echt een paar grote spelers gaat krijgen ( google / microsoft / aws / meta ) en deze het gaan aanbieden als een soort van hosting optie en dat er dan bedrijven hun AI gebruiken om bijv gaming use-cases te bouwen of customer service en dan typisch wordt het groot genoeg dan kopen ze het op of kopieren ze het

[Reactie gewijzigd door Zyphlan op 1 augustus 2024 17:55]

Op dit item kan niet meer gereageerd worden.

'Meta koopt hardware om groot taalmodel te trainen dat GPT-4 moet evenaren'

Lees meer

IT-banen

Reacties (61)

Sorteer op:

Weergave: