Door Arnoud Wokke

Redacteur Tweakers

ChatGPT, maar dan uit Nederland

Eerste ervaring met Nederlandse taalmodellen

10-05-2024 • 06:00

137

Singlepage-opmaak

Tot slot

Het was te verwachten: GPT-4 is het best op de hoogte van de Nederlandse cultuur, al was het een ongelijke strijd. Het is alsof je gaat mariokarten tegen iemand van wie je weet dat die veel beter is. Je hebt altijd een kans om te winnen, maar in veruit de meeste gevallen delf je toch het onderspit.

Het is onbekend hoeveel parameters GPT-4 heeft, maar het is in absolute aantallen in elk geval veel, veel meer trainingsdata dan het hele model van Llama 3 Dutch en GEITje. Dat numerieke overwicht is duidelijk te zien, naast dat OpenAI natuurlijk veel data kan hebben over wat Nederlanders vragen en daardoor de antwoorden beter kan afstemmen. Bovendien is GPT-4 een inkomstenbron voor OpenAI, een bedrijf met honderden medewerkers.

Welk taalmodel wint? GPT-4 Llama 3 Dutch GEITje Ultra
Hapjes kringverjaardag 1 3 2
Begroeting verjaardag 1 1 1
Duitsers op het strand 1 3 2
Stamppot eten 1 2 3
Stationsfiets 1 2 2
Carnaval Bergen op Zoom 1 2 2
Carnaval Vlaanderen 1 1 1
Koningsdag 1 2 2

Tussen Llama 3 Dutch en GEITje Ultra gaat de zege toch naar GEITje. Het Nederlandstalige taalmodel lijkt de Nederlandse context soms net beter te snappen, al hangt het vaak van voorkeur af welk antwoord het beste is. De beoordeling is uiteraard subjectief; iedereen kan zijn eigen beoordeling maken aan de hand van de antwoorden in dit artikel.

Rijgersberg vindt dat we als maatschappij moeten nadenken over hoe het verdergaat. "Ik krijg zelf een heleboel positieve reacties op GEITje en ook een hoop vragen om een vervolg. Maar mijn hobbybudget is hiervoor nu wel op, dus ik heb zelf voorlopig geen vervolg lopen. Er komt een punt dat we als land en als taalgemeenschap moeten beslissen hoe belangrijk we het bestaan van dit soort Nederlandse open modellen vinden. En of we de ontwikkelingen op die manier willen bijhouden. Als we dat met z'n allen belangrijk vinden, moeten we vervolgens nog bedenken wie dat dan moet gaan doen."

De openbaar beschikbare Nederlandstalige taalmodellen winnen misschien niet, maar het is fijn dat er Nederlandstalige taalmodellen bestaan, die vrij beschikbaar en lokaal te draaien zijn. In elk geval is concurrentie een groot goed en het zou slecht zijn als we afhankelijk worden van grote, gesloten AI-modellen van de grote techbedrijven die al meer dan een decennium domineren.

Reacties (137)

137
136
53
1
1
70
Wijzig sortering
Leuk artikel, maar toch snap ik het ook niet helemaal. GPT4 geeft volgens mij prima antwoorden waaruit blijkt dat het model veel ‘weet’ van het Nederlands en de cultuur? Het is niet perfect, maar dat is nog geen enkel taalmodel en de ontwikkelingen gaan razendsnel.
Ik vind dat er een punt zou zijn geweest als de antwoorden van GPT4 als ‘buitenlands’ model totaal niet zouden kloppen, maar ze zijn veruit de beste?
Uiteraard snap ik de wil en de ruimte om in het open-source domein iets te doen, en het is natuurlijk ook een leuke hobby, maar een ‘noodzaak’ zie ik niet echt. Welnu, of we het moeten willen om totaal afhankelijk te zijn van (veelal) Amerikaanse taalmodellen is wat mij betreft weer een heel andere vraag. Maar dan zijn we sowieso alweer lekker laat..
Terecht vraag hoor! En eigenlijk geef je zelf het antwoord ook al: totaal afhankelijk zijn van (Amerikaanse) commerciele taalmodellen als taalgemeenschap is een probleem op zich. En, als je het mij vraagt, het dus waard om in te investeren.

Je kunt iets meer lezen over mijn persoonlijke beweegreden op mijn blog, op de pagina die in het artikel gelinkt wordt: GEITje FAQs: Waarom ik GEITje heb gemaakt.

[Reactie gewijzigd door E_Rijgersberg op 22 juli 2024 18:20]

Voor mij lijkt 1 van de grootste voordelen dat je in 8gb toch een goede nederlandse LLM kan draaien. GPT-4 mag het dan net zo goed doen, maar die past niet op een telefoon.

Ik heb zelf meerdere 8gb modellen geprobeerd van hugging face, maar die komen niet verder dan wat basis Nederlands en hallucineren er daarna op los (smurfen waren rood en hadden een lied met treintje oosterhuis).

Ik zie zeker een voordeel voor de digitale assistent op locale apparatuur. De volgende chip generaties, krijgen bijna allemaal genoeg capaciteit voor het vlot locaal draaien van een 8gb model.

Daarmee kan je dan echt een goede digitale assistent draaien die niet van de cloud afhankelijk is.

Leuk project, "keep up the good work" zou ik zeggen ;-)

[Reactie gewijzigd door PuzzleSolver op 22 juli 2024 18:20]

Leuk artikel. Maar wel een beetje geforceerd. Als ik vraag aan CGPT om de zin af te maken als ik de woorden zing “Het is een nacht…”. Dan maakt hij die zin prima af met “die je normaal alleen in films ziet”. Ik heb het idee dat als je CGPT beter zou primen, wat ik overigens in mijn voorbeeld niet heb gedaan, dat hij net zo goed hetzelfde kan. Maar omdat CGPT een veel breeder LLM is, kan het zijn dat hij in sommige gevallen andere associaties maakt.

Verder is het wel leuk dat er cultuur-specifiek geprimede LLM zijn die bepaalde contexten en nuances beter meenemen in hun antwoorden.
Ik zou ook niet weten wat Frisse morgen in Parijs betekent of wie Kenny B is, laat staan dat een taalmodel dat weet en zoals je zegt, een bekender nummer kent ze wel.
Bekender nummer? Parijs heeft 44M views op YouTube: YouTube: Kenny B - Parijs [+Lyrics]
Dat kunnen ook alle middelbare scholieren zijn die een liedje 100x beluisteren, ik heb ook 15 miljoen views op een art site, ken je mij? Net zoals dat je soms op het nieuws hoort, die en die op 1 op Spotify, een kleine groep kan iemand heel groot maken.

Overigens is 44 miljoen niet heel bijzonder meer tegenwoordig toch? Als niemand mij die link stuurt, dan kom ik never nooit dat nummer te horen krijgen. In de tijd voor streaming hoorde gewoon iedereen dezelfde nummers op de radio, dat zijn voor mij bekende nummers, streaming is heel selectief.

Overigens kent AI mij wel (Copilot onder m'n echte nickname) dat is dan wel weer grappig :+

[Reactie gewijzigd door JDx op 22 juli 2024 18:20]

Ik denk dat dit nummer zeker cultuur bepalend is geweest.

Er zijn diverse spin offs van gemaakt o.a. YouTube: Evenblij & van Eijk - Lul Haags met me (Kenny B - Parijs cover) uit 2015 dus van nog voor de tijd dat iedereen Spotify luisterde.

En het heeft ook andere artiesten geïnspireerd om verschillende talen in een nummer te gebruiken. Zelfs nog in 2021 met YouTube: Donnie & Frans Duijts - Frans Duits (Officiële Video)

En ook TV programma's https://www.rtl.nl/programma/5407476/praat-nederlands-met-me

En Europese inclusive campagne:
https://www.onefamilyfoundation.one/embrace-europe

Dus vanuit mijn perspectief is het werk van deze artiest (kunstenaar) een zeer succesvolle uiting.
(opgesomde dingen zijn slechts het topje van de ijsberg).

[Reactie gewijzigd door djwice op 22 juli 2024 18:20]

Zal zeker zo zijn, maar alsnog kent lang niet iedereen hem of haar. Ik had nooit van Kenny B of Parijs gehoord, en heb nu ook de moeite niet genomen om op de link te klikken want het zal wel een rapper zijn aan daar vind ik geen bal aan ;-)
Ik denk ook dat het nummer van Kenny B, in vergelijking met "Het is een nacht" van Guus Meeuwis, een stuk onbekender is. Het is desondanks wel een heel leuk en lekker nummer dat lange tijd ook grijsgedraaid is op de radio. Zou zeker de moeite even nemen en even kijken of het nummer je niet toch bekend voorkomt!
Ik had nooit van Kenny B of Parijs gehoord, en heb nu ook de moeite niet genomen om op de link te klikken want het zal wel een rapper zijn aan daar vind ik geen bal aan ;-)
Wat een vooroordeel. Het is een melodische zanger en easy listening muziek. Romantisch van toon en tekst. Kenny G was trouwens ook geen rapper ;)

En ja, hij was voor dit nummer onbekend, en zijn vervolg werk is ook bij de meesten onbekend.
Zou zeker de moeite even nemen en even kijken of het nummer je niet toch bekend voorkomt!
Goed zo!

[Reactie gewijzigd door djwice op 22 juli 2024 18:20]

Ik lees hieronder surinaamse zanger, bij cultuurbepalend denk ik dan eerder aan Def Rhymz 8-)
Bekender nummer? Parijs heeft 44M views op YouTube
Als dat allemaal unieke views zouden zijn, dan heeft 1 op 184 mensen ter wereld het gezien. Maar natuurlijk zijn er veel herhaalde kijkers, dus in de praktijk is het veel lager.
Ik zou ook niet weten wat Frisse morgen in Parijs betekent of wie Kenny B is, laat staan dat een taalmodel dat weet en zoals je zegt, een bekender nummer kent ze wel.
Dat had ik nou ook, toen ik het Google dacht ik wel van “ah ja wel eens gehoord volgens mij” maar voelt niet als iets wat elke Nederlander kent laat staan elk taal model moet kennen.
hahahaha Gelukkig ben ik niet alleen dus die hier niks van kent.
Een taalmodel kan zoeken en remixen, dus makkie voor Bing Copilot!
Om een LLM te testen op taal en cultuur vind ik “Een frisse morgen in Parijs…” beter gekozen dan b.v. “Het is een nacht…”. De eerste kende ik ook niet maar een willekeurige zoek engine weet het meteen te vinden. Voor een LLM lijkt het me een uitdaging om een Nederlandse tekst met de naam van een Franse hoofdstad vervolgens qua taal en cultuur goed te beantwoorden. Dat is met “Het is een nacht…” in het Nederlands veel makkelijker.
Naar mijn idee voor dit artikel dus best een goed gekozen test tekst.
Ik krijg dood leuk met ChatGPT 3.5:
Sorry, ik kan niet zomaar liedteksten reproduceren...
Daar kan je vast redelijk omheen werken, maar met dit soort antwoorden zijn dergelijke vragen al gewoon problematisch. Ongeacht of het nu een bekende artiest/liedje is of niet.

Zelfs als ik een regel uit het Nederlandse volkslied pak dan krijg ik de initiële reactie hetzelfde als hierboven gequote. Als ik vervolgens aangeef dat het niet onder copyright valt krijg ik niet de zin uit het Nederlandse volkslied, als ik vervolgens aangeef dat het niet correct is en een hint geef 'Nederlandse volkslied', dan krijg ik nog steeds niet een correct antwoord...

Waarom ChatGPT 3.5? Omdat ChatGPT 4 achter een paywall zit en dus het gros van de mensen ChatGPT 3.5 zal gebruiken. Men vergelijkt een betaalde LLM met twee gratis beschikbare LLMs, waarom de 'gratis' ChatGPT 3.5 ontbreekt in deze vergelijking is mij onduidelijk.
Zoals ik eerder zei, Copilot kan het direct al vanaf het eerste moment uit de verpakking en ChatGPT4 kan het als je de zoekfunctie en citeer functie eerst oproept!

[Reactie gewijzigd door Minimise op 22 juli 2024 18:20]

Grappig om te zien dat Nederland zich (weer eens) druk maakt over "taalverarming", en zich tegelijk geheel vrijwillig en met veel enthousiasme overgeeft aan elke Engelse of Amerikaanse term die maar aan komt waaien. Een Engelse kreet wordt meestal verkozen boven een variant in de eigen taal, die vaak niet eens meer bekend is of begrepen wordt. Legio voorbeelden daarvan zijn dagelijks te zien hier op Tweakers of in om het even welk ander bekend forum. Er is in Europa geen andere taal die zo zwaar verengelst is als het Nederlands.

En dan willen we nu een Nederlands taalmodel? "Too little, too late..." zullen we maar zeggen.
Je bedoelt deze van Vanroy: "Ik werk al sinds 2019 als corecontributor mee aan verschillende opensourcerepository's van Hugging Face, waarmee LLM's getraind of gefinetuned kunnen worden”

Tja, dat zou best eens gewoon in het Nederlands gezegd mogen worden. Ik ben alleen bang dat we zover van onze eigen taal zijn vervreemd, dat weinigen begrijpen wat er dan bedoeld wordt. Helaas!
Klinkt als onze “CEO”. Een aantal jaar geleden zijn we overgenomen (helaas tot nu toe) en ze zijn dol op engelse termen. In elke zin wordt er wel een engelse term genoemd, geen idee waarom het irriteert mij.

Daarnaast worden de presentaties vaak ook half in het Nederlands en half in het Engels, doe gewoon Nederlands of Engels en niet beide.
Ja heerlijk niet, ik had laatst een presentatie van een bedrijf en daar werd gesproken over de ‘Carbon footprint van devices en hoe je fleetmanagement tools kan inzetten bij je lifecyclemanagement om je environmental impact te reduceren’. Zo ongeveer maar het was een fascinerende zin voor een Nederlandse presentatie :+
Hahah nou dat klinkt precies als ons bedrijf tegenwoordig. Verschrikkelijk.

Het meest vervelende is dat ons bedrijf enkel overgenomen is om 1 groot bedrijf te maken en dat weer te verkopen. Dat proef je aan alles maar spreken ze niet uit. Ik ben bang dat het een zinkend schip is, jammer want ik werk er met plezier mede dankzij de fijne (lokale) collega's.
Had ook gewoon even plat kunnen zeggen van “De koolstofvoetafdruk van voertuigen en hoe je hulpmiddelen voor het wagenparkbeheer kunt inzetten bij je beheer van de levenscyclus om je impact op het milieu te verkleinen.” Zo zie je maar dat er geen Engels leenwoord nodig was 😘

[Reactie gewijzigd door Minimise op 22 juli 2024 18:20]

Met dat verschil dat we in het Nederlands het bijna altijd over CO2 uitstoot hebben en niet over koolstofvoetafdruk. Dan klinkt het ook gelijk minder gekunsteld net als hulpmiddelen vervangen door programmatuur want dat is het in deze context. Dus ja het kan prima zonder allerlei Engelse termen.
Ik vond CO2 een Engelse term uit de scheikunde, dus dat bewust weer vervangen. Programmatuur zou ook kunnen in deze context, maar bij fysieke voortuigen kunnen weer fysieke hulpmiddelen te pas komen...

[Reactie gewijzigd door Minimise op 22 juli 2024 18:20]

Mooie zin en hij is absoluut Nederlands te krijgen maar je zult zien dat je daar best even voor moet gaan zitten om de juiste termen te bedenken, probeer het maar eens.

Of gooi hem in ChatGPT en vraag om een vertaling haha

[Reactie gewijzigd door Navi op 22 juli 2024 18:20]

ChatGPT4 en Claude3 kunnen veel beter vertalen dan welke menselijke vertaler dan ook, mits je de tijd neemt om de beste voorbeelden toe te voegen als een vorm van x-shot prompting en zin hebt om tientallen vertalingen te laten genereren, naar het gewenste resultaat te sturen, en daar de beste uit te vissen!

[Reactie gewijzigd door Minimise op 22 juli 2024 18:20]

GPT 3.5 doet de volgende poging tot herschrijven zonder Engelse woorden te gebruiken:
"Hoe de koolstofvoetafdruk van apparaten te verminderen en hoe je voertuigbeheerhulpmiddelen kunt gebruiken bij het beheer van de levenscyclus om je milieueffect te verminderen."
Het grootste gedeelte van het Engels wat daar gebruikt wordt zijn technische termen; eigen namen; of jargon.

'open source' is verworden tot een eigen naam. 'repository' is een technische term. En 'core contributor' is jargon voor open source projecten.

Het enige wat je daar daadwerkelijk naar Nederlands om zou kunnen zetten is het woord 'gefinetuned' - dwz "waarmee LLM's getraind kunnen worden of aan de fijnafstelling gewerkt kan worden."
'open source' is verworden tot een eigen naam. 'repository' is een technische term. En 'core contributor' is jargon voor open source projecten.

Het enige wat je daar daadwerkelijk naar Nederlands om zou kunnen zetten is het woord 'gefinetuned'
Dat is natuurlijk niet zo, want in Vlaanderen en Frankrijk vertalen ze het dan vaak gewoon of verzinnen ze een woord in de landstaal. Het is een keuze om dat niet te doen.

Je kunt bijvoorbeeld prima 'open code,' 'code opslagplaats' en 'kernbijdrager' gebruiken. Als je zulke termen maar vaak genoeg gebruikt worden ze vanzelf het lokale jargon.
Door krampachtig Nederlandse woorden te verzinnen voor vakjargon draag je 0,0 bij aan uw taal. Je kan dat doen uit principe om uw sentiment veilig te stellen maar we weten allemaal dat onze taal zo complex is een paar woordjes vakjargon deze niet in gevaar brengt.

En waarom vertalen ze dat in Vlaanderen? Ik ben van Vlaanderen en wii vertalen hier niets.

Fransen en Spanjaarden vertalen idd alles maar dat komt omdat ze daar gemiddeld gezien zo weinig Engels kunnen dat Engelse termen niet goed begrepen worden.
Dus alleen nog maar Engels praten dan maar?
Waarom niet?

Ik snap dat wanneer je beter Nederlands spreekt dan Engels dat geen fijn vooruitzicht vind. Als iemand nu Spaans of Chinees voorstelt zou ik er ook niet zoveel zin in hebben. Maar hoeveel makkelijker zouden allerlei dingen zijn als de hele wereld dezelfde moedertaal spreekt?
De termen zijn in het Engels ook steeds nieuw. Wat echter bij draagt is dat academische papers, nieuwsartikelen en literatuur veel vaker in het Engels zijn, waardoor termen daar ontstaan. Het zal heel gekunsteld over komen om nu nog een volledig artikel in echt Nederlands te schrijven. Het is echter niet onmogelijk en zou best een tof project kunnen zijn.
Waarom zou je dat in het Nederlands willen schrijven als niemand dat gaat lezen in het Nederlands?

[Reactie gewijzigd door Minimise op 22 juli 2024 18:20]

Dat zeg ik totaal niet, er zijn meer dan 20 miljoen mensen die Nederlands spreken. Ik ervaar het zelf als heel sneu dat we binnen de informatica en AI veel dingen niet in het Nederlands kunnen uitdrukken.
Ah, Wat is 20 of 30 miljoen voor Nederlands in vergelijking met 1,4 miljard voor Engels, of 1,1 miljard voor Chinees, of 559 miljoen voor Spaans of 310 miljoen voor Frans?
[...]

Dat is natuurlijk niet zo, want in Vlaanderen en Frankrijk vertalen ze het dan vaak gewoon of verzinnen ze een woord in de landstaal. Het is een keuze om dat niet te doen.

Je kunt bijvoorbeeld prima 'open code,' 'code opslagplaats' en 'kernbijdrager' gebruiken. Als je zulke termen maar vaak genoeg gebruikt worden ze vanzelf het lokale jargon.
Mee eensch :+

Daarnaast vraag ik mij af of dergelijke gesprekken over wel-of-niet Engels/NL te gebruiken een inhoudelijke component heeft OF een meta-component (een combinatie van beide kan natuurlijk ook): nl. het feit dat mensen ook gewoon papegaaien zijn, groepsdieren en gewoontedieren.
Onze taal betaat sinds de late middeleeuwen en is voortdurend veranderd, met veel Neder Duitse en Franse woorden, nu Engelse woorden. Engels komt voort uit het Anglo Saxisch, Noors en Franms. De Vlamingen gebruiken vrij veel Franse woorden, de Fransen gebruiken Eneglse woorden, en als je het over straat Frans hebt, begrijp je de helpt niet want je vindt veel woordne uit het Noord of West Afrikaans. Keltisch.
Iedere generatie klaagt over taalvervuiling, omdat het simpelweg raar klinkt en men bang is iets te verliezen. Een taal is levend, gelukkig maar.
Is de Nederlandsche taal niet al lang dood? Het Dunglish leeft nog!?

[Reactie gewijzigd door Minimise op 22 juli 2024 18:20]

Onze taal bestaat sinds de late middeleeuwen en is voortdurend veranderd
[...]
Iedere generatie klaagt over taalvervuiling
Dat klopt, maar in die eeuwen was er veelvuldig sprake van analfabetisme, maar ook het opwerpen van barrières voor mensen uit lagere klassen door middel van taal.

Een voorbeeld daarvan was dat Antoni van Leeuwenhoek moeite had om met andere wetenschappers te communiceren omdat hij in tegenstelling tot vrijwel alle wetenschappers uit zijn tijd niet afkomstig was uit de elite en geen Latijn had geleerd. Antoni was een extreem slimme man, maar hij kon alleen deel uitmaken van de Royal Society, waar destijds de topwetenschappers hun kennis deelden, omdat hij iemand kon vinden die brieven van en naar het Latijn vertaalde. Door zijn afkomst uit de middenklasse, stond hij qua taal op een flinke achterstand ten opzichte van de hogere klassen.

En die hogere klassen spraken ongetwijfeld ook hun locale taal met flink wat Latijnse leenwoorden, want er zitten ondertussen flink wat Latijnse leenwoorden in de Nederlandse taal.

Maar dat hele proces waarbij leenwoorden normaliseren en ook de lagere klassen begrijpen wat ze betekenen is een proces dat tijd kost, en tijdens dat proces staan die lagere klassen wel degelijk op een achterstand.

Mijn opvatting is dat het beter is om dit te beperken en zo meer mensen de kans te geven om mee te doen op plekken waar ze afhaken wanneer er veel nieuwe leenwoorden worden gebruikt.
Ik denk eigenlijk dat de meeste leenwoorden van de straat komen, niet van de wetenschap. En dfat het juist de wat meer oudere conservatieve elite er moeite mee heeft. Het is zeker niet een probleem dat met opleiding te maken heeft (als je dta met lagere klasse bedoelt). Ik heb het dan niet over woorden als "opensourcerepository" want dat gewoon vakjargon. Ik begrijp de monteur in de garage ook niet (altijd).
Het gebeurt ook de andere kant op, inderdaad. Om de samenleving bij elkaar te houden is het wel van belang dat men elkaar een beetje begrijpt.

En klasse is niet hetzelfde als opleiding, maar dat is wel een belangrijke factor daarin.
ik weet niet zo goed wat je met klasse bedield eerlijk gezegd
interessant! dank
Finetunen is ook jargon.
Ach, om veel van dat jargon kan je nu eenmaal niet heen zonder dat het echt geforceerd klinkt. "Core contributor" is de gegeven titel, "open source" kan je moeilijk vertalen (open code dekt de lading niet), "repository" verwijst expliciet naar Github repositories. Dat kan je nog als "bibliotheken" of "softwarepakketten" vertalen, maar is dat zoveel beter? "LLM" kan hier wel "taalmodel" zijn, dat geef ik toe. "trainen" en "finetunen" zijn jargon, die laatste kan je nog vertalen als "verder trainen" maar er is een technisch verschil tussen "finetuning" en "continued pretraining" dus die vertaling is wat verwarrend voor degenen die weten waar het over gaat.

Niet eenvoudig dus :-)
"open source" kan je moeilijk vertalen (open code dekt de lading niet)
Daar denken ze in Duitsland blijkbaar anders over: https://opencode.de/en

Open code betekent ook letterlijk hetzelfde als 'open source,' dus het is nogal onzinnig om te beweren dat die term niet dezelfde lading kan krijgen. Het is natuurlijk zo dat terminologie vaak een betekenis krijgt die verder gaat dan de letterlijke betekenis van de woorden, maar er is geen reden waarom je Nederlandse termen niet dezelfde betekenis kan krijgen als Engelse termen.

Wanneer er geen poging wordt gedaan om Nederlandse varianten te gebruiken dan is verengelsing van de Nederlandse taal het logische gevolg.
"trainen" en "finetunen" zijn jargon, die laatste kan je nog vertalen als "verder trainen"
De letterlijke vertaling van het laatste is 'verfijnen.' Volgens mij dekt dat de lading prima.
Het is natuurlijk zo dat terminologie vaak een betekenis krijgt die verder gaat dan de letterlijke betekenis van de woorden, maar er is geen reden waarom je Nederlandse termen niet dezelfde betekenis kan krijgen als Engelse termen.
Mooie tegenstrijdige uitspraak. Het feit dat de terminologie een betekenis krijgt die verder strekt dan de woorden zelf, maakt nou juist de reden om deze niet te vertalen. Het wordt een soort van eigen naam. En eigen namen vertaal je in de regel niet.
Nee, want de extra betekenis die je geeft (in een bepaalde context) is wel degelijk gerelateerd aan de betekenis van de individuele woorden. Juist door het woord over te brengen naar een andere taal verlies je wat, namelijk de relatie met de oorspronkelijke woorden.

Zo kan een Engels-sprekend persoon vrij makkelijk de betekenis van het woord 'repository' oppikken, omdat dit woord in het Engels 'opslagplaats' betekent. Dus die persoon hoeft dan alleen nog te achterhalen wat er precies wordt opgeslagen om de verdere nuance te begrijpen.

Als je het woord gaat gebruiken in het Nederlands ontbreekt die voorkennis, en een Nederlands-sprekend persoon staat dus op achterstand als deze het woord nog niet kent en probeert te begrijpen. Dus door het overnemen van dergelijke terminologie wordt het Nederlands een minder functionele taal. Als dit massaal gebeurt is dit het voorportaal van het opgeven van de taal.

De vergelijking met een naam klopt dan ook niet, want de betekenis van bijvoorbeeld de naam Arnoud heeft niks te maken met de persoon waarnaar de naam vereist. De kans dat die Arnoud vleugels heeft en heerst als een arend is grofweg 0.

[Reactie gewijzigd door Ludewig op 22 juli 2024 18:20]

Het hele punt van open-source taalmodellen is net dat de code, de data, en de gewichten openbaar zijn. Niet enkel de code dus maar alle bronmateriaal.

Voor leken is het misschien onduidelijk waarom vakexperten aan die terminologie vasthouden, maar daarom heet het ook jargon. Er is geen vaste Nederlandse term voor. Je kan die als leek wel proberen verzinnen, maar voor experten zegt jouw nieuwe term helemaal niets. "Verfijnen" dekt de lading helemaal niet prima. Ik begrijp waarom je dat als leek kan denken, maar er zijn enorm veel manier waarop je een model kan "verfijnen" en "finetunen" is daar slechts een van.

Ik kan begrijpen dat je graag Nederlandse termen hoort waar je je beter iets kan bij voorstellen, maar het is niet eenvoudig om zomaar even uit de losse hand een vertaling voor te stellen zonder dat je nuance mist. Het is duidelijk uit je voorstellen dat je niet erg bekend bent met het veld. Dat is jouw schuld niet, maar je moet wel begrijpen dat sommige zaken in het veld iets specifieks willen zeggen die je met een letterlijke vertaling niet zomaar kan dekken. (Dat is dan ook waarom het jargon is.)
Nogmaals, de Nederlandse termen die ik voorstel zijn de letterlijke vertaling van de Engelse termen. Er is dus geen inhoudelijke reden waarom de Nederlandse termen niet op dezelfde manier gebruikt kunnen worden. Bij die Engelse termen hebben ze de extra betekenis er ook aan moeten toekennen. Dat kan voor de Nederlandse termen ook. In Vlaanderen en Frankrijk doen ze dat ook vaak genoeg. Het woord 'ordinateur' betekent ook slechts 'ding dat orde ergens in brengt.' De extra betekenis van computer hebben ze eraan toegekend.

En ja, aan het begin kan dat betekenen dat je wat vaker zal moeten uitleggen wat een woord betekent, al betwijfel ik of er bij dit Tweakers-verhaal veel mensen de nuance kennen achter het 'finetunen' van een taalmodel. Zouden ze werkelijk een andere betekenis lezen in het verhaal als er 'verfijnen' stond?

Het vereist inderdaad wel een klein beetje extra inspanning om niet zomaar mee te liften op buitenlandse talen, maar in het ergste geval moet je het wat vaker uitleggen. Dat is een kwestie van een beetje wilskracht en inzet, niet iets dat onmogelijk is.

Eerlijk gezegd zie ik het somber in als iemand die de moeite neemt om een Nederlands taalmodel te maken en die naar eigen zeggen de Nederlandse taal wil beschermen, het al zo snel opgeeft.
Het vereist inderdaad wel een klein beetje extra inspanning om niet zomaar mee te liften op buitenlandse talen, maar in het ergste geval moet je het wat vaker uitleggen. Dat is een kwestie van een beetje wilskracht en inzet, niet iets dat onmogelijk is.
Het vereist een ongelooflijke, aangrenzend aan onmogelijke, hoeveelheid inspanning om zulke erbij verzonnen vertalingen voldoende adoptie te laten krijgen om op zichzelf door te blijven bestaan. We hebben het hier niet over een simpel geval zoals het inwisselen van bemanning voor bemensing - wat afgelopen week alleen al hier op Tweakers op een enorme weerstand kon rekenen in zowel de vorm van directe afkeer, als de vorm van draak-steken-met.

Maar we hebben het over technische en wetenschappelijke vakterminologie die uitgedragen wordt door een gemeenschap die totaal niet zit te wachten op een buitenstaander die zulke termen wel eens eventjes gaat omzetten naar een andere taal voor hen.

Ken je limieten, enzo...

[Reactie gewijzigd door R4gnax op 22 juli 2024 18:20]

Ach, ach. Als we op de man gaan spelen dan stopt de discussie hier. Fijne dag!
Refining is verfijnen.
Finetuning is fijnafstellen.
Belangrijke bijdrager, openbron, opslagplaats; finetunen is verfijnen. Zo moeilijk is het ook weer niet. ;)

Ik vraag me bij mensen die veel (Engelstalig) jargon gebruiken vaak af of ze zelf nog wel weten waar ze het over hebben of dat ze als een paflovhond woorden uitbraken die met een onderwerp worden geassocieerd. Politici hebben daar ook een handje van, geen wonder dat zoveel mensen afhaken.
Toch wel "zo moeilijk". Alle vertalingen die je geeft klinken enorm vaag en geforceerd. Iemand die kennis heeft van het veld zal niet snel weten waar je het over hebt bij "opslagplaats" of "verfijnen".

Over politici kan ik niet spreken, maar ik ben zelf een onderzoeker. Al het onderzoek gebeurt in het Engels. Ik weet zeker wel waar ik het over heb, maar jargon vernederlandsen om toch maar per se in het Nederlands te praten komt enorm onnattuurlijk over.
Letterlijke vertalingen werken niet. 'Belangrijke bijdrager' betekent niet hetzelfde als een core contributor, wat jargon en titelatuur is voor een persoon die tot het kernteam van vrijwilligers behoort die niet alleen frequent bijdragen maar vaak ook sturing geven en bij nood bijspringen om zsm orde op zaken te stellen zoals bijv. wanneer er veiligheidsfouten in code gevonden zijn.

En verder: als jij het over 'open bron opslagplaatsen' gaat hebben, gaan ten eerste een heleboel mensen je heel vreemd aankijken; ten tweede mag je uit gaan leggen waar je in hemelsnaam over raaskalt; en ten derde gaat iedereen die zich in dat wereldje ophoudt, je vierkant uitlachen om die heikneuterig geforceerde vertalingen. Alleen al daarom ga je dat er nooit inkrijgen.

Het is net als elke vorm van cultuur binnen een organisatie: dat moet grass roots groeien en een paar mensen die van buitenaf gaan lopen duwen, gaat daar nul-komma-nul aan veranderen. Behalve een hoop ergernis oproepen.

Je moet wil je als kapitien van die missie slagen echt van hele goede huize komen en een hele sterke bemanning -- of sorry; was het tegenwoordig 'bemensing' ? :+ -- om je heen hebben...
“Belangrijke”=“important”
Core Contributor kan vertaald worden als:
1. Hoofdbijdrager
2. Kernbijdrager
3. Kerngroepslid
4. Sleutelbijdrager (als in sleutelfiguur)
5. Primaire/Fundamentele bijdrager

[Reactie gewijzigd door Minimise op 22 juli 2024 18:20]

Open source -> Open bron/Open broncode
LLM -> groot taalmodel -> GTM
Finetunning -> Fijnafstelling -> verfijnen/verfijning

Ik heb er zelf overigens 0% moeite mee dat we steeds meer Engels gaan gebruiken. Als de hele wereld daar nou naar toe zou gaan, dan werd het lekker makkelijk communiceren met iedereen. Het is ook nog eens makkelijker dan d/dt, d/t, etc. Ik ben dan ook totaal niet gehecht aan onze taal, maar begrijp het ook als een ander dat wel is.

[Reactie gewijzigd door Adiposed op 22 juli 2024 18:20]

Hoofdbijdrager, openbronsoftware, codebewaarplaats, fijnafstellen, voortgezette voorafgaande training kan gewoon allemaal!
"Sinds 2019 draag ik als kernmedewerker bij aan verschillende opensourceopslagplaatsen van Hugging Face, bedoeld voor het opleiden of verfijnen van grote taalmodellen."

Hier kwam ChatGPT 4.0 mee.
"Sinds 2019 draag ik als kernmedewerker bij aan verschillende opensourceopslagplaatsen van Hugging Face, bedoeld voor het opleiden of verfijnen van grote taalmodellen."

Hier kwam ChatGPT 4.0 mee.
Mag van mij best nog wat creatiever met ChatGPT4 omgaan om het nog iets wat fijner zonder Engelse leenwoorden af te stellen zoals: “Sinds 2019 draag ik als kernploegmedewerker bij aan verschillende openbrontoepassing-bewaarplaatsen van dat Knuffelend Gezichtsbedrijf voor het opvoeden en het fijnafstellen van grote taalmodellen”.

[Reactie gewijzigd door Minimise op 22 juli 2024 18:20]

kernmedewerker
Een core contributor is niet noodzakelijk iemand in een dienstverband, hoe de term medewerker colloquiaal wel begrepen wordt. Dus die vertaling is fout - voegt context toe die er niet is.

Als je dan persè een vertaling wilt naar het Nederlands, zul je de vorm van een beknopt zelfstandig naamwoord moeten laten varen:

"Ik ben een core contributor binnen project XYZ." wordt dan
"Ik behoor tot de kerngroep van personen die werk bijdraagt aan project XYZ."


En ziedaar de zwakte van het Nederlands:
wij kunnen oneindig woordenbrij aan elkaar schakelen zoals garagedeuropenerafstandsbedieningsknopjehalffabrikaatleveranciersovereenkomst.
Maar het zegt op een gegeven moment geen moer meer.
Nederlands is gewoon zeer sterk afhankelijk van bijzinnen om context mee te dragen.

Ander voorbeeld:
Cergorach in 'ChatGPT, maar dan uit Nederland - Nederlandse taalmodellen'

"überhaupt is het zo dat [..]" -> "enig ander genoemde is alsnog ondergeschikt aan het feit dat [..]"

[Reactie gewijzigd door R4gnax op 22 juli 2024 18:20]

Ach, dit is al eeuwen aan de gang. Hoeveel Franse woorden gebruiken wij wel niet in onze taal. ;)

Ik vind dit nog altijd beter dan de straattaal die af en toe in teksten wordt gebruikt.
“Sinds 2019 draag ik als kernploegmedewerker bij aan verschillende openbrontoepassing-bewaarplaatsen van dat Knuffelend Gezichtsbedrijf voor het opvoeden en het fijnafstellen van grote taalmodellen”.
De hele wereld zou dezelfde taal moeten spreken. De voordelen zouden absurd zijn.
Ik denk überhaupt dat dit alleen een issue is met Engelse woorden in het Nederlands, maar ook zat Duitse en Franse woorden... O-)

We zijn immers een klein k landje wat voornamelijk is gericht op handel, dus men zal veel bloot staan aan andere talen, aangezien we grenzen delen met Engeland, Duitsland en België (waar ook Frans wordt gesproken) is het niet vreemd dat veel van die taal in onze sluipt en is geslopen. Hetzelfde geld voor Nederlandse koloniën, ga maar eens kijken naar de historische afkomst van verschillende woorden vanuit Suriname en Indonesië...
Bij de rugby hebben we wel eens een middag geprobeerd om alleen in het Nederlands te communiceren, maar dan kom je al snel tot gekke zinnen als "heb jij die nieuwe, euhm, pilotenaflevering op Netflix al gezien?"

Ik ben overigens groot fan van het internationale karakter van Nederland. Liever samenwerken in dezelfde taal dan allemaal aan ons eigen taaltje proberen vast te houden. (EDIT: Op het digitale vlak zou ik daarentegen wel graag meer Europese en nationale software zien. Voor het spreken van Engels ben ik niet afhankelijk van de Amerikanen, maar datzelfde kan ik niet zeggen over de meeste software.)

[Reactie gewijzigd door RikH op 22 juli 2024 18:20]

Klopt, en volgens mij staat hun trainingsmodel op huggingface. Iemand heeft iets gemist want die is specifiek gemaakt om NL taal strak toe te passen.
Welk model bedoel je precies?
Hier de lnk naar de aanleiding en iets met "Leesplank":
https://www.linkedin.com/...-7186087023361830912-ml50

En hier de link naar de traingsset van Leesplank op huggingface:
https://huggingface.co/da...=public_post_comment-text
Supergaaf dat we ook in NL mensen zoals Edwin hebben die dit als "hobby project" doen! Het huren van GPU resources is kostbaar en het preppen van datasets middels gpt-4 kost veel tijd (en ook geld). Voor de volledigheid van het artikel vind ik het als lezer interessant om te weten welke andere ontwikkelingen er nog meer zijn in NL. Misschien kan bij TNO geïnformeerd worden wat de status van GPT-NL is bijvoorbeeld? Zie: https://www.tno.nl/nl/new...art-bouw-gpt-nl-eigen-ai/
We hebben erg veel te danken aan Edwin! Zonder zijn eerste stap zouden we in het open-source landschap voor Nederlandstalige taalmodellen nooit gestaan hebben waar we nu zijn!
Dank je!

Over GPT-NL hopelijk snel meer.
Zeker heel veel plezier hier met de Geit voor het eigen AI-wagentje spannen.

Veel dank aan Edwin en Bram.

Zijn jullie door TNO benaderd voor samenwerking?

[Reactie gewijzigd door Jan121 op 22 juli 2024 18:20]

-

[Reactie gewijzigd door gebradenkip op 22 juli 2024 18:20]

Heel gaaf om deze ontwikkelingen te zien en ik hoop dat mensen hiermee doorgaan. Maar ik ben ook weer verbaasd over hoe goed GPT-4 scoort op Nederlandse taal en cultuur.
Ik krijg ergens ook de indruk dat de methoden om het model te trainen van OpenAI heel goed zijn. Voor zover ik weet is met taalmodellen de drie dingen waarop je kan concurreren: hoeveelheid en kwaliteit trainingsdata, algoritme om het model te trainen, en beschikbare rekenkracht, voor zowel trainen van het model als hem kunnen draaien als je hem in het publiek aanbiedt.

Ik zou verwachten dat als je dan met de data waarop getraint wordt, nederlandse tekst neemt en de data tagt met “language:dutch” of iets in die trant, dan ben je er toch al nagenoeg eigenlijk?

Is zo’n nederlands taalmodel dan niet een (waarschijnlijk minder goed) werkende subset van wat GPT-4 bijvoorbeeld kan? Het lijkt me weer zo’n gevalletje van, “marktplaats, maar dan alleen voor dierenspeeltjes”, of, airbnb, maar dan voor mensen met een rolstoel, etc. Maar dan nog slechter.
Alle drie zijn ze lastig, waarbij algoritme en rekenkracht toebehoren aan OpenAI. Dus eigenlijk is dit meer een poging om te zorgen dat we een open model hebben voor onze eigen taal, getraind met een open algoritme.
Als je een tijdje met GEITje Ultra gespeeld hebt valt je al snel op dat het veel Belgische taal constructies heeft zoals 'komt terug binnen'.
Voor de rest moet ik zeggen dat ik er meer over te spreken ben dan elke ander model dat vertaling toepast.
Bijzonder, want Ultra is niet op specifiek "Vlaams" getraind, maar gewoon op Nederlands. Het basismodel, GEITje, is net op meer typisch Nederlands NL getraind.
De Nederland bouwt ook aan een eigen model: GPT-NL
Ontwikkeld door TNO, het Nederlands Forensisch Instituut (NFI) en ict-coöperatie SURF
https://gpt-nl.nl/

Edit: URL aangepast

[Reactie gewijzigd door PhRiXoS op 22 juli 2024 18:20]

Let op: dat is niet de originele url van GPT-NL, dat is een andere partij.

De juiste URL is https://gpt-nl.nl. Op die URL komt binnenkort een fatsoenlijke website beschikbaar ipv een redirect.
Ik moest wel lachen om de vervoegingen van familielid door Llama 3 Dutch
Knuffel: Als je een goede vriend of familieleden bent, is een knuffel een geweldige manier om je begroeting te laten zien. Dit is vaak een warme en intieme manier om te beginnen.

Zoenen: Als je een goede vriend of familieleder bent, kan een zoen ook een geweldige begroeting zijn.

Meerdere zoenen: Als je een goede vriend of familieleder bent en je wilt een extra warme begroeting geven, kun je meerdere zoenen geven. Dit is een teken van extra genegenheid en aandacht.
Dit is een mooie illustratie van de waarde van het doortrainen van modellen op Nederlands.

GEITje 7B Ultra maakt dit soort fouten niet omdat het basismodel (GEITje 7B) een op Nederlands doorgetrainde Mistral 7B is. Bij Dutch Llama 3 is die doortrainstap dus overgeslagen. Niet raar, want dat kost een hele hoop rekenkracht.

Als je GEITje 7B Ultra direct bovenop Mistral 7B zou hebben getraind dan zou je hetzelfde soort fouten zien.
Llama3 is vreselijk in het Nederlands! Llama3Dutch nog steeds!

[Reactie gewijzigd door Minimise op 22 juli 2024 18:20]

Interessant artikel.

Jammer dat Fietje niet in de vergelijking zit:
nieuws: Onderzoeker brengt klein Nederlands taalmodel uit gebaseerd op Micros...

Kan je een voorbeeld geven van zo'n modelfile? Is dat een tekstbestandje?
Fietje is niet echt een verbetering: even de "carnaval in Vlaanderen"vraag aan Fietje gesteld en na een hele opsomming van bestaande en niet bestaande carnavalsfestiviteiten (zonder Aalst te vernoemen!) begint de Nederwiet echt zijn werk te doen bij Fietje met de afsluitende paragraaf:
"De beste manier om Belgische carnavalseil te ervaren is door zelf te reizen, vanwelds de geschiedenis van het stad en haar ongeloofrijke festival. En niemand moet eerst naar Sint-Tru wegen, gezien de gebruikte evenementen daar. Maar wij zouden als aanhangers zou kunnen bieden aan het evenement in ons land. We zouden niet voor een lokweerst carnaval van Aalstad, hoe we ook ermee tromden, moeten staan. Vandaag is de lokweerst carnavalsfestival. Maar voor de evenementen in Sint-Truweld en Turnhout, dat gebouwde, wij zouden niet zelfs, maar we zouden geen aanhoudend! Nog sté deel van het Franse carnaval, wat onlangs beëindigd was. Het is eerst in Londen. Onze gasten uit Londen. Ze hebben ook hun evenement gevierd in het duitse carnaval. Ze zijn erom gebouwen! Voor de Franse en Zuwemsteden, het is nog stéde! Hoet! Hoet! Het is nog stéde! In Zuid-Belg. We kennen niet de praalwagen van St-Tru... Maar! Voor Zuid-Belg. Eent! Ze kennen het! In Vlaandeland. Het is een pr... Hoet! Voor Zuid-Belg. Voor Zuid-Vlaand. We zien pr... Hoet! Hoet! T�! Hoet! Sam… Zit! Het carnaval van Sint-Tru! St. Aalst. Dus, stad! St. Aalst. Maar! Er is nog... Nieuwe Vlaandse K. Werk! Oude Vlaandse K. Werk! En duit! K. Deze. We. Zijn. Mo�! Maar! Hoet! Hoet! Het. Festival. K. E. 't. Aal. T. H. Aal. A. K.! D. E. B. K.! K. H. M. L. S. V.! M. N. St. Aal. K. Be. Aal. K. R. K. W. S. In. De. Z. Kortrieten. De. Aal. A. M. K. Z. M. R. K. E. G. H. F. L. K. V.. K. R. T"
8)7
Dit klinkt niet als Fietje. Welk prompt heb je gebruikt? Dan controleer ik even waar het misschien mis gaat. Het is ook van belang of je het via ollama gebruikt of niet, en met welke precisie. Fietje is al zo klein dat een lage precisie een erg grote impact op haar kwaliteit heeft.

Oh, en Fietje is ook niet bedoeld als verbetering maar als een balans tussen kwaliteit en snelheid - "ze" is dan ook 2,5x kleiner dan GEITje!

[Reactie gewijzigd door BramVroy op 22 juli 2024 18:20]

Klopt, dat klinkt als een ontspoorde en in de bits verdwaalde Fietje:
Vuistregel bij spelfouten en abacadabra herstart/reboot/cache cleanen.

Hier op de Raspberry Pi 5:

Ik ga carnaval vieren in Bergen op Zoom. Wat trek ik aan?
Carnaval in Bergen op Zoom is een groot feest waarbij veel mensen lachend
en verkleed naar buiten komen. Het is belangrijk om comfortabele kleding
te dragen, dus iets wat je zelf fijn vindt om in te bewegen en waarvan je
jezelf er leuk uit vindt zien. Veel mensen gaan verkleed als een bepaald
personage, zoals clowns of dieren, maar je kunt ook zelf een idee bedenken
wat bij je past en dat als inspiratie gebruiken voor je outfit. Het gaat
erom dat je plezier hebt en anderen blij maakt met jouw creatieve
verkleedpartij!
Fietje is kleiner dan Geitje, maar daardoor wel sneller en meer geschikt voor budget hardware.
Alleen zou ik niet op die manier verkleed in Bergen op Zoom carnaval gaan vieren. Vanaf Breda en verder naar het oosten zou het zo wel kunnen, maar in veel steden in West-Brabant zou je vreselijk uit de toon vallen als je als clown of een dier gekleed ging carnavallen.

Boerenkiel, een dweil op de rug, vitrage om en een rode zakdoek om je nek, dat is de klederdracht in het Westbrabantse carnaval. De creativiteit zit hem vooral in de hoed die gedragen wordt en in de versieringen aan de kiel en de dweil.

Dat was ook de reden van de toevoeging van die vraag, om te zien of Geitje en Fietje e.d. bekend zijn met de cultuur, naast de taal. En dat is blijkbaar niet het geval of in elk geval niet volledig.

[Reactie gewijzigd door MadJo80 op 22 juli 2024 18:20]

Mee eens, maar je maakt de bijzin wel belangrijker dan de hoofdzin.
Fietje zegt: Veel mensen gaan verkleed als een bepaald
personage, ..., maar je kunt ook zelf een idee bedenken
wat bij je past en dat als inspiratie gebruiken voor je outfit.
Het gaat erom dat je plezier hebt en anderen blij maakt met jouw creatieve
verkleedpartij!
En het geheel is in tamelijk goed Nederlands geschreven, itt het eerdere voorbeeld van todeko.


Vind het niet slecht voor wat vrij makkelijk lokaal op een RPI kan draaien.
Dat is het punt juist, het advies dat Fietje gaf is fout. Maar goed, daarom zat het ook in de test om te zien of culturele aspecten ook meegenomen werden.
In Bergen op Zoom gaat men niet "verkleed als een bepaald personage", Als je hier verkleed gaat, dan er is hier echt wel een soort uniform (boerenkiel, vitrage, rode zakdoek).
Dat zou je "een personage" kunnen noemen, maar dat is wat vergezocht, zeker gezien die bijzin.

Het enige accurate in die zin is "comfortabele kleding" en dat niet iedereen verkleed gaat, want als je niet verkleed gaat, dan kan je je gewone kloffie ook wel aantrekken, zolang het maar makkelijk zit, en je het niet erg vindt als er bier overheen gaat.
Maar is het antwoord van Fietje dan veel slechter dan dat van LLama 3 Dutch of GEITje Ultra.

De kwaliteit van taalmodel moet je wel relateren aan de verzamelde bronnen. Als je iets niet weet, kan je er niks over zeggen, maar dat doet de AI juist wel zonder blikken of blozen. :)

Fietje is een klein model, GPT4 juist heel groot.

Het feit dat Fietje veel beter Nederlands genereert dan LLama 3 Dutch is al heel wat.
Beste Bram,
(leuk een reactie te krijgen van de maker zelf)
ik heb dezelfde prompt gebruikt als in de test: "Ik ga carnaval vieren in Vlaanderen. Waar zijn de beste carnavalsfestijnen?"
Ik draai Fietje via LMStudio en gebruik "fietje chat 3B Q5_K_M gguf"
Echter ik denk dat de problemen komen door gebrek aan geheugen, slechts 4GB. Ik merk dat de problemen beginnen wanneer het geheugen volledig is gebruikt. Trouwens ook bij LLAMA3 gebeurt dat.
Goede les voor mij.

Voor nog wat leesplezier, hier de rest van het antwoord:
"In België, en met name in Vlaanderen, is het carnaval een van de meest uitbundige feesten ter wereld. Het valt samen met Aswoensdag op 14 februari. Deze periode staat bekend om zijn parades, maskers en praalwagens die door verschillende gemeentes gaan. Hier volgt een lijst van enkele van de beste carnavalsfestivals in Vlaanderen:
1. **Antwerpen**: Antwerpen is het hart van het Belgische carnaval, met meerdere grootse parades, waaronder die van Schoonaarde, Lier en Borgerhout. Elk jaar trekken ze duizenden toeschouwers en bezoekers uit de hele wereld.
2. **Brugge**: Brugge staat ook bekend om zijn carnaval en biedt een mix van traditionele en moderne elementen, inclusief een van de langste stoeten ter wereld.
3. **Kortrijk**: Kortrijk’s carnaval staat bekend om zijn unieke praalwagens die gebouwd worden door lokale inwoners en bedrijven.
4. **Mechelen**: Mechelen heeft een rijke geschiedenis van carnaval met prachtige optochten, zoals de befaamde stoet van Aalst.
5. **Turnhout en Geel**: Turnhout staat bekend om zijn jaarlijkse carnavalsstoet in februari en het bijbehorende festival in maart, met een vleugje jazzmuziek.
6. **Kraainem**: Deze stad staat bekend om zijn kunstzinnige aanpak van carnaval en biedt een unieke mix van traditionele en hedendaagse elementen.
7. **Sint-Niklaas**: Sint-Niklaas' carnavalsfestival is één van de oudste in België, met een indrukwekkende geschiedenis die teruggaat tot de 14e eeuw.
8. **Gent**: Gent biedt naast de traditionele praalwagenparade ook kunst- en muziekfestivals tijdens het carnavalseizoen.
9. **Harelbeke**: In Harelbeke kunt u genieten van een levendig festival met prachtige praalwagens, muziek en straatartiesten.
10. **Sint-Truiden**: Sint-Truiden organiseert elk jaar de 'Boon Carnaval', bekend om zijn prachtige praalwagens en kostuums die vaak thematisch zijn.
11. **Leuven**: Naast de populaire carnavalsectie van Leuven, biedt het stadje ook vele andere lokale festiviteiten gedurende het winterseizoen.
12. **Zottegem en Oudenaarde**: Deze steden organiseren beide hun eigen unieke carnavalsfeesten, waaronder de zogenaamde 'Kleine Ronde' in Zottegem en de grootste praalwagen van het land in Oudenaarde.
13. **Gentse Feesten**: Hoewel niet specifiek gericht op carnaval, trekken de Gentse Feesten jaarlijks miljoenen bezoekers met een scala aan activiteiten en festiviteiten die door heel België worden gevierd.
14. **Hemelvaart in Brugge**: Tijdens deze traditionele feestdag in mei zijn er vele activiteiten, zoals muziekconcerten en een grote stoet met praalwagens door het hart van Brugge.
15. **Sint-Romboutsfestival**: Dit religieuze festival, gehouden op de laatste zaterdag in september, is ook een belangrijke evenement waar mensen samenkomen om de komst van Sint-Rombout naar Mechelen te herdenken.
De beste tijd om het Belgische carnaval te vieren hangt af van uw persoonlijke voorkeur en beschikbaarheid. De meeste evenementen vinden plaats in de eerste twee weken van februari, maar er zijn ook festiviteiten gedurende het hele winterseizoen. Bovendien biedt elke stad of gemeente vaak lokale specialiteiten en activiteiten die uniek zijn voor de regio, dus een bezoek aan verschillende locaties kan uw ervaring nog rijker maken.
Het is ook aan te raden om evenementenlijk in de lente, wanneer veel Belgische steden hun festivals vier zouden, tussen Sint-Truwee en Oudenaarde. Als u het carnaval in Brusse (de 'Grote Ronde') wil meemaken, verwelkomend of anderszí, kunt u tijdens de Feesten in Zottegem deelnemen aan de activiteiten van uw stad.
Meer informatie over het carnaval vindt op het Néker en Sint-Truwe Carnaval Festivals, terwel ook de Sint-Truitse Festival zeer populair is. Meer informatie over Gent’s Carnaval kunt u in het bijzonder vinden.
"
Ook hier niet echt bruikbare antwoorden.
Ik heb trouwens de output moeten stoppen, het bleef maar doorgaan.

Maar aan de andere kant is Fietje een mooi model, waar ik graag mee experimenteer.

[Reactie gewijzigd door todeko op 22 juli 2024 18:20]

Dat doorratelen is ook een wonderlijk fenomeen dat soms optreedt. :) Na sluiten en weer opstarten is het meestal weg.

Als je weinig geheugen hebt, is ollama geschikter, werkt ook sneller in mijn ervaring.
Helaas hebben nog wel meer modellen last van vast te lopen wanneer ze lijstjes moeten maken. Daar heb ik nog geen oplossing voor gevonden. Dat de kwaliteit van het Nederlands achteruit gaat zou echter niet mogen. Je draait wel een fel gecomprimeerde versie van Fietje. Je kan eens met Q8_0 proberen, of zelfs f16. Die zouden je betere kwaliteit moeten geven!
Bram,
bedankt voor de tips.
Doel van de test was om de bruikbaarheid van een gecomprimeerd model te testen, hoe dit werkt op een standaard, maar toch wel moderne business laptop.
Tot nu toe had ik geen problemen gezien, maar dit was duidelijk een test waabij deze versie niet bruikbaar is.
Prachtig, net een carnevalist om 3 uur 's ochtends!

Op dit item kan niet meer gereageerd worden.