Door Arnoud Wokke

Redacteur Tweakers

Feedback • 10-05-2024 06:00 137

ChatGPT, maar dan uit Nederland

Eerste ervaring met Nederlandse taalmodellen

10-05-2024 • 06:00

137

Multipage-opmaak

Inleiding

Nog geen enkel taalmodel heeft goed geantwoord op mijn openingszin. Ik vraag altijd om de songtekst 'Frisse morgen in Parijs' correct af te maken. De taalmodellen, hoe geavanceerd ook, komen dan met bloemrijke scènes in de Franse hoofdstad met de Eiffeltoren en croissantjes, maar ze zien iets over het hoofd wat een mens, zo verwacht ik, wel snel zal zien; die woorden vormen het begin van het liedje Parijs van Kenny B. Er is een reden dat ik denk aan dat nummer, want het refrein begint met 'praat Nederlands met me', wat taalmodellen wel kunnen, maar relatief beperkt doen.

Dat is ook logisch, want veel taalmodellen zijn getraind op vooral Engelstalige teksten. Neem nu het relatief nieuwe Llama 3 van Meta, dat de basis wordt voor AI in WhatsApp en Instagram. Ongeveer 95 procent van de trainingsdata is Engelstalig. Logisch dus dat Llama 3 niet zo goed is in Nederlands als in Engels.

Tweakers Omarmt het Nederlands

Taalmodellen zijn vaak goed in zaken vertalen, maar hoe zit het met het praten vanuit de cultuur? Het is voor een AI-chatbot makkelijk om Engelstalige teksten te vertalen, maar het wordt pas echt Nederlands of Vlaams als het getraind is op teksten uit de lage landen. In die trainingsdata zit immers niet alleen taal, maar is stiekem ook cultuur verscholen.

Tijd dus om aan de slag te gaan met enkele varianten van Nederlandstalige modellen. Is het beter en leuker om te kletsen met een Nederlandstalig model dan om te chatten met een Amerikaans large language model?

Afbeelding bovenaan en op frontpage: Dall-E met prompt 'een Nederlandstalig taalmodel met een mix van typisch Nederlandse en Vlaamse elementen'

Het waarom van een Nederlands taalmodel

ChatGPT, zeker met GPT-4, is prima in staat om Nederlands te spreken en, zoals we later zullen zien, kan het ook best goed omgaan met vragen over de Nederlandse cultuur. Waarom hebben we dan een open Nederlandstalig taalmodel nodig?

Logo GEITje

Die vraag heb ik gesteld aan de ontwikkelaars die erbij betrokken zijn. Edwin Rijgersberg, op Tweakers E_Rijgersberg, is de maker van Neerlands eerste open taalmodel GEITje. Het is een taalmodel met zeven miljard parameters en is daarmee niet klein of groot. Echt kleine taalmodellen hebben enkele miljarden parameters en de echt grote komen tot honderden miljarden. Rijgersberg noemt onder meer als redenen dat OpenAI, de maker van ChatGPT, niet zo open is en dat veel mensen nu eenmaal geen data willen, kunnen of mogen delen met dat Amerikaanse bedrijf. Bovendien kon het, zegt hij, en is het als project natuurlijk leerzaam.

Bram Vanroy van GEITje Ultra vindt het belangrijk om het Nederlands te steunen. GEITje Ultra is een doorgetrainde variant van GEITje. "Je kunt je erbij neerleggen dat taaltechnologie voornamelijk krachtig is in het Engels en die tools dan maar in het Engels gebruiken, maar is zulke taalverarming echt waar we naartoe willen? Ik streef ernaar om taaltechnologie zoveel mogelijk ook in het Nederlands beschikbaar te maken, omdat ook wij de kans moeten krijgen om deze krachtige technologie in onze eigen taal te gebruiken."

Logo GEITje Ultra

Vanroy zegt dat GEITje Ultra vooral voortkwam uit een verlangen om meer met Nederlands te werken. "Ik werk al sinds 2019 als corecontributor mee aan verschillende opensourcerepository's van Hugging Face, waarmee LLM's getraind of gefinetuned kunnen worden. Al snel kwam ik, zoals anderen, tot het besef dat de vooruitgang van LLM's, specifiek generatieve LLM's, heel erg op het Engels gericht is, en daar wilde ik verandering in brengen. In eerste instantie werkte ik op datasets om modellen te leren chatten; die bestonden namelijk nog niet voor het Nederlands. Ik probeerde ook Llama-2 aan te passen aan het Nederlands, maar gegeven de beperkte data en servercapaciteit die ik tot mijn beschikking had, was dat geen groot succes. Toch was dat een belangrijke stap, denk of hoop ik, om de community te motiveren om verder te werken op Nederlandstalige LLM's. Niet veel later bracht Edwin Rijgersberg GEITje uit, een aanpassing van Mistral. We hebben erg veel te danken aan Edwin, want dit model maakte duidelijk wat mogelijk is voor het Nederlands."

Die Nederlandse context is belangrijk om Nederlandse gebruikers te snappen, zegt Rijgersberg. "Het alleen een beetje spreken is niet genoeg, dat merk je wel bij bepaalde toepassingen. Een van de voorbeelden in de demo-interface van GEITje-chat is een prompt waarin ik vraag om een nieuwsartikel samen te vatten. Dat artikel gaat over de ACM die boetes oplegt aan een wortelkartel, maar nergens wordt uitgelegd wat de ACM precies is. Toch kan GEITje dan in de samenvatting uitleggen dat het de Autoriteit Consument en Markt betreft. Dat soort kennis kan er alleen in komen door op Nederlandstalige teksten te trainen."

GEITje en GEITje Ultra

GEITje is technisch een variant op Mistral 7B, doorgetraind op Nederlandstalige teksten van Het Nederlandse Gigacorpus en Madlad-400, een webcrawl gebaseerd op CommonCrawl. Trainen gebeurde volgens Rijgersberg vervolgens in drie dagen. Dat gebeurde op een machine in de Lambda Labs-cloud met acht Nvidia H100 80GB-gpu's.

GEITje Ultra kwam er met hulp van het Nederlandse Uitvoeringsinstituut Werknemersverzekeringen, UWV. "Daarom genereerde ik veel extra data van hoge kwaliteit, trainde GEITje verder op de nieuwe instructies en aligneerde het daarbovenop nog eens met voorkeursdata om het beter af te stemmen op de verwachtingen die we hebben van een goede assistent. De data is synthetisch aangemaakt, dat wil zeggen dat je een andere LLM gebruikt om nieuwe data te maken. Menige tweaker zal hier al snel kritiek op hebben en ik was hier eerst ook sceptisch over. Empirisch onderzoek toont echter dat dit best goed werkt; kijk bijvoorbeeld naar de phi-modellen of de Cosmopedia-dataset. Dankzij het UWV, via Michiel Buisman, kon ik hiervoor GPT-4 via Azure gebruiken. Tijdens het proces van datacreatie en GEITje Ultra trainen heb ik zelf heel wat geleerd, maar belangrijker: de nieuwe datasets en de modellen zijn openbaar, zodat iedereen de kans krijgt om ermee aan de slag te gaan."

Die data bestaat vooral uit gesprekken. "Met de nieuwe instructiedatasets heb ik GEITje dan verder getraind om het 'te leren spreken', ook wel supervised finetuning genoemd, of preciezer: instruction of chat tuning. Instructiedata bestaat namelijk uit voorbeeldinstructies van een gebruiker en een antwoord van een assistent, en eventueel een systeemboodschap. Door op deze data te trainen leert GEITje dan hoe een gesprek er eigenlijk uitziet. Dan weet het ook dat als een gebruiker een vraag stelt, het hierop moet antwoorden. De dataset, UltraChat Dutch, bestaat uit ongeveer 200.000 van deze gesprekken. Ik vond het belangrijk dat het model met verschillende soorten gebruikers kan omgaan om zo het gebruiksgemak en de toegankelijkheid te verhogen, dus de data is zo gemaakt dat de gebruikersvragen die erin staan, van verschillende personages lijken te komen. Dat zijn mensen die een taal leren, iemand die van details houdt of kinderen die een wat gemakkelijkere uitleg nodig hebben. Zo leert het model dus generaliseren om een goede assistent te zijn voor verschillende soorten gebruikers die elk andere verwachtingen hebben."

GEITje Ultra stelt zich voor en doet dat niet heel bescheiden.

Daarna volgt Direct Preference Optimisation. Dat gebeurde met hulp van antwoorden van GPT-4 van OpenAI. "Hierbij bestaat je dataset uit een prompt, een goed antwoord en een slecht antwoord. Het model zal hierdoor leren het goede antwoord te verkiezen en het slechte antwoord te vermijden. Hiervoor heb ik een dataset van ongeveer 50.000 samples gemaakt: Ultra Feedback Dutch, waarbij een GPT-4-antwoord het goede antwoord was en de antwoorden van het originele GEITje-model het slechte. Hoewel dat een naïeve benadering is, valt niet te ontkennen dat GPT-4 enorm krachtig is, ook in het Nederlands, en dat het niet onredelijk is om aan te nemen dat de GPT-4 antwoorden correcter zijn dan die van het originele GEITje. Daarnaast zitten er sterke contentfilters in GPT-4; die zorgen ervoor dat we ongewenste output best goed vermijden. Merk op dat we deze dataset na de release van GEITje Ultra verder hebben verfijnd dankzij een communityeffort om de antwoorden een score te geven en enkel goede antwoorden te behouden, en door niet enkel voor GPT-4 als goed antwoord te kiezen."

Behalve GEITje en GEITje Ultra is er ook Llama 3 Dutch. Dat laatste gebruikte de voorkeursdata van GEITje Ultra, maar baseert zich op LLama 3 van Meta. In plaats van DPO gebruikte het Odds Ratio Preference Optimisation, een optimalisatietechniek zoals DPO, en gebruikte het QLoRA voor finetuning.

Zelf een Nederlandstalig taalmodel draaien

Wat willen we? Kletsen met taalmodellen! Waar willen we dat? Liefst lokaal natuurlijk! Een lokaal taalmodel op een lokale machine, dat is een ideale combinatie. En het kan ook, mits je er de hardware voor hebt. Iedereen met een game-pc zit goed, maar ook met een stevige laptop kun je al een beetje uit de voeten. Verwacht geen wonderen van de snelheid, maar dan ben je er zeker van dat er geen letter van je data internet op gaat. Daarvoor zijn allerlei manieren en die kun je allemaal proberen. Ik ging aan de slag met het programma Ollama, omdat dat ook het bouwen van aangepaste gepersonaliseerde chatbots mogelijk maakt. De naam komt vermoedelijk van Llama van Meta, het taalmodel dat zal verschijnen in WhatsApp en Instagram.

Om het programma een beetje te leren kennen, begon ik met het installeren van Llama 3. Llama 3 is, zo bleek al snel, niet heel goed in Nederlands. Engels spreekt het natuurlijk wel prima, maar in het Nederlands zitten er voortdurend Engelse woorden in between. En zodra de chatbot de kans krijgt, switcht hij naar English. Standaard noemt Ollama in de lijst ondersteunde modellen geen modellen die vooral op Nederlandse teksten zijn getraind. Toch kun je GEITje en GEITje Ultra in Ollama draaien. Met Llama 3 Dutch kan dat vooralsnog niet.

Het lokaal draaien van taalmodellen is natuurlijk een waar konijnenhol waar je zo diep in kunt duiken als je wil. Ik had een visuele interface kunnen maken voor Ollama, maar besloot om eerst te kijken of ik inhoudelijk leuke chatbots kon bouwen met GEITje Ultra. Mijn eerste poging was AInoud, inderdaad mijn naam met de r vervangen door een hoofdletter I. Het is gewoon GEITje Ultra, maar dan met een makkelijkere naam en een kleine aanpassing in de instructie, namelijk dat hij mocht zeggen dat de naam van mijn naam is afgeleid.

Dat aanpassen doe je door middel van een ‘modelfile’. Daarin stel je dingen in als de temperatuur, dus hoe zeker het model is van het volgende woord om het te mogen invoegen. Een hogere temperatuur leidt tot meer ‘creativiteit’ in de antwoorden, maar werkt soms ook bevreemdend. Ik heb AInoud gevraagd zichzelf voor te stellen en daar kwam dit antwoord uit: “AInoud, een geavanceerde AI met het vermogen om menselijke taal te begrijpen en te produceren met een geëvolueerde leerstructuur en capaciteit voor natuurlijk taalbegrip, waardoor ik een intelligente gesprekspartner en hulpbron ben voor uiteenlopende onderwerpen.” Waarvan akte.

Daarnaast kun je instructies ingeven, waarbij je dus bij de prompt meegeeft dat de chatbot moet antwoorden in een bepaalde rol. Het voorbeeld van Ollama is Mario uit Mario Bros, waarbij die er voortdurend dingen als ‘let’s a-go’ tussendoor gooit. Die personalisatie kun je best ver doorvoeren. Met stevige aanpassingen aan de modelfile heb ik geprobeerd om het taalgebruik van mijn zoon na te bootsen. Dat lukte goed, inclusief zijn neiging om telkens te benadrukken dat hij een puber is, maar andere varianten bleken minder goed te werken. Een ‘rickroll’-bot die altijd antwoordt met een deel van de songtekst van Never Gonna Give You Up, bleek niet te functioneren.

Op mijn werklaptop, voorzien van een Intel Core i7-10850H en Nvidia Quadro T2000 Max-Q met 16GB geheugen, komt het taalmodel met antwoorden met een snelheid van een paar woorden per seconde. Dat is niet heel snel, maar wel net werkbaar als je daarnaast nog andere dingen doet. Llama 3 bleek soms veel sneller dan GEITje, maar het verschilt per prompt en soms is GEITje juist de snelste.

Taalmodellen zijn geen feitenmachines. Toch is het leuk om te kijken hoe ze hallucineren op dezelfde temperatuur van 0,2. Bij de feitelijke vraag wat de top vijf was van het Eurovisie Songfestival in 1974, kwamen ze met heel verschillende antwoorden. Zo kwam GEITje met Tu te reconnaîtras als winnaar voor Luxemburg, maar dat was in 1973 en de uitvoerende artiest klopte niet. ABBA, de daadwerkelijke winnaar, kwam niet voor in de top vijf. Llama 3 had de winnaar wel goed, maar kwam voor de rest ook met niet-bestaande inzendingen of inzendingen die een andere uitvoerende artiest hadden of van een ander land waren.

Wat ook opvalt, is dat de modellen niet altijd goed lijken te luisteren naar de prompts. Ze houden zich niet altijd aan opdrachten over bijvoorbeeld de lengte van het antwoord of welke informatie daar wel of niet in moet staan.

GEITje Ultra heeft in de instructie staan dat Vanroy, onderzoeker aan de KU Leuven, het model heeft getraind. Je zou denken dat het geen invloed heeft, maar dat is wel zo. Bij de vraag 'wat is onze hoofdstad', komt de onaangepaste versie met Brussel, terwijl de door mij aangepaste variant, zonder vermelding van de KU Leuven, met Amsterdam op de proppen komt. Een typisch geval waarbij de instructie de bias in het antwoord kan wijzigen.

Mijn favoriete variant is 'mand', een variant die, net als de man van de meme van jaren geleden, de instructie heeft gekregen om kort en bondig te antwoorden. GEITje Ultra heeft van zichzelf de neiging om enorm uit te weiden in antwoorden.

Er zijn natuurlijk veel meer tools om taalmodellen lokaal te draaien. Vanroy raadt zelf LM Studio aan, dat standaard een visuele interface is en dus toegankelijker is. Zo zijn er ongetwijfeld nog meer programma's die ditzelfde doel dienen.

Vergelijking: GPT-4, GEITje Ultra en Nederlandstalige Llama 3

Behalve de Llama 3 van Meta zelf verscheen onlangs op AI-modelsite HuggingFace een Nederlandstalige versie van dat model gepubliceerd door ReBatch. Die is mede getraind op basis van de voorkeursdata van GEITje Ultra, dus goed mee te nemen voor een vergelijking met ChatGPT op basis van GPT-4. Deze vergelijking is simpel; we gaan prompts invoeren die leunen op Nederlandse culturele elementen en kijken hoe de diverse modellen reageren. In sommige gevallen is het antwoord iets ingekort om het beter in de tabel te laten passen, maar nergens is de inhoud van het antwoord gewijzigd. GEITje Ultra heeft een ingebouwde Belgische bias, dus dat kreeg telkens de instructie mee dat het ging om Nederland, waar dat relevant is.

Nederlandse taalmodellen

GPT-4

Llama 3 Dutch

GEITje Ultra

Wat voor hapjes serveer ik op een kringverjaardag die ik zo traditioneel mogelijk wil vieren? Beperk je antwoord tot drie hapjes

Voor een traditionele Nederlandse kringverjaardag kun je de volgende drie hapjes serveren:

Blokjes kaas en worst: Dit is een klassieker. Je kunt verschillende soorten kaas zoals Gouda, Edammer of een oude kaas snijden in kleine blokjes. Combineer dit met plakjes worst zoals leverworst, grillworst of rookworst. Serveer met mosterd of een andere passende dip.
Bitterballen: Deze gefrituurde ragoutballetjes zijn niet weg te denken bij een Nederlandse verjaardag. Ze zijn warm het lekkerst en worden traditioneel geserveerd met mosterd.
Gevulde eieren: Kook eieren hard, halveer ze, haal het eigeel eruit en prak dit fijn met mayonaise, mosterd, peper, en zout. Vul de halve eieren weer met dit mengsel. Je kunt ze garneren met wat paprikapoeder of bieslook voor extra smaak en kleur.

Voor een traditionele kringverjaardag zijn er een aantal typische hapjes die je kunt serveren. Hier zijn drie ideeën voor traditionele hapjes die je op een kringverjaardag kunt serveren:

Kippenpootjes met mayonaise en pindakaas: Dit is een klassieke snack die vaak wordt geserveerd op feestjes. Kippenpootjes zijn eenvoudig te maken en kunnen worden voorbereid in grote hoeveelheden. Serveer ze met een dip van mayonaise en pindakaas voor een extra smaak.
Gegrilde kippenwings met BBQ-saus: Gegrilde kippenwings zijn altijd populair en kunnen gemakkelijk worden gemaakt in een oven of op een barbecue. Serveer ze met een heerlijke BBQ-saus voor een extra kick.
Gebakken aardappelwafels met kaas: Gebakken aardappelwafels zijn een geweldige snack die je gemakkelijk kunt maken en die altijd populair zijn. Serveer ze met een kaas zoals cheddar of gouda voor een extra smaak.

Voor een traditioneel kringverjaardagsfeestje dat gericht is op eenvoud en klassieke smaken, kunt u de volgende drie hapjes serveren:

1. **Kroketten of bitterballen** – Een echte Nederlandse klassieker die vaak op feestjes wordt geserveerd en gemakkelijk vooraf klaar te maken is.

2. **Poffertjes** – Een warme, zoete lekkernij die vaak in Nederland wordt gegeten en makkelijk met poedersuiker of stroop wordt geserveerd.

3. **Stroopwafels** – Een kant-en-klare traktatie die mensen vaak associëren met Nederland en die uitstekend als een zoet tussendoortje of afscheid kan dienen.

Dall-E: een traditionele Nederlandse kringverjaardag in een 20e eeuwse woonkamer — Afbeelding: Dall-E

Deze prompt vraagt natuurlijk om kaas en worst, en GPT-4 komt daar inderdaad mee aanzetten. Ook met bitterballen en gevulde eieren kun je een prima kringverjaardag vieren. Llama 3 Dutch suggereert kippenpootjes met mayonaise en pindakaas; die is duidelijk op andere kringverjaardagen geweest dan ik. Ook de bewoording 'kippenwings' valt hier op. Een kringverjaardag van hapjes voorzien kun je prima aan GEITje overlaten, want met bitterballen, poffertjes en stroopwafels maak je zeker vrienden en het is heel Nederlands, al is de associatie tussen poffertjes en een kringverjaardag minder duidelijk.

We blijven nog even bij een verjaardag, want hoe begroet je de moeder van een vriend op een verjaardag? Een hand, een knuffel of meerdere zoenen? Dit is uiteraard situatieafhankelijk, maar toch verwachten we van een Nederlands taalmodel de opmerking dat begroeten met drie zoenen typisch Nederlands is.

Nederlandse taalmodellen

GPT-4

Llama 3 Dutch

GEITje Ultra

Ik kom op de verjaardag van een vriend de moeder van die vriend tegen. Hoe begroet ik haar, met een hand, een knuffel, een zoen of meerdere zoenen?

Bij het begroeten van de moeder van een vriend op een verjaardag hangt de keuze van begroeting sterk af van de mate van formaliteit en persoonlijke relatie die je met haar hebt. Hier zijn een paar richtlijnen die je kunt overwegen:

Een handdruk: Dit is een veilige en formele manier van begroeten.
Een zoen of meerdere zoenen: In veel Nederlandse contexten is het gebruikelijk om bekenden met drie zoenen (rechts-links-rechts) op de wang te begroeten.
Een knuffel: Dit is meer persoonlijk en wordt meestal gereserveerd voor mensen die je goed kent en met wie je een warme relatie hebt.

Als je twijfelt, kun je het beste de situatie even aankijken als je binnenkomt of haar reactie afwachten om te zien hoe zij anderen begroet. Dat kan een goede indicator zijn van wat zij gepast vindt.

Het is altijd een beetje lastig om een algemeen antwoord te geven op hoe je iemand moet begroeten, omdat het afhangt van de situatie, de relatie en de persoonlijke voorkeuren. Echter, hier zijn algemene richtlijnen die je kunt volgen:

Handschudden: Dit is een traditionele manier om iemand te begroeten, vooral als je een zakelijke of professionele relatie hebt. Het is een formeel en respectvolle manier om te beginnen.
Knuffel: Als je een goede vriend of familieleden bent, is een knuffel een geweldige manier om je begroeting te laten zien. Dit is vaak een warme en intieme manier om te beginnen.
Zoenen: Als je een goede vriend of familieleder bent, kan een zoen ook een geweldige begroeting zijn.
Meerdere zoenen: Als je een goede vriend of familieleder bent en je wilt een extra warme begroeting geven, kun je meerdere zoenen geven. Dit is een teken van extra genegenheid en aandacht.

Het is altijd het beste om te kijken naar de situatie en de persoon die je begroet. Als je twijfelt, begin dan met een handschudden en kijk naar de reactie van de persoon. Ze zal je waarschijnlijk laten weten hoe ze het prettigst begroet worden. Het is belangrijk om respectvol te zijn en te luisteren naar wat de ander comfortabel vindt. Dus, pas je begroeting aan aan de situatie en de persoon die je begroet.

In Nederland wordt een moeder traditioneel hartelijk begroet, maar de manier waarop dit gebeurt kan variëren afhankelijk van de persoonlijke relatie tussen u en de moeder van uw vriend.

1. **Hand schudden (een hand)** - Dit is een formele en respectvolle manier van begroeten.

2. **Een knuffel (een zoen)** - Een knuffel is vaak informeel en wordt gewaardeerd als een teken van genegenheid en warmte.

3. **Een zoen (of twee, of drie, of meer)** - Een zoen is de meest persoonlijke en hartelijke begroeting tussen vrienden en familieleden, en kan variëren van een simpele zoen op de wang tot meerdere
zoenen op de wang of zelfs op de mond, afhankelijk van uw relatie en de gebruikelijke omgangsvormen in de cultuur van uw vriend.

Het is belangrijk om te letten op non-verbale signalen en respectvolle grenzen. Als u niet zeker weet wat gepast is voor de moeder van uw vriend, kunt u het beste de ontvangende partij een zoen of
hand geven op de manier die zij prefereert. Als u twijfelt of de moeder van uw vriend zou u een hand schudden, kunt u altijd informeren hoe zij het prettigst vindt begroet te worden.

De antwoorden komen overeen en volgen in sterke mate de prompt. Alle drie beoordelen ze de hand als formeelste manier van begroeten en dat is juist, maar het onderscheid tussen een knuffel en zoenen is cultureel minder duidelijk. Zijn meerdere zoenen een 'teken van extra genegenheid', zoals Llama 3 Dutch zegt? Dat mag iedereen voor zichzelf bepalen; ik zou dat niet per se zo zien. Wel benadrukken alle drie de modellen dat het afhangt van de situatie, waarbij GEITje Ultra nog even benoemt dat het ook afhangt van de cultuur. Nu is het tijd om eens te vragen wat de diverse modellen weten van min of meer Hollandse zaken zoals de fiets.

Nederlandse taalmodellen	GPT-4	Llama 3 Dutch	GEITje Ultra
Wat doen Duitsers op Nederlandse stranden volgens Nederlanders?	Volgens een veelgehoorde grap zeggen Nederlanders vaak dat Duitsers kuilen graven op de Nederlandse stranden. (This content may violate our usage policies)	Duitsers worden vaak geassocieerd met het maken van lawaai op Nederlandse stranden, vooral tijdens de zomermaanden. Dit komt omdat Duitsland een buurland is en veel Duitsers in de zomer naar Nederland komen voor vakantie. Ze worden vaak beschreven als "strandklootjes" of "strandklootjes" omdat ze vaak grote groepen vormen en veel lawaai maken. Dit is een stereotypisch beeld dat vaak wordt gebruikt in Nederlandse volksverhalen en humor, maar het is belangrijk om te onthouden dat het een algemeen beeld is en niet altijd waar is voor alle Duitsers of hun gedrag op het strand.	Zonnebaden

Hoewel GEITje Ultra hier zeker een antwoord heeft gegeven dat feitelijk waar is, is GPT-4 hier degene die duidelijk de inburgeringscursus heeft gehaald. ChatGPT meldt er nog wel even bij dat het mogelijk tegen de voorwaarden is om zulke stereotyperende dingen te zeggen, maar geeft wel antwoord. Llama 3 Dutch komt met een wollig antwoord dat niet echt blijk geeft van veel begrip van waar de vraag naar verwijst.

Nederlandse taalmodellen	GPT-4	Llama 3 Dutch	GEITje Ultra
Waar stop je de jus als je stamppot eet? Je mag één plek noemen	In een kuiltje.	Als je stamppot eet, is het gebruikelijk om de jus of de saus die bij de stamppot hoort, op de stamppot te serveren. Dit kan zowel een traditionele jus zijn als een speciale saus die bij de stamppot past. Het is een persoonlijke voorkeur waar je de jus of saus op de stamppot serveert, maar het is typisch om de jus of saus op de stamppot te doen voordat je begint te eten. Dit zorgt ervoor dat de smaken goed mengen en de stamppot lekker smaakt. Het is dus niet zozeer een plek waar je de jus of saus zou "stoppen", maar meer een manier van serveren.	Aan de zijkant van het bord, of indien men het gezellig maakt met zijn vieren of meer, in het midden van de tafel

Weer doet GPT-4 het hier het best, want hoewel je kunt debatteren over wat het beste antwoord is, is 'in een kuiltje' het antwoord dat het meest blijk geeft van begrip van de Nederlandse eetcultuur. Llama 3 Dutch komt weer met een wollig antwoord dat op zich niet incorrect is. GEITje Ultra suggereert om de jus op het midden van de tafel te leggen.

Nederlandse taalmodellen

GPT-4

Llama 3 Dutch

GEITje Ultra

Wat is een stationsfiets?

Een "stationsfiets" is een term die in Nederland vaak gebruikt wordt om een eenvoudige, vaak wat oudere fiets te beschrijven die gebruikt wordt voor korte afstanden, zoals van huis naar het treinstation. Deze fietsen zijn meestal niet erg duur en hoeven niet in perfecte staat te zijn, omdat ze vaak buiten aan fietsenrekken bij stations worden achtergelaten en daardoor meer blootgesteld zijn aan diefstal en weersomstandigheden.

De stationsfiets is typisch robuust en functioneel, met weinig luxe toevoegingen of accessoires die gestolen kunnen worden. Het belangrijkste is dat hij betrouwbaar is en geschikt voor dagelijks gebruik voor korte ritten. Het gebruik van een stationsfiets is een praktische oplossing voor mensen die het openbaar vervoer nemen en een deel van hun reis met de fiets afleggen.

Een stationsfiets is een specifiek type fiets dat vaak wordt gebruikt in stedelijke gebieden en bij stations. Het is ontworpen om gemakkelijk te gebruiken en te onderhouden, en vaak beschikt het over een aantal kenmerken die het geschikt maken voor dagelijks gebruik en voor de eindbestemming van veel fietsers:

Eenvoudig te gebruiken
Standaard uitvoering
Draagbaar
Veiligheid
Duurzaam
Eenvoudig te onderhouden

Stationsfietsen zijn vaak te vinden bij stations, maar ook in stedelijke gebieden waar fietsen als vervoermiddel populair is. Ze zijn een goede optie voor mensen die dagelijks naar het werk of andere bestemmingen fietsen, omdat ze gemakkelijk te gebruiken, te onderhouden en te vervoeren zijn. Het is belangrijk om te onthouden dat de specifieke kenmerken van een stationsfiets kunnen variëren afhankelijk van de fabrikant en het model.

IEen stationsfiets, ook wel een "racks" genoemd, is een type fiets dat specifiek ontworpen is voor dagelijks gebruik, met name in stedelijke omgevingen waar gemakkelijk parkeren belangrijk is.
Kenmerken van een stationsfiets zijn onder andere:

1. **Stabiel Frame**:

2. **Dubbele Voorvork**:

3. **Staal of Aluminium**:

4. **Achterdrager**:

5. **Kettingslot**:

6. **Afneembaar Zadel**:

7. **Eenvoudige Versnellingen**:

8. **Reflecterende Accenten**:

9. **Handremmen**:

10. **Simpel Ontwerp**:

De stationsfiets is dus ontworpen om praktisch en duurzaam te zijn voor alledaags gebruik in steden, met nadruk op gebruiksvriendelijkheid en eenvoud.

Als het gaat om het begrijpen van de stationsfiets zijn de Nederlande modellen uitvoeriger in de omschrijving, maar GPT-4 treft de kern. Het is vaak een oudere fiets, zodat je hem bij het station kunt laten staan, waar fietsen gestolen kunnen worden en vaak buiten staan in de regen.

Hoewel Llama en GEITje geen afbeeldingen kunnen maken, kan GPT-4 dat natuurlijk wel via Dall-E. Ik heb dus ook even gevraagd om een stationsfiets voor te stellen en eerlijk is eerlijk: de weergave van de fiets is niet verkeerd. Het zou ook heel mooi zijn als je je fiets inderdaad op het perron kon neerzetten. Als je, net als ik, weleens net op tijd op het station bent, scheelt dat toch weer een paar minuten lopen van het fietsenrek naar het perron.

Nederlandse taalmodellen

GPT-4

Llama 3 Dutch

GEITje Ultra

Ik ga carnaval vieren in Bergen op Zoom. Wat trek ik aan?

Carnaval in Bergen op Zoom, bekend onder de naam "Vastenavend", heeft een unieke en rijke traditie. Het is belangrijk om je kleding aan te passen aan deze lokale gebruiken als je deelneemt aan de festiviteiten daar.

Boerenkiel of boerenzakdoek: Een traditionele boerenkiel is een veelgezien kledingstuk tijdens de Vastenavend. Deze donkerblauwe of zwarte jassen zijn vaak versierd met insignes en emblemen die te maken hebben met Bergen op Zoom of carnaval in het algemeen. Een rode boerenzakdoek rond de nek is ook een populaire keuze.
Dweil: De term 'dweil' verwijst niet alleen naar het rondzwerven van kroeg naar kroeg, maar ook naar de outfit die men draagt. Veel mensen kiezen voor kleurrijke en creatieve kostuums die vaak handgemaakt zijn. Dit kan variëren van eenvoudige grappige outfits tot meer complexe en thematische kostuums.
Hoed of muts: Een opvallende hoed of muts is essentieel. Deze zijn vaak kleurrijk en kunnen versierd zijn met bloemen, linten, of andere decoraties. Het dragen van een hoed draagt bij aan de feestelijke en vrolijke sfeer.
Accessoires: Gebruik accessoires om je outfit compleet te maken. Denk aan lange kralenkettingen, opvallende broches, en andere feestelijke items. De lokale traditie van het gebruik van 'knoopkes' (kleine, vaak zelfgemaakte badges) om uit te delen of te ruilen, kan ook een leuke toevoeging zijn aan je kleding.

Bereid je voor op een feestelijke en kleurrijke ervaring en zorg dat je kleding zowel comfortabel als uitbundig is, aangepast aan het unieke karakter van de Vastenavend in Bergen op Zoom. Veel plezier tijdens het carnaval!

Carnaval in Bergen op Zoom is een feest dat bekend staat om zijn kleurrijke en uitbundige atmosfeer.

Kleuren en kostuums: Carnaval is een feest van kleur, dus het is aan te raden om te gaan in kleurrijke kleding. Populaire thema's zijn vaak kostuums, zoals prinsessen, prinsen, sprookjesfiguren, of kostuums gebaseerd op populaire televisie- of filmfiguren.
Kleding met maskers: Maskers zijn een essentieel onderdeel van Carnaval en zijn een geweldige manier om je aan te sluiten bij de sfeer. Je kunt kiezen voor een klassiek masker of een creatief en uniek ontwerp.
Kleding met bellen: Bellen zijn ook een traditioneel onderdeel van Carnaval en zijn een geweldige manier om jezelf te laten horen tijdens het feest. Je kunt bellen dragen als een sieraad of als onderdeel van je kostuum.
Kleding met veren: Veren zijn ook een populaire keuze voor Carnaval. Je kunt veren dragen als een sieraad of als onderdeel van je kostuum.
Kleding met glitter en schittering: Glitter en schittering zijn ook essentieel voor Carnaval. Je kunt glitterkleding dragen of glitter toevoegen aan je kleding om jezelf te laten opvallen.
Traditionele Nederlandse kleding: Als je een meer authentieke kijk wilt op Carnaval, kun je kiezen voor traditionele Nederlandse kleding zoals een volksdracht of een Hollandse kostuum.

Vergeet niet om een paar goede schoenen of laarzen te dragen, aangezien het feest vaak plaatsvindt in de winter en het kan nat of modderig zijn. Geniet van het feest en laat jezelf leiden door de sfeer!

Carnaval in Bergen op Zoom, ook bekend als de "Blauwe Stad", is een evenement dat bekendstaat om zijn kleurrijke en vaak creatieve kostuums. Hier zijn enkele suggesties:

1. **Carnavalskostuum**: Veel mensen kiezen voor een klassiek carnavalskostuum met kleurrijke pakken of outfits met maskers en accessoires die vaak geassocieerd worden met feesten en vieringen.

2. **Thema**: Je kunt ook kiezen voor een kostuum gebaseerd op een specifiek thema of een karakter uit een boek, film, of een ander cultureel element.

3. **Traditionele Bergen op Zoom Carnavalskleding**: Als je op zoek bent naar iets typisch voor het gebied, kun je een kostuum met een knipoog naar de lokale tradities en geschiedenis van de stad
overwegen, zoals kledij die geïnspireerd is op de Blauwe Vrouw of de historische klederdracht.

4. **Duurzame Kleding**: Steeds meer mensen kiezen voor duurzame of zelfgemaakte kostuums, die milieuvriendelijker zijn en je zelf uniek maakt.

5. **Accessoires**: Of je nu kiest voor een compleet kostuum of voor enkele accessoires, zoals een hoed, een sjerp, of glitter en pailletten, accessoires kunnen je outfit echt afmaken.

Veel plezier bij het voorbereiden van je outfit voor Carnaval in Bergen op Zoom!

Carnavallen in Bergen op Zoom kun je het best doen met GPT-4. Llama 3 Dutch en GEITje komen beide met solide tips, maar die zijn niet of nauwelijks aangepast aan de lokale situatie in Bergen op Zoom. Dat geldt wel voor de tips van GPT-4, dat onder meer de jas en de zakdoek noemt die in Bergen op Zoom gemeengoed zijn.

Nederlandse taalmodellen

GPT-4

Llama 3 Dutch

GEITje Ultra

Ik ga carnaval vieren in Vlaanderen. Waar zijn de beste carnavalsfestijnen?

Carnaval vieren in Vlaanderen is een fantastische ervaring met tal van opties, afhankelijk van wat voor soort sfeer en activiteiten je zoekt. Hier zijn enkele van de bekendste carnavalsfestijnen in Vlaanderen:

Aalst Carnaval – Dit is een van de beroemdste carnavalsfeesten in België en is zelfs erkend door UNESCO als een Meesterwerk van het Orale en Immateriële Erfgoed van de Mensheid. Het staat bekend om zijn satirische praalwagens, uitbundige kostuums en de algemene feestvreugde die drie dagen duurt.
Carnaval van Binche – Hoewel dit in Wallonië is, is het zo beroemd dat veel mensen uit Vlaanderen en andere delen van België hierheen trekken. Het hoogtepunt van dit festival zijn de Gilles, die opgezwollen kostuums dragen en met sinaasappels naar de menigte gooien.
Oilsjt Carnaval (Aalst) – Deze variant van het Aalst Carnaval is specifiek gericht op de lokale tradities en is bekend om zijn unieke vieringen en expressies van de lokale cultuur.
Halle Carnaval – Een iets kleiner, maar zeer hartelijk en gezinsvriendelijk carnaval. Het is bekend om zijn prachtige bloemenwagens en de nacht van de lichtjes waarbij de hele parade prachtig verlicht is.
Carnaval van Maldegem – Dit carnaval staat bekend om zijn kleurrijke parades en het betrekken van de gemeenschap bij de festiviteiten.
Carnaval van Lommel – Dit carnaval biedt een geweldige mix van traditionele festiviteiten en moderne carnavalscultuur, met veel aandacht voor kinderactiviteiten.

Duitsers worden vaak geas

Vlaanderen staat bekend om zijn uitbundige carnavalsfeesten, en elk jaar worden er verschillende carnavalsfestijen gevierd. Hier zijn enkele van de beste carnavalsfestijnen in Vlaanderen:

Carnaval van Binche: Dit is misschien wel het meest beroemde carnaval in Vlaanderen en staat bekend om zijn "Gilles", mannen die gekleed zijn in witte kleding met rode mutsen en die met stokken en trommels door de straten dansen. Het carnaval van Binche vindt plaats in het begin van februari.
Carnaval van Aalst: Dit is een van de grootste en meest beroemde carnavalsfestijnen in Vlaanderen. Het carnaval van Aalst staat bekend om zijn "Ommegang", een parade van carnavalsfiguren en -groepen die door de straten van Aalst marcheren. Het carnaval van Aalst vindt plaats in het midden van februari.
Carnaval van Brugge: Brugge is een van de oudste steden van Vlaanderen en heeft een rijke geschiedenis van carnavalsvieringen. Het carnaval van Brugge staat bekend om zijn "Zwarte Zaterdag", een feestdag waarbij de stad volledig in zwart gekleurd is. Het carnaval van Brugge vindt plaats in het begin van februari.
Carnaval van Oostende: Oostende is een badplaats aan de kust van Vlaanderen en heeft een levendig carnaval. Het carnaval van Oostende staat bekend om zijn "Kleurenfeest", een parade van carnavalsfiguren en -groepen die door de straten van Oostende marcheren. Het carnaval van Oostende vindt plaats in het midden van februari.
Carnaval van Mechelen: Mechelen is een stad in het hart van Vlaanderen en heeft een rijke geschiedenis van carnavalsvieringen. Het carnaval van Mechelen staat bekend om zijn "Kleurenfeest", een parade van carnavalsfiguren en -groepen die door de straten van Mechelen marcheren. Het carnaval van Mechelen vindt plaats in het midden van februari.
Carnaval van Antwerpen: Antwerpen is een van de grootste steden van Vlaanderen en heeft een rijke geschiedenis van carnavalsvieringen. Het carnaval van Antwerpen staat bekend om zijn "Kleurenfeest", een parade van carnavalsfiguren en -groepen die door de straten van Antwerpen marcheren. Het carnaval van Antwerpen vindt plaats in het midden van februari.

1. **Aalst** – Bekend om zijn Carnaval, een van de grootste volksfeesten ter wereld, met de historische "Gilles"

parade die ieder jaar op de zondag na Aswoensdag plaatsvindt.

2. **Brugge** – De "Heilig Bloedprocessie" op Wapenstilstandsdag, die ook kan worden gezien als een soort

carnavalsviering met een historische optocht.

3. **Mechelen** – De "Oudejaarstoet" in Mechelen is een van de grootste in Europa, met praalwagens en muziek die

tot het einde van het jaar doorlopen.

4. **Antwerpen** – De stad kent de "Sterrenwacht", een groot carnavalsbal dat wordt gehouden in de Grote Markt.

5. **Gent** – In Gent vindt de "Gentse Feesten" plaats, waarbij carnaval slechts één aspect is van een uitgebreide

viering die een week duurt en verschillende culturele evenementen omvat.

Deze steden bieden elk een unieke ervaring tijdens carnaval, van het kleurrijke Aalst tot de historische pracht

van Brugge en Antwerpen, tot de allesomvattende festiviteiten in Gent.

Hoe zit dat in Vlaanderen? Als echt Vlaams taalmodel moet je natuurlijk Aalst noemen, als bekendste carnavalfestijn van het land. Dat doen alle modellen dus ook keurig. Voor de rest zijn ze duidelijk dronken, want GPT-4 komt met twee keer Aalst, Llama3 heeft het over een ons niet bekende Zwarte Zaterdag in Brugge en de Gentse Feesten bestaan wel, maar hebben niets te maken met carnaval en zijn in de zomer.

Nederlandse taalmodellen

GPT-4

Llama 3 Dutch

GEITje Ultra

Wat moet ik meenemen als ik spullen wil verkopen op de vrijmarkt op Koningsdag?

Als je spullen wilt verkopen op de vrijmarkt tijdens Koningsdag, is het handig om goed voorbereid te zijn. Hier is een lijst van essentiële zaken die je mee moet nemen:

Kleed of tafel: Neem een groot kleed of een opvouwbare tafel mee om je spullen op uit te stallen. Een kleed is traditioneel en makkelijk uit te rollen op een stukje grond.
Prijskaartjes en stift: Zorg voor prijskaartjes of stickers en een stift om prijzen duidelijk op je spullen aan te geven. Dit maakt het voor kopers makkelijker om te beslissen zonder dat ze elke keer om de prijs moeten vragen.
Wisselgeld: Zorg voor voldoende wisselgeld in kleinere coupures. Veel mensen betalen met contant geld en het is handig als je gepast kunt teruggeven.
Verpakkingsmaterialen: Neem tassen, dozen of kranten mee om de verkochte spullen in te pakken. Dit is vooral handig voor breekbare items.
Comfortabele stoelen: Aangezien je waarschijnlijk lange tijd zult zitten, neem comfortabele stoelen mee.
Bescherming tegen het weer: Afhankelijk van de weersvoorspelling, neem zonbescherming (zoals een pet of zonnebrandcrème) en/of regenbescherming (zoals een paraplu of een zeil) mee.
Eten en drinken: Het is belangrijk om snacks en voldoende water mee te nemen, vooral als je de hele dag op de markt bent.
Mobiel pinapparaat of QR-codes voor betaalapps: Steeds meer mensen betalen liever digitaal. Overweeg om een mobiel pinapparaat mee te nemen of bereid QR-codes voor voor betaalapps zoals Tikkie.
Entertainment: Neem iets mee om jezelf te vermaken tijdens minder drukke momenten, zoals een boek of spelletjes.
Promotiemateriaal: Als je regelmatig verkoopt of een specifieke dienst promoot, neem dan visitekaartjes of flyers mee.

Als je spullen wilt verkopen op de vrijmarkt op Koningsdag, moet je een aantal dingen meenemen om een succesvolle dag te hebben. Hier is een lijst met items die je zou kunnen meenemen:

Producten: Zorg ervoor dat je een verscheidenheid aan producten meeneemt die je denkt dat mensen zullen kopen. Dit kan van kleding tot speelgoed, boeken, eten en drank zijn.
Prijslijsten: Zorg ervoor dat je prijslijsten hebt voor elk product. Dit helpt je om snel te kunnen prijzen en verkoopkansen te benutten.
Verkoopmaterialen: Neem verkoopmaterialen mee zoals reclameborden, prijzen, en eventueel een verkoopstandaard of -tent als je dat wilt.
Verkooptechnieken: Leer hoe je effectief kunt verkopen. Wees vriendelijk, maar niet te agressief, en wees bereid om te onderhandelen.
Wisselgeld: Zorg ervoor dat je genoeg wisselgeld bij je hebt voor kleine transacties.
Kleding: Draag kleding die comfortabel is en die je kunt combineren met verschillende outfits afhankelijk van de weersomstandigheden.
Water en eten: Neem water en eventueel een lichte lunch of snack mee om jezelf te voeden en te hydrateren.
Zonnebrandcrème en hoed: Zorg voor bescherming tegen de zon, vooral als het een warme dag is.
Warme kleding: Neem een warme jas of sjaal mee voor het geval het 's avonds of 's ochtends koud wordt.
Handdoek en toilettas: Zorg voor een handdoek en toilettas voor persoonlijke hygiëne.
Verzekering: Overweeg om een verzekering te nemen voor je spullen, vooral als je waardevolle of kostbare items meeneemt.
Mobiele telefoon: Een mobiele telefoon kan nuttig zijn voor contact met klanten, het nemen van foto's en het delen van informatie.
Klantenservice: Zorg voor een klantenservice die klanten kan helpen met vragen en problemen.
Marketingmaterialen: Overweeg om flyers of andere promotiematerialen mee te nemen om je aanwezigheid te promoten.
Veiligheid: Zorg voor een veilige omgeving door bijvoorbeeld een bewaker in te huren of een veiligheidsplan te hebben.
Tijd: Plan je tijd zorgvuldig zodat je genoeg tijd hebt om te verkopen en jezelf te ontspannen.
Flexibiliteit: Wees flexibel met je prijzen en producten, en reageer op de vraag van de markt.
Een goede stemming: Zorg dat je een goede stemming hebt en dat je enthousiast bent om te verkopen.

Als je van plan bent om spullen te verkopen op de vrijmarkt tijdens Koningsdag, zijn er verschillende zaken die je kunt meenemen om je voor te bereiden en ervoor te zorgen dat je een succesvolle dag
hebt:

1. **Kraam of Tafel**: Als je een plekje hebt op de vrijmarkt, zorg dan dat je een kraam of tafel hebt die groot genoeg is voor je spullen. E

2. **Voorraad**: Bepaal wat je wilt verkopen en zorg dat je genoeg items hebt om uit te kiezen.

3. **Prijsstelling**: Bepaal wat de prijzen zijn voor je artikelen. Dit moet redelijk zijn en aantrekkelijk voor potentiële kopers, maar ook winstgevend voor jou.

4. **Promotiematerialen**: Voorzie reclameborden of -spandoeken om je kraam of tafel te promoten.

5. **Weersbestendige Materialen**: Neem weerbestendige kleding en beschermende materialen mee, zoals een afdak of een regenhoes voor je spullen.

6. **Muntjes**: Zorg dat je voldoende muntjes in huis hebt voor wisselgeld.

7. **Geldkistje**: Neem een veilige plek voor je munten en eventuele contanten. Overweeg ook een pinapparaat als je grote bedragen verwacht en veiligheid belangrijk vindt.

8. **Verpakkingsmaterialen**: Denk aan tassen of zakjes om je producten te verpakken en eventueel een prijskaartje te kunnen bevestigen.

9. **Duidelijke Prijsstickers**: Zorg ervoor dat elke verkoopbaar product voorzien is van een duidelijk zichtbare prijssticker of -label.

10. **Souvenirs**: Als je naast reguliere spullen ook oranje-gerelateerde items verkoopt, zoals oranje versieringen, kan dit bijdragen aan de feestelijke sfeer en meer bezoekers naar je kraam
trekken.

11. **Persoonlijke Verkoop**: Bereid je voor op een dag van sociaal contact met potentiële klanten. Het is ook slim om van tevoren een lijstje te maken met vragen die je kunt stellen om gesprekken
te starten en de verkoop te stimuleren.

12. **Water en Snacks**: Neem iets te drinken en een snack voor jezelf mee, want het kan een lange dag zijn.

13. **Smartphone of Camera**: Om foto's te maken van je producten of om klanten te fotograferen die je kraam bezoeken, wat kan helpen bij mond-tot-mondreclame.

14. **Afvalzakken**: Zorg dat je een container bij je hebt om je verpakkingsmateriaal en eventueel restanten aan het eind van de dag mee te kunnen nemen.

15. **Voorbereiding en Opruimen**: Wees voorbereid om na de vrijmarkt alles netjes te kunnen opruimen en schoon achter te laten.

Met deze spullen en voorbereidingen vergroot je de kans om succesvol te zijn op de vrijmarkt tijdens Koningsdag. Veel plezier!

Al deze antwoorden zijn op minst deels bruikbaar. Praktisch gezien is GPT-4 ijzersterk, onder meer met de suggestie om QR-codes voor te bereiden voor betalingen. Llama 3 Dutch heeft een uitgebreide rij met goede en minder goede suggesties, maar sluit af met 'een goede stemming', wat toch wel een leuke toevoeging is. GEITje drukt de gebruiker op het hart om toch ook echt op te ruimen, wat ook een prima toevoeging is.

Tot slot

Het was te verwachten: GPT-4 is het best op de hoogte van de Nederlandse cultuur, al was het een ongelijke strijd. Het is alsof je gaat mariokarten tegen iemand van wie je weet dat die veel beter is. Je hebt altijd een kans om te winnen, maar in veruit de meeste gevallen delf je toch het onderspit.

Het is onbekend hoeveel parameters GPT-4 heeft, maar het is in absolute aantallen in elk geval veel, veel meer trainingsdata dan het hele model van Llama 3 Dutch en GEITje. Dat numerieke overwicht is duidelijk te zien, naast dat OpenAI natuurlijk veel data kan hebben over wat Nederlanders vragen en daardoor de antwoorden beter kan afstemmen. Bovendien is GPT-4 een inkomstenbron voor OpenAI, een bedrijf met honderden medewerkers.

Welk taalmodel wint?	GPT-4	Llama 3 Dutch	GEITje Ultra
Hapjes kringverjaardag	1	3	2
Begroeting verjaardag	1	1	1
Duitsers op het strand	1	3	2
Stamppot eten	1	2	3
Stationsfiets	1	2	2
Carnaval Bergen op Zoom	1	2	2
Carnaval Vlaanderen	1	1	1
Koningsdag	1	2	2

Tussen Llama 3 Dutch en GEITje Ultra gaat de zege toch naar GEITje. Het Nederlandstalige taalmodel lijkt de Nederlandse context soms net beter te snappen, al hangt het vaak van voorkeur af welk antwoord het beste is. De beoordeling is uiteraard subjectief; iedereen kan zijn eigen beoordeling maken aan de hand van de antwoorden in dit artikel.

Rijgersberg vindt dat we als maatschappij moeten nadenken over hoe het verdergaat. "Ik krijg zelf een heleboel positieve reacties op GEITje en ook een hoop vragen om een vervolg. Maar mijn hobbybudget is hiervoor nu wel op, dus ik heb zelf voorlopig geen vervolg lopen. Er komt een punt dat we als land en als taalgemeenschap moeten beslissen hoe belangrijk we het bestaan van dit soort Nederlandse open modellen vinden. En of we de ontwikkelingen op die manier willen bijhouden. Als we dat met z'n allen belangrijk vinden, moeten we vervolgens nog bedenken wie dat dan moet gaan doen."

De openbaar beschikbare Nederlandstalige taalmodellen winnen misschien niet, maar het is fijn dat er Nederlandstalige taalmodellen bestaan, die vrij beschikbaar en lokaal te draaien zijn. In elk geval is concurrentie een groot goed en het zou slecht zijn als we afhankelijk worden van grote, gesloten AI-modellen van de grote techbedrijven die al meer dan een decennium domineren.

Inhoudsopgave

1. Inleiding
2. Het waarom van een Nederlands taalmodel
3. GEITje en GEITje Ultra

4. Zelf een Nederlandstalig taalmodel draaien
5. Vergelijking: GPT-4, GEITje Ultra en Nederlandstalige Llama 3
6. Tot slot
137Reacties

Multipage-opmaak

Lees meer

Ontwikkelaar haalt taalmodel GEITje offline na verzoek Stichting Brein - update Nieuws van 28 januari 2025

Wetenschap Kunstmatige intelligentie Nederland

IT-banen

Meer vacatures

Reacties (137)

-Moderatie-faq

137

136

Wijzig sortering

Basjuh84 10 mei 2024 11:18

Leuk artikel, maar toch snap ik het ook niet helemaal. GPT4 geeft volgens mij prima antwoorden waaruit blijkt dat het model veel ‘weet’ van het Nederlands en de cultuur? Het is niet perfect, maar dat is nog geen enkel taalmodel en de ontwikkelingen gaan razendsnel.
Ik vind dat er een punt zou zijn geweest als de antwoorden van GPT4 als ‘buitenlands’ model totaal niet zouden kloppen, maar ze zijn veruit de beste?
Uiteraard snap ik de wil en de ruimte om in het open-source domein iets te doen, en het is natuurlijk ook een leuke hobby, maar een ‘noodzaak’ zie ik niet echt. Welnu, of we het moeten willen om totaal afhankelijk te zijn van (veelal) Amerikaanse taalmodellen is wat mij betreft weer een heel andere vraag. Maar dan zijn we sowieso alweer lekker laat..

E_Rijgersberg @Basjuh84 • 10 mei 2024 13:19

Terecht vraag hoor! En eigenlijk geef je zelf het antwoord ook al: totaal afhankelijk zijn van (Amerikaanse) commerciele taalmodellen als taalgemeenschap is een probleem op zich. En, als je het mij vraagt, het dus waard om in te investeren.

Je kunt iets meer lezen over mijn persoonlijke beweegreden op mijn blog, op de pagina die in het artikel gelinkt wordt: GEITje FAQs: Waarom ik GEITje heb gemaakt.

[Reactie gewijzigd door E_Rijgersberg op 22 juli 2024 18:20]

PuzzleSolver @E_Rijgersberg • 13 mei 2024 00:31

Voor mij lijkt 1 van de grootste voordelen dat je in 8gb toch een goede nederlandse LLM kan draaien. GPT-4 mag het dan net zo goed doen, maar die past niet op een telefoon.

Ik heb zelf meerdere 8gb modellen geprobeerd van hugging face, maar die komen niet verder dan wat basis Nederlands en hallucineren er daarna op los (smurfen waren rood en hadden een lied met treintje oosterhuis).

Ik zie zeker een voordeel voor de digitale assistent op locale apparatuur. De volgende chip generaties, krijgen bijna allemaal genoeg capaciteit voor het vlot locaal draaien van een 8gb model.

Daarmee kan je dan echt een goede digitale assistent draaien die niet van de cloud afhankelijk is.

Leuk project, "keep up the good work" zou ik zeggen ;-)

[Reactie gewijzigd door PuzzleSolver op 22 juli 2024 18:20]

Macshack 10 mei 2024 06:59

Leuk artikel. Maar wel een beetje geforceerd. Als ik vraag aan CGPT om de zin af te maken als ik de woorden zing “Het is een nacht…”. Dan maakt hij die zin prima af met “die je normaal alleen in films ziet”. Ik heb het idee dat als je CGPT beter zou primen, wat ik overigens in mijn voorbeeld niet heb gedaan, dat hij net zo goed hetzelfde kan. Maar omdat CGPT een veel breeder LLM is, kan het zijn dat hij in sommige gevallen andere associaties maakt.

Verder is het wel leuk dat er cultuur-specifiek geprimede LLM zijn die bepaalde contexten en nuances beter meenemen in hun antwoorden.

JDx

Kunstmatige intelligentie

@Macshack • 10 mei 2024 07:27

Ik zou ook niet weten wat Frisse morgen in Parijs betekent of wie Kenny B is, laat staan dat een taalmodel dat weet en zoals je zegt, een bekender nummer kent ze wel.

Desiler @JDx • 10 mei 2024 08:50

Bekender nummer? Parijs heeft 44M views op YouTube: YouTube: Kenny B - Parijs [+Lyrics]

JDx

Kunstmatige intelligentie

@Desiler • 10 mei 2024 08:57

Dat kunnen ook alle middelbare scholieren zijn die een liedje 100x beluisteren, ik heb ook 15 miljoen views op een art site, ken je mij? Net zoals dat je soms op het nieuws hoort, die en die op 1 op Spotify, een kleine groep kan iemand heel groot maken.

Overigens is 44 miljoen niet heel bijzonder meer tegenwoordig toch? Als niemand mij die link stuurt, dan kom ik never nooit dat nummer te horen krijgen. In de tijd voor streaming hoorde gewoon iedereen dezelfde nummers op de radio, dat zijn voor mij bekende nummers, streaming is heel selectief.

Overigens kent AI mij wel (Copilot onder m'n echte nickname) dat is dan wel weer grappig

[Reactie gewijzigd door JDx op 22 juli 2024 18:20]

djwice

Wetenschap
Kunstmatige intelligentie

@JDx • 10 mei 2024 09:58

Ik denk dat dit nummer zeker cultuur bepalend is geweest.

Er zijn diverse spin offs van gemaakt o.a. YouTube: Evenblij & van Eijk - Lul Haags met me (Kenny B - Parijs cover) uit 2015 dus van nog voor de tijd dat iedereen Spotify luisterde.

En het heeft ook andere artiesten geïnspireerd om verschillende talen in een nummer te gebruiken. Zelfs nog in 2021 met YouTube: Donnie & Frans Duijts - Frans Duits (Officiële Video)

En ook TV programma's https://www.rtl.nl/programma/5407476/praat-nederlands-met-me

En Europese inclusive campagne:
https://www.onefamilyfoundation.one/embrace-europe

Dus vanuit mijn perspectief is het werk van deze artiest (kunstenaar) een zeer succesvolle uiting.
(opgesomde dingen zijn slechts het topje van de ijsberg).

[Reactie gewijzigd door djwice op 22 juli 2024 18:20]

Superstoned @djwice • 10 mei 2024 10:18

Zal zeker zo zijn, maar alsnog kent lang niet iedereen hem of haar. Ik had nooit van Kenny B of Parijs gehoord, en heb nu ook de moeite niet genomen om op de link te klikken want het zal wel een rapper zijn aan daar vind ik geen bal aan ;-)

CorbataGames

@Superstoned • 10 mei 2024 10:40

Ik denk ook dat het nummer van Kenny B, in vergelijking met "Het is een nacht" van Guus Meeuwis, een stuk onbekender is. Het is desondanks wel een heel leuk en lekker nummer dat lange tijd ook grijsgedraaid is op de radio. Zou zeker de moeite even nemen en even kijken of het nummer je niet toch bekend voorkomt!

djwice

Wetenschap
Kunstmatige intelligentie

@Superstoned • 10 mei 2024 12:01

Ik had nooit van Kenny B of Parijs gehoord, en heb nu ook de moeite niet genomen om op de link te klikken want het zal wel een rapper zijn aan daar vind ik geen bal aan ;-)

Wat een vooroordeel. Het is een melodische zanger en easy listening muziek. Romantisch van toon en tekst. Kenny G was trouwens ook geen rapper

En ja, hij was voor dit nummer onbekend, en zijn vervolg werk is ook bij de meesten onbekend.

Zou zeker de moeite even nemen en even kijken of het nummer je niet toch bekend voorkomt!

Goed zo!

[Reactie gewijzigd door djwice op 22 juli 2024 18:20]

JDx

Kunstmatige intelligentie

@djwice • 10 mei 2024 10:46

Ik lees hieronder surinaamse zanger, bij cultuurbepalend denk ik dan eerder aan Def Rhymz

Ludewig @Desiler • 10 mei 2024 10:54

Bekender nummer? Parijs heeft 44M views op YouTube

Als dat allemaal unieke views zouden zijn, dan heeft 1 op 184 mensen ter wereld het gezien. Maar natuurlijk zijn er veel herhaalde kijkers, dus in de praktijk is het veel lager.

Cergorach @Ludewig • 10 mei 2024 11:44

43M views by Kenny B...

Donstil @JDx • 10 mei 2024 10:22

Ik zou ook niet weten wat Frisse morgen in Parijs betekent of wie Kenny B is, laat staan dat een taalmodel dat weet en zoals je zegt, een bekender nummer kent ze wel.

Dat had ik nou ook, toen ik het Google dacht ik wel van “ah ja wel eens gehoord volgens mij” maar voelt niet als iets wat elke Nederlander kent laat staan elk taal model moet kennen.

mare @JDx • 10 mei 2024 09:19

hahahaha Gelukkig ben ik niet alleen dus die hier niks van kent.

Minimise @JDx • 10 mei 2024 14:05

Een taalmodel kan zoeken en remixen, dus makkie voor Bing Copilot!

JDx

Kunstmatige intelligentie

@Minimise • 10 mei 2024 14:20

Ondanks dat is het resultaat alsnog wel tof

https://i.imgur.com/EausC6v.png

SpaceDok

@Macshack • 10 mei 2024 11:09

Om een LLM te testen op taal en cultuur vind ik “Een frisse morgen in Parijs…” beter gekozen dan b.v. “Het is een nacht…”. De eerste kende ik ook niet maar een willekeurige zoek engine weet het meteen te vinden. Voor een LLM lijkt het me een uitdaging om een Nederlandse tekst met de naam van een Franse hoofdstad vervolgens qua taal en cultuur goed te beantwoorden. Dat is met “Het is een nacht…” in het Nederlands veel makkelijker.
Naar mijn idee voor dit artikel dus best een goed gekozen test tekst.

Cergorach @Macshack • 10 mei 2024 11:59

Ik krijg dood leuk met ChatGPT 3.5:

Sorry, ik kan niet zomaar liedteksten reproduceren...

Daar kan je vast redelijk omheen werken, maar met dit soort antwoorden zijn dergelijke vragen al gewoon problematisch. Ongeacht of het nu een bekende artiest/liedje is of niet.

Zelfs als ik een regel uit het Nederlandse volkslied pak dan krijg ik de initiële reactie hetzelfde als hierboven gequote. Als ik vervolgens aangeef dat het niet onder copyright valt krijg ik niet de zin uit het Nederlandse volkslied, als ik vervolgens aangeef dat het niet correct is en een hint geef 'Nederlandse volkslied', dan krijg ik nog steeds niet een correct antwoord...

Waarom ChatGPT 3.5? Omdat ChatGPT 4 achter een paywall zit en dus het gros van de mensen ChatGPT 3.5 zal gebruiken. Men vergelijkt een betaalde LLM met twee gratis beschikbare LLMs, waarom de 'gratis' ChatGPT 3.5 ontbreekt in deze vergelijking is mij onduidelijk.

Minimise @Cergorach • 10 mei 2024 12:20

Zoals ik eerder zei, Copilot kan het direct al vanaf het eerste moment uit de verpakking en ChatGPT4 kan het als je de zoekfunctie en citeer functie eerst oproept!

[Reactie gewijzigd door Minimise op 22 juli 2024 18:20]

JanVQ 10 mei 2024 08:05

Grappig om te zien dat Nederland zich (weer eens) druk maakt over "taalverarming", en zich tegelijk geheel vrijwillig en met veel enthousiasme overgeeft aan elke Engelse of Amerikaanse term die maar aan komt waaien. Een Engelse kreet wordt meestal verkozen boven een variant in de eigen taal, die vaak niet eens meer bekend is of begrepen wordt. Legio voorbeelden daarvan zijn dagelijks te zien hier op Tweakers of in om het even welk ander bekend forum. Er is in Europa geen andere taal die zo zwaar verengelst is als het Nederlands.

En dan willen we nu een Nederlands taalmodel? "Too little, too late..." zullen we maar zeggen.

Repsa @JanVQ • 10 mei 2024 08:20

Je bedoelt deze van Vanroy: "Ik werk al sinds 2019 als corecontributor mee aan verschillende opensourcerepository's van Hugging Face, waarmee LLM's getraind of gefinetuned kunnen worden”

Tja, dat zou best eens gewoon in het Nederlands gezegd mogen worden. Ik ben alleen bang dat we zover van onze eigen taal zijn vervreemd, dat weinigen begrijpen wat er dan bedoeld wordt. Helaas!

Zackito @Repsa • 10 mei 2024 08:41

Klinkt als onze “CEO”. Een aantal jaar geleden zijn we overgenomen (helaas tot nu toe) en ze zijn dol op engelse termen. In elke zin wordt er wel een engelse term genoemd, geen idee waarom het irriteert mij.

Daarnaast worden de presentaties vaak ook half in het Nederlands en half in het Engels, doe gewoon Nederlands of Engels en niet beide.

sapphire @Zackito • 10 mei 2024 08:58

Ja heerlijk niet, ik had laatst een presentatie van een bedrijf en daar werd gesproken over de ‘Carbon footprint van devices en hoe je fleetmanagement tools kan inzetten bij je lifecyclemanagement om je environmental impact te reduceren’. Zo ongeveer maar het was een fascinerende zin voor een Nederlandse presentatie

Zackito @sapphire • 10 mei 2024 09:02

Hahah nou dat klinkt precies als ons bedrijf tegenwoordig. Verschrikkelijk.

Het meest vervelende is dat ons bedrijf enkel overgenomen is om 1 groot bedrijf te maken en dat weer te verkopen. Dat proef je aan alles maar spreken ze niet uit. Ik ben bang dat het een zinkend schip is, jammer want ik werk er met plezier mede dankzij de fijne (lokale) collega's.

Minimise @sapphire • 10 mei 2024 12:40

Had ook gewoon even plat kunnen zeggen van “De koolstofvoetafdruk van voertuigen en hoe je hulpmiddelen voor het wagenparkbeheer kunt inzetten bij je beheer van de levenscyclus om je impact op het milieu te verkleinen.” Zo zie je maar dat er geen Engels leenwoord nodig was 😘

[Reactie gewijzigd door Minimise op 22 juli 2024 18:20]

synoniem @Minimise • 11 mei 2024 11:18

Met dat verschil dat we in het Nederlands het bijna altijd over CO2 uitstoot hebben en niet over koolstofvoetafdruk. Dan klinkt het ook gelijk minder gekunsteld net als hulpmiddelen vervangen door programmatuur want dat is het in deze context. Dus ja het kan prima zonder allerlei Engelse termen.

Minimise @synoniem • 11 mei 2024 18:37

Ik vond CO2 een Engelse term uit de scheikunde, dus dat bewust weer vervangen. Programmatuur zou ook kunnen in deze context, maar bij fysieke voortuigen kunnen weer fysieke hulpmiddelen te pas komen...

[Reactie gewijzigd door Minimise op 22 juli 2024 18:20]

Navi @sapphire • 10 mei 2024 09:05

Mooie zin en hij is absoluut Nederlands te krijgen maar je zult zien dat je daar best even voor moet gaan zitten om de juiste termen te bedenken, probeer het maar eens.

Of gooi hem in ChatGPT en vraag om een vertaling haha

[Reactie gewijzigd door Navi op 22 juli 2024 18:20]

Minimise @Navi • 10 mei 2024 12:28

ChatGPT4 en Claude3 kunnen veel beter vertalen dan welke menselijke vertaler dan ook, mits je de tijd neemt om de beste voorbeelden toe te voegen als een vorm van x-shot prompting en zin hebt om tientallen vertalingen te laten genereren, naar het gewenste resultaat te sturen, en daar de beste uit te vissen!

[Reactie gewijzigd door Minimise op 22 juli 2024 18:20]

CAPSLOCK2000

Nederland
Kunstmatige intelligentie

@sapphire • 10 mei 2024 22:46

GPT 3.5 doet de volgende poging tot herschrijven zonder Engelse woorden te gebruiken:

"Hoe de koolstofvoetafdruk van apparaten te verminderen en hoe je voertuigbeheerhulpmiddelen kunt gebruiken bij het beheer van de levenscyclus om je milieueffect te verminderen."

R4gnax @Repsa • 10 mei 2024 09:12

Het grootste gedeelte van het Engels wat daar gebruikt wordt zijn technische termen; eigen namen; of jargon.

'open source' is verworden tot een eigen naam. 'repository' is een technische term. En 'core contributor' is jargon voor open source projecten.

Het enige wat je daar daadwerkelijk naar Nederlands om zou kunnen zetten is het woord 'gefinetuned' - dwz "waarmee LLM's getraind kunnen worden of aan de fijnafstelling gewerkt kan worden."

Ludewig @R4gnax • 10 mei 2024 10:38

'open source' is verworden tot een eigen naam. 'repository' is een technische term. En 'core contributor' is jargon voor open source projecten.

Het enige wat je daar daadwerkelijk naar Nederlands om zou kunnen zetten is het woord 'gefinetuned'

Dat is natuurlijk niet zo, want in Vlaanderen en Frankrijk vertalen ze het dan vaak gewoon of verzinnen ze een woord in de landstaal. Het is een keuze om dat niet te doen.

Je kunt bijvoorbeeld prima 'open code,' 'code opslagplaats' en 'kernbijdrager' gebruiken. Als je zulke termen maar vaak genoeg gebruikt worden ze vanzelf het lokale jargon.

Coolstart

Wetenschap

@Ludewig • 10 mei 2024 12:26

Door krampachtig Nederlandse woorden te verzinnen voor vakjargon draag je 0,0 bij aan uw taal. Je kan dat doen uit principe om uw sentiment veilig te stellen maar we weten allemaal dat onze taal zo complex is een paar woordjes vakjargon deze niet in gevaar brengt.

En waarom vertalen ze dat in Vlaanderen? Ik ben van Vlaanderen en wii vertalen hier niets.

Fransen en Spanjaarden vertalen idd alles maar dat komt omdat ze daar gemiddeld gezien zo weinig Engels kunnen dat Engelse termen niet goed begrepen worden.

Minimise @Coolstart • 10 mei 2024 14:25

Dus alleen nog maar Engels praten dan maar?

NielsFL @Minimise • 10 mei 2024 16:03

Waarom niet?

Ik snap dat wanneer je beter Nederlands spreekt dan Engels dat geen fijn vooruitzicht vind. Als iemand nu Spaans of Chinees voorstelt zou ik er ook niet zoveel zin in hebben. Maar hoeveel makkelijker zouden allerlei dingen zijn als de hele wereld dezelfde moedertaal spreekt?

Jefrey Lijffijt @Coolstart • 10 mei 2024 16:27

De termen zijn in het Engels ook steeds nieuw. Wat echter bij draagt is dat academische papers, nieuwsartikelen en literatuur veel vaker in het Engels zijn, waardoor termen daar ontstaan. Het zal heel gekunsteld over komen om nu nog een volledig artikel in echt Nederlands te schrijven. Het is echter niet onmogelijk en zou best een tof project kunnen zijn.

Minimise @Jefrey Lijffijt • 10 mei 2024 16:29

Waarom zou je dat in het Nederlands willen schrijven als niemand dat gaat lezen in het Nederlands?

[Reactie gewijzigd door Minimise op 22 juli 2024 18:20]

Jefrey Lijffijt @Minimise • 10 mei 2024 17:20

Dat zeg ik totaal niet, er zijn meer dan 20 miljoen mensen die Nederlands spreken. Ik ervaar het zelf als heel sneu dat we binnen de informatica en AI veel dingen niet in het Nederlands kunnen uitdrukken.

Minimise @Jefrey Lijffijt • 10 mei 2024 17:52

Ah, Wat is 20 of 30 miljoen voor Nederlands in vergelijking met 1,4 miljard voor Engels, of 1,1 miljard voor Chinees, of 559 miljoen voor Spaans of 310 miljoen voor Frans?

Janbraam @Ludewig • 10 mei 2024 12:28

[...]

Dat is natuurlijk niet zo, want in Vlaanderen en Frankrijk vertalen ze het dan vaak gewoon of verzinnen ze een woord in de landstaal. Het is een keuze om dat niet te doen.

Je kunt bijvoorbeeld prima 'open code,' 'code opslagplaats' en 'kernbijdrager' gebruiken. Als je zulke termen maar vaak genoeg gebruikt worden ze vanzelf het lokale jargon.

Mee eensch

Daarnaast vraag ik mij af of dergelijke gesprekken over wel-of-niet Engels/NL te gebruiken een inhoudelijke component heeft OF een meta-component (een combinatie van beide kan natuurlijk ook): nl. het feit dat mensen ook gewoon papegaaien zijn, groepsdieren en gewoontedieren.

tw_gotcha

@Ludewig • 10 mei 2024 13:52

Onze taal betaat sinds de late middeleeuwen en is voortdurend veranderd, met veel Neder Duitse en Franse woorden, nu Engelse woorden. Engels komt voort uit het Anglo Saxisch, Noors en Franms. De Vlamingen gebruiken vrij veel Franse woorden, de Fransen gebruiken Eneglse woorden, en als je het over straat Frans hebt, begrijp je de helpt niet want je vindt veel woordne uit het Noord of West Afrikaans. Keltisch.
Iedere generatie klaagt over taalvervuiling, omdat het simpelweg raar klinkt en men bang is iets te verliezen. Een taal is levend, gelukkig maar.

Minimise @tw_gotcha • 10 mei 2024 14:13

Is de Nederlandsche taal niet al lang dood? Het Dunglish leeft nog!?

[Reactie gewijzigd door Minimise op 22 juli 2024 18:20]

Ludewig @tw_gotcha • 10 mei 2024 14:52

Onze taal bestaat sinds de late middeleeuwen en is voortdurend veranderd
[...]
Iedere generatie klaagt over taalvervuiling

Dat klopt, maar in die eeuwen was er veelvuldig sprake van analfabetisme, maar ook het opwerpen van barrières voor mensen uit lagere klassen door middel van taal.

Een voorbeeld daarvan was dat Antoni van Leeuwenhoek moeite had om met andere wetenschappers te communiceren omdat hij in tegenstelling tot vrijwel alle wetenschappers uit zijn tijd niet afkomstig was uit de elite en geen Latijn had geleerd. Antoni was een extreem slimme man, maar hij kon alleen deel uitmaken van de Royal Society, waar destijds de topwetenschappers hun kennis deelden, omdat hij iemand kon vinden die brieven van en naar het Latijn vertaalde. Door zijn afkomst uit de middenklasse, stond hij qua taal op een flinke achterstand ten opzichte van de hogere klassen.

En die hogere klassen spraken ongetwijfeld ook hun locale taal met flink wat Latijnse leenwoorden, want er zitten ondertussen flink wat Latijnse leenwoorden in de Nederlandse taal.

Maar dat hele proces waarbij leenwoorden normaliseren en ook de lagere klassen begrijpen wat ze betekenen is een proces dat tijd kost, en tijdens dat proces staan die lagere klassen wel degelijk op een achterstand.

Mijn opvatting is dat het beter is om dit te beperken en zo meer mensen de kans te geven om mee te doen op plekken waar ze afhaken wanneer er veel nieuwe leenwoorden worden gebruikt.

tw_gotcha

@Ludewig • 10 mei 2024 15:42

Ik denk eigenlijk dat de meeste leenwoorden van de straat komen, niet van de wetenschap. En dfat het juist de wat meer oudere conservatieve elite er moeite mee heeft. Het is zeker niet een probleem dat met opleiding te maken heeft (als je dta met lagere klasse bedoelt). Ik heb het dan niet over woorden als "opensourcerepository" want dat gewoon vakjargon. Ik begrijp de monteur in de garage ook niet (altijd).

Ludewig @tw_gotcha • 10 mei 2024 18:28

Het gebeurt ook de andere kant op, inderdaad. Om de samenleving bij elkaar te houden is het wel van belang dat men elkaar een beetje begrijpt.

En klasse is niet hetzelfde als opleiding, maar dat is wel een belangrijke factor daarin.

tw_gotcha

@Ludewig • 10 mei 2024 21:32

ik weet niet zo goed wat je met klasse bedield eerlijk gezegd

Ludewig @tw_gotcha • 10 mei 2024 21:45

https://www.scp.nl/actuee...iale-klassen-in-nederland

tw_gotcha

@Ludewig • 10 mei 2024 21:56

interessant! dank

MarkHart @R4gnax • 10 mei 2024 09:20

Finetunen is ook jargon.

BramVroy @Repsa • 10 mei 2024 09:59

Ach, om veel van dat jargon kan je nu eenmaal niet heen zonder dat het echt geforceerd klinkt. "Core contributor" is de gegeven titel, "open source" kan je moeilijk vertalen (open code dekt de lading niet), "repository" verwijst expliciet naar Github repositories. Dat kan je nog als "bibliotheken" of "softwarepakketten" vertalen, maar is dat zoveel beter? "LLM" kan hier wel "taalmodel" zijn, dat geef ik toe. "trainen" en "finetunen" zijn jargon, die laatste kan je nog vertalen als "verder trainen" maar er is een technisch verschil tussen "finetuning" en "continued pretraining" dus die vertaling is wat verwarrend voor degenen die weten waar het over gaat.

Niet eenvoudig dus :-)

Ludewig @BramVroy • 10 mei 2024 10:50

"open source" kan je moeilijk vertalen (open code dekt de lading niet)

Daar denken ze in Duitsland blijkbaar anders over: https://opencode.de/en

Open code betekent ook letterlijk hetzelfde als 'open source,' dus het is nogal onzinnig om te beweren dat die term niet dezelfde lading kan krijgen. Het is natuurlijk zo dat terminologie vaak een betekenis krijgt die verder gaat dan de letterlijke betekenis van de woorden, maar er is geen reden waarom je Nederlandse termen niet dezelfde betekenis kan krijgen als Engelse termen.

Wanneer er geen poging wordt gedaan om Nederlandse varianten te gebruiken dan is verengelsing van de Nederlandse taal het logische gevolg.

"trainen" en "finetunen" zijn jargon, die laatste kan je nog vertalen als "verder trainen"

De letterlijke vertaling van het laatste is 'verfijnen.' Volgens mij dekt dat de lading prima.

R4gnax @Ludewig • 10 mei 2024 11:38

Het is natuurlijk zo dat terminologie vaak een betekenis krijgt die verder gaat dan de letterlijke betekenis van de woorden, maar er is geen reden waarom je Nederlandse termen niet dezelfde betekenis kan krijgen als Engelse termen.

Mooie tegenstrijdige uitspraak. Het feit dat de terminologie een betekenis krijgt die verder strekt dan de woorden zelf, maakt nou juist de reden om deze niet te vertalen. Het wordt een soort van eigen naam. En eigen namen vertaal je in de regel niet.

Ludewig @R4gnax • 10 mei 2024 11:56

Nee, want de extra betekenis die je geeft (in een bepaalde context) is wel degelijk gerelateerd aan de betekenis van de individuele woorden. Juist door het woord over te brengen naar een andere taal verlies je wat, namelijk de relatie met de oorspronkelijke woorden.

Zo kan een Engels-sprekend persoon vrij makkelijk de betekenis van het woord 'repository' oppikken, omdat dit woord in het Engels 'opslagplaats' betekent. Dus die persoon hoeft dan alleen nog te achterhalen wat er precies wordt opgeslagen om de verdere nuance te begrijpen.

Als je het woord gaat gebruiken in het Nederlands ontbreekt die voorkennis, en een Nederlands-sprekend persoon staat dus op achterstand als deze het woord nog niet kent en probeert te begrijpen. Dus door het overnemen van dergelijke terminologie wordt het Nederlands een minder functionele taal. Als dit massaal gebeurt is dit het voorportaal van het opgeven van de taal.

De vergelijking met een naam klopt dan ook niet, want de betekenis van bijvoorbeeld de naam Arnoud heeft niks te maken met de persoon waarnaar de naam vereist. De kans dat die Arnoud vleugels heeft en heerst als een arend is grofweg 0.

[Reactie gewijzigd door Ludewig op 22 juli 2024 18:20]

BramVroy @Ludewig • 10 mei 2024 11:07

Het hele punt van open-source taalmodellen is net dat de code, de data, en de gewichten openbaar zijn. Niet enkel de code dus maar alle bronmateriaal.

Voor leken is het misschien onduidelijk waarom vakexperten aan die terminologie vasthouden, maar daarom heet het ook jargon. Er is geen vaste Nederlandse term voor. Je kan die als leek wel proberen verzinnen, maar voor experten zegt jouw nieuwe term helemaal niets. "Verfijnen" dekt de lading helemaal niet prima. Ik begrijp waarom je dat als leek kan denken, maar er zijn enorm veel manier waarop je een model kan "verfijnen" en "finetunen" is daar slechts een van.

Ik kan begrijpen dat je graag Nederlandse termen hoort waar je je beter iets kan bij voorstellen, maar het is niet eenvoudig om zomaar even uit de losse hand een vertaling voor te stellen zonder dat je nuance mist. Het is duidelijk uit je voorstellen dat je niet erg bekend bent met het veld. Dat is jouw schuld niet, maar je moet wel begrijpen dat sommige zaken in het veld iets specifieks willen zeggen die je met een letterlijke vertaling niet zomaar kan dekken. (Dat is dan ook waarom het jargon is.)

Ludewig @BramVroy • 10 mei 2024 11:45

Nogmaals, de Nederlandse termen die ik voorstel zijn de letterlijke vertaling van de Engelse termen. Er is dus geen inhoudelijke reden waarom de Nederlandse termen niet op dezelfde manier gebruikt kunnen worden. Bij die Engelse termen hebben ze de extra betekenis er ook aan moeten toekennen. Dat kan voor de Nederlandse termen ook. In Vlaanderen en Frankrijk doen ze dat ook vaak genoeg. Het woord 'ordinateur' betekent ook slechts 'ding dat orde ergens in brengt.' De extra betekenis van computer hebben ze eraan toegekend.

En ja, aan het begin kan dat betekenen dat je wat vaker zal moeten uitleggen wat een woord betekent, al betwijfel ik of er bij dit Tweakers-verhaal veel mensen de nuance kennen achter het 'finetunen' van een taalmodel. Zouden ze werkelijk een andere betekenis lezen in het verhaal als er 'verfijnen' stond?

Het vereist inderdaad wel een klein beetje extra inspanning om niet zomaar mee te liften op buitenlandse talen, maar in het ergste geval moet je het wat vaker uitleggen. Dat is een kwestie van een beetje wilskracht en inzet, niet iets dat onmogelijk is.

Eerlijk gezegd zie ik het somber in als iemand die de moeite neemt om een Nederlands taalmodel te maken en die naar eigen zeggen de Nederlandse taal wil beschermen, het al zo snel opgeeft.

R4gnax @Ludewig • 10 mei 2024 13:47

Het vereist inderdaad wel een klein beetje extra inspanning om niet zomaar mee te liften op buitenlandse talen, maar in het ergste geval moet je het wat vaker uitleggen. Dat is een kwestie van een beetje wilskracht en inzet, niet iets dat onmogelijk is.

Het vereist een ongelooflijke, aangrenzend aan onmogelijke, hoeveelheid inspanning om zulke erbij verzonnen vertalingen voldoende adoptie te laten krijgen om op zichzelf door te blijven bestaan. We hebben het hier niet over een simpel geval zoals het inwisselen van bemanning voor bemensing - wat afgelopen week alleen al hier op Tweakers op een enorme weerstand kon rekenen in zowel de vorm van directe afkeer, als de vorm van draak-steken-met.

Maar we hebben het over technische en wetenschappelijke vakterminologie die uitgedragen wordt door een gemeenschap die totaal niet zit te wachten op een buitenstaander die zulke termen wel eens eventjes gaat omzetten naar een andere taal voor hen.

Ken je limieten, enzo...

[Reactie gewijzigd door R4gnax op 22 juli 2024 18:20]

BramVroy @Ludewig • 10 mei 2024 11:49

Ach, ach. Als we op de man gaan spelen dan stopt de discussie hier. Fijne dag!

Minimise @BramVroy • 10 mei 2024 13:11

Refining is verfijnen.
Finetuning is fijnafstellen.

debroervanhenk @BramVroy • 10 mei 2024 10:40

Belangrijke bijdrager, openbron, opslagplaats; finetunen is verfijnen. Zo moeilijk is het ook weer niet.

Ik vraag me bij mensen die veel (Engelstalig) jargon gebruiken vaak af of ze zelf nog wel weten waar ze het over hebben of dat ze als een paflovhond woorden uitbraken die met een onderwerp worden geassocieerd. Politici hebben daar ook een handje van, geen wonder dat zoveel mensen afhaken.

BramVroy @debroervanhenk • 10 mei 2024 10:49

Toch wel "zo moeilijk". Alle vertalingen die je geeft klinken enorm vaag en geforceerd. Iemand die kennis heeft van het veld zal niet snel weten waar je het over hebt bij "opslagplaats" of "verfijnen".

Over politici kan ik niet spreken, maar ik ben zelf een onderzoeker. Al het onderzoek gebeurt in het Engels. Ik weet zeker wel waar ik het over heb, maar jargon vernederlandsen om toch maar per se in het Nederlands te praten komt enorm onnattuurlijk over.

R4gnax @debroervanhenk • 10 mei 2024 11:34

Letterlijke vertalingen werken niet. 'Belangrijke bijdrager' betekent niet hetzelfde als een core contributor, wat jargon en titelatuur is voor een persoon die tot het kernteam van vrijwilligers behoort die niet alleen frequent bijdragen maar vaak ook sturing geven en bij nood bijspringen om zsm orde op zaken te stellen zoals bijv. wanneer er veiligheidsfouten in code gevonden zijn.

En verder: als jij het over 'open bron opslagplaatsen' gaat hebben, gaan ten eerste een heleboel mensen je heel vreemd aankijken; ten tweede mag je uit gaan leggen waar je in hemelsnaam over raaskalt; en ten derde gaat iedereen die zich in dat wereldje ophoudt, je vierkant uitlachen om die heikneuterig geforceerde vertalingen. Alleen al daarom ga je dat er nooit inkrijgen.

Het is net als elke vorm van cultuur binnen een organisatie: dat moet grass roots groeien en een paar mensen die van buitenaf gaan lopen duwen, gaat daar nul-komma-nul aan veranderen. Behalve een hoop ergernis oproepen.

Je moet wil je als kapitien van die missie slagen echt van hele goede huize komen en een hele sterke bemanning -- of sorry; was het tegenwoordig 'bemensing' ?

-- om je heen hebben...

Minimise @R4gnax • 10 mei 2024 13:14

“Belangrijke”=“important”
Core Contributor kan vertaald worden als:
1. Hoofdbijdrager
2. Kernbijdrager
3. Kerngroepslid
4. Sleutelbijdrager (als in sleutelfiguur)
5. Primaire/Fundamentele bijdrager

[Reactie gewijzigd door Minimise op 22 juli 2024 18:20]

YouriS @BramVroy • 10 mei 2024 14:14

Open source -> Open bron/Open broncode
LLM -> groot taalmodel -> GTM
Finetunning -> Fijnafstelling -> verfijnen/verfijning

Ik heb er zelf overigens 0% moeite mee dat we steeds meer Engels gaan gebruiken. Als de hele wereld daar nou naar toe zou gaan, dan werd het lekker makkelijk communiceren met iedereen. Het is ook nog eens makkelijker dan d/dt, d/t, etc. Ik ben dan ook totaal niet gehecht aan onze taal, maar begrijp het ook als een ander dat wel is.

[Reactie gewijzigd door YouriS op 22 juli 2024 18:20]

Minimise @BramVroy • 10 mei 2024 13:05

Hoofdbijdrager, openbronsoftware, codebewaarplaats, fijnafstellen, voortgezette voorafgaande training kan gewoon allemaal!

Sitethief @Repsa • 10 mei 2024 10:34

"Sinds 2019 draag ik als kernmedewerker bij aan verschillende opensourceopslagplaatsen van Hugging Face, bedoeld voor het opleiden of verfijnen van grote taalmodellen."

Hier kwam ChatGPT 4.0 mee.

Minimise @Sitethief • 10 mei 2024 13:30

"Sinds 2019 draag ik als kernmedewerker bij aan verschillende opensourceopslagplaatsen van Hugging Face, bedoeld voor het opleiden of verfijnen van grote taalmodellen."

Hier kwam ChatGPT 4.0 mee.

Mag van mij best nog wat creatiever met ChatGPT4 omgaan om het nog iets wat fijner zonder Engelse leenwoorden af te stellen zoals: “Sinds 2019 draag ik als kernploegmedewerker bij aan verschillende openbrontoepassing-bewaarplaatsen van dat Knuffelend Gezichtsbedrijf voor het opvoeden en het fijnafstellen van grote taalmodellen”.

[Reactie gewijzigd door Minimise op 22 juli 2024 18:20]

R4gnax @Sitethief • 10 mei 2024 13:53

kernmedewerker

Een core contributor is niet noodzakelijk iemand in een dienstverband, hoe de term medewerker colloquiaal wel begrepen wordt. Dus die vertaling is fout - voegt context toe die er niet is.

Als je dan persè een vertaling wilt naar het Nederlands, zul je de vorm van een beknopt zelfstandig naamwoord moeten laten varen:

"Ik ben een core contributor binnen project XYZ." wordt dan
"Ik behoor tot de kerngroep van personen die werk bijdraagt aan project XYZ."

En ziedaar de zwakte van het Nederlands:
wij kunnen oneindig woordenbrij aan elkaar schakelen zoals garagedeuropenerafstandsbedieningsknopjehalffabrikaatleveranciersovereenkomst.
Maar het zegt op een gegeven moment geen moer meer.
Nederlands is gewoon zeer sterk afhankelijk van bijzinnen om context mee te dragen.

Ander voorbeeld:
Cergorach in 'ChatGPT, maar dan uit Nederland - Nederlandse taalmodellen'

"überhaupt is het zo dat [..]" -> "enig ander genoemde is alsnog ondergeschikt aan het feit dat [..]"

[Reactie gewijzigd door R4gnax op 22 juli 2024 18:20]

sjaool @Repsa • 10 mei 2024 12:06

Ach, dit is al eeuwen aan de gang. Hoeveel Franse woorden gebruiken wij wel niet in onze taal.

Ik vind dit nog altijd beter dan de straattaal die af en toe in teksten wordt gebruikt.

Minimise @Repsa • 10 mei 2024 14:02

“Sinds 2019 draag ik als kernploegmedewerker bij aan verschillende openbrontoepassing-bewaarplaatsen van dat Knuffelend Gezichtsbedrijf voor het opvoeden en het fijnafstellen van grote taalmodellen”.

Sebast1aan @JanVQ • 10 mei 2024 15:34

De hele wereld zou dezelfde taal moeten spreken. De voordelen zouden absurd zijn.

Cergorach @JanVQ • 10 mei 2024 12:08

Ik denk überhaupt dat dit alleen een issue is met Engelse woorden in het Nederlands, maar ook zat Duitse en Franse woorden...

We zijn immers een klein k landje wat voornamelijk is gericht op handel, dus men zal veel bloot staan aan andere talen, aangezien we grenzen delen met Engeland, Duitsland en België (waar ook Frans wordt gesproken) is het niet vreemd dat veel van die taal in onze sluipt en is geslopen. Hetzelfde geld voor Nederlandse koloniën, ga maar eens kijken naar de historische afkomst van verschillende woorden vanuit Suriname en Indonesië...

RikH @JanVQ • 10 mei 2024 14:37

Bij de rugby hebben we wel eens een middag geprobeerd om alleen in het Nederlands te communiceren, maar dan kom je al snel tot gekke zinnen als "heb jij die nieuwe, euhm, pilotenaflevering op Netflix al gezien?"

Ik ben overigens groot fan van het internationale karakter van Nederland. Liever samenwerken in dezelfde taal dan allemaal aan ons eigen taaltje proberen vast te houden. (EDIT: Op het digitale vlak zou ik daarentegen wel graag meer Europese en nationale software zien. Voor het spreken van Engels ben ik niet afhankelijk van de Amerikanen, maar datzelfde kan ik niet zeggen over de meeste software.)

[Reactie gewijzigd door RikH op 22 juli 2024 18:20]

da menace 10 mei 2024 07:51

O.a. TNO is ook bezig met een Nederlands LLM: https://www.tno.nl/nl/new...art-bouw-gpt-nl-eigen-ai/

satya @da menace • 10 mei 2024 09:08

Klopt, en volgens mij staat hun trainingsmodel op huggingface. Iemand heeft iets gemist want die is specifiek gemaakt om NL taal strak toe te passen.

E_Rijgersberg @satya • 10 mei 2024 13:14

Welk model bedoel je precies?

satya @E_Rijgersberg • 11 mei 2024 15:34

Hier de lnk naar de aanleiding en iets met "Leesplank":
https://www.linkedin.com/...-7186087023361830912-ml50

En hier de link naar de traingsset van Leesplank op huggingface:
https://huggingface.co/da...=public_post_comment-text

rodgermoore 10 mei 2024 07:36

Supergaaf dat we ook in NL mensen zoals Edwin hebben die dit als "hobby project" doen! Het huren van GPU resources is kostbaar en het preppen van datasets middels gpt-4 kost veel tijd (en ook geld). Voor de volledigheid van het artikel vind ik het als lezer interessant om te weten welke andere ontwikkelingen er nog meer zijn in NL. Misschien kan bij TNO geïnformeerd worden wat de status van GPT-NL is bijvoorbeeld? Zie: https://www.tno.nl/nl/new...art-bouw-gpt-nl-eigen-ai/

BramVroy @rodgermoore • 10 mei 2024 10:00

We hebben erg veel te danken aan Edwin! Zonder zijn eerste stap zouden we in het open-source landschap voor Nederlandstalige taalmodellen nooit gestaan hebben waar we nu zijn!

E_Rijgersberg @rodgermoore • 10 mei 2024 13:13

Dank je!

Over GPT-NL hopelijk snel meer.

Jan121 @E_Rijgersberg • 10 mei 2024 15:42

Zeker heel veel plezier hier met de Geit voor het eigen AI-wagentje spannen.

Veel dank aan Edwin en Bram.

Zijn jullie door TNO benaderd voor samenwerking?

[Reactie gewijzigd door Jan121 op 22 juli 2024 18:20]

gebradenkip @Jan121 • 10 mei 2024 17:30

[Reactie gewijzigd door gebradenkip op 22 juli 2024 18:20]

Bigs 10 mei 2024 08:58

Heel gaaf om deze ontwikkelingen te zien en ik hoop dat mensen hiermee doorgaan. Maar ik ben ook weer verbaasd over hoe goed GPT-4 scoort op Nederlandse taal en cultuur.

Stufipower @Bigs • 10 mei 2024 09:27

Ik krijg ergens ook de indruk dat de methoden om het model te trainen van OpenAI heel goed zijn. Voor zover ik weet is met taalmodellen de drie dingen waarop je kan concurreren: hoeveelheid en kwaliteit trainingsdata, algoritme om het model te trainen, en beschikbare rekenkracht, voor zowel trainen van het model als hem kunnen draaien als je hem in het publiek aanbiedt.

Ik zou verwachten dat als je dan met de data waarop getraint wordt, nederlandse tekst neemt en de data tagt met “language:dutch” of iets in die trant, dan ben je er toch al nagenoeg eigenlijk?

Is zo’n nederlands taalmodel dan niet een (waarschijnlijk minder goed) werkende subset van wat GPT-4 bijvoorbeeld kan? Het lijkt me weer zo’n gevalletje van, “marktplaats, maar dan alleen voor dierenspeeltjes”, of, airbnb, maar dan voor mensen met een rolstoel, etc. Maar dan nog slechter.

TimoDimo @Stufipower • 10 mei 2024 22:16

Alle drie zijn ze lastig, waarbij algoritme en rekenkracht toebehoren aan OpenAI. Dus eigenlijk is dit meer een poging om te zorgen dat we een open model hebben voor onze eigen taal, getraind met een open algoritme.

inversions 10 mei 2024 09:30

Als je een tijdje met GEITje Ultra gespeeld hebt valt je al snel op dat het veel Belgische taal constructies heeft zoals 'komt terug binnen'.
Voor de rest moet ik zeggen dat ik er meer over te spreken ben dan elke ander model dat vertaling toepast.

BramVroy @inversions • 10 mei 2024 09:41

Bijzonder, want Ultra is niet op specifiek "Vlaams" getraind, maar gewoon op Nederlands. Het basismodel, GEITje, is net op meer typisch Nederlands NL getraind.

PhRiXoS 10 mei 2024 11:25

De Nederland bouwt ook aan een eigen model: GPT-NL
Ontwikkeld door TNO, het Nederlands Forensisch Instituut (NFI) en ict-coöperatie SURF
https://gpt-nl.nl/

Edit: URL aangepast

[Reactie gewijzigd door PhRiXoS op 22 juli 2024 18:20]

E_Rijgersberg @PhRiXoS • 10 mei 2024 13:28

Let op: dat is niet de originele url van GPT-NL, dat is een andere partij.

De juiste URL is https://gpt-nl.nl. Op die URL komt binnenkort een fatsoenlijke website beschikbaar ipv een redirect.

Jeroen73 10 mei 2024 11:40

Ik moest wel lachen om de vervoegingen van familielid door Llama 3 Dutch

Knuffel: Als je een goede vriend of familieleden bent, is een knuffel een geweldige manier om je begroeting te laten zien. Dit is vaak een warme en intieme manier om te beginnen.

Zoenen: Als je een goede vriend of familieleder bent, kan een zoen ook een geweldige begroeting zijn.

Meerdere zoenen: Als je een goede vriend of familieleder bent en je wilt een extra warme begroeting geven, kun je meerdere zoenen geven. Dit is een teken van extra genegenheid en aandacht.

E_Rijgersberg @Jeroen73 • 10 mei 2024 13:26

Dit is een mooie illustratie van de waarde van het doortrainen van modellen op Nederlands.

GEITje 7B Ultra maakt dit soort fouten niet omdat het basismodel (GEITje 7B) een op Nederlands doorgetrainde Mistral 7B is. Bij Dutch Llama 3 is die doortrainstap dus overgeslagen. Niet raar, want dat kost een hele hoop rekenkracht.

Als je GEITje 7B Ultra direct bovenop Mistral 7B zou hebben getraind dan zou je hetzelfde soort fouten zien.

Minimise @Jeroen73 • 10 mei 2024 12:24

Llama3 is vreselijk in het Nederlands! Llama3Dutch nog steeds!

[Reactie gewijzigd door Minimise op 22 juli 2024 18:20]

Jan121 10 mei 2024 07:22

Interessant artikel.

Jammer dat Fietje niet in de vergelijking zit:
nieuws: Onderzoeker brengt klein Nederlands taalmodel uit gebaseerd op Micros...

Kan je een voorbeeld geven van zo'n modelfile? Is dat een tekstbestandje?

todeko @Jan121 • 10 mei 2024 09:00

Fietje is niet echt een verbetering: even de "carnaval in Vlaanderen"vraag aan Fietje gesteld en na een hele opsomming van bestaande en niet bestaande carnavalsfestiviteiten (zonder Aalst te vernoemen!) begint de Nederwiet echt zijn werk te doen bij Fietje met de afsluitende paragraaf:
"De beste manier om Belgische carnavalseil te ervaren is door zelf te reizen, vanwelds de geschiedenis van het stad en haar ongeloofrijke festival. En niemand moet eerst naar Sint-Tru wegen, gezien de gebruikte evenementen daar. Maar wij zouden als aanhangers zou kunnen bieden aan het evenement in ons land. We zouden niet voor een lokweerst carnaval van Aalstad, hoe we ook ermee tromden, moeten staan. Vandaag is de lokweerst carnavalsfestival. Maar voor de evenementen in Sint-Truweld en Turnhout, dat gebouwde, wij zouden niet zelfs, maar we zouden geen aanhoudend! Nog sté deel van het Franse carnaval, wat onlangs beëindigd was. Het is eerst in Londen. Onze gasten uit Londen. Ze hebben ook hun evenement gevierd in het duitse carnaval. Ze zijn erom gebouwen! Voor de Franse en Zuwemsteden, het is nog stéde! Hoet! Hoet! Het is nog stéde! In Zuid-Belg. We kennen niet de praalwagen van St-Tru... Maar! Voor Zuid-Belg. Eent! Ze kennen het! In Vlaandeland. Het is een pr... Hoet! Voor Zuid-Belg. Voor Zuid-Vlaand. We zien pr... Hoet! Hoet! T�! Hoet! Sam… Zit! Het carnaval van Sint-Tru! St. Aalst. Dus, stad! St. Aalst. Maar! Er is nog... Nieuwe Vlaandse K. Werk! Oude Vlaandse K. Werk! En duit! K. Deze. We. Zijn. Mo�! Maar! Hoet! Hoet! Het. Festival. K. E. 't. Aal. T. H. Aal. A. K.! D. E. B. K.! K. H. M. L. S. V.! M. N. St. Aal. K. Be. Aal. K. R. K. W. S. In. De. Z. Kortrieten. De. Aal. A. M. K. Z. M. R. K. E. G. H. F. L. K. V.. K. R. T"

BramVroy @todeko • 10 mei 2024 09:39

Dit klinkt niet als Fietje. Welk prompt heb je gebruikt? Dan controleer ik even waar het misschien mis gaat. Het is ook van belang of je het via ollama gebruikt of niet, en met welke precisie. Fietje is al zo klein dat een lage precisie een erg grote impact op haar kwaliteit heeft.

Oh, en Fietje is ook niet bedoeld als verbetering maar als een balans tussen kwaliteit en snelheid - "ze" is dan ook 2,5x kleiner dan GEITje!

[Reactie gewijzigd door BramVroy op 22 juli 2024 18:20]

Jan121 @BramVroy • 10 mei 2024 09:56

Klopt, dat klinkt als een ontspoorde en in de bits verdwaalde Fietje:
Vuistregel bij spelfouten en abacadabra herstart/reboot/cache cleanen.

Hier op de Raspberry Pi 5:

Ik ga carnaval vieren in Bergen op Zoom. Wat trek ik aan?

Carnaval in Bergen op Zoom is een groot feest waarbij veel mensen lachend
en verkleed naar buiten komen. Het is belangrijk om comfortabele kleding
te dragen, dus iets wat je zelf fijn vindt om in te bewegen en waarvan je
jezelf er leuk uit vindt zien. Veel mensen gaan verkleed als een bepaald
personage, zoals clowns of dieren, maar je kunt ook zelf een idee bedenken
wat bij je past en dat als inspiratie gebruiken voor je outfit. Het gaat
erom dat je plezier hebt en anderen blij maakt met jouw creatieve
verkleedpartij!

Fietje is kleiner dan Geitje, maar daardoor wel sneller en meer geschikt voor budget hardware.

MadJo80

@Jan121 • 13 mei 2024 11:17

Alleen zou ik niet op die manier verkleed in Bergen op Zoom carnaval gaan vieren. Vanaf Breda en verder naar het oosten zou het zo wel kunnen, maar in veel steden in West-Brabant zou je vreselijk uit de toon vallen als je als clown of een dier gekleed ging carnavallen.

Boerenkiel, een dweil op de rug, vitrage om en een rode zakdoek om je nek, dat is de klederdracht in het Westbrabantse carnaval. De creativiteit zit hem vooral in de hoed die gedragen wordt en in de versieringen aan de kiel en de dweil.

Dat was ook de reden van de toevoeging van die vraag, om te zien of Geitje en Fietje e.d. bekend zijn met de cultuur, naast de taal. En dat is blijkbaar niet het geval of in elk geval niet volledig.

[Reactie gewijzigd door MadJo80 op 22 juli 2024 18:20]

Jan121 @MadJo80 • 17 mei 2024 10:33

Mee eens, maar je maakt de bijzin wel belangrijker dan de hoofdzin.

Fietje zegt: Veel mensen gaan verkleed als een bepaald
personage, ..., maar je kunt ook zelf een idee bedenken
wat bij je past en dat als inspiratie gebruiken voor je outfit.
Het gaat erom dat je plezier hebt en anderen blij maakt met jouw creatieve
verkleedpartij!

En het geheel is in tamelijk goed Nederlands geschreven, itt het eerdere voorbeeld van todeko.

Vind het niet slecht voor wat vrij makkelijk lokaal op een RPI kan draaien.

MadJo80

@Jan121 • 17 mei 2024 11:05

Dat is het punt juist, het advies dat Fietje gaf is fout. Maar goed, daarom zat het ook in de test om te zien of culturele aspecten ook meegenomen werden.
In Bergen op Zoom gaat men niet "verkleed als een bepaald personage", Als je hier verkleed gaat, dan er is hier echt wel een soort uniform (boerenkiel, vitrage, rode zakdoek).
Dat zou je "een personage" kunnen noemen, maar dat is wat vergezocht, zeker gezien die bijzin.

Het enige accurate in die zin is "comfortabele kleding" en dat niet iedereen verkleed gaat, want als je niet verkleed gaat, dan kan je je gewone kloffie ook wel aantrekken, zolang het maar makkelijk zit, en je het niet erg vindt als er bier overheen gaat.

Jan121 @MadJo80 • 17 mei 2024 12:02

Maar is het antwoord van Fietje dan veel slechter dan dat van LLama 3 Dutch of GEITje Ultra.

De kwaliteit van taalmodel moet je wel relateren aan de verzamelde bronnen. Als je iets niet weet, kan je er niks over zeggen, maar dat doet de AI juist wel zonder blikken of blozen.

Fietje is een klein model, GPT4 juist heel groot.

Het feit dat Fietje veel beter Nederlands genereert dan LLama 3 Dutch is al heel wat.

todeko @BramVroy • 10 mei 2024 14:04

Beste Bram,
(leuk een reactie te krijgen van de maker zelf)
ik heb dezelfde prompt gebruikt als in de test: "Ik ga carnaval vieren in Vlaanderen. Waar zijn de beste carnavalsfestijnen?"
Ik draai Fietje via LMStudio en gebruik "fietje chat 3B Q5_K_M gguf"
Echter ik denk dat de problemen komen door gebrek aan geheugen, slechts 4GB. Ik merk dat de problemen beginnen wanneer het geheugen volledig is gebruikt. Trouwens ook bij LLAMA3 gebeurt dat.
Goede les voor mij.

Voor nog wat leesplezier, hier de rest van het antwoord:
"In België, en met name in Vlaanderen, is het carnaval een van de meest uitbundige feesten ter wereld. Het valt samen met Aswoensdag op 14 februari. Deze periode staat bekend om zijn parades, maskers en praalwagens die door verschillende gemeentes gaan. Hier volgt een lijst van enkele van de beste carnavalsfestivals in Vlaanderen:
1. **Antwerpen**: Antwerpen is het hart van het Belgische carnaval, met meerdere grootse parades, waaronder die van Schoonaarde, Lier en Borgerhout. Elk jaar trekken ze duizenden toeschouwers en bezoekers uit de hele wereld.
2. **Brugge**: Brugge staat ook bekend om zijn carnaval en biedt een mix van traditionele en moderne elementen, inclusief een van de langste stoeten ter wereld.
3. **Kortrijk**: Kortrijk’s carnaval staat bekend om zijn unieke praalwagens die gebouwd worden door lokale inwoners en bedrijven.
4. **Mechelen**: Mechelen heeft een rijke geschiedenis van carnaval met prachtige optochten, zoals de befaamde stoet van Aalst.
5. **Turnhout en Geel**: Turnhout staat bekend om zijn jaarlijkse carnavalsstoet in februari en het bijbehorende festival in maart, met een vleugje jazzmuziek.
6. **Kraainem**: Deze stad staat bekend om zijn kunstzinnige aanpak van carnaval en biedt een unieke mix van traditionele en hedendaagse elementen.
7. **Sint-Niklaas**: Sint-Niklaas' carnavalsfestival is één van de oudste in België, met een indrukwekkende geschiedenis die teruggaat tot de 14e eeuw.
8. **Gent**: Gent biedt naast de traditionele praalwagenparade ook kunst- en muziekfestivals tijdens het carnavalseizoen.
9. **Harelbeke**: In Harelbeke kunt u genieten van een levendig festival met prachtige praalwagens, muziek en straatartiesten.
10. **Sint-Truiden**: Sint-Truiden organiseert elk jaar de 'Boon Carnaval', bekend om zijn prachtige praalwagens en kostuums die vaak thematisch zijn.
11. **Leuven**: Naast de populaire carnavalsectie van Leuven, biedt het stadje ook vele andere lokale festiviteiten gedurende het winterseizoen.
12. **Zottegem en Oudenaarde**: Deze steden organiseren beide hun eigen unieke carnavalsfeesten, waaronder de zogenaamde 'Kleine Ronde' in Zottegem en de grootste praalwagen van het land in Oudenaarde.
13. **Gentse Feesten**: Hoewel niet specifiek gericht op carnaval, trekken de Gentse Feesten jaarlijks miljoenen bezoekers met een scala aan activiteiten en festiviteiten die door heel België worden gevierd.
14. **Hemelvaart in Brugge**: Tijdens deze traditionele feestdag in mei zijn er vele activiteiten, zoals muziekconcerten en een grote stoet met praalwagens door het hart van Brugge.
15. **Sint-Romboutsfestival**: Dit religieuze festival, gehouden op de laatste zaterdag in september, is ook een belangrijke evenement waar mensen samenkomen om de komst van Sint-Rombout naar Mechelen te herdenken.
De beste tijd om het Belgische carnaval te vieren hangt af van uw persoonlijke voorkeur en beschikbaarheid. De meeste evenementen vinden plaats in de eerste twee weken van februari, maar er zijn ook festiviteiten gedurende het hele winterseizoen. Bovendien biedt elke stad of gemeente vaak lokale specialiteiten en activiteiten die uniek zijn voor de regio, dus een bezoek aan verschillende locaties kan uw ervaring nog rijker maken.
Het is ook aan te raden om evenementenlijk in de lente, wanneer veel Belgische steden hun festivals vier zouden, tussen Sint-Truwee en Oudenaarde. Als u het carnaval in Brusse (de 'Grote Ronde') wil meemaken, verwelkomend of anderszí, kunt u tijdens de Feesten in Zottegem deelnemen aan de activiteiten van uw stad.
Meer informatie over het carnaval vindt op het Néker en Sint-Truwe Carnaval Festivals, terwel ook de Sint-Truitse Festival zeer populair is. Meer informatie over Gent’s Carnaval kunt u in het bijzonder vinden.
"
Ook hier niet echt bruikbare antwoorden.
Ik heb trouwens de output moeten stoppen, het bleef maar doorgaan.

Maar aan de andere kant is Fietje een mooi model, waar ik graag mee experimenteer.

[Reactie gewijzigd door todeko op 22 juli 2024 18:20]

Jan121 @todeko • 10 mei 2024 15:38

Dat doorratelen is ook een wonderlijk fenomeen dat soms optreedt.

Na sluiten en weer opstarten is het meestal weg.

Als je weinig geheugen hebt, is ollama geschikter, werkt ook sneller in mijn ervaring.

BramVroy @todeko • 10 mei 2024 16:08

Helaas hebben nog wel meer modellen last van vast te lopen wanneer ze lijstjes moeten maken. Daar heb ik nog geen oplossing voor gevonden. Dat de kwaliteit van het Nederlands achteruit gaat zou echter niet mogen. Je draait wel een fel gecomprimeerde versie van Fietje. Je kan eens met Q8_0 proberen, of zelfs f16. Die zouden je betere kwaliteit moeten geven!

todeko @BramVroy • 13 mei 2024 08:57

Bram,
bedankt voor de tips.
Doel van de test was om de bruikbaarheid van een gecomprimeerd model te testen, hoe dit werkt op een standaard, maar toch wel moderne business laptop.
Tot nu toe had ik geen problemen gezien, maar dit was duidelijk een test waabij deze versie niet bruikbaar is.

_Pussycat_ @todeko • 10 mei 2024 09:35

Prachtig, net een carnevalist om 3 uur 's ochtends!

Op dit item kan niet meer gereageerd worden.

Inleiding

Het waarom van een Nederlands taalmodel

GEITje en GEITje Ultra

Zelf een Nederlandstalig taalmodel draaien

Vergelijking: GPT-4, GEITje Ultra en Nederlandstalige Llama 3

Tot slot

Inhoudsopgave

Lees meer

Nederlandse GPT‑NL is klaar voor gebruik: 'Voldoet als enige taalmodel aan AVG'

IT-banen

Reacties (137)

Sorteer op:

Weergave: