Om te kunnen achterhalen wat door AI gegenereerde of geschreven taal vooralsnog herkenbaar maakt, is het van belang om te beginnen bij hoe kunstmatige intelligentie taal genereert voor een conversational interface. De mens heeft immers bij iedere zin te maken met impliciete en veelal onbewuste taalregels. Voor chatbots gelden fundamenteel andere regels.
Dat is waarmee dr. Rick Nouwen, universitair hoofddocent linguïstiek aan het Institute for Language Sciences van de Universiteit Utrecht, zich veelal bezighoudt: de verhouding tussen computationele taal en menselijke semantiek, syntaxis en pragmatiek.
Taaltermen
Linguïstiek is de studie van alles wat met taal te maken heeft. Binnen deze wetenschap spreekt men vaak over enkele concepten die ook voor dit artikel relevant zijn. Zo beschrijft syntaxis de woorden die we gebruiken en de volgorde daarvan. Dit principe heeft AI volgens Nouwen zeer goed onder de knie. Semantiek is de studie van betekenis, waarbij men kijkt naar de gedachten en ideeën die in woorden en zinnen besloten zijn. Pragmatiek heeft veel raakvlakken met semantiek, maar richt zich meer op de invloed van context op de betekenis van taal.
Hoe vormt AI een zin?
De kennis van taal die wij mensen hebben, is te vangen in concrete regels, legt Nouwen uit. De eerste vormen van AI waren rule-based. Deze modellen bestaan uit door de mens geschreven regels, een beetje vergelijkbaar met if-then statements in programmeertaal. Ontwikkelaars kunnen deze modellen bouwen met menselijke taalregels in het achterhoofd. De bot krijgt in zo'n geval door de mens geschreven regels, waaronder taalregels, en probeert op basis van regels over bijvoorbeeld de linguïstieke verbanden tussen woorden te 'begrijpen' wat er bedoeld wordt. De antwoorden worden dan in principe ook op basis van de regels geschreven.
:strip_exif()/i/2006507368.webp?f=imagemedium)
Deze vorm van AI is nog steeds in gebruik, al ligt de nadruk tegenwoordig meer op intent-based modellen, waarover later meer. Het voordeel van op regels gebaseerde AI is dan ook dat men met voorgeschreven regels kan sturen wat een chatbot wel en niet kan zeggen. Makers kunnen het taalmodel vervolgens ook vrij gemakkelijk updaten met nieuwe of aangepaste regels. En als de chatbot in het duister tast omdat de voorgeschreven regels niet van toepassing zijn op input van een gebruiker, gaat de bot als het goed is, geen gekke dingen zeggen.
Dat is bij hedendaagse generatieve AI, zoals de chatbots en slimme assistenten van Google, OpenAI, Apple en Microsoft, wel anders. "Generatieve AI werkt met machinelearning, waarbij de bot op basis van enorme hoeveelheden data getraind wordt in het herkennen van statistische patronen", aldus Nouwen. Met andere woorden: generatieve AI berekent iedere keer het aannemelijkste volgende woord zonder een onderliggend 'begrip' van taalregels. Generatieve AI benadert taal dus op een fundamenteel andere manier dan de mens.
Pragmatiek
Ongeacht de verschillende relaties die bots met taal hebben, is er afhankelijk van het model in meer of mindere mate een zwakte te herkennen: het mindere pragmatische vermogen. Nouwen illustreert hoe dat voor ons juist heel belangrijk is. "Wij mensen zijn lui; we nemen zelden de tijd om alles letterlijk en in detail uit te leggen. In plaats daarvan gebruiken we context om gaten in communicatie in te vullen." De pragmatiek houdt zich bezig met het gebruik van taal in een bepaalde situatie of context. Wat semantisch gezien een volledig kloppende zin is, hoeft nog niet logisch te zijn.
Nouwen geeft de volgende zin als voorbeeld: 'Peter ging naar de begrafenis van Henk, maar hij was te laat.' Wie was er te laat?
Als je dit voorbeeld aan ChatGPT 3.5 geeft, verwijst de bot in eerste instantie naar het feit dat 'hij' in de Nederlandse taal doorgaans naar het laatstgenoemde mannelijke onderwerp verwijst, ofwel Peter. Maar als je doorvraagt, blijkt dat Henk ook te laat zou kunnen zijn voor zijn eigen begrafenis. Nouwen licht toe: "Ongeacht de relevante taalconventies is het vrij moeilijk om te laat te zijn voor je eigen begrafenis. Onze
wereldkennis dicteert dat deze zin betekent dat het Peter is die te laat is."
Het is vrij moeilijk om te laat te zijn op je eigen begrafenis.
Ook zinnen die niet letterlijk bedoeld zijn, zoals ironische of sarcastische opmerkingen, vereisen contextueel begrip. 'Hij zou nog te laat komen op zijn eigen begrafenis', een uit het Engels vertaald gezegde, is sarcastisch bedoeld en betekent zoiets als: 'hij komt altijd te laat'. Want opnieuw: dat kan letterlijk gezien niet. Een chatbot moet nadrukkelijk kennis hebben van het gezegde om te kunnen begrijpen dat het om een sarcastische opmerking gaat. 'Hij is lekker op tijd', kan dan weer zowel ironisch als letterlijk bedoeld zijn, wat weer afhankelijk is van de context.
Nouwen: "Sommige chatbots hebben ook moeite met zinnen waarvan je onmogelijk kunt bepalen of ze waar of onwaar zijn. Dat heeft vaak te maken met de subjectiviteit van een woord. Het woord 'lang' kan zowel een kind als een toren beschrijven. Maar wanneer is dat woord van toepassing en wanneer is iets dan precies lang? Voor een taalmodel is dat een lastige kwestie." Dit soort pragmatische vraagstukken zijn voor mensen heel vanzelfsprekend, maar een mogelijk struikelpunt voor chatbots.