Inderdaad, ik schrik er eigenlijk wel van dat deze tool op deze manier gebruikt wordt.
Een tijdje geleden heb ik bij een discussie onder
dit artikel meerdere keren iets aan ChatGPT gevraagd en elke keer kwam het met een ander antwoord.
Samenvatting (
langere versie):
Vraagstelling - "Hoeveel meer stroom verbruikt een Bing zoekopdracht met ChatGPT, dan een normale zoekopdracht in Bing?"
- Poging 1: 0.3 Wh vs 3 Wh per query
- Poging 2: 0,3 Wh vs tussen de 6,9 en 8,9 Wh
- Poging 3: 0.3 Wh vs gemiddeld 50 Wh (middenwaarde tussen 20-100 Wh) om daarna in de volgende vraag tussen de 7,5 Wh en 18 Wh te noemen.
Al met al een behoorlijk verschil in het antwoord. De 0.3 Wh van Google is prima en kan, als je ernaar vraagt, goed nagekeken worden met de bron. Maar het antwoord over het verbruik van ChatGPT varieert in deze drie gesprekken vier keer en met een flinke range van 3 Wh tot maximaal 100 Wh (wat toch wel een flinke factor meer is).
Dit voorbeeld toont aan hoe belangrijk het is om de antwoorden van ChatGPT te controleren en te verifiëren met betrouwbare bronnen. Het blindelings vertrouwen op deze tool kan leiden tot grote verschillen en onnauwkeurigheden, wat vooral in juridische contexten zoals in de besproken rechtszaak zeer problematisch zijn. Ik ben het deels met je eens dat beide partijen hier controles op moeten uitvoeren, maar de kans op een 'computer says no'-situatie wordt in deze situaties wel groter doordat AI informatie verkeerd interpreteert of verkeerd presenteert door de beperkte interpretatieve capaciteiten die ChatGPT heeft. Zeker als je zelf (of je advocaat) niet voldoende kennis hebt op dit gebied en/of als bepaalde zaken dermate complex zijn en elk nauwkeurig detail telt.
ChatGPT heeft amper tot (bijna) geen echte begrip van de context (
zie derde alinea). Ze genereren gewoon antwoorden op basis van patronen, waarschijnlijkheden en statistieken in data waarop ze zijn getraind, niet op een diepgaande interpretatie van feiten en regels. En vrees dat dit kan leiden tot fouten of onnauwkeurigheden in complexe juridische kwesties en je kunt je ook afvragen of dit ten goede komt op het gebied van eerlijkheid, transparantie en verantwoording. Het mist vaak de capaciteit om de nuances en de interpretatie om zowel de vraag als het antwoord goed te begrijpen.
Wat verder gezocht, maar er is zeker een risico in de toekomst, mocht dit veel vaker gebruikt gaan worden, dat AI gemanipuleerd wordt om positiever (of negatiever) antwoord te geven op vragen (in x gebied, y IP adressen van rechtbanken e.d.) zoals
Musk nu al Twitter manipuleert om zijn
mening en berichten beter zichtbaar te maken. (Dit risico is er bij een search actie ook, maar het netto en te verifiëren resultaat is vele malen transparanter.)
En dan heb ik het nog niet eens gehad over de vertrouwelijkheid, privacy gevaren en risico op vooroordelen. En ook is er het probleem dat ChatGPT een cutoff date heeft, en dus de kennis waarop het is getraind slechts actueel is tot een bepaald punt in het verleden. Dit is problematisch in de juridische context, waar wetten en regelgeving voortdurend veranderen maar ook kunnen bepaalde feiten/statistieken snel veranderen waardoor het gegeven antwoord reeds niet meer (actueel) correct is. Dat wordt nu steeds meer goedgemaakt door de toevoeging van een zoekfunctie binnen ChatGPT. Maar zelfs als ChatGPT over de mogelijkheid zou beschikken om real-time informatie op te halen, zijn de zoekvaardigheden van het model beperkt en kan het niet zelfstandig en transparant voor de rechter beoordelen welke bronnen betrouwbaar en relevant zijn en zonder de mogelijkheid om de validiteit en actualiteit van die bronnen te verifiëren. Wat leidt tot het gebruik van verouderde of onbetrouwbare bronnen en dus leidt tot onnauwkeurige of misleidende informatie in de antwoorden.
Daarbij voelt het een beetje alsof je Wikipedia of Google Search noemt in je bronvermelding, terwijl dat alleen tools zijn om de informatie (en dus de bron) die je nodig hebt te vinden. ChatGPT biedt echter niet dezelfde mate van bronverificatie en transparantie als deze twee. Wikipedia en Google Search zijn voor veel zake goede startpunten voor het zoeken naar informatie, maar ze zouden niet als primaire bronnen beschouwd moeten worden en zeker ChatGPT niet. Maar het raadplegen van menselijke experts die aantoonbare expertise hebben over dit onderwerp en goed kunnen onderbouwen en uitleggen waarom iets zo lang/kort mee gaat lijkt mij vele malen beter.
Edit: nog een simpel voorbeeld van een verificatievraag over hoe dit stukje code nummers sorteert. Drie van de vijf slagen voor dit testje maar ze geven wel allemaal vol zekerheid antwoord.
Gemini,
Co-pilot,
ChatGPT,
Claude en
Mistral.
[Reactie gewijzigd door jdh009 op 2 augustus 2024 15:54]