ChatGPT-maker OpenAI maakt tool om AI-tekst te herkennen

ChatGPT-maker OpenAI heeft een tool online gezet die beoordeelt of een tekst waarschijnlijk geschreven is door kunstmatige intelligentie of niet. OpenAI heeft de tool online gezet als 'startpunt in de discussie rond AI-geletterdheid'.

OpenAI noemt het AI Text Classifier en heeft het model getraind op 34 modellen van 5 verschillende organisaties, waaronder ChatGPT. De tool geeft een waarschijnlijkheid terug dat een tekst door een mens of door kunstmatige intelligentie is geschreven, maar geeft geen zekerheid. Bovendien zit het model er vaak naast. In een challenge set van teksten waarop het model niet is getraind, gaf AI Text Classifier bij 30 procent van de teksten die door mensen geschreven waren het label dat het 'misschien' of 'waarschijnlijk' door een AI gegenereerd was.

De tool is niet beschikbaar als api, maar alleen als webinterface. Er zijn bovendien de nodige beperkingen. Zo werkt de tool vooral goed in het Engels en op teksten van volwassenen, maar teksten van kinderen en in andere talen werken minder goed. Ook neemt OpenAI in aanmerking dat modellen zich kunnen aanpassen aan de tool, om zo AI-teksten menselijker te laten lijken om zo de toets te doorstaan. Er zijn veel zorgen, onder meer in het onderwijs, over het gebruik van ChatGPT. De chatbot zou teksten kunnen genereren die mensen vervolgens als hun eigen teksten kunnen aanmerken.

OpenAI Text Classifier Threshold Aandeel door mensen geschreven tekst* Aandeel door AI geschreven tekst*
Very unlikely to be AI generated <0,1 5% 2%
Unlikely to be AI generated 0,1 - 0,45 15% 10%
Unclear if it is AI written 0,45 - 0,9 50% 34%
Possibly AI generated 0,9 - 0,98 21% 28%
Likely AI generated 0,98 - 1 9% 26%

* uit de challenge set waarmee het model is uitgeprobeerd

OpenAI AI Text Classifier
Betrapt? OpenAI AI Text Classifier zegt dat dit artikel 'wellicht door AI gegenereerd is' (dat is niet zo)

Door Arnoud Wokke

Redacteur Tweakers

31-01-2023 • 20:01

73

Submitter: Tweakez

Reacties (73)

73
73
33
4
0
30
Wijzig sortering
Tot chatgpt het zelf omzeilt zoals hier:
https://youtu.be/Xgc-d7SO4OQ
En zo krijg je dus de tekstuele tegenhanger van deepfakes.
En vraag ChatGPT om er een paar kleine grammaticale fouten bij in te zetten en je bent compleet; de gemiddelde taalvaardigheid is dusdanig dat docenten het verdacht zullen vinden als ze een verslag onder ogen krijgen dat taalkundig loepzuiver in elkaar zit.
Het klinkt een tikkie tegenstrijdig, je wil dat een AI teksten genereert die zoveel mogelijk lijken op een tekst die door een persoon is geschreven. Vervolgens kan je een tool schrijven die uit de tekst kan halen of het waarschijnlijk wel of niet door een AI geschreven is, maar dan kan je die input toch weer gebruiken om de AI nog menselijker te laten klinken?
Volgens mij gaat het daar niet zozeer om, of het "menselijk" lijkt. Het gaat eerder om "toon"-herkenning.

Aen een tekst kun je vaak herkennen wie de schrijver is: een goed voorbeeld zijn columnisten. Die schrijven doorgaans allemaal ongeveer evenveel over hetzelfde onderwerp, maar het is best makkelijk om ze eruit te pikken.

Dit heeft met woordkeuze, zinsopbouw e.d. te maken. Arnoud's langere stukken herken je doorgaans aan de woordspelingen.

Maar voor een nieuwsartikel is het niet zo gek dat deze tool zegt "mogelijk AI", want een nieuwsartikel zou qua toon niet veel moeten uitmaken wie het geschreven heeft. Misschien dat iemand van Tweakers.net me gaat corigeren, maar ik neem aan dat er een standaard opbouw inzit.

Een bekend voorbeeld is de New York Times, die voor de meeste artikelen de "omgekeerde piramide" hanteert.

Die aritkelen geven eerst altijd de feiten over het onderwerp: wat/waar/wanneer. Vervolgens delen ze belangrijke details en grote lijnen en aan het einde vind je dan de observatie van een "gewoon" iemand (een getuige, of iemand die het heeft gezien).

Het is dus prima mogelijk om een goed lezend artikel te hebben en toch te herkennen dat het door een AI is gegenereerd, omdat het bvb. bepaalde zinsconstructies veel gebruikt.

Het doel van ChatGPT is niet om te verhullen dat het door een AI is geschreven, immers. Het is om makkelijk betkenisvolle, correcte tekst te genereren.

[Reactie gewijzigd door Keypunchie op 23 juli 2024 02:55]

Duidelijk, dank je voor je uitgebreide en kristalheldere reactie. Ik begrijp door jouw post nu dat het zou kunnen gaan om de nuance tussen verschillende stijlen.
Nu is het grappige dus, dat ik de theorie van de "toon" van een journalist (Jenny List) heb weten na te bootsen, door een AI te trainen op een subset van haar teksten. De eerste impressie die ik terugkreeg was dat de schrijfstijl goed was, het net leek of zij het geschreven had, maar de technische kant gewoon compleet de plank had misgeslagen. Met een beetje aanpassing had het een ideaal Hackaday stukje kunnen zijn, zonder dat Jenny hiervan een woord had geschreven.

De meeste "AI plagiaat detectoren" werken daarom met de kans waarop de woorden "voorspelbaar" zijn. Algoritmes kiezen namelijk welk woord het meest logisch is op basis van algoritmes, maar ik heb genoeg praktijkvoorbeelden waarbij het "meeschrijven" met de AI al genoeg is om plagiaat detectoren om de tuin te leiden.
Je analyse klopt helemaal. Het is ook geen nieuw idee. ChatGPT is een Generative AI; het idee wat jij beschrijft staat bekend als Generative Adverserial Networks (GAN's).

Nu was het doel van ChatGPT niet om het menselijk te laten klinken.
Vervolgens kan je een tool schrijven die uit de tekst kan halen of het waarschijnlijk wel of niet door een AI geschreven is, maar dan kan je die input toch weer gebruiken om de AI nog menselijker te laten klinken?
Dat is dus precies hoe "deepfakes" worden gegenereerd. Je hebt één AI die de plaatjes maakt, en één AI die probeert om te herkennen of het plaatje door een AI is gemaakt of niet. De output van die tweede AI, wordt gebruikt om de eerste AI te trainen (en uiteindelijk vice versa).

Wat je dan krijgt is een AI die gemaakt is om 'zo menselijk mogelijk' over te komen en die continu bijgesteld wordt omdat het voortdurend wordt getoetst.

Hetzelfde zou je krijgen als je de output van een captcha zou gebruiken om een AI te trainen om captcha's op te lossen. Dan heb je ook steeds moeilijkere captcha's nodig om een AI van een mens te onderscheiden.
Dit is verre van overtuigend en al helemaal geen bewijs. En de tool motiveert ook al niet waarom iets wel/niet door een AI geschreven zou zijn.

Wat heb je er dan eigenlijk aan? Op basis van dit 'bewijs' bijv. studenten of personeel aanspreken gaat hem niet worden. En als je probeert er consequenties aan te verbinden is er zelfs een goede kans dat je jezelf in de juridische nesten werkt.
Dit is verre van overtuigend en al helemaal geen bewijs.
Open deur, staat letterlijk in de tekst: "De tool geeft een waarschijnlijkheid terug dat een tekst door een mens of door kunstmatige intelligentie is geschreven, maar geeft geen zekerheid"
Wat heb je er dan eigenlijk aan?
Staat ook in de tekst: "OpenAI heeft de tool online gezet als 'startpunt in de discussie rond AI-geletterdheid'."
In een zwart-wit, binair universum heb je hier dus inderdaad "geen ene fuck aan", maar in ons huidige universum is het een tool die kan helpen bij de ontwikkelingen rond AI en die aangeeft dat de ontwikkelaars van ChatGPT zich wel degelijk bewust zijn van de implicaties van hun tool.
Bor Coördinator Frontpage Admins / FP Powermod @locke9601 februari 2023 07:45
En de tool motiveert ook al niet waarom iets wel/niet door een AI geschreven zou zijn.
Dat kan een bewuste keuze zijn zodat het moeilijker wordt om teksten met kleine aanpassingen door de detectie te laten komen.
Succes met de discussie beste studenten!
De grap is dat OpenAI niet de juiste maker is om dit te maken, om te detecteren of een tekst geschreven door een AI is moet je weten wat het verschil is tussen een AI-tekst en mensen-tekst. Als ze dit verschil weten dan gaat de volgende versie van chatGPT dat gewoon aanpakken. Dus een van de twee tools zal altijd achterliggen op de prioriteit van OpenAI.

Een vergelijking die opgaat is een ziekte en een vaccinatie. Als een bedrijf beide maakt en verkoopt dan zetten ze hun eigen concurrentie en fouten op. Om de een effectief te maken moet de ander minder zijn.
Ik vraag me af in hoeverre je kunt 'zien' of een tekst gemaakt is door een AI. Je hebt maar zoveel letter en woord combinaties. Er is geen 'watermerk' (voor zover ik weet), en je kunt dat ook niet afdwingen een AI te laten doen. En we staan nog aan het begin van deze ontwikkeling. Of een dergelijke tool zal ontstaan (en hoe nuttig het dan zal zijn) moet blijken :)
Je hebt maar zoveel letter en woord combinaties
In Bitcoin kun je, je wallet met 12 woorden beveiligen. Er is nog nooit een melding gedaan dat een wallet geraden is. Dus zal uw stelling kloppen.....
Bij bitcoin gaat het over het algemeen 12 random woorden. In een tekst hebben de woorden een logische link met elkaar, wat de kans gigantisch vergroot dat het geen unieke combinatie is.
'Watermerk' zou kunnen bij grote stukken tekst (volgens mij gebeurd dat al bij sommige AI's) maar kleine zinnen en woorden inderdaad niet.
Docenten moeten op een andere manier gaan checken en beoordelen. Als je boek moet lezen voor je examen worden er vragen over het boek gesteld waarvan de docenten weten dat het niet in de samenvatting of uittreksel staat.

Zoiets kan je ook met scripties doen waarvan de kans groot is dat het (deels) met AI is gemaakt. Vraag door op bepaalde passages en dan heb je gauw door of de student het zelf geschreven heeft.
De vraag is: wat wil je toetsen als docent.

"Dat iemand een boek heeft gelezen". Kan, maar is een beetje weinig toevoegende toets.

"Dat iemand een literaire tekst kan duiden". Tot op zekere hoogte maakt het niet uit of ze nou een uitreksel of het boek zelf hebben gelezen. Je kunt het prima hebben over de thema's, over referenties en dat soort zaken, zelfs zonder het boek. Het zou *veel beter* moeten gaan als ze het boek daadwerkelijk gelezen hebben, vanwege het niveau van details en beleving in de antwoorden.
Je kunt het prima hebben over de thema's, over referenties en dat soort zaken, zelfs zonder het boek. Het zou *veel beter* moeten gaan als ze het boek daadwerkelijk gelezen hebben, vanwege het niveau van details en beleving in de antwoorden.
Dan stel je dus ook geen vragen meer over het boek, maar over het culturele kader van een boek of de relatie met de wereld eromheen. Dat zijn vragen die slaan op algemene ontwikkeling, niet noodzakelijkerwijs op literatuur op zich.
2 dingen. Je neemt natuurlijk een specifiek boek als uitgangspunt.

De Aanslag heeft andere thema’s dan Phileine Zegt Sorry.

Maar dan nog: inderdaad! Wat is het doel van je onderwijs en toets? Dat studenten een specifiek boek hebben gelezen en je het vinkje kan zetten “x is gedaan”.

Of is het doel om ze literatuur te laten begrijpen en in een bredere context te kunnen plaatsen en wil je hun skill daarin toetsen.

Het eerste is het makkelijkste, maar de vraag is in hoeverre dat waardevol onderwijs is.
Of is het doel om ze literatuur te laten begrijpen en in een bredere context te kunnen plaatsen en wil je hun skill daarin toetsen.

Het eerste is het makkelijkste, maar de vraag is in hoeverre dat waardevol onderwijs is.
Dat ligt er ook aan waarvoor je de literatuur op de lijst hebt staan. Als het puur is voor de taalkundige ontwikkeling, dan zijn de culturele thema's van een boek minder relevant, en gaat het veel meer om zaken als schrijfstijl, zinsbouw, woordenschat enz.

Maar als je het beschouwt in de context van een kunstzinnig vak dan heeft de context van het boek wel betekenis, omdat je dan wil beschouwen wat de auteur met een boek heeft bedoeld.
Voor vaardigheid moet je iemand laten oefenen met een essay schrijven, niet een boek laten lezen.

Dat kan ChatGPT dus ook, maar dan kom je bij mijn volgende punt:

Ik snap niet waarom in het onderwijs oefeningen voor vaardigheid uberhaupt als toets worden gebruikt (als in een cijfer dat meetelt voor een rapport). Een beoordeling kan je wel geven en uitdrukken met een getal, maar waarom wordt dit als toetsmoment gezien? Vaardigheidsoefeningen is toch juist het moment om ook fouten te maken!

Huiswerk bedoeld voor vaardigheidstraining met een "meetellend" cijfer beoordelen voelt een klein beetje alsof je een voetbaltraining geeft en je plotseling het scorebord tevoorschijn haalt en de prestatie daar laat meetellen voor de wedstrijd!

Ik snap het gemak voor de school, zo heeft deze wat meer "voortgangscijfers" dan dat er meer expliciete toetsen moeten worden gemaakt en afgenomen, maar het is wel tekenend voor het doorgeslagen "toets- en meet"-onderwijs. En dan moeten we ook niet verbaasd zijn over de ervaren stress en prestatiedruk door leerlingen. En al helemaal niet, dat er bij zijn die dan naar "hulpmiddelen" gaan grijpen.
Nou ja je moet toch af en toe de vooruitgang meten, zodat je weet wie er op de goede weg zit en wie nog wat extra oefening nodig heeft?

En sommige mensen zijn gewoon niet goed in DE test omdat ze super nerveus zijn, dan zijn kleine deel toetsen ook fijn en accurater.

Er is vast wel over nagedacht hoor, al is het natuurlijk niet makkelijk, onderwijs geven en toetsen ;-)
Bor Coördinator Frontpage Admins / FP Powermod @Frame1641 februari 2023 07:39
Docenten moeten op een andere manier gaan checken en beoordelen. Als je boek moet lezen voor je examen worden er vragen over het boek gesteld waarvan de docenten weten dat het niet in de samenvatting of uittreksel staat.
Een docent kent natuurlijk niet alle samenvattingen of uittreksels. Daarnaast kan je ook deze door AI laten genereren.
Wat mij vooral opvalt bij het gebruik van dit soort AI voor het schrijven is dat het veel gebruik maakt van oude data.

Voorbeeld ik heb een opdracht gegeven voor het schrijven van een tekst omtrent het aankomende formule 1 seizoen. Dus specifieke 2023. Hierin wilde ik de kalender, rijders, teams en regel verandering bespreken. Dit allemaal aangegeven en ook 2023 meerdere keren gebruikt.

Het systeem kwam met een lijst van rijders, teams en kalender echter was dit een kalender van jaren terug en ook met teams van jaren terug die allang niet meer bestaan. Een leek die niks met F1 heeft zou erin kunnen trappen maar de fans/even Google zoeken en je weet dat het niet klopt.

Dus in dit geval is het makkelijk te ontdekken. Want er word gesproken in de tekst over seizoen 2023 rn de data is uit 2016.
Klopt inderdaad aangezien de tool niet op het internet is aangesloten. Quote van de GPT help:
"ChatGPT is not connected to the internet, and it can occasionally produce incorrect answers. It has limited knowledge of world and events after 2021"
Ik gebruikte anderen AI tool.
De huidige versie van Chatgpt is gestopt met trainen in 2021. Die kan dus niet weten wat er daarna is gebeurt.

Zal in de toekomst waarschijnlijk veranderen als het programma wel toegang tot internet krijgt en dus ook actuele data kan vergaren en gebruiken.
Nah, dreigen met de examencommissie is al voldoende om de boefjes in tranen aan je bureau te krijgen.
The classifier considers the text to be possibly AI-generated.
Arnoud, heb je deze artikel echt zelf geschreven?
Deze artikel? Mag hopen dat OpenAI beter spelt. ;)
Gewoon wat kleine foutjes maken in de tekst en enkele synoniemen gebruiken als plausible deniability. ;)
Gewoon wat kleine foutjes *laten* maken...
Deze artikel? Betrapt jij slechte AI! :)
Ik fraag het mij ook af.
De teksten die ik tot nu toe heb gegenereerd vond ik er zelf nog steeds wel herkenbaar als 'door AI gemaakt' uitkomen. Maar dat is alleen maar omdat ik me bewust ben van mijn interactie met ChatGPT. Het lijkt mij voor bijvoorbeeld docenten echt een onmogelijke opgave om dit soort dingen te filteren in de tijd die ze hebben (docenten hebben ook nog een leven naast het lesgeven).

Het is niet meer dan logisch dat er naast de AI ook een soort controletool wordt aangeboden. Erg netjes dat hier ook aandacht aan wordt besteed.
Had OpenAI hier niet meer aandacht aan moeten besteden voordat ze ChatGPT beschikbaar maakten?
Waarom? Om te beginnen is ChatGPT heel simpel één van de AI tools die op een menselijke manier communiceren dus de verantwoordelijkheid voor dat hele AI-veld ligt niet bij hen.
Daarnaast reguleren we ook mensen niet en die kramen op dit moment al meer onzin uit dan Chatbots....
Volgens ChatGPT is dit artikel door een AI geschreven...
leert snel... inmiddels afgezakt naar "The classifier considers the text to be unclear if it is AI-generate" }:O
Dit type post zijn ook veelal kwestie van overtypen ;) wat is het verschil tussen AI en een typerobot van vlees en bloed?
Heb vaker zulke tools gezien maar de meeste werken voor geen meter en zitten er vaak compleet naast.
Tja en je verandert een paar worden en maakt het netjes en het wordt niet herkend als ai. Leuk natuurlijk, maar iemand die dit echt gebruikt snapt ook wel dat ze nooit letterlijk de tekst ergens in een stuk moeten zetten.
''Schrijf een tekst die niet door AI herkent kan worden als een tekst die door een AI is geschreven''

Op dit item kan niet meer gereageerd worden.