OpenAI heeft tool om AI-teksten van watermerk te voorzien en op te sporen

OpenAI beschikt over een nog niet uitgerolde tool waarmee het AI-teksten een watermerk kan geven en kan opsporen. Deze zou zeer accuraat zijn bij kleine redactionele aanpassingen via AI, maar minder nauwkeurig als teksten in hun geheel door AI zijn bewerkt.

OpenAI schrijft in een blogpostupdate dat de tool minder 'robuust' is als teksten aangepast zijn door vertaalsystemen of door andere taalmodellen. De effectiviteit zou ook afnemen als gebruikers met behulp van AI op systematische wijze leestekens aan een tekst hebben toegevoegd en die vervolgens weer hebben verwijderd.

Het Amerikaanse bedrijf overweegt het gebruik van de tool, maar heeft hem nog niet uitgerold. Volgens The Wall Street Journal is de functie al een jaar klaar om uitgerold te worden. "Er moet enkel op een knop worden gedrukt", klinkt het bij een bron. Binnen OpenAI werd er naar verluidt twee jaar lang nagedacht over een mogelijke release. Tijdens dit beslissingsproces zou het bedrijf een enquête onder ChatGPT-gebruikers hebben gehouden om hun mening te peilen. Volgens The Wall Street Journal ziet ongeveer een derde van de ondervraagde gebruikers de tool liever niet verschijnen.

In de blogpostupdate vermeldt OpenAI de enquête niet. Het bedrijf zegt wel dat de watermerktool ertoe kan leiden dat AI gestigmatiseerd wordt als schrijfhulpmiddel. Dat kan volgens de organisatie dan weer 'een disproportionele impact' hebben op sommige groepen gebruikers. OpenAI verwijst specifiek naar mensen met een andere moedertaal dan het Engels. In de post is ook te lezen dat er nog andere manieren worden verkend om AI-teksten op te sporen. Het bedrijf zou bijvoorbeeld nagaan hoe het hiervoor metadata kan inzetten.

Door Jay Stout

Redacteur

05-08-2024 • 12:56

41

Reacties (41)

41
41
28
6
0
13
Wijzig sortering
Aangezien WSJ achter een paywal staat, hier een artikel van de Verge met iets meer informatie. https://www.theverge.com/...mark-cheat-detection-tool

O.a. linkt het ook weer naar meer informatie over de watermerk tooling die blijkbaar al wel in Google's gemini zit.

Persoonlijk betwijfel ik hoe effectief dit soort zaken zullen zijn. Het laag hangende fruit zal je er wel mee vangen. Maar dat is eerder symptoombestrijding, aangezien de slimmere misbruikers nu simpelweg de tekst nog zullen herschrijven of laten herschrijven.
Mee eens. Dit zijn lap middelen waarmee het onderliggend probleem niet wordt opgelost. We zullen denk ik structureel anders om moeten leren gaan met hoe we elkaar toetsen op het bezitten van kennis. Een soort van assessment misschien?

Vond dat zelf als student altijd veel fijner dan het schrijven van een reeks papieren waar je maanden op ploeterde en waar vervolgens 1x naar gekeken werd voordat het in de prullenbak verdween.
Haal de tekst gewoon door een 2e AI heen en klaar.
Tenzij daar ook een watermerk op zit en op beide wordt gecontroleerd. Maar idd, het zal op meerdere manieren relatief eenvoudig te omzeilen zijn.
Of gewoon de ai output gebruiken als schrijf input.

Ben je nog steeds sneller klaar.
Het is ook zeer wenslijk dat AI AI-teksten kan opsporen en niet weer gebruiken voor traineren. Wetenschapper hebben gevonden dat AI door zelf-consumptie een collaps kan krijgen vergelijkbaar met BSE ziekte (koeien eten rundvlees)
https://arxiv.org/pdf/2307.01850
Self-Consuming Generative Models Go MAD
Benieuwd hoe ze dat gaan doen met teksten. Een plaatje kun je makkelijk een watermerk in verstoppen zonder dat de gebruiker er iets van merkt. De enige manieren die ik kan bedenken waarmee je dat in geschreven tekst kunt doen is bewust (spel)fouten maken, dubbele spaties verstoppen en griekse uitroeptekens gebruiken in plaats van puntkommas, maar het die komen allemaal neer op lagere kwaliteit teksten.
Een LLM zoals ChatGPT werkt simpel gezegd als een tekstvoorspeller die voorspelt wat het volgende woord waarschijnlijk is. Bij de invoer "Ik ging op de fiets naar" zal een LLM (bijvoorbeeld) voorspellen dat statistisch gezien met 50% kans het volgende woord "huis" zal zijn, 30% kans "werk", 10% kans "sportschool", etc...

Een LLM bouwt een tekst op door steeds weer het volgende woord te voorspellen dat volgt op de al als output gegenereerde tekst. Als meerdere woorden ongeveer even waarschijnlijk zijn dan kan je willekeurig één ervan kiezen. Op die manier krijg je als je een LLM gebruikt iedere keer weer een andere output.

Wat OpenAI waarschijnlijk doet is niet volledig random het volgende woord kiezen, maar op een specifieke manier: stel dat je de LLM afwisselend steeds het meest waarschijnlijke woord laat kiezen, dan voor het volgende woord het op één na meest waarschijnlijke, dan voor het volgende woord weer het meest waarschijnlijke, enz... Als je dan achteraf bij een tekst vaststelt dat hij bestaat uit (volgens het LLM) afwisselend het meest waarschijnlijke woord gevolgd door het op één na meest waarschijnlijke woord is de kans dat dat een organisch geschreven tekst is vrijwel nihil.

[Reactie gewijzigd door Tom-Z op 5 augustus 2024 14:19]

Interessante redenering; want dat betekent dat ze alleen content gegenereerd door ChatGPT kunnen controleren en niet door Gemini of xAI.

Tegelijkertijd ben ik benieuwd hoeveel rekenkracht het controleren kost; ik zou haast zeggen nóg meer dan het origineel, doordat het dezelfde berekeningen in verschillende modellen moet ondergaan.

Uiteindelijk zal er een soort collectief komen dat de inhoud van verschillende modellen en leveranciers controleert.
Klopt, staat ook in het artikel:
OpenAI schrijft dat de tool minder 'robuust' is als teksten aangepast zijn door vertaalsystemen of door andere taalmodellen.
De toepassing hiervan wordt met name gezocht binnen het onderwijs als ik het goed heb begrepen. Waar ik dan ook verwacht dat het minimale impact zal hebben. Niet alleen vanwege de in het artikel genoemde reden.

Slimme studenten/scholieren zullen chatGPT inzetten om een tekst te laten generen met alle informatie die ze willen. Om dit vervolgens over te typen in eigen verwoording. Feitelijk niet heel anders dan toen ik op de middelbare school zat 20 jaar geleden en er websites met samenvattingen massaal opdoken. De echt luie scholieren werden gepakt doordat ze deze samenvattingen 1 op 1 overnamen. Maar veel klasgenoten pakten simpelweg meerdere samenvattingen en stelden daaruit een eigen variant samen.
Dat herschrijven zou wat mij betreft al een hele verbetering zijn. Daar leer je ten minste nog iets van. Ik kom nu regelmatig teksten tegen waarvan ik het vermoeden heb dat de student ze niet eens zelf gelezen heeft.
Merk zelf ook steeds meer op dat teksten steeds vaker door LLM's worden gegenereerd dan door mensen zelf. Ook als het om simpele sociale media posts gaat (FB, Instagram). Verder zie ik het veel terugkomen in e-mails, WhatsApp, Telegram, Discord en Teams. Waarom ik dat denk? Iedereen heeft opeens interpunctie onder de knie en maakt geen/zeer weinig d, t en dt fouten. Of iedereen heeft opeens een cursus Nederlands gevolgd :+
Studeren: is dat niet een werkwoord?
Voor docenten is het ook praktisch onmogelijk om het verschil te zien tussen teksten die helemaal zelf zijn geschreven of die zijn gemaakt doormiddel van AI. Nu ook al heb je de luie studenten die de opdracht in ChatGPT gooien en dat gelijk in het verslag zetten, dit valt soms nog wel te herkennen, anderen passen het iets aan, of schrijven een betere prompt om een antwoord te krijgen in een schrijfstijl die niet veel anders is dan die van hun zelf.

Ik denk ook dat het verbieden van AI nutteloos is, leerlingen gaan er toch gebruik van maken. Bij mij op het hbo hadden ze een regel dat je alle gebruikte prompts moest opnemen met de input en output zodat ze konden beoordelen of je het rechtvaardig gebruikte. Dit is alleen ook een regel die heel makkelijk te omzeilen is.
Misschien gaan studenten, door veelvuldig LLM te gebruiken, steeds vaker de stijl overnemen in effectief zelfgeschreven teksten, waardoor je geen verschil meer kàn merken }>
Dit is natuurlijk maar een ingebouwde vertraging zodat de samenleving tijd heeft om om te schakelen naar het idee dat de meesten teksten die we lezen AI gegenereerd zullen zijn. Nu zien we een stuk tekst vaak nog als een bewijs dat de schrijver kennis heeft over een bepaald onderwerp, terwijl we daar vanaf moeten gaan stappen. Daarnaast is de techniek hiervoor vooral handig voor OpenAI zelf, zodat ze hun eigen teksten kunnen herkennen en kunnen voorkomen dat ze hun model her-trainen op hun eigen content.

Een collectief van modellen en leveranciers gaat niet helpen als iedereen met een computer middels een opensource model nu al teksten kan genereren.

Het gaat straks gewoon andersom, alle tekst is AI, behalve als er bewezen kan worden dat het getypt is door een mens. Deze teksten zullen enorm veel waard worden, omdat alle model bouwers dit graag willen hebben voor trainingsdoeleinden.
Net zoals alle foto's op het Internet al tijden ge-Photoshopt zijn tenzij het tegen bewezen is.
Die snap ik en ik denk dat veel ai-herkenningstools ook ongeveer zo werken. Maar het artikel heeft het over watermerken (werkwoord) wat suggereert dat er iets toegevoegd wordt.
Wat je dus kan toevoegen (zoals ik probeerde uit te leggen, maar misschien kwam dat niet helemaal goed uit de verf) zijn bepaalde correlaties tussen woorden, door je keuze uit de mogelijke alternatieven voor een woord op een specifieke manier te maken (in plaats van door random uit de meest waarschijnlijke alternatieven te kiezen). Je zou (ik noem maar wat simplistisch) de voorkeur op woorden met een even lengte kunnen leggen. De kwaliteit van de tekst wordt dan niet per se slechter als je alleen kiest voor een woord van even lengte als die (volgens de LLM) ongeveer even waarschijnlijk is als een ander woord van oneven lengte, maar je krijgt dan wel een tekst die buitensporig vaak woorden van even lengte bevat.
In jouw voorbeeld zou de tool van OpenAI dus alleen eigen teksten kunnen herkennen, het heeft namelijk geen idee wat het meest voorspelde woord zou zijn als je Gemini of Mistral gebruikt.

Bovendien zou bij jou voorbeeld de kwaliteit expres verlaagd worden want je gebruikt soms het op één na meest waarschijnlijke woord.

Al met al denk ik niet dat het zo werkt, maar ik laat me graag overtuigen met wat bewijs.
Ik denk wel dat dit is hoe het werkt, sinds de tool in combinatie met de genoemde watermerk techniek werkt. De tool detecteert het watermerk, waarvan we nog niet weten hoe het werkt, niet of iets door een AI is geschreven. In de blogpost noemen ze dan ook dat als de gewatermerkte tekst vertaald of herschreven zou worden, het detecteren een stuk minder goed zou werken. Dat zou logisch zijn als het watermerk werkt zoals Tom-Z het beschrijft. Ik denk als het op een “dommere” manier werkt door bv zero-width characters in te voegen, ze iets als “converteren naar ascii” zouden noemen als mogelijke omzijltruc.
Wat ik me hier bij afvraag, is hoe vaak deze tool te maken heeft met false positives. Met name binnen een school omgeving. Dit omdat ik het idee heb dat veel van de teksten waarmee chatGPT is getraind essays e.d. zijn door de woordopbouw.

[Reactie gewijzigd door Creesch op 5 augustus 2024 14:47]

Daarnaast, het scrapen gaat door. Er zal dus ook invloed zijn op de verschillende taalmodellen van dit soort patronen.
Het volgende woord hangt ook af van de vraagstelling, en die krijg je er niet bij te zien.
Er zijn wel wat technische maatregelen die je kan nemen om teksten een onzichtbaar kopieerbaar watermerk te geven, zoals zero-width characters. Daarnaast kun je met wat meer moeite ook hele gave dingen doen met synoniemen, maar dat is een stuk lastiger te implementeren en detecteren.

Een watermerk hoeft dus niet direct een lagere kwaliteit tekst te geven, maar als eenmaal bekend is hoe het watermerk toegepast is en gedetecteerd wordt kun je waarschijnlijk ook een tool bouwen die het watermerk weer ongedaan maakt.
Ik ben benieuwd waar ze mee gaan komen. Als het echt iets 'simpels' als verborgen characters is snap ik weer niet waarom ze daar zo moeilijk over doen. Misschien is het wel een stukje arrogantie dat zij denken een one-stop-shop te zijn waarbij je geen extra tools nodig hebt, terwijl de meeste mensen (neem ik aan) de input van ChatGPT pakken en elders verder verwerken. Aan de andere kant, ik kopieer regelmatig vanuit ChatGPT direct naar Reddit, dus simpele AI herkenning kan daar prima tegen werken.
Scott Aaronson is degene die bij Open AI aan dit probleem werkt.

In de youtube video hieronder legt hij uitgebreid uit hoe het werkt. Het is geen makkelijke materie. En voor zover ik weet momenteel nog redelijk gemakkelijk te omzeilen. Scott is daar als computerwetenschapper ook open over, maar voor de marketingafdeling is het natuurlijk niet handig om dat te benadrukken.

https://m.youtube.com/watch?v=2Kx9jbSMZqA

[Reactie gewijzigd door m-smit op 5 augustus 2024 23:38]

Geweldig! Ga ik even de tijd voor nemen.
Voor OpenAI is het opsporen van teksten die door hun eigen systeem zijn gemaakt natuurlijk veel makkelijker; ze kunnen dan in hun tool de ingegeven tekst laten vergelijken met alle teksten die ze eerder zelf hebben gegenereerd. Waarom je daarvoor een watermerk over de tekst heen moet gooien snap ik niet helemaal, behalve wanneer je de herkenfunctie een soort van wilt beschermen tegen handmatige wijzigingen (al kan je dat ook doen door een iets lossere zoekfunctie te gebruiken in je database en een tekst ook als "komt uit ChatGPT" te labelen wanneer 98% van de woorden overeen komt).
Ik denk niet dat ruwweg vergelijken robuust genoeg zou zijn, omdat je nog steeds een maatstaf nodig hebt om te vergelijken hoe dichtbij bijv een aangepaste tekst of random bij een gegenereerde tekst ligt.

Als ze een specifiek watermerk in de vorm van patronen van waarschijnlijkheden van tokens hebben, kunnen ze een stuk kwantitatiever vergelijken hoe ver twee teksten van elkaar afzitten.
Ik denk dat de enige use case voor het herkennen van (eigen) gegenereerde teksten is, dat OpenAI hiermee nieuwsuitgevers, sociale media platformen en bijvoorbeeld email en instant messaging apps kan helpen met het herkennen van nepcontent om zo te voorkomen dat gebruikers er in trappen. Iemand die één tekst genereerd en daarna handmatig aanpast voor het rond te sturen aan bijvoorbeeld een stel journalisten is niet echt het probleem; dat is het pas als er bijvoorbeeld opeens honderden posts op sociale media komen over iets wat niet echt is gebeurd, omdat die berichten elkaar dan lijken te bevestigen waardoor het echter lijkt. Maar iemand die de moeite doet honderden verschillende berichten te genereren gaat deze zeer waarschijnlijk niet allemaal daarna nog handmatig aanpassen om de OpenAI-check te omzeilen.
Is in jouw voorbeeld niet eerder de nep content het probleem, in plaats van het feit dat het door AI is genegeerd? Volgens mij kom je daar al ver door te kijken welke bron de content publiceert
Allebei inderdaad, al is het denk ik als individu moeilijk om een bericht te negeren als je het letterlijk in net iets andere bewoording op elk medium voorbij ziet komen, dus bijvoorbeeld door (nep)accounts of Facebook en X geplaatst, door een nepaccount als reactie in een forum dat je bezoekt, op Tweakers, en wellicht ook nog een of twee nieuwswebsites die er óók in zijn gestonken omdat ze toevallig een nepaccount van belangrijk persoon X volgen.

AI zou hier andersom trouwens wel weer kunnen helpen door bij elk bericht dat je ziet, automatisch de (genoemde) bron te kunnen volgen en kijken waar zij dat weer vandaan hebben, zodat je op die manier een beter beeld hebt of je iets kunt vertrouwen of niet. Die toepassing heb ik alleen nog niet gezien, terwijl dat redelijk makkelijk als browserplugin te maken zou zijn zeker omdat Chrome straks een ingebouwd AI-model heeft en dit dus volledig op je eigen machine zou kunnen draaien. Kort gezegd zou het bij elke website die je opent, moeten zoeken naar bronnen en daarna op de achtergrond die bronnen moeten openen en daar óók weer speuren naar bronnen tot het bij de eerste vermelding uit komt. Daarna kan het een banner laten zien met de naam van de bron, en daarbij een knopje of je die wel of niet wilt vertrouwen. Aan de hand daarvan kan een volgende keer die banner dus in plaats van oranje, in het groen of rood getoond kunnen worden.

[Reactie gewijzigd door Skit3000 op 6 augustus 2024 11:29]

En als je AI vraagt om een versie van de tekst zonder watermerk? Zegt AI dan ‘alstu’ of zegt AI ‘hier heb je alsnog een tekst met watermerk’.
Als ze het watermerk consequent toepassen op alle output van de AI dan zal elk antwoord, ook het antwoord op een vraag om een tekst zonder watermerk, dat watermerk bevatten. Daarmee kom je dus weer terug bij de discussie van @HenkEisDS hierboven; wat voor soort watermerk pas je toe op tekst?

Als je watermerk bepaald wordt op basis van de woordvolgorde dan zal er altijd een kans zijn op false positives en kun je met een slimme prompt een minder waarschijnlijk antwoord krijgen dat niet aan die 'watermerk eisen' voldoet. Als je watermerk een technische maatregel is zoals een aantal zero-width spaces in je tekst dan kun je dat niet met een prompt ontwijken, maar kun je dit waarschijnlijk wel (handmatig of automatisch) verwijderen als je weet waar je naar zoekt.
Zeer wenselijk. Momenteel worden we overspoeld met door AI gegenereerde teksten die zoeken naar echt relevante data zeer bemoeilijkt. Bij het zoeken naar b.v. blogposts van patiënten, om zelfhulp methodieken systematisch in kaart te brengen, moet je eerst door tig pagina's AI tekst heen ploegen. Een 'vinkje' om die teksten over te kunnen slaan zou erg waardevol zijn.

De "sommige groepen gebruikers" zijn waarschijnlijk de clickbait schrijvers die goede klanten zijn van openAI

[Reactie gewijzigd door fenrirs op 5 augustus 2024 13:09]

Het watermerk snap ik niet helemaal, maar hieronder ter illustratie van hoe een ai text checker te werk kan gaan:

http://demo.gltr.io/client/index.html

Waarbij moet worden opgemerkt dat deze specifieke tool inmiddels verouderd is.
ik vind het wel wat raar dat ze hun eigen teksten willen watermerken, terwijl alle data die ze hebben gebruikt bij wijze van spreken gewoon gejat zijn. Op deze manier kan chatgpt, alle mogelijke opties die maar mogelijk zijn om 1 zin, of een combinatie van zinnen, te watermerken. Komen we dan in een werkelijkheid waarbij alles uiteindelijk geclaimed kan worden door openai? En dan kan je wel zeggen dat het puur is om te voorkomen dat ze op hun eigen content doortrainen; het is absurd dat ze bijvoorbeeld deze reactie van mij uberhaupt kunnen jatten om hun algoritme te trainen.
Voor zover ik weet slagen ze alle gesprekken op en mogen ze die volgens hun voorwaarden gewoon gebruiken hoe ze willen. Zo'n opsporingstool kan uiteindelijk ook gewoon een database lookup zijn.
Wat mij logisch lijkt is dat ze dit in de pixels van het karakter een detecteerbare wijziging/kenmerk aanbrengen. Echter matcht dat niet helemaal met ze aangeven wanneer het niet betrouwbaar is. Hoe anders? Als ik dezelfde tekst typ als wat een AI als resultaat geeft; dan moet het op één of andere manier toch onderscheiden kunnen worden...

Op dit item kan niet meer gereageerd worden.