Google brengt tool uit om watermerk op AI-gegenereerde tekst te plaatsen

Google heeft een tool opensource beschikbaar gemaakt waarmee ontwikkelaars een watermerk kunnen plaatsen op tekst die met AI gegenereerd is. Ook helpt het zogenaamde SynthID Text om te identificeren of teksten gemaakt zijn met generatieve AI.

Een large language model genereert teksten steeds per token, legt Google DeepMind uit op zijn website. Zo'n token kan een enkel karakter representeren, maar ook een heel woord of een deel van een zin. Om te bepalen welk token gebruikt moet worden, krijgt iedere mogelijke optie een waarschijnlijkheidsscore om te bepalen hoe groot de kans is dat dit de juiste is. Hoe hoger de score, hoe groter de kans dat het token gebruikt wordt.

SynthID kijkt echter niet naar welk token gebruikt wordt, maar bepaalt hoe waarschijnlijk het is dat het taalmodel deze tokens genereert. Op basis daarvan past de tool de uiteindelijke score iets aan. Die nieuwe score vormt samen met de uiteindelijke woordkeuze van het taalmodel een watermerk. Daarnaast kan SynthID identificeren of een tekst door AI gegenereerd is of niet. Daarvoor vergelijkt de tool het scorepatroon van een tekst met het verwachte scorepatroon van teksten met en zonder watermerk.

Volgens Google heeft dit alles geen impact op de kwaliteit, accuraatheid of snelheid van het genereren van tekst. Ook zou de tool werken op teksten die zijn aangepast, ingekort of geparafraseerd. Wel heeft SynthID wat beperkingen. Zo kan het minder goed omgaan met korte teksten, herschreven teksten en vertaalde teksten. Ook heeft het moeite met reacties op feitelijke vragen.

Google introduceerde de tool al in 2023, maar voegde de opties voor teksten deze lente pas toe. De opties werden toen ook geïntegreerd in Gemini, het taalmodel van Google zelf. Nu zegt het bedrijf op X dat de tool breder beschikbaar wordt gemaakt, door deze opensource te delen. Ontwikkelaars en bedrijven kunnen de tool daardoor nu gratis gebruiken.

Google is niet het enige bedrijf dat een dergelijke tool heeft. OpenAI beschikt ook over een tool dat AI-teksten een watermerk kan geven en dergelijke teksten kan identificeren. Deze tool is echter nog niet uitgerold.

Door Eveline Meijer

Nieuwsredacteur

24-10-2024 • 14:20

20

Submitter: Muncher

Reacties (20)

20
20
11
2
0
5
Wijzig sortering
Deze tool werkt niet alleen voor teksten, maar ook met afbeeldingen, geluid en video.
SynthID can scan images, audio, text or video for digital watermarks, helping users determine if content, or part of it, was generated by Google’s AI tools.
Bron
Wat mij het meest opvalt is de "by Google's AI tools". Hoe goed kan het content dat volledig of deels gegenereerd is door andere AI herkennen. Het zou mooi zijn als je niet voor elke AI een aparte tool moet draaien wanneer je wilt weten of iets mogelijk door AI is gemaakt.
Ik vermoed dat de AI-makers niet graag helemaal eerlijk zijn over deze detectie- en watermerk-discussie. Ze willen het net wat mooier laten lijken dan het is, alsof we AI-content straks altijd zullen kunnen herkennen. Dat voelt veilig en verantwoordelijk, wat goed is voor het imago.

De werkelijkheid is dat deze watermerken alleen worden toegevoegd door de grootste AI-tools terwijl kwaadwillenden eenvoudig een tool kunnen inzetten die geen watermerk plaatst. En deze tekst-watermerken kunnen prima worden weggepoetst met genoeg wijziging van de tekst.

Het herkennen van AI-gemaakte content zonder watermerk gaat niet snel volledig dekkend zijn. Of het nu gaat om afbeeldingen of tekst, als er geen watermerk is dan is het niet altijd te herkennen dat het AI-content is. Want die generatieve tools worden gemaakt met het doel om het echte werk zo goed mogelijk na te bootsen. Ook met het blote oog of met veel verstand van taal is het herkennen niet altijd mogelijk, noch voor een mens noch voor een machine. Gezien hoeveel LLM's er zijn en hoeveel er continu bij komen, is het herkennen niet consistent voor elkaar te krijgen. En een watermerk zal er lang niet altijd zijn, vooral niet bij de meest leugenachtige use cases.

We zien al talloze valse positieven en negatieven, onder andere op scholen, waarbij echt werk wordt aangewezen als AI en vice versa. Ik zie dat niet snel verdwijnen. De generators worden alleen maar beter, met nog echtere content. Facebook probeert al labels te plaatsen bij AI-content, maar schiet ook vaak mis. Er zijn meer AI-beelden zonder dat label dan met.

De AI-bedrijven zullen het niet graag hardop zeggen, maar volgens mij gaan we nooit consistentie krijgen in het labelen of het herkennen van AI-content ten opzichte van door mensen gemaakte content.

[Reactie gewijzigd door geert1 op 24 oktober 2024 15:56]

En deze tekst-watermerken kunnen prima worden weggepoetst met genoeg wijziging van de tekst.
Dat ben ik niet met je eens. Stel dat ze in elke zin van minimaal 10 woorden een watermerk kunnen verwerken. Dan zou je dus elke zin in een lang document aan moeten passen.

Verder is herkennen van AI-gemaakte content met een watermerk natuurlijk inderdaad totaal niet waterdicht.
Dat soort bewerkingen zou inderdaad niet snel genoeg zijn om het watermerk te verwijderen, maar bijvoorbeeld het vertalen of samenvatten van de tekst wel.

In korte stukken tekst zal een AI-tekst met watermerk niet altijd te onderscheiden zijn van een AI-tekst zonder, of een door mensen geschreven tekst. Want het watermerk is verwerkt in de woordkeuze (tokenkeuze) en dat kan per toeval overeenkomen met wat jij of ik geschreven had. Ik vermoed dat het een kansspel wordt, maar hoe langer de tekst hoe hoger de zekerheid van herkenning.
Als je er van uit gaat dat voor elk woord (of volgorde van zinsopbouw) 5 synoniemen/alternatieven bestaan, heb je in een zin met 12 woorden al 5^12=244.140.625 mogelijkheden. Bij een samenvatting is het minder (want dan gebruik je dezelfde woorden als het origineel waar mogelijk) en als je in je prompt vraagt om de tekst op een bepaalde manier te structureren blijft er ook weinig bewegingsruimte over, maar anders denk ik dat er aardig wat opties zijn om een watermerk mee samen te stellen.
je hebt helemaal gelijk, en zelfs als ze er watermerken insteken... een sweatshop met mensen die de tekst gewoon plain overtypen en hopla daar gaat je watermerk. laat het maar aan mensen over om loopholes te vinden in wat voor beveiliging ze er ook in stoppen.
Het watermerk zit in de inhoudelijke tekst zelf verborgen, en niet als een soort onzichtbaar karakter. Simpelweg de tekst overtypen heeft dus geen invloed.
Het doel (van de huidige generatie LLMs) is om zo goed mogelijk een mens na te doen. Bij een LLM die hier perfect aan voldoet zou je dus op geen enkele manier onderscheid moeten kunnen maken.

Echter, LLMs zijn niet perfect, dus er is wel degelijk verschil tussen gegenereerde output en door een mens geschreven tekst. Alleen, als je een algoritme maakt waarmee je dat verschil probeert te ontdekken, maak je in feite een algoritme waarmee een LLM zich beter als mens voor kan doen.

Lang antwoord kort; in theorie kan er dus nooit een tool gemaakt worden die (langdurig) kan ontdekken of een tekst door een mens of LLM is geschreven, zolang de LLM er geen watermerk in heeft verstopt.

[Reactie gewijzigd door Skit3000 op 24 oktober 2024 14:48]

Het doel (van de huidige generatie LLMs) is om zo goed mogelijk een mens na te doen.
Dat is het secundaire doel.
De primaire doelen zijn:
- Geen rechtszaken tegen het bedrijf veroorzaken.
- Geen reputatieschade voor het bedrijf veroorzaken.
- Zo min mogelijk mensen tegen de haren instrijken, want dat kost uiteindelijk geld.

En dat merk je aan de resultaten. De multiraciale Nazi plaatjes van Google's Gemini zijn daarvan het tegelijkertijd hilarische en tragische bewijs.
En zo kan je dit weer gebruiken om AI te trainen minder op AI te laten lijken. :)
Nog mooier, kun je mensen aanklagen voor plagiaat van software gegenereerde content .
Als er een AI is die een watermerk plaats, duikt er binnen 3 milliseconden ook een andere AI tools op die deze weer weg kan halen.
Zo vraag ik me af of het mogelijk is om een a.i. tooltje te maken die reclames filtert (Youtube ads etc).
Download gewoon Brave Browser, daar heb je geen AI voor nodig
Anoniem: 454358 24 oktober 2024 14:52
ze zullen wel meoten, want tig affiliates blog websites worden gevuld met compleet waardeloze teksten, maar scoren wel hoog in google. Maar zou het geen vergeefse moeite zijn? Ai wordt beter, laat het een keer door een andere ai bot herschrijven, en hop klaar.
Opmerkelijk Google steelt de wereld leeg (universiteits biobliotheken bijvoorbeeld,..)
ZOnder er voor te betalen, en misbruikt onwetende burgers als Guinea-pig, zonder ze daar een (eerlijke) vergoeding voor te geven.

Dus de Dief in kwestie weet als geen ander wat zijn gestolen waren waard zijn, en beschermd zichzelf tegen zijn eigen praktijken.
DAT is wat je noemt meten met 2 maten
Hoe robust is dit als een gebruiker een gedeelte van de tekst aanpast?
Zo kan het minder goed omgaan met korte teksten, herschreven teksten en vertaalde teksten. Ook heeft het moeite met reacties op feitelijke vragen.
Dit lijkt mij onwijs onhaalbaar. Tuurlijk is er een behoefte en dus markt voor.

Maar de ontwikkelingen van de MLLM technieken.. wat doet dat met de betrouwbaarheid van de kansberekeningen als een van de pijlers van de herkenning technieken.

Ik moet echt nog overtuigd worden dat dit fundamenteel überhaupt haalbare kaart is

Op dit item kan niet meer gereageerd worden.