Belgische AI-start-up ontwikkelt taalmodel dat haatspraak kan detecteren

De Belgische AI-start-up Textgain gaat een AI-model ontwikkelen dat haatspraak in 24 officiële Europese talen kan detecteren. Het bedrijf heeft hiervoor een budget van 250.000 euro van de Europese Commissie gekregen. Het AI-model moet in 2025 klaar zijn.

Textgain zal het taalmodel, dat de naam CaLICO meekrijgt, volledig ontwikkelen. Het bedrijf heeft hiervoor twee miljoen uur ontwikkeltijd gekregen op de Europese supercomputer Lumi, gevestigd in Finland. Ceo Guy De Pauw zegt in De Standaard dat Textgain een beroep doet op annotatoren; dat zijn medewerkers in verschillende landen die helpen om culturele achtergronden van toxisch taalgebruik in kaart te brengen. Het taalmodel zou volgens de ceo in staat moeten zijn om bij het identificeren van haatspraak ook rekening te houden met de culturele context.

Textgain, een spin-off van de Universiteit van Antwerpen, verwierf de Europese subsidie na het winnen van de Large AI Grand Challenge van de Europese Commissie, samen met drie andere bedrijven. In 2023 bracht Textgain een AI-tool op de markt die bedrijfsdocumenten kan verwerken zonder dat er gevoelige informatie met derde partijen wordt gedeeld. Textgain beschikt ook over de AI-tool Rhetoric. Deze tool kan haatspraak bij nieuwsberichten van Vlaamse mediabedrijven detecteren.

Door Jay Stout

Redacteur

09-07-2024 • 12:55

189

Submitter: wildhagen

Reacties (189)

189
171
80
2
0
48
Wijzig sortering
250.000 euro is echt veels te weinig geld. Daar heb je 1.2 ervaren developer voor, voor 1 jaar. En dan nog niet eens een super crack.
Het is meer een subsidie die alle vier de partijen hebben gewonnen na het deelnemen aan de Large AI Grand Challenge dan een opdracht tot bouwen waarbij de aanbesteder alles betaald. De vier winnende AI-startups ontvangen elk €250.000 en 2 miljoen rekenuren op supercomputers waarvan er dus één in dit bericht is uitgelicht. Hoewel €250.000 misschien niet genoeg is om veel ervaren ontwikkelaars aan te nemen, biedt het toegang tot waardevolle rekenkracht, wat een voordeel is bij AI-ontwikkeling. De combinatie van financiering, rekenkracht en toegang tot de supercomputer(s) maakt deze subsidie aanzienlijk waardevoller dan alleen het geldbedrag.

Zoals ik het begrijp, moeten de startups zelf ook aanvullende investeringen doen en/of andere financieringsbronnen aantrekken om hun projecten volledig te kunnen realiseren en opschalen.

De overige winnaars:
Lingua Custodia (Frankrijk): Dit bedrijf specialiseert zich in AI en Natural Language Processing (NLP) voor de financiële sector. Ze ontwikkelen oplossingen om de efficiëntie van financiële operaties te verbeteren, met snelheden die vijf keer hoger liggen dan de huidige systemen.

Unbabel (Portugal): Een technologiebedrijf dat AI combineert met menselijke vertaling om meertalige ondersteuning te bieden. Ze ondersteunen alle 24 officiële talen van de EU, wat bijdraagt aan de toegankelijkheid en inclusiviteit in communicatie.

Tilde (Letland): Experts in taaltechnologieën die zich richten op machinevertaling en AI-aangedreven chatbots. Ze richten zich vooral op de Balto-Slavische talen, die door 155 miljoen mensen in de EU en kandidaat-lidstaten worden gesproken.
Door het winnen van deze competitie kunnen de startups hun AI-modellen sneller ontwikkelen door het geld, maar volgens mij veel belangrijker is de toegang tot supercomputers, wat de trainingstijd van jaren tot weken kan terugbrengen.
Following this period, the winners are expected to release their developed models under an open-source license for non-commercial use or publish their research findings.
Zoals ik het lees worden na een jaar de ontwikkelde modellen vrijgegeven onder een open-source licentie voor niet-commercieel gebruik, of de onderzoeksresultaten worden gepubliceerd.

Bron: https://eurohpc-ju.europa...d-challenge-2024-06-26_en

[Reactie gewijzigd door jdh009 op 22 juli 2024 17:52]

Anoniem: 80910 @jdh0099 juli 2024 14:02
Daarnaast een mooi praatje bij enkele investeerders, je hebt immers die rekenkracht. Je kan er ver mee komen, bijvoorbeeld een reisje naar usa voor investeerders bezoeken.
Idd, hiermee is een deel van het risico al afgedekt omdat je de rekenkracht al vast hebt liggen en een kleine investering voor het (eerste) jaar (+/- een beetje). Waardoor nieuwe investeringen nu ook gemakkelijker en minder risicovol worden.

[Reactie gewijzigd door jdh009 op 22 juli 2024 17:52]

Wat moet ik doen met rekenuren voor een supercomputer? Krijg ik een pasje en kan ik daarmee hun laboratorium binnenlopen en achter de computer zitten gamen? Krijg ik gratis koffie van de automaat erbij?
Het is teveel geld omdat het nooit gaat werken. Haatspraak bestaat niet als een concept, de definitie dat je vindt is veel te vaag, tegenstrijdig met zichzelf, tegenstrijdig met de vrijheid van meningsuiting en afhankelijk van de politiek-religieuze overtuiging van een persoon.

Er zijn mensen die vandaag (zelfs hier op Tweakers) vinden dat je vb niet racistisch kan zijn tegen witte mensen, dat Hamas niets verkeerd gedaan heeft, dat Joden moeten uitgeroeid worden, dat socialisme/communisme een historisch goed is, iedereen die niet akkoord gaat krijgt -1 en moet gecensureerd worden en dat zijn het soort mensen die het idee van haatspraak niet alleen aanhangen maar ook definiëren.

[Reactie gewijzigd door Guru Evi op 22 juli 2024 17:52]

Kan jij haatspraak herkennen? Waarschijnlijk een groot deel van de tijd wel, dus een neuraal netwerk kan dat ook wel leren (benaderen). En dat kan goed genoeg zijn, al is het maar om die berichtjes waar het net niet zeker genoeg over is aan moderatoren te overhandigen (dat is hoe AI moet werken, de herhaal factor eruit halen , en dus ondersteunen van mensen die een eindvalidatie kunnen doen).
Nee, ik erken het concept van objectieve haatspraak niet omdat dit tegenstrijdig is met een open samenleving.

Definieer haatspraak eerst objectief in een zin dat ik (of anderen) vervolgens niet kan misbruiken om anderen het zwijgen op te leggen.

Alle definities die ik kan vinden zijn subjectief en komen er op neer dat je iemand aangevallen laat voelen. Als het aanvallen van je subjectieve, onzichtbare positie (godsdienst etc) of “je gevoelens” niet mag dan is er niets heilig, want ik kan alles als godsdienst of gevoelens aanzien. En als je bepaalde dingen niet aan de kaak mag stellen omdat iemand zich hierdoor niet goed voelt, dan moet je veel toelaten.

[Reactie gewijzigd door Guru Evi op 22 juli 2024 17:52]

Een open samenleving is nog steeds geen grenzeloze (respectloze) samenleving. Een samenleving functioneert niet zonder normen en waarden, zoals vrijheid van meningsuiting. Maar hele groepen op een hoop gooien, op basis van ras/geloof etc. en ze alleen daarom de hel in vloeken, of aanzetten tot geweld tegen mensen die anders denken dan jij is wat mij betreft wel degelijk haatspraak. Dus haatspraak in het algemeen heeft ben ik met je eens een hoop grijze gebieden maar er zijn wel degelijk objectieve gevallen die in aanmerking komen (ook op basis van jurispidentie). Dus zolang een AI kan zeggen deze haatspraak is eruit gehaald vanwege dit geval vind ik het een nuttige tool.
Dus als je alle Nazis op een hoop gooit en slecht noemt, dat mag volgens jouw niet.

Wat jij zegt had al een definitie met name racisme en aanzetten tot geweld. Daar heb je geen nieuwe definitie voor nodig en haatspraak voor de meeste definities omvatten meer dan dat incl. het aanvallen van religieuze en politieke posities. Zoals we onlangs gezien hebben, mensen die bidden in het openbaar, mensen die zeggen dat de Profeet Mohammed een pedofiel was (wat daadwerkelijk een feit is) is volgens de EU schuldig aan haatspraak. Moslims echter vervloeken Joden en Christenen in de Koran, en vrome Moslims weten en geloven dat ook (zie maar de Hamas protesten in grote steden), dat mag wel, dus er wordt met twee maten gewogen.

[Reactie gewijzigd door Guru Evi op 22 juli 2024 17:52]

ja, maar dat herkennen is subjectief. zaken waarvan ik niet vind dat ze haar spraak zijn, zou jij wel eens haatspraak kunnen vinden.
Haatzaaien of haatspraak is taalgebruik dat een persoon of groep aanvalt op grond van godsdienst, seksuele oriëntatie of ras.
Bron

Dat lijkt me toch wel een vrij objectieve definitie. Haatspraak is dus het gebruik van taal om een ("lid" van een) groep op basis van één of meerdere van de genoemde kenmerken op zo een manier negatief te omschrijven. Wat jij van een uitspraak vindt, maakt daar niet voor uit.

[Reactie gewijzigd door Skit3000 op 22 juli 2024 17:52]

Het is nog steeds een hele subjectieve definitie.
Sommige personen voelen zich aangevallen als je de verkeerde pronoun gebruikt, is dat dan haatspraak?
Is positieve discriminatie haatspraak? Zijn feitelijke opvattingen over groepen mensen haatspraak?
Als je de ene groep (als gedefinieerd bij godsdienst, seksuele oriëntatie of ras) neer zet als minder dan de andere groep, dan is het volgens die definitie haatspraak.
Sommige personen voelen zich aangevallen als je de verkeerde pronoun gebruikt, is dat dan haatspraak?
Niet volgens deze definitie.
Is positieve discriminatie haatspraak?
Niet volgens deze definitie.
Zijn feitelijke opvattingen over groepen mensen haatspraak?
Noem eens één feitelijke opvatting over een groep mensen gebaseerd op godsdienst, seksuele oriëntatie of ras dat van toepassing is op alle mensen in die groep. Je kunt hooguit benoemen dat alle christenen christenen zijn of alle moslims moslims, maar verder kan je niks aan de belijders van welke godsdienst dan ook verbinden.

Edit 2: Dat iets volgens deze definitie geen haatspraak is, houdt natuurlijk niet in dat mensen zich niet aangevallen of bedreigd kunnen voelen.

Admin-edit:Opmerkingen over moderaties horen thuis in Frontpagemoderatie.

[Reactie gewijzigd door Bor op 22 juli 2024 17:52]

Noem eens één feitelijke opvatting over een groep mensen gebaseerd op godsdienst, seksuele oriëntatie of ras dat van toepassing is op alle mensen in die groep. Je kunt hooguit benoemen dat alle christenen christenen zijn
Dit is wel enigszins flauw, omdat het punt waartegen je ageert - dat "haatspraak" (🤮) subjectief is - alleen weerlegd kan worden door een voorbeeld te geven, en dan kom je in het schemergebied, de spaghetti van lange tenen die de afgelopen 20 jaar is ontstaan.

Maar goed, je zou heel veilig kunnen zeggen, om je punt te weerleggen en het probleem te illustreren: De overéénkomst tussen een godsdienst en massahysterie is dat het allebei wetenschappelijk gezien feitenvrij en voor buitenstaanders ongeloofwaardig is. Dat is van toepassing op alle mensen in de groep.

Toch gaat een model straks bepalen of deze propositie mag blijven staan, waardoor bepaalde onderwerpen niet meer openbaar te bespreken zijn. En dan ontstaat er voor bepaalde groepen een soort scrutiny-filter.

Je hebt nu al Youtubers die steeds allerlei woorden in hun zinnen vervangen om de onverbiddelijke Youtube-AI maar niet te triggeren. Dit is het decennium van de zelfcensuur in de eeuw van de lange tenen.

[Reactie gewijzigd door Sando op 22 juli 2024 17:52]

Toch gaat een model straks bepalen of deze propositie mag blijven staan, waardoor bepaalde onderwerpen niet meer openbaar te bespreken zijn.
Volgend jaar als het model op wordt geleverd, weten we het antwoord.
Je staat op 2x 0. Er heeft nog vrijwel niemand een mening gegeven. Wellicht zelfs maar één persoon.
Wel grappig dat je daar dan over klaagt, want dat is precies waar mensen bang voor zijn. Dat een kleine minderheid gaat bepalen wat haatspraak is en dat tegen je gaat gebruiken, terwijl je niks verkeerd doet.
(P.S. je staat nu op +1 omdat ik een moderatie heb toegevoegd)
Het gaat me ook niet om de uiteindelijke score op dit specifieke bericht, maar meer dat mensen het schijnbaar niet met mij eens zijn en "daar wel even iets aan doen" in plaats van gewoon te reageren. Inhoudelijk geef ik helemaal geen mening over of ik de definitie van haatspraak wel of niet goed vindt, maar juist een uitleg wat het is juist zodat mensen daar iets van kunnen gaan vinden. Die verdieping zat niet in het artikel of andere reacties.

Volgens de definitie gaat het overigens niet over wie klaagt, maar over wie iets zegt. Je kunt dus best zeggen dat alle linkse/rechtse (kies maar wat je wilt) politici corrupt zijn zonder dat dit haatspraak is omdat dit niet aan die definitie voldoet, terwijl hetzelfde zeggen over mensen met een bepaalde seksuele voorkeur dat wel is. Het is niet "een kleine minderheid" die dit bepaald.

Ik ben het wel met je eens dat "een kleine minderheid" best kan zorgen dat "de grote meerderheid" opeens dingen als ongewenst gaat zien en dat niet iedereen het daar mee eens is. Dat is prima, maar dan is dat (volgens de definitie) geen haatspraak maar misschien eerder iets als belediging of bedreiging (wat ook strafbaar kan zijn, maar dat bepaalt een rechter en niet de anonieme Tweaker of Twitteraar).
maar meer dat mensen het schijnbaar niet met mij eens zijn en "daar wel even iets aan doen" in plaats van gewoon te reageren.
En dat is precies wat ze met deze AI gaan doen. Niet reageren, maar gewoon "daar wel even iets aan doen" door te censureren.
Je denkt toch niet dat de AI gebruikt gaat worden om die "haatspraak" op te sporen en dan een genuanceerde reactie te schrijven?

Inderdaad moet een rechter uitspraak doen en niet een anonieme tweaker of anonieme AI.
Wat ze er mee gaan doen staat niet in het bericht, er staat alleen dat het haatspraak kan detecteren. Wie weet sturen ze alle gedetecteerde berichten wel door naar een rechter. Lijkt me niet, maar dat is op net zo veel gebaseerd als jouw conclusie.
Je zou natuurlijk je gezond verstand en ervaringen uit het verleden kunnen gebruiken om een inschatting te doen? Daar is mijn inschatting op gebaseerd.
Vandaar mijn vraag aan jou wat jij denkt dat ze er mee gaan doen.

Voel je je er happy bij om zo'n tool aan dezelfde EC te geven die end-to-end encryptie onmogelijk wil maken?
Volgens mij zijn "de grote platformen" al verplicht om moderaties door mensen uit te laten voeren (of in ieder geval wanneer je aankaart dat een moderatie wat jou betreft onjuist is). Ik maak nergens uit op dat de EC zelf deze tool gaat gebruiken of verplichten, maar kan me voorstellen dat ze op een gegeven moment platforms die deze tool gebruiken om te modereren toestaan om dit met minder menselijke interventie te doen.

Zolang de trainingsdata openbaar beschikbaar komt, kan iedereen die dat wil controleren of 1) de als haatspraak gemarkeerde teksten dat ook daadwerkelijk zijn en 2) hoe vaak het uiteindelijk getrainde model er met haar beoordeling naast zit. Op basis daarvan kan je dan naar de EC of rechter stappen om aan te kaarten dat er onterechte moderaties plaats zouden kunnen vinden. Zelfs als de tool het in 99% van de gevallen juist heeft, dan nog worden er dagelijks zó veel berichten verzonden/geplaatst dat die ene procent alsnog enorme aantallen kunnen zijn.
De rechtbank staat vol met mensen die een inschatting gemaakt hebben. Het recht is een beetje anders dan een inschatting.
Alle moslims geloven in een pedofiel. Alle Christenen/Joden geloven in een kwade god die mensen uitroeien goedkeurt.

Dat is een objectief aanvallen van alle Moslims en Christenen en Joden. Dat mag niet?
Ja bijzonder verhaal.... onze taal (welke variant dan ook) staat bomvol met dubbelzinnigheden en daarbij ook nog eens stijlvormen en spreekwoorden die je kunt verdraaien. En humor is ook een heel moeilijk iets - wat voor de 1 grappig is, is voor de ander kwetsend maar was het de bedoeling om te kwetsen of om een grap te maken?
Antwerpenaren zijn snel op hun tenen getrapt dus Belgenmoppen zijn binnenkort ook haatspraak. :+
Ik verwacht dat deze haatspraak-detector niet getraind gaat worden om alle onbewuste microagressies op te vangen maar vooral om de obvious cases er uit te filteren.

Het probleem wat je wel krijgt is dat je door dit soort detecties steeds subtielere 'hondenfluitjes' gaat krijgen, waardoor uiteindelijk de meest onschuldige uitspraken als haatzaaiend opgevat kunnen worden.
seksuele orientatie en ras daar wordt je mee geboren, iemand daarop aanvallen is inderdaad niet ok

godsdienst daarentegen is een ideologische KEUZE,
daar moet je mensen op kunnen aanspreken/aanvallen

sommige godsdiensten (of bepaalde interpretaties daarvan) zijn ideologisch gezien namelijk even supremacistisch en totalitair als nazisme
Je kunt toch ook benoemen wat goed of slecht is aan een godsdienst zonder dat te projecteren op de mensen die deze aanhangen? Dat er in de bijbel staat dat iemand vermoorden in sommige gevallen oké is, houdt niet in dat iedereen die in de bijbel gelooft een moordenaar is of moorden goed keurt.
als je het over bv. hamas of de houthis hebt,
mag je vindt ik toch echt wel de persoon aanvallen op de ideologie die hij/zij kiest

doen we met nazis ook, en islamisme (niet islam in algemeen) is ideologisch even verwerpelijk
Nee, dat kun je niet, een godsdienst zonder aanhangers is dood. Als de bijbel moord goedkeurt en jij gelooft in het feilloosheid van de bijbel (de meeste evangelisten zoals Jehovah’s Getuigen) dan moet je moord goedkeuren, anders ben je een leugenaar. Dus je bent een leugenaar of je keurt moord goed. In het geval van een sekte zoals Getuigen van Jehovah, die liegen naar de buitenwereld en houden een volledig ander stelsel naar binnen. Mormonen ook, bepaalde groepen Islamieten ook. Dat vind ik inherent verkeerd en iedereen die er in gelooft is slecht omdat ze anderen en vooral kinderen overtuigen om hier ook in te geloven.

[Reactie gewijzigd door Guru Evi op 22 juli 2024 17:52]

godsdienst daarentegen is een ideologische KEUZE,
Is dat zo?

Ik weet zeker dat een baby -niet- de KEUZE heeft waar hij of zij geboren wordt en welke indoctrinatie/hersenspoeling hij of zij dientengevolge ondergaat in de cruciale fasen van de ontwikkeling (of het gebrek daaraan). En mocht er op latere leeftijd enig kritisch denkvermogen ontstaan dan is het nog maar de vraag of het wel is toegestaan om je kritisch te uiten en wat de gevolgen zijn indien dat toch gedaan wordt.

Het lijkt zo makkelijk en logisch om de grens te leggen bij iets waar "je niets aan kunt doen" maar het aantal verschijnselen waar iemand naar verluid "niets aan kan doen" neemt in een verontrustend rap tempo in omvang toe.
sommige godsdiensten (of bepaalde interpretaties daarvan) zijn ideologisch gezien namelijk even supremacistisch en totalitair als nazisme
Mocht voorgaande niet genoeg hinten naar de conclusie:

Een van de belangrijkste symptomen van het -bestaan- van een totalitair regime is het invoeren van een taalpolitie. We zitten er zelf al lang in. Het dringt alleen nog niet erg door bij de massa ...
Wat daar uit volgt soms, is dat mensen met een bepaalde seksuele voorkeur of origine, nu ook vaak die discriminatiekaart trekken als ze bekritiseerd worden voor hun gedrag of mening ook als deze los staat van hun oriëntatie of ras. Plus, mensen hebben nu schrik om kritisch te zijn tegen diezelfde mensen, zeker op een werkvloer, net omdat ze weten dat de andere die kaart kan trekken / klacht kan neerleggen bij HR.
seksuele orientatie en ras daar wordt je mee geboren, iemand daarop aanvallen is inderdaad niet ok
Als dat per definitie niet okay is, hoe kan je dan oprecht kritiek leveren op Performative Bisexuality (David Bowie) of Queerbaiting (Eurovision)? Je weet immers pas zeker dat ze niet oprecht zijn als ze het zelf uiteindelijk zeggen.
als ik de definities van die 2 mij tot noch toe onbekende termen opzoek vind ik:
* performative bisexuality = "Essentially, it refers to how a person publicly represents their bisexual identity or behavior in ways that conform to societal or cultural expectations, rather than reflecting their true feelings or self. "
... dat is dus per definitie niet oprecht
* queerbaiting = "a marketing technique for fiction and entertainment in which creators hint at, but do not depict, same-sex romance or other LGBTQ+ representation."
... gaat dus over fictieve karakters en settings, ook weer per definitie 'fake'
performative bisexuality (...) is dus per definitie niet oprecht
Maar dat weet je toch niet? Toen Bowie zogenaamd uit de kast kwam waren er mensen die het niet okay vonden dat hij zo media-aandacht trok, maar er was ook veel kritiek op deze kritiek. Je weet op dat moment niet *zeker* dat het niet oprecht is. Je kunt het alleen vermoeden. 11 jaar later noemde Bowie zijn fake uit de kast komen "the biggest mistake I ever made", en hadden de criticasters achteraf terecht kritiek.

Tegenwoordig is het not done om als hetero een homo te spelen (inauthentic representation), of als blank persoon de rol van een gekleurd persoon (cultural appropriation). In het eerste geval is het een stuk moeilijker om kritiek te hebben, want in het laatste geval verraad je pigment je genen. Om deze kritiek te kunnen hebben moet je het risico lopen om iemand te kwetsen, en zeker niet bij voorbaat de kritiek niet okay vinden als dit geautomatiseerd door een taalmodel gaat gebeuren. Dat was mijn punt.
queerbaiting (...) gaat dus over fictieve karakters en settings, ook weer per definitie 'fake'
Nee, kijk alleen maar naar Eurovision, daar worden vaker artiesten beschuldigd van queerbaiting. Tegenwoordig vind iedereen het wel okay omdat de enige die zich er echt aan ergert Rusland is. Maar het zijn dus niet fictieve karakters, het zijn echte personen die iets al dan niet authentiek representeren. En als ze een Bowietje doen dan moet je ze daar op aan kunnen spreken, als je in het authentieke representatiekamp zit.

[Reactie gewijzigd door Sando op 22 juli 2024 17:52]

"performative bisexuality (...) is dus per definitie niet oprecht
Maar dat weet je toch niet?"

volgens de definitie van die term die ik vond en die ik quote, is het 'anders voordoen dan je bent' een deel van de definitie van performative bisexuality, dat is dat dus per definitie 'niet oprecht'

" Je weet op dat moment niet *zeker* dat het niet oprecht is"
"11 jaar later noemde Bowie zijn fake uit de kast komen "the biggest mistake I ever made"

op het moment dat hij uit de fake uit de kast kwam wist je niet dat het fake was
en wist je dus niet dat het performative bisexuality was

"Om deze kritiek te kunnen hebben moet je het risico lopen om iemand te kwetsen, en zeker niet bij voorbaat de kritiek niet okay vinden als dit geautomatiseerd door een taalmodel gaat gebeuren. Dat was mijn punt."

dat was ook mijn punt :)

"queerbaiting (...) gaat dus over fictieve karakters en settings, ook weer per definitie 'fake'
Nee, kijk alleen maar naar Eurovision"

nogmaals, ik gaf de definitie die ik vond en waarvan ik werkte, en die definitie zegt dat het queerbaiting om fictieve settings gaat

"Maar het zijn dus niet fictieve karakters, het zijn echte personen die iets al dan niet authentiek representeren."

echte mensen die iets inauthentiek presenteren zou dus onder de 'performative bisexuality' vallen, niet onder die van queerbaiting

"En als ze een Bowietje doen dan moet je ze daar op aan kunnen spreken, als je in het authentieke representatiekamp zit. "

daar zijn we het dus weer over eens
Haatzaaien of haatspraak is taalgebruik dat een persoon of groep aanvalt op grond van godsdienst, seksuele oriëntatie of ras.
Definieer "aanvallen" ... "Negatief omschrijven" voldoet absoluut niet als je nog in staat wilt zijn om het ook maar -ergens- over te hebben. Wat voor de een negatief is, is voor de ander positief en vice versa.

Bovendien wordt het direct onmogelijk om op wat voor manier dan ook (behalve dan "positief" natuurlijk ...) over een verschijnsel in het algemeen te discussiëren.

En daarnaast zijn er nog wel een paar "sexuele oriëntaties" waar het een en ander aan negatiefs over te zeggen valt maar waarvoor inmiddels behoorlijk wat aanwijzingen zijn dat die misselijkmakende "oriëntaties" zachtjes aan genormaliseerd gaan worden.

Het lijkt zo logisch en onschuldig om mensen op die manier te "beschermen" maar dit is een volledig onherroepelijk desastreuze afglijdende schaal naar een totalitaire taal- en gedachtenpolitie.

We zouden dit soort totalitaire bemoeizucht gewoon in het geheel niet moeten willen en toestaan. En helemaal niet in de context van "computer says: no".

[Reactie gewijzigd door VOODOO_WILLIE op 22 juli 2024 17:52]

Het lijkt zo logisch en onschuldig om mensen op die manier te "beschermen" maar dit is een volledig onherroepelijk desastreuze afglijdende schaal naar een totalitaire taal- en gedachtenpolitie.
Er is ook een groot verschil tussen wat individuen haatspraak noemen, en wat "de rechter" daar van vindt. Dat iemand dus claimt dat een ander haat zaait, houdt niet in dat dit ook daadwerkelijk zo is. Het is een beetje hetzelfde als iemand die claimt dat een politicus corrupt is. Het kan best gezegd worden, maar het hoeft nog niet waar te zijn. Ik denk dat het beeld nu vooral op komt omdat de media het er veel over hebben; het is net zo iets als dat je net een nieuwe auto hebt gekocht en opeens overal hetzelfde model ziet rijden.

En om je angst weg te nemen; wetten worden pas aangenomen of aangescherpt als een meerderheid van de Tweede Kamer hier voor is, die (in theorie) op haar beurt weer een meerderheid van de bevolking representeert. Als er al een afglijdende schaal is en mensen zijn het er niet mee eens, dan heb je elke vier jaar de mogelijkheid hier iets aan te doen.
Er is ook een groot verschil tussen wat individuen haatspraak noemen, en wat "de rechter" daar van vindt. Dat iemand dus claimt dat een ander haat zaait, houdt niet in dat dit ook daadwerkelijk zo is.
"Haatzaaien" is toch echt wat anders dan "toxisch taalgebruik"/"haatspraak". Althans ... vooralsnog. En aan een rechter heb je sowieso geen drol als de (toekomstige) wetgeving niet deugt.
Ik denk dat het beeld nu vooral op komt omdat de media het er veel over hebben
Ik kan niet achterhalen op welke stelling je hier doelt.

Anyways ...
En om je angst weg te nemen; wetten worden pas aangenomen of aangescherpt als een meerderheid van de Tweede Kamer hier voor is ...
LABEL_1: (Deze snap je verderop)

Ja, we hebben allemaal kunnen zien hoe dat in de praktijk gaat:
https://www.security.nl/p...+identiteit+uit+te+voeren
https://www.rtl.nl/nieuws...-tweede-kamer-ratificatie

Om er maar even twee flinke bij te pakken ... Tot zover dus alvast: "als een meerderheid van de Tweede Kamer hier voor is".

En dan kunnen we het natuurlijk nog hebben over -alle- referenda (Europese grondwet, sleepwet, associatieverdrag) die ooit in dit land zijn gehouden en die -allemaal- aan de kant zijn geschoven. Om over het afschaffen van het referendum (omdat de mening van het gepeupel blijkbaar niet overeenkwam met die van de macht) nog maar te zwijgen.
Als er al een afglijdende schaal is en mensen zijn het er niet mee eens, dan heb je elke vier jaar de mogelijkheid hier iets aan te doen.
https://www.rekenkamer.nl...ng-in-nederland-nageleefd

GOTO LABEL_1

Behoeft dit nog uitleg?

Tel daar het volgende gedrocht bij op:
https://commission.europa...e/digital-services-act_en

Bemoeienis bij een taalpolitietooltje door dezelfde club die nationale wetgeving overstijgt, die online platforms verplicht om (effectief) censuur toe te passen (DSA) en die zelfs "voorstellen" heeft gedaan om privéberichten te scannen op "bepaalde" inhoud.

Het moet toch wel duidelijk zijn waar dit naar toegaat?

Maar goed. Na tientallen jaren de politiek tamelijk intensief gevolgd te hebben geloof ik dat "dan heb je elke vier jaar de mogelijkheid hier iets aan te doen"-sprookje sowieso al lang niet meer.

Het is jammer dat het (mede vanwege die termijn van 4 jaar) wel een "paar" kabinetjes duurt voordat het kwartje valt dat -exact- hetzelfde patroon zich steeds weer herhaalt en er geen moer verandert aan het script.

Die hele Staten Generaal (met wellicht her en der een enkele onbelangrijke uitzondering) bestaat uit niets anders dan acteurs en "uitvoerders".
en als het systeem 70% vind is dat al 70% meer dan wanneer je dat niet doet toch,

En als je het gebruikt in zakelijke communicatie kun je 70% eerder ingrijpen.


we streven niet naar 100%
als 70 procent van een groep laagopgeleid is en vindt dat de wereld plat is, terwijl 30% zegt dat het niet zo is.... dan zou jij daar een AI op trainen waardoor de wereld plots zogezegd vlak zou zijn.
Pfffff, is dat zo?

Meestal zijn het alleen de extremen die het daar echt moeilijk mee hebben. En dan moet je misschien eens nadenken over in welke discussies je energie stopt en hoe je genuanceerder kan zijn in je communicatie.
doe modellen worden getraind op beschikbare data, het internet zit vol kleine groepen die enorm veel 'valse' data creëren.
mooi voorbeeld is de Google AI die roken tijdens een zwangerschap aanraad.
Dit is nu exact wat ik bedoel.
Herkennen is één ding, het vertalen naar context en andere omgevingsfactoren twee en dan ook nog geleerd krijgen dat ie correct aan moet kunnen geven hoe en waarom die het aanmerkt als hate speech is dan nog drie.

Zonder bovenstaande ga je al snel richting een ‘computer says no’ scenario die, in mijn ogen, bij deze casus totaal niet wenselijk is. Zeker omdat de kans groot is dat als dit model het flagged als hate speech waarschijnlijk de volgende stap in de toekomstige toepassing ervan een delete, ban of andere vergelijkbare actie zal zijn die er aan toe wordt gevoegd. Zonder feedback kan het het een eng ding gaan worden, zeker als black box zijnde is die onderbouwing nodig en moet ook nog eens kloppen.*

*veel AI modellen zoals ChatGPT weten als model zelf niet hoe ze werken en kunnen daar dus ook geen feitelijke correct antwoord opgeven behalve hetgeen ze mee hebben gekregen in hun trainingsdata of via prompt engineering.

[Reactie gewijzigd door jdh009 op 22 juli 2024 17:52]

Daarom ook mens in de loop, de AI haalt de makkelijk herkenbare zaken er vast uit (en die zijn er genoeg) en de meer context gevoelige content blijft dan over voor menselijke interventie (maar krijgt alvast een vlaggetje van de AI, kijk hier eens naar).

Begrijp me niet verkeerd, AI is zeker niet heilig voor me. Maar uiteindelijk als ik jou "train" weet ik ook niet hoe jij aan je antwoorden komt. En ja jij kan het me waarschijnlijk nog uitleggen en een AI niet (en dat laatste is wat mij betreft het zorgelijke deel).
Kijkende naar bedrijven zoals Meta, Alphabet, Apple, Microsoft en X ben ik bang dat deze modellen uiteindelijk ingezet gaan worden zonder menselijke tussenkomst en met zeer beperkte menselijke tussenkomst bij aantekening van beroep.

Zie alleen al hoe Microsoft omgaat met naaktfoto’s van eigen kinderen in de casus waarbij een vader een foto met uitslag doorstuurde naar een arts en toen zijn gehele Microsoft account kwijtraakte.

En X maar een moderator in dienst heeft/had voor het Nederlands taalgebied. https://www.demorgen.be/s...-eerste-taal-is~b5de9917/

[Reactie gewijzigd door jdh009 op 22 juli 2024 17:52]

Jij kan nu wel doodleuk verkondigen dat haatspraak niet bestaat, maar dan ga je dus in tegen het Nederlands recht.

Lees maar even artikel 137d SR.

Net zoals mensen mogen vinden dat slavernij weer legaal moet worden mag jij natuurlijk vinden dat haatspraak niet benoemd mag worden, maar dat is slechts jouw extremistische mening. Tot nader order is er gewoon een duidelijke wettelijke definitie voor.
Haatspraak bestaat maar de definitie ervan is heel erg subjectief.
De comment waarop ik reageerde:
Haatspraak bestaat niet als een concept
Zoals ik vroeg, geef me een objectieve definitie van haatspraak. De Nazis hadden wetten tegen het bestaansrecht van minderwaardige groepen, wil dat zeggen dat minderwaardige groepen bestaan? Er staat nog meer slechte dingen in de wet.
Je hebt geen idee wát 'vrijheid van meningsuiting' nu eigenlijk betekent. Het betekent dan ook niet wat jij denkt dat het betekent.

1: Vrijheid van meningsuiting betekent sowieso alleen maar dat je niet *vóóraf* gecensureerd mag worden, en geenszins dat je 'beschermd' zou zijn tegen de *consequenties* van wat je zegt.
2: Vrijheid van meningsuiting is daarnaast alleen iets dat alléén voor een overheid telt. Een medium in bezit van een particulier of anderszins niet-overheid heeft die verplichting niet. Dus een krant, Facebook, X whatever kan censureren wat ze willen: dat is hun platform en hun recht.
3: De overheid zal je dus ook niet (kunnen) verhinderen om via je *eigen* platform wat je ook maar wil te roepen. Het mag (en wellicht ook zal) je wel *achteraf* kunnen vervolgen als je de wet hebt overtreden. Het heeft daarmee echter niet je vrijheid van meningsuiting belemmerd, want je hebt die tenslotte kunnen uiten.
Vrijheid van meningsuiting betekent sowieso alleen maar dat je niet *vóóraf* gecensureerd mag worden, en geenszins dat je 'beschermd' zou zijn tegen de *consequenties* van wat je zegt.
Nee, je wordt wel beschermd tegen vervolging van de staat, anders heb je er natuurlijk niets aan. Dingen waar je wél vervolgd voor kan worden vallen niet onder vrijheid van meningsuiting.
De overheid zal je dus ook niet (kunnen) verhinderen om via je *eigen* platform wat je ook maar wil te roepen.
Als je platform genoeg gebruikers heeft om aan de DSA te moeten voldoen, zal de EU je wel verhinderen: https://ec.europa.eu/comm...r/detail/en/QANDA_20_2348 en https://www.europarl.euro...d-hate-crime-under-eu-law.
Het mag (en wellicht ook zal) je wel *achteraf* kunnen vervolgen als je de wet hebt overtreden. Het heeft daarmee echter niet je vrijheid van meningsuiting belemmerd, want je hebt die tenslotte kunnen uiten.
Iemand in Rusland of China die iets negatiefs over regeringsbeleid zegt en daarna de bak in wordt gegooid is natuurlijk wel belemmerd in zijn vrijheid van meningsuiting, ook al heeft hij zijn mening "kunnen uiten". Vrijheid van meningsuiting gaat natuurlijk om wat je kan zeggen zonder daarvoor vervolgd te worden door de staat.

Nederland heeft een beperkte vrijheid van meningsuiting. In Strafrecht Artikel 137 staan bijvoorbeeld een heel aantal dingen die in Nederland niet onder onze vrijheid van meningsuiting vallen. Met die nieuwe EU wetten over "hate speech/crime" wordt de vrijheid van meningsuiting in Nederland verder beperkt door de EU.
Waar is wat jij zegt in tegenspraak met
1: Vrijheid van meningsuiting betekent sowieso alleen maar dat je niet *vóóraf* gecensureerd mag worden, en geenszins dat je 'beschermd' zou zijn tegen de *consequenties* van wat je zegt.
Het lijkt wel of je het willens en wetens niet begrijpt. Zelfcensuur is iets anders dan geen vrijheid van meningsuiting hebben. Uit het artikel dat je aanhaalt:

Hij die in het openbaar, mondeling of bij geschrift of afbeelding,
Hoe zou dit ánders kunnen dan als *in het openbaar* het uiten van een mening? Leg me dat eens uit.
250.000 euro is de bijdrage van de Europese Commissie. Er kunnen andere inkomstenbronnen zijn lijkt me.
De prijs bestaat ook uit een verdeling van 8 miljoen uur aan GPU-verwerking onder de 4 uitgekozen projecten.
250.000 euro is echt veels te weinig geld. Daar heb je 1.2 ervaren developer voor, voor 1 jaar. En dan nog niet eens een super crack.
Het is inderdaad niet heel veel geld, maar ik vermoed dat het zware (programmeer) werk al gedaan is en het er nu om gaat om het model uit te breiden met meer talen en in een gebruikersvriendelijk jasje te gieten.

Sentiment-analyse (de technische term voor dit vakgebied) bestaat al lang en we hebben allemaal gezien hoe goed moderne AI's zijn met tekst. Ik denk dat standaard GPT het al behoorlijk goed zou doen. Aangezien het project voortkomt uit een universiteit ga ik er van uit dat ze al een eigen AI hebben gebouwd en getest. Ze hebben al een belangrijke AI-wedstrijd gewonnen dus er is op z'n minst een goede basis als het niet al een kant-en-klaar model is. Dat model willen ze nu meer talen (en culturen) leren kennen. Dat klinkt meer als een kwestie van transpiratie dan inspiratie.

Daar heb je dus niet heel veel dure programmeurs voor nodig.
Huh, verdienen ervaren developers (1/1.2)*250k = ~208k per jaar in Belgie??? Ik moet verhuizen.

Voor 250k heb je toch echt iets meer in de richting van een team van 3 a 4 mediors + een senior developer?

[Reactie gewijzigd door Waswat op 22 juli 2024 17:52]

Nee, dat is een getal wat je ziet als je een gemakzuchtige google doet. Maar dat zijn toch echt salarissen zoals je die in sillicon valley kunt verdienen als je voor big tech werkt, niet "de rest van de wereld". De gemiddelde persoon gaat niet de IT in om rijk te worden.
Ja idd, in belgie of eigenlijk de hele EU is het toch echt een andere wereld tov de VS.
Nope. Ik baseer dit bedrag op de tarieven die ik reken voor mensen in mijn eigen bedrijf. Denk aan dagtarieven tussen de 850-1100 euro voor langdurige contracten (vanaf 3 maanden) en daarboven voor korte contracten. Ik ben wel gespecialiseerd in Cyber Security en niet in AI. We werken in heel Europa, maar ook in Amerika.
Verdienen en kosten zijn nogal een verschil.
Kosten van de developer zullen niet veel hoger zijn dan wat hij bruto verdient + wat tooling (dit hoeft echt niet veel te zijn). Als OP de kosten van het bedrijf heeft meegerekend moet OP het toch echt beter verwoorden want dan bekostig je toch echt veel meer dan 1.2 mensen.

Gemiddeld gezien lijken salarissen van ervaren devs in BE tussen de 35k en 50k voor mediors en 60k voor seniors.

[Reactie gewijzigd door Waswat op 22 juli 2024 17:52]

Je kent het verschil niet tussen wat iemand verdient en wat hij kost. Spreek je maar niet uit over Belgische fiscaliteit.
We hebben het hier over een bedrijf met in-house devs. Ik weet niet wat jij denkt te weten maar de kosten van 1 dev zullen toch echt niet 5x het bruto salaris zijn? Wat voor overhead reken jij voor startups?

[Reactie gewijzigd door Waswat op 22 juli 2024 17:52]

Werkplek, HR, werkgeversbelastingen, allerlei verplichtingen vanaf grootte X (BHV, opstellen ontruimingsplan, verzekeringen voor wat je mensen kan overkomen), en ga maar door. Hebben we het nog niet over tooling, zoals licenties op software, dat ook best prijzig uit kan vallen.

Als je verwacht dat die devs vanaf hun zolderkamertje werken, en er niks voor ze geregeld hoeft te worden, denk ik dat je pech hebt. We communiceren niet meer via een eigen IRC-kanaaltje, en hoewel er vele gratis office-pakketten zijn, moet je ook dat onderhouden. Overhead's a pain in the behind. Je merkt het pas als erop bezuinigd is.
Letterlijk zoals ik dan al zei...:

> Als OP de kosten van het bedrijf heeft meegerekend moet OP het toch echt beter verwoorden want dan bekostig je toch echt veel meer dan 1.2 mensen.

Maar goed, blij dat men het dan mee eens is dat het zeker niet 5x zoveel is. Dat gezeur altijd weer om bullshit randzaken, terwijl m'n punt gewoon duidelijk is.

[Reactie gewijzigd door Waswat op 22 juli 2024 17:52]

Normaal gesproken kun je er vanuit gaan dat een bedrijf aan jouw het dubbele kwijt is van jouw bruto salaris.

Bij een grote total cost of ownership berekening zag ik een keer wat ik kostte voor mijn werkgever. Dat bedrag was het dubbele van mijn salaris. En dat schijnt heel normaal te zijn.
Bij een startup is het wellicht goedkoper als ze geen pensioenregeling hebben en arbeidsongeschiktheidsverzekering en een heleboel andere zaken die een goede werkgever nog allemaal betaald.
Eindelijk iemand die komt met in iedergeval een ballpark waarde, blij dat men het dan mee eens is dat het zeker niet 5x zoveel is.
Ja, dat dacht ik ook, dit is echt niets voor een AI model.
Dacht net hetzelfde, dat is toch wel een heel laag bedrag?
Dan kom ik op een maandloon van 17K ? Verklaar je nader.
Nou en? De rest kan het bedrijf toch uit eigen middelen of leningen betalen.
Nu nog een model dat het kan definiëren, want er is nog geen eenduidige definitie.

Zouden termen als blank, neger en allochtoon ook als haatspraak gedetecteerd worden?

En kan het model omgaan met sarcasme?

Ik denk dat het gebruik van 1 model nooit kan werken. Concurerende modellen voor verschillende platformen zou beter zijn. Anders komt er straks 1 woord op een blacklist(ook dat woord is tegenwoordig haatspraak) en kun je dat nergens meer uiten.

Zou het model ook rekening houden met de tinestamp van het bericht? Een term die nu als beledigend gezien wordt was het toen misschien niet. In dat geval zou het handhaven met terugwerkende kracht niet juist zijn.

[Reactie gewijzigd door bewerkers op 22 juli 2024 17:52]

Ik vraag me inderdaad af hoe het model omgaat met het gehele woke gebeuren. Taal evolueert over de jaren heen van iets dat aanvaardbaar was tot compleet fout (so it seems).
En wat dan inderdaad sarcasme of stand up comedy (ja ook dat heeft grenzen maar wie gaat deze bepalen?)
Tijd is inderdaad een goede. Die zag ik over het hoofd. Met terugwerkende kracht een moderne standaard hanteren voor oud materiaal op internet zou niet moeten gebeuren.

[Reactie gewijzigd door bewerkers op 22 juli 2024 17:52]

hangt af van wat je ermee doet. Het verwijderen lijkt me niet echt tof, maar je wilt wellicht wel even aangeven dat de manier waarop in 1350 omgegaan werd met vrouwen niet helemaal OK is volgens onze huidige maatstaven... ;-)

Ik vind haatspraak ook wel een lastige term. Wat bedoelde de spreker? En hoe komt het vandaag over? Dat zijn allebei relevante elementen, en in sommige gevallen is het eerste belangrijker, in andere gevallen het tweede...
hangt af van wat je ermee doet. Het verwijderen lijkt me niet echt tof, maar je wilt wellicht wel even aangeven dat de manier waarop in 1350 omgegaan werd met vrouwen niet helemaal OK is volgens onze huidige maatstaven... ;-)
Maar dat moet niet betekenen dat een tekst uit 1350 die ergens in een museum ligt dan ineens als "haatzaaien" bestempeld wordt.
Dat is nou net wel wat er nu overal gebeurt, oude boeken/films/whatever wordt opeens gecancelled, of van verklaringen voorzien over de tijdsgeest, en dat het nu toch echt aanstootgevend is.
Ik weet niet wat je in deze context met 'cancellen' bedoeld - of heb je het dan over die acties zoals in florida waar boeken uit de bibliotheek worden verbannen? Dat is inderdaad niet OK. Maar een verklaring erbij zetten over de tijdsgeest, daar is toch niets mis mee? Heb ik niet nodig, maar als je 11 bent lijkt het me wel handig dat er aangegeven wordt dat dit niet OK is, maar dat men dat toen nog niet echt zo zag. Jezus vond slavernij ook helemaal OK, terwijl we nu wel beter weten. Dan moet je de bijbel niet verbieden, maar je zou er wel iets bij kunnen zeggen - dat ze moreel gezien toen nog niet zo ver waren als nu.

[Reactie gewijzigd door Superstoned op 22 juli 2024 17:52]

IDD. volgens de huidige cultuur is voor bepaalde mensen de volgende vraag ook hatespeech:

"What is a woman?"
--------------
Daarnaast zoals je al zegt, AI kan al vrij lastig met sarcasme omgaan, en ziet vaak niet eens de context van bepaalde stukken text.

zelf LLM chatbots vergeten vaak wat er in paragraaf 1 is gezegt, ook al is dat stukje belangrijk voor de totale context van de chat.

en zelfs al gebruik je "Retain" opties dan negeren chatbots dit vaak ook nog.
Ja, LLM's zijn juist heel goed in dingen in context plaatsen. Het is natuurlijk afhankelijk van hoe je het trained, maar het zal juist minder afhankelijk zijn van een duidelijke "rode vlag" als een term en meer van het sentiment. Anders zou je aan een stinknormaal tekstfilter met een lijstje "stoute woorden" wel genoeg hebben.
Maar hoever gaat die context? Houd het ook rekening met wanneer het geschreven is?(Zie mijn geupdate reactie)
Dat kan, als je wil -- niet vanzelf, je moet wel bedenken dat je het tijdstip als saillant feit wil behandelen natuurlijk. Daarnaast kun je de LLM behandelen als een tool waar je andere automatisering bij stopt, die bijvoorbeeld eerst naar de datum kan kijken.

Ik denk dat het voor deze toepassing niet heel relevant is, want het zal niet gaan om retroactief kunnen classificeren of iets nou door de beugel kon of niet, maar proactief utiingen detecteren, dus altijd of iets "nu" niet door de beugel kan. Denk aan dingen als live modereren en posts filteren voor ze geplaatst worden.

Daarnaast, om het maar even dystopisch te zeggen -- mensen die interesse hebben in achteraf dingen censureren zal het waarschijnlijk roesten of iets "voor toen" best wel redelijk was, als het nu aanstoot kan geven moet het weg.
Ik hoop het. Maar op youtube worden soms 10 jaar oude videos verwijderd op basis van nieuwe gebruikersvoorwaarden. Aangezien videos tegenwoordig automatisch transcripted worden kan dan automatisch.
Ik zit in de fruithandel en het Engelse woord voor druiven wordt vaak weggecensureerd 8)7

Een zogeheten clbuttic example.
Nu nog een model dat het kan definiëren, want er is nog geen eenduidige definitie.
Dat klopt, en tegelijkertijd lukt het ons mensen het prima om te doen alsof die definitie wel bestaat. In het dagelijks leven in de rechtsspraak. Het is niet perfect maar meestal weten we wel of iets hatelijk is of niet.
Zouden termen als blank, neger en allochtoon ook als haatspraak gedetecteerd worden?
Niet alleen op grond van een woord, het gaat juist om het meenemen van context.
En kan het model omgaan met sarcasme?
Ja, state-of-the-art taalmodellen kunnen daar heel aardig mee overweg.
Owja, schrik niet als ze dwars door een dubbele laag sarcasme heenprikken, hondenfluitjes herkennen doen ze prima.
Ik denk dat het gebruik van 1 model nooit kan werken. Concurerende modellen voor verschillende platformen zou beter zijn.
Helemaal mee eens, diversiteit is belangrijk.
Anders komt er straks 1 woord op een blacklist(ook dat woord is tegenwoordig haatspraak) en kun je dat nergens meer uiten.
Daar zou ik me geen zorgen over maken, de technieken van tegenwoordig zijn juist niet afhankelijk van een enkel woord. De oude filtersystemen werken met vaste lijstjes verboden woorden. Het gaat er juist om dat de nieuwe systemen dat beter doen omdat ze niet zozeer kijken welke woorden je gebruikt maar hoe je gebruikt.
Als ik de hond van de buren een teef noem is er niks aan de hand, als ik de buurvrouw zo noem....
Zou het model ook rekening houden met de tinestamp van het bericht? Een term die nu als beledigend gezien wordt was het toen misschien niet. In dat geval zou het handhaven met terugwerkende kracht niet juist zijn.
Dat ligt denk ik aan hoe je het model wil inzetten en wat probeer je te bereiken. Als je bepaalde dingen niet wil lezen dan wil je ze ook niet lezen als ze vroeger geschreven zijn. Als je wil weten hoe mensen vroeger over elkaar dachten dan wil je ook weten of iets toen als hatelijk werd gezien of niet.
Een term die nu als beledigend gezien wordt was het toen misschien niet.
Als het alleen om de term gaat dan zouden deze filters daar juist heel goed mee om moeten gaan omdat ze voorbij die term kunnen kijken naar de onderliggende boodschap.

Het moeilijke hierbij is dat we er ook even bij moeten vragen door wie een term als wel/niet beledigend gezien wordt en wat de gevolgen zijn. Een (halve) eeuw geleden was het sociaal acceptabel om kinderen te slaan, zelfs als het om kinderen van vreemden ging. Tegenwoordig zijn we van mening dat kinderen slaan nooit de beste oplossing is. Betekent het dat ze vroeger niet van hun kinderen hielden? Nee, natuurlijk niet. Maakt het dat het acceptabel om geweld goed te praten omdat het "vroeger" was? Nee, dat niet.
We kunnen best terugkijken en zeggen dat het gedrag van toen fout was, zelfs als er goede bedoelingen achter zaten.
Zo ook met beledigingen. Dat bepaalde opvattingen honderd jaar geleden heel normaal waren maakt ze nog niet onschuldig. Achteraf terugkijkend kunnen we nog steeds besluiten dat bepaalde termen of opvatting kwetsend waren, ook al zag de maatschappij dat toen anders.
Goede punten! Wel enkele opmerkingen:
In het dagelijks leven in de rechtsspraak.
Rechtspraak gaat om strafbaar of niet. Dat is wel een andere standaard. Laster, doxen, privacy schenden, auteursrecht schenden, etc zijn voorbeelden van over het algemeen goed te definiëren strafbare uitingen. Maar beledigd voelen is erg subjectief.
hondenfluitjes herkennen doen ze prima.
De term hondenfluitje wordt vaak misbruikt. Ik ben sceptisch of dat goed wordt uitgevoerd. Want een algoritme kan intenties niet herkennen.
Ik wilde net zeggen, er zal vast wel een definitie zijn voor haatspraak. Maar er zijn veel mensen die hun eigen definitie van haatspraak hebben.
Sarcasme is zeer context afhankelijk, denk dat dat voor een LLM erg lastig wordt aangezien de context ook op 3e situaties kan beslaan die niet in de “ingelezen thread” zit.
"Haatspraak," dat woord alleen al. Klinkt als een heel Amerikaans fenomeen dat hier geïmporteerd word. Er mag best wat zooi op het internet staan, altijd zo geweest, maar heb dat liever dan dat een tooltje van de Europese Commissie die zich daar tegenaan gaat bemoeien. Ja, ik ben inderdaad nogal wantrouwend tov dat soort initiatieven.
Volgens mij is "haatspraak" geen correct Nederlands, en inderdaad een import voor het Engelse "hate speech". Vind het eigenlijk ook maar een beetje vreemd klinken in het Nederlands. "Haatzaaien" of "Aanzetten tot haat" zijn betere uitdrukkingen.
'Incitement to violence' is aanzetten tot haat, dat is weer anders dan het concept 'hate speech'. Zo'n vertaling zou dus niet goed werken.
Het concept van 'hate speech' kan nogal controversieel zijn, zeker in relatie tot vrijheid van meningsuiting en wat hier dan wel en niet onder zou moeten vallen.
is incitement to violence niet gewoon aanzetten tot geweld?


OT:

detecteren moeten ze zelf weten, zolang de verwerking ervan niet geautomatiseerd wordt dat mogen ze wel verbieden.
Extreemrechts is ook weer aanwezig |:( (/s)
(waarschijnlijk, ik spreek niet uit ervaring) Of dit taalmodel gaat worden letterlijk nemen in welke context dan ook, of gaat luisteren naar intonatie waarbij je heel hard en stevig een verhaaltje van Dikkie Dik voorleest en alarm bellen af gaan.

Dit lijkt mij weer zo'n prestige projectje waarbij de boodschap ''we doen iets tegen haat'' belangrijker is dan de uitkomst of product bruikbaarheid.
Dit lijkt mij weer zo'n prestige projectje waarbij de boodschap ''we doen iets tegen haat'' belangrijker is dan de uitkomst of product bruikbaarheid.
AI + DEI = $$$ :+
Ik zou echter DEI vervangen met ESG, aangezien dit toch om winst gerichte bedrijven gaat en geen liefdadigheidsinstellingen.
Ik ben sceptisch, mensen verzinnen wel iets nieuws dat het algoritme niet ziet als hatespeech. Twee voorbeelden die direct in me opkomen zijn "88" en "go 41% percent yourself". Het zijn niet direct scheldwoorden maar hebben we een extreem toxische betekenis.
De grote kracht van LLM's is nou net dat ze dat soort dingen vrij makkelijk oppikken, zeker binnen de context, zolang het in de trainingsdata zit (en wanneer niet moet je ze daarna verder verfijnen natuurlijk, het blijft een kat- en muisspel). Zulke modellen zullen nooit alle mogelijke uitingen 100% kunnen blokkeren, maar dat is het doel ook niet precies, zolang ze maar heel goede scores halen.

Bedenk dat hoe obscuurder en onduidelijker de term is, des te minder het ook zal aankomen bij het publiek -- de LLM begrijpt misschien niet wat je roept, maar veel "gewone mensen" ook niet, zodat de impact van de booschap beperkt is.

[Reactie gewijzigd door MneoreJ op 22 juli 2024 17:52]

Misschien kunnen LLM's dat herkennen, maar dan word de kans op false-positives ook weer een stuk groter. Ik blijf een beetje sceptisch, maar zeg ook niet dat het onmogelijk is.

Je tweede punt ben ik het absoluut niet mee eens, zeker als zoiets gericht is op een specifiek persoon of leeft binnen een specifieke groep om elkaar te herkennen (dogwhistles) kan het nog steeds een enorme impact hebben.
Je tweede punt ben ik het absoluut niet mee eens, zeker als zoiets gericht is op een specifiek persoon of leeft binnen een specifieke groep om elkaar te herkennen (dogwhistles) kan het nog steeds een enorme impact hebben.
Deels, maar bij dogwhistles hoort ook dat je ze in het openbaar kan uitspreken op moment dat je niet rechtstreeks wil zeggen wat je bedoelt. Als je wordt aangevallen kun je onschuld claimen en zeggen dat de ander het verkeerd heeft begrijpen. Iedereen voelt op z'n klompen aan wat de bedoeling is, maar volgens de woordenboekdefinities wordt er niks verkeerd gezegd.

Dat werkt alleen als mensen het snappen, dogwhistles zijn daarom bijna per definitie breed bekend en vrij doorzichtig. Voor de echte incrowd heb je geen dogwhistles nodig, die kennen de boodschap al. Dit soort methodes zijn er juist om een groter publiek over de streep te trekken door gevoelige onderwerpen/standpunten in de schijnwerpers te zetten en zo sociaal acceptabel te maken. Met een dogwhistle kun je een taboe-onderwerp toch aandacht geven alsof het een heel normaal gespreskonderwerp is.
Let's go Brandon ook een probleem?
Let's go Brandon ook een probleem?
Twee weken was dat inderdaad een mega probleem, maar sinds het debat is dat spontaan geen probleem meer en mag het nu openlijk gezegt worden. Raar is dat
Dat is op zich niet zo moeilijk te detecteren. Het lastige is het omgekeerde: wanneer je effectief een bericht stuurt waarin je het hebt over 88 personen en 41%, en je ten onrechte als haatspreker wordt bestempeld. Waarom moeten we in de eerste plaats gesprekken en berichten categoriseren op deze manier? Ik kan me enkel enge toestanden inbeelden.
Ik had er zelf nog nooit van gehoord en heb binnen een paar tellen het betreffende onderzoek gevonden en begrijp wat je er nu mee bedoeld. Als ik het zo makkelijk kan dan moet een AI dat ook zeker kunnen. Die zijn juist erg goed in het analyseren van context.
Ja maar zo simpel is het natuurlijk niet, het model van een LLM is statisch, maar taal is constant aan het veranderen. Binnen een bepaalde groep kan in 10 minuten iets worden afgesproken, maar voordat het LLM dat herkend, moet het model wel opnieuw opgebouwd worden
Zeker, maar het gaat hier niet om je eigen kleine groepje bereiken (waar we inderdaad nu kunnen afspreken dat iemand voor horloge uitmaken een ernstige belediging is), maar om een grote groep mensen te beinvloeden. Die hebben hun gebruiken, gewoonten en patronen niet de afgelopen week opgebouwd, dus zo lang je LLM een beetje actueel gehouden wordt, kan die mee-evolueren.
Het taalmodel zou volgens de ceo in staat moeten zijn om bij het identificeren van haatspraak ook rekening te houden met de culturele context.
Ah, handig voor tijdens, noem eens wat... Een potje voetbal tussen Nederland en Turkije. Of tussen Frankrijk en Marokko.
Ik snap niet dat je wordt gedownmod, je bent hardstikke ontopic.

Dit soort dingen _gaan_ gebruikt worden (niet misschien, niet meer) , en het zou zonde zijn om je duitse buurman niet eerst uit te kunnen schelden om daarna een biertje met hem te gaan drinken.
Maar welke culturele context? Die van de spreker, die van de ontvanger of die van de situatie?
Wat voor de één een normale begroeting in een volksbuurt is, kan voor de ander in een villawijk zeer aanstootgevend zijn. En wat tijdens een voetbalwedstrijd door alle betrokkenen doodnormaal gevonden wordt is op de tennisbaan weer onacceptabel.
Van alle toepassingen waarvan men dacht "ja, hier moet publiek geld naartoe" is het treurig dat een middel om spraak te beteugelen blijkbaar hoog op de lijst stond.

En ja, ik snap ook wel dat nare dingen zeggen over mensen niet kies is, en dat bij dingen als live presentaties het heel handig kan zijn als je een automatische moderator hebt die kan voorkomen dat een of andere lulhannes de boel verstoort, maar toch. De link naar verdere bubbelvorming en polarisatie is makkelijk gelegd: train een modelletje op de "haatspraak" van de mensen wiens standpunten je niet mag en voila, een volautomatische censor die mensen weert die niet netjes de geaccepteerde meningen echoën. Maar natuurlijk is het geen probleem als wij het doen, want onze bedoelingen zijn goed...

Het gebeurt natuurlijk nu ook al, maar het is handwerk van mensen en schaalt dus niet. LLM's zijn een "uitkomst" voor dit soort toepassingen. Leve de vooruitgang?
Het gaat in eerste stap om het detecteren, wat je er daarna mee doet is een (logische) vervolgstap. Volgens mij zit daar vooral de "angst", bijv: weg bliepen, strepen, melden of andere dingen die ik liever niet wil bedenken.

Wat treurig is dat er nu dus taalmodellen zijn (en gebruikt worden) die dit niet kunnen en mensen zich niet bewust van zijn. Dit had natuurlijk al ingebakken moeten zijn maar was voor de commerciële partijen niet van belang :)

Welkom bij de realisatie na de hype en de tegenmaatregelen die er nu moeten komen.
Kan ook een hulpmiddel zijn voor echte (menselijke) moderatoren. Die hoeven dan niet meer alle content te scannen maar krijgen alle mogelijke gevallen via AI voorgeschoteld zodat ze meer in minder tijd kunnen modereren.
waarom gaat hier publiekelijk geld heen?

Ten eerste is het natuurlijk (zoals de rest van de comments zegt) een probleem met de stelling van haatspraak... de definitie hiervan in onduidelijk en raakt vaak kant nog wal...

Ten tweede volgens mij kunnen de huidige taalmodellen dit soort taken al prima oppakken... (plus alle andere dingen natuurlijk)

De enige reden die ik zo kan bedenken, is dat deze partij graag wilt bepalen wat "haatspraak" inhoudt. namelijk door het model te trainen op die manier die hun nuttig lijkt.

Daarnaast lijkt het toepassingsgebied de subsidie ook niet direct te verantwoorden.
Ieder jaar dat de 20e eeuw verder achter ons ligt wordt de kans en toepassing van gemaakte fouten uit dat verleden steeds groter.

Zelfs met alle informatie die er is blijft het leren van ervaringen uit het verleden moeilijk voor de mens en maatschap.

Op dit item kan niet meer gereageerd worden.