Onderzoekers van sociaal netwerk X waarschuwen voor het gevaar dat AI-gebruik voor communitynotes juist ondermijnend werkt voor contentmoderatie. In een paper beschrijven zij de risico’s, nadat X onlangs begon met een test met AI-geschreven communitynotes.
Hallucinaties en versterking van misinformatie zijn reële risico’s die AI-gebruik voor contentmoderatie met zich meebrengen, schrijven onderzoekers van X in een paper. Ook met menselijke medewerking en eindverantwoordelijkheid kan AI-inzet juist het modereren van content aantasten, is een van de conclusies.
Het paper zet het gebruik van large language models voor communitynotes wel neer als een upgrade van dat systeem. De samenwerking tussen mensen en AI-bots zoals X dat wil, moet de opmerkingen vanuit de gemeenschap een impuls geven. Zowel de kwantiteit als de kwaliteit zouden daarmee moeten verbeteren en zo bijdragen aan ‘de productie van publieke kennis’. “Dit gaat verder dan simpelweg factchecken; het gaat naar een dynamische, positieve feedbackloop”, schrijven de onderzoekers.
De opzet is dat een mens altijd nog de AI-geschreven notes beoordeelt en daar feedback over geeft aan de achterliggende AI. Die moet daardoor steeds beter worden in het schrijven van communitynotes. Dit moet dan mensen weer werk schelen, waardoor zij meer tijd krijgen voor moeilijkere, genuanceerde controle en moderatie van posts. Overigens hoeft de gebruikte AI niet per se het eigen Grok van X te zijn.
Deze inzet van AI heeft wel enkele grote uitdagingen, schrijven de onderzoekers. Zo is er het gevaar dat AI dan overtuigende, maar onjuiste opmerkingen oplevert. Llm’s die zijn geoptimaliseerd om hoog te scoren op hulpvaardigheid kunnen zeer bedreven worden in het maken van teksten die overtuigend zijn, emotioneel een snaar raken, neutraal lijken, maar toch feitelijk onjuist zijn. Dit kan dan menselijke moderators misleiden.
Bovendien kunnen geavanceerde llm’s in hun respons op menselijke feedback van moderators ook weer overtuigende onderbouwingen voor hun notes onderzoeken en aanleveren. Ten eerste kan AI een schijnbaar robuuste set aan bewijsmateriaal construeren voor nagenoeg elke bewering, ongeacht hoe waarheidsgetrouw die is. Dat maakt het voor menselijke moderators dan nog moeilijker om misleiding of fouten te detecteren.
Naast dat gevaar van overtuigend gebrachte en overtuigend onderbouwde foute communitynotes zien de onderzoekers nog een tweede, menselijker risico. Er kan bij mensen minder motivatie, betrokkenheid en een kritische houding ontstaan wanneer zij te maken krijgen met grote hoeveelheden goed geschreven communitynotes. “Het is voor te stellen dat het gevoel van ownership en ‘skin in the game’ vermindert als het platform gedomineerd wordt door de snelheid en schaal van AI.” Menselijke moderators maar ook contentposters kunnen dan afhaken, wat ook de diversiteit van die twee groepen kan verminderen.
Verder noemen de onderzoekers het risico van homogenisering en verminderde creativiteit, plus het risico van overload voor moderators. Dat eerste betekent dat AI-gegenereerde content uitkomt op een uniforme, matte stijl die geoptimaliseerd is om geen aanstoot te geven en goedgekeurd te worden. Het laatste risico is de discrepantie tussen AI-capaciteit en menselijk vermogen om bij te blijven. De mogelijke stortvloed aan AI-notes kan menselijke moderators overstelpen of afstompen.
Het in 2021 door X uitgerolde systeem voor communitynotes vertrouwt nu geheel op mensen, die dat moderatiewerk als vrijwilligers uitvoeren. Facebook en Instagram gaan het voorbeeld van X volgen en gebruiken daarbij ook het algoritme van het voormalige Twitter. Het is nog niet duidelijk of Meta ook het AI-voorbeeld van X voor communitynotes wil volgen.