Hierom lijkt het mij belangrijk dat er veel aandacht komt voor welke trainingsdata er gekozen wordt. Er zijn ethische en juridische kwesties in het toe-eigenen van bestaande content, en bovendien moet dit niet te makkelijk en te snel vanwege kwaliteit en relevantie. Het goed kiezen, voorbereiden en optimaliseren van trainingsdata kan een enorme klus zijn, en kan ook weer duizend risico's met zich meebrengen. Maar een brede selectie van internetpagina's scrapen is ook niet verfijnd genoeg lijkt me.
Zowat alle menselijke communicatie is ernstig vooringenomen, met maar heel soms echt robuuste en complete communicatie. Bijvoorbeeld de beste wetenschappelijke stukken die bouwen op tientallen grondig bewezen eerdere werken. Of de allerbeste journalistiek met niets dan waarheid en een eerlijke framing. Een aanzienlijk deel van Wikipedia kan hier ook ongeveer toe gerekend worden, hoewel al meer wisselend. Dat zijn de uitzonderingen, dus er is weinig menselijk materiaal waar een model op getraind kan worden dat niet problematisch is. Voor feitelijke doelen in elk geval; kunstvormen zoals schilderijen of poëzie hebben minder problemen rond zich naast copyright. Maar gaat het over politiek, maatschappij of mensen dan doen we nogal wat aannames en gaan we voorbij aan nuance, zelfs met veel expertise. Iedereen heeft z'n anekdotische blik op basis van het eigen wereldbeeld, opvoeding, cultuur, ontvangen retoriek en eigen voorkeuren, angsten, enz. We zijn zelf geen objectieve machines, dus de modellen kunnen ook niet gemakkelijk objectief worden.
Al met al zullen we volgens mij een decennium of twee gaan krijgen met de meest bizarre ups en downs in AI technologie, en de omgang ermee door de eigenaren, andere bedrijven, overheden en personen. We zullen met z'n allen moeten leren wat wel en niet kan, wat meer of minder vooringenomen is, wiens werken of teksten worden opgenomen in de trainingsdata, hoe die data wordt geannoteerd of gecureerd, de juiste mate van transparantie, enz, enz. Ook vragen en kwesties die we nog niet hebben bedacht waarschijnlijk. Wat we nu denken dat beter of veiliger zou zijn, kan ook weer problemen meebrengen die we nog niet genoeg kennen. Dit wordt vallen en opstaan.
Langzame ontwikkeling zou goed zijn, met veel aandacht voor het proces en de effecten van AI, en niet alleen het zo snel mogelijk maken van een slimmer model als eindresultaat. Maar de race is nu gaande en het gaat weer om winst, dus andere overwegingen zullen wel weer ondersneeuwen.
[Reactie gewijzigd door geert1 op 22 juli 2024 13:42]