Ieder jaar beginnen er in de lage landen tientallen techstart-ups, die grootse dromen hebben, maar technische hobbels moeten overwinnen om die waar te maken. In dit artikel bespreken we waar start-up DuckDuckGoose zoal tegenaan loopt bij het ontwikkelen van zijn deepfakedetector.
Deepfaketechnologie wordt steeds beter, en zolang er de angst bestaat dat we op een gegeven moment niet meer in staat zijn om echt van nep te onderscheiden, bestaan er al bedrijven die dit probleem proberen op te lossen. Tooltjes die deepfakes kunnen herkennen met allerlei technologische, AI-gedreven foefjes zijn niet nieuw. Naast vele start-ups doen ook giganten als Microsoft, Meta en Intel mee aan de race om een zo goed mogelijke deepfakedetector op de markt te brengen. Allemaal proberen ze elkaar te overtroeven met technologische doorbraken, en allemaal beweren ze een zo hoog mogelijk slagingspercentage te hebben.
Met zoveel concurrentie lijkt het een bij voorbaat verloren strijd om je als start-up in deze markt te storten. Toch waren de Delftenaren Mark Evenblij en Parya Lotfi er drie jaar geleden van overtuigd dat er nog een gat in de markt was waar zij in konden springen. Waar al die andere deepfakeopspoorders zich op een zo groot mogelijke doelgroep richten, probeerden zij het anders aan te pakken. Ze besloten zich te richten op een niche, want, zo was de gedachte, dan konden ze van hun tool de best werkende detector voor die specifieke niche maken. Ondanks deze afbakening moesten ze wel in rap tempo hun technologie zo opbouwen dat deze zich kan meten met de grote jongens.
- Bedrijf: DuckDuckGoose
- Opgericht: 2019, Delft
- Initiatiefnemers: Mark Evenblij, Parya Lotfi en Joris Mollinga
- Product: tool om deepfakes mee te detecteren
- Productiefase: de tool wordt aangeboden als api, daarnaast wordt er gewerkt aan een browserplug-in
- Prijs: er moet maandelijks een vooraf afgesproken prijs betaald worden op basis van de hoeveelheid 'checks' die de AI uitvoert; volgens de start-up gaat het om onder de euro per check
Voordat Evenblij en Lotfi besloten om zich op een niche te richten, maakten ze al een 'algemeen' prototype van een deepfaketool als opdracht voor hun minor Technology-based Entrepreneurship aan de Technische Universiteit Delft. Veel stelde het nog niet voor; het ging om een commandlinescriptje waar een plaatje of video ingegooid kon worden waarna er tekst verscheen met een 'echtheidspercentage'. Er werd wel al gebruikgemaakt van een simpel neuraal netwerk, waarbij er datasets van het internet gebruikt werden om het te leren echt van nep te onderscheiden. Deepfakes waren toen nog niet zo populair of geavanceerd als nu, maar er waren al voldoende datasets beschikbaar die prima bruikbaar waren voor een schoolprojectje.
:strip_exif()/i/2005502130.jpeg?f=imagenormal)
Toen ze na het afstuderen echter besloten om de tool verder uit te breiden en er een bedrijf voor op te richten, gericht op een specifieke markt, was die relatief geringe dataset niet afdoende. Ze haalden daarom Joris Mollinga erbij, die ze via via kenden. Hij had twee maanden eerder een master in AI behaald aan de Universiteit van Amsterdam en wist dus wel wat meer van geavanceerde AI. Aan hem de taak om de technologie snel op te schroeven.
Nichezoektocht
De niche waar Evenblij en Lotfi in eerste instantie voor kozen was de forensische markt, waarbij ze hun tool wilden aanbieden als on-premisessoftware. Dat houdt in dat de software moet werken in een omgeving zonder internettoegang. Ze gingen ervan uit dat partijen als het Nederlands Forensisch Instituut en de Nationale Politie het meest bereid zouden zijn om voor een dergelijke tool te betalen. "Zij moeten in een rechtszaal bewijzen dat beeldmateriaal authentiek is, of juist een deepfake is. Onze aanname was dan ook dat zij al bezig waren met beeldmateriaal analyseren op deepfakes", vertelt Mollinga. Toen ze dat gingen navragen, kwamen ze er echter achter dat deze partijen helemaal nog niet op deze manier bezig waren met de technologie. "Deepfakes bleken toen, begin 2020, minder mainstream en toegankelijk dan we dachten."
Daarop besloten ze om van niche te switchen. Ze kozen voor de markt van digitale identiteitsverificatie. Daar vallen bijvoorbeeld systemen onder waarbij je je ID-kaart of paspoort moet verifiëren met een selfie, zoals bij DigiD of TicketSwap, hetgeen mogelijk misbruikt kan worden door gebruik te maken van deepfakes. Ook facemorphingtechnieken komen bij deze usecase veelvoudig voor, aldus Mollinga. "Dan neem je het gemiddelde van twee gezichten, zodat je een profielfoto creëert die zowel op jou lijkt, als op iemand anders. Dat is handig bij het aanvragen van een paspoort, want dan kun je je als iemand anders voordoen." Volgens onderzoek lukt deze manier om een andere identiteit aan te nemen 'schrikbarend goed'. In de ID-verificatiemarkt werd de detectietechnologie wél wat meer welkom geheten, dus ze besloten om zich hier volledig op te richten.
Budgetworkstation
Een basis leggen voor deepfakedetectie was vrij gemakkelijk, maar voor het ontwikkelen van een serieuze tool met een krachtig neuraal netwerk was een flinke investering nodig. Aan het begin had het team nog een zeer krap budget. Ze hadden een prijs gewonnen van vijfduizend euro bij de TU Delft Impact Contest, en daar moesten ze het, naast hun spaargeld, mee doen. De beginkeuzes waren dus ook vrijwel volledig gebaseerd op het geringe budget. Dat is bijvoorbeeld de reden dat er in eerste instantie is besloten om het AI-trainen lokaal plaats te laten vinden in plaats van via de cloud; laatstgenoemde was nou eenmaal stukken duurder.
:strip_exif()/i/2002912286.jpeg?f=imagenormal)
"Om snel te kunnen itereren en te prototypen was goede hardware nodig, maar daar was aan het begin geen budget voor", stelt Mollinga. Het workstation bestond in eerste instantie uit vier videokaarten en consumentendesktopcomponenten, omdat er geen geld was om datacentercomponenten te nemen. Door de op dat moment sterk omhoogschietende prijzen van gpu's besloten de drie om niet meteen het allerhoogste segment aan te schaffen, maar genoegen te nemen met vier 1080 Ti-kaarten.
Die bleken al gauw niet voldoende: naast dat ze niet snel genoeg waren om een krachtig neuraal net aan te sturen, hadden deze ook geen Tensor-cores. "En daar maakt AI nou net zo handig gebruik van", vertelt Mollinga weemoedig. Dus werd er al snel geswitcht naar 2080 Ti's, waar ze momenteel ook twee 3090's aan toegevoegd hebben. Er wordt dus nog steeds gebruikgemaakt van consumentencomponenten. Het workstation heeft verder een AMD Threadripper-cpu, 128GB aan ram en zo'n 10 terabyte aan opslag.
Hoewel er momenteel nog steeds gebruikgemaakt wordt van een workstation, duurt dat niet lang meer. "We gaan binnenkort switchen, want ons team groeit en met de huidige capaciteit van het workstation kunnen we niet meer het hele team bedienen." Volgens Mollinga is daar inmiddels ook meer budget voor, waardoor er momenteel al in een hybridevorm gewerkt wordt. Het cloudgedeelte van de AI-trainingen wordt in AWS gedaan.
Data delven
Mollinga had toen hij bij het bedrijf werd betrokken redelijk wat AI-kennis, maar geen ervaring met deepfakes. Toch viel er door het internet al snel een stevige basis te leggen. "Je komt al een heel eind door papers te lezen op Google Scholar of Archive, wat GitHub-repo's uit te proberen en te zoeken op 'deepfake-' of 'selfiedatasets'." Dat veel andere partijen óók deepfakedetectie aan een neuraal net probeerden te leren, had dus als voordeel dat er met relatief weinig moeite al een eerste versie van een dataset gebruikt kon worden om de training mee te beginnen.
De start-up onderscheidt bij de training twee vormen van deepfakes: volledig gesynthetiseerde beelden zoals StyleGANs, waarbij elke pixel door de AI bedacht is, en faceswap- of lipsynctechnieken, waarbij het gezicht of alleen het gedeelte rond de mond verwisseld is. Hoewel Mollinga zegt dat beide vormen van deepfakes tijdens het trainingsproces ongeveer net zo belangrijk zijn, richt de data die de start-up maakt zich voornamelijk op de laatstgenoemde vorm, omdat vooral hierbij de deepfakeherkenning met louter de vrij beschikbare data niet voldoende bleek.
Het gaat hier om zowel afbeeldingen als video's. Voor het creëren van deepfakevideo's is simpelweg de driving video, het filmpje van het origineel, nodig en dan een andere foto en video vanwaar de faceswap of lipsync vandaan komt. "Wij denken, en dat heeft tot nu toe aardig gewerkt, dat als je maar genoeg deepfakemateriaal en authentiek materiaal aan een AI geeft, deze op den duur onderscheid leert te maken tussen echt en nep."
Veel andere deepfaketools leren hun AI om zich daarnaast te richten op een specifiek onderdeel van het gezicht om zo een hogere accuraatheid te verkrijgen. Een tool van onderzoekers van de Universiteit van Buffalo let bijvoorbeeld op de reflectie in ogen, omdat ze erachter kwamen dat dit er bij deepfakes vaak niet realistisch uitziet. Een ander voorbeeld is Intel, die in november een detectietool presenteerde die let op de bloedsomloop in het gezicht. Dergelijke methoden heeft DuckDuckGoose naar eigen zeggen ook uitvoerig getest, maar toch besloten ze de detectie algemeen te houden. "Dit werkte namelijk niet goed als je te maken krijgt met foto's of video's van een lagere kwaliteit of gecomprimeerd beeldmateriaal." De kwaliteit bij digitale ID-verificatie is bijna altijd goed, dus in principe moet zo'n methode voor de usecase van DDG wel mogelijk zijn, geeft Mollinga toe. "Echter zijn we nu al een ander ontwikkelpad ingeslagen. Het zou wel interessant zijn dit weer eens te proberen."
Uitlegbaarheid
Mollinga stelt dat DDG zich naast de niche waarin ze opereren, ook onderscheidt van de concurrentie met een aantal unieke technologische functies. “De belangrijkste daarvan is dat wij, naast een standaardclassificatie, bijvoorbeeld '95 procent echt, 5 procent deepfake', ook laten zien waar in de afbeelding de verdachte regio's zitten." Dat kwam nog voort uit de initiële keuze om te opereren in de forensische markt, omdat de oprichters vonden dat ze in een zaak ook moeten kunnen uitleggen waarom de desbetreffende afbeelding een deepfake betreft. "Maar ook in de ID-verificatiemarkt horen wij dat er behoefte is aan uitlegbaarheid, en moeten we beslissingen kunnen onderbouwen naar klanten. Dus ook voor deze markt is deze functionaliteit relevant", verklaart Mollinga. Wanneer je input aan de tool geeft, bijvoorbeeld een selfie, krijg je naast het 'oordeel' een soort heatmap te zien. Daarop wordt getoond welke pixels het meest bijdragen aan de beslissing van het neurale netwerk.
Ervoor zorgen dat het neurale net op die manier zijn beslissingen 'uitlegt', was nog best een klus. Zo'n neuraal netwerk bestaat namelijk uit veel kunstmatige neuronen, en bij bepaalde patronen in de input activeren bepaalde neuronen. Sommige neuronen activeren bijvoorbeeld als ze een bewerking zien bij de pixels van de mondhoeken, legt Mollinga uit. "We dachten dat we deze 'uitlegbaarheid' het best weer konden geven door aan gebruikers duidelijk te maken welke neuronen waarop activeren. Maar dat bleek een ondoenlijke taak, want er zijn superveel neuronen en er vindt natuurlijk ook een wisselwerking tussen die neuronen plaats."
/i/2005509116.png?f=imagenormal)
thispersondoesnotexist.com
Over de manier waarop DDG het uiteindelijk toch voor elkaar heeft gekregen om het neurale net zijn beslissingen uit te laten leggen, wil Mollinga niet veel kwijt. Volgens de medeoprichter keek hij hoe dergelijke visualisaties gedaan worden bij andere takken van machinelearning. "Je hebt een aantal gradiëntmethodes, zoals class activation maps of saliency maps, waarbij je kijkt naar het gradiënt van de output ten opzichte van de input. Dat kun je op een bepaalde manier verwerken en dat zegt dan wat over de uitlegbaarheid. Een andere manier is om je netwerk een segmentatie te laten maken, dus je netwerk te laten voorspellen welke pixels verdacht zijn." De start-up heeft zulke methodes getest en er een gekozen waar ze het beste op konden voortbouwen voor hun deepfakedetectietoepassing, maar over de details wil Mollinga verder niet uitweiden.
Bijblijven
Op het moment meldt DDG een accuraatheidspercentage van 93 procent. Dat is gebaseerd op een testdataset die de start-up heeft samengesteld waarvan de oprichters van mening zijn dat die representatief is voor hun ID-verificatie-usecase, legt Mollinga uit. Volgens de AI-specialist zijn ze nog niet tevreden met dat percentage. "Er valt nog veel winst te behalen, denk ik."
Het team wil het percentage verhogen, maar ondertussen is het ook veel tijd kwijt met dit behouden. Als je niets doet, ga je achteruit, omdat de deepfaketechnologie steeds beter wordt. Er zijn momenteel zes fulltime R&D-medewerkers in dienst die ervoor zorgen dat het bedrijf bijblijft. Naast dat ze alle nieuwe papers lezen, zitten ze bijvoorbeeld ook in een aantal Discord-groepen van professionele deepfakers. Daarin wisselen ze tips uit over het maken van deepfakes en kun je deepfakes bestellen. Door vanaf de zijlijn mee te lezen, kan dat wereldje nauwlettend in de gaten gehouden worden.
Als voorbeeld van een recente ontwikkeling op het gebied van deepfakegeneratie waar de start-up op moest inspelen, noemt Mollinga de opkomst van tekst-to-imagemodellen zoals Dall-E en Stable Diffusion. "We zouden zo'n tti-model bijvoorbeeld een dataset van selfies kunnen laten maken waarop wij kunnen trainen om onze classificaties te verbeteren." Het is dus zaak om voor elke nieuwe techniek of elk nieuw model waarmee het mogelijk is om deepfakes te maken, of het nou gaat om volledig gesynthetiseerde of gedeeltelijk gesynthetiseerde deepfakes, een nieuwe dataset te maken. Elke nieuwe techniek genereert immers op een iets andere wijze deepfakes. Het is zaak om zo snel mogelijk op de hoogte te zijn van zulke nieuwigheden. In eerste instantie bestaan er natuurlijk nog weinig of geen datasets van derden voor, dus moet het team die zelf maken om niet achter te lopen.
/i/2005510740.png?f=imagenormal)
Browserplug-in
Momenteel is de tool beschikbaar als api, die klanten in hun producten of diensten kunnen integreren. Er wordt ook gewerkt aan een browserplug-in. Deze is momenteel specifiek bedoeld voor journalisten. "Die plug-in kijkt met je mee en laat je weten of je wel of niet naar een deepfake aan het kijken bent. Als dat zo is, krijg je een notificatie." In principe dient de plug-in als een soort wrap, omdat deze de plaatjes ook weer naar de api stuurt.
De browserplug-in stuurt de URL van alle afbeeldingen die bekeken worden naar de server waar DDG de analyse draait. Het draait dus niet lokaal, want dat zou te zwaar zijn. Als een gebruiker de plug-in aan heeft staan, kijkt deze altijd mee. Volgens Mollinga kan de tool geen afbeeldingen analyseren die achter een loginwall zitten, omdat de tool zulke afbeeldingen, bijvoorbeeld van bepaalde sociale media, niet kan downloaden met alleen de URL. "Wij slaan geen URL's van afbeeldingen op, behalve als het een deepfake betreft, en slaan ook niet op welke afbeeldingen een gebruiker bekijkt." Voor de api wordt er een dataverwerkingsovereenkomst getekend met de klant.
De technologie van de plug-in is dus precies hetzelfde; het zit alleen in een andere, wat toegankelijkere vorm, zodat de start-up op termijn toch ook andere doelgroepen dan bedrijven, zoals consumenten, kan bedienen. Zo kan DDG toch een bredere markt bedienen, hoewel ze zich voornamelijk richten op een niche.
/i/2005510742.png?f=imagenormal)
Flinke klus
Het team is ondertussen ook bezig met technologische toevoegingen aan de tool. Momenteel kan deze deepfakes uit afbeeldingen en video's herkennen, maar DuckDuckGoose wil zich nog meer onderscheiden van concurrenten door de tool ook gesynthetiseerde spraak te laten herkennen. "Spraak wordt als biometrisch middel steeds meer gebruikt", stelt Mollinga. Spraakherkenning kan bijvoorbeeld misbruikt worden door je bij helpdesks voor te doen als iemand anders. "Maar hierbij zitten we momenteel nog in de beginfase, waarbij we voornamelijk veel research doen en externe data proberen te gebruiken."
/i/2005510634.png?f=imagenormal)
Zo wordt er bijvoorbeeld gekeken of het mogelijk is om dit aspect zonder machinelearning te doen, omdat dat een hoop data vereist. “Misschien lukt het met een simpele analyse van het melspectrogram ook al om vrijwel alle gevallen te vangen." Gesynthetiseerde stemmen laten mogelijk een andere frequentie zien, of hebben mogelijk een andere hoeveelheid energie op bepaalde frequenties dan echte stemmen, waardoor met een eenvoudige vergelijking dergelijke gevallen er al uitgevist kunnen worden. "Het hoeft niet altijd AI te zijn. Maar of dit inderdaad zo makkelijk kan, zijn we momenteel nog aan het onderzoeken."
Naast dergelijke probeersels heeft de start-up zijn handen ook vol aan het verbeteren van de huidige toepassingen. Zo komt er volgens Mollinga binnenkort een update aan waarmee specifiek de herkenning van facemorphs beter moet worden. "We testen onszelf voortdurend, en daar kwam laatst uit dat hier nog veel ruimte voor verbetering was." Hiervoor besloot DDG onder meer om een extra dataset van 100.000 gezichtsmorphs te creëren en mee te nemen in het trainingsproces.
Al met al is het dus een flinke klus voor deze Nederlandse start-up om zich staande te houden in het strijdveld der deepfakedetectors. Momenteel heeft DuckDuckGoose slechts een handjevol klanten. Ze werken bijvoorbeeld samen met het Nederlandse bedrijf DataChecker voor zijn ID-verificatiedienst. De start-up ziet nog veel groeipotentie in deze markt, maar klanten werven, vooral als ze het gevaar van deepfakes niet inzien, is een moeizaam proces. Nu de tool gebruiksklaar is, wil het bedrijf zich vanaf volgend jaar dan ook meer storten op dit aspect, zodat het product zich langzamerhand ook wat gebruikersaantallen betreft kan gaan meten met de grote jongens.
Bannerfoto: wildpixel / Getty Images