Spotlight: Text-Based Deepfakes

Door Arne Borremans

Een video van een persoon op een geloofwaardige manier aanpassen zodat je kan bepalen wat hij/zij zegt, dat is het doel van deepfakes. Het onderzoek naar deze verschillende deepfake-technieken staat niet stil, blijft dag op dag groeien en weet telkens iedereen weer te verbazen. Dit is zeker het geval bij een nieuwe paper die onlangs is gepubliceerd genaamd “Iterative Text-based Editing of Talking-heads Using Neural Retargeting”. Dit is een verbeterde techniek waarbij men aan de hand van slechts enkele minuten aan videomateriaal van je onderwerp, deepfakes kan creëren. 

Met deze techniek kan je, d.m.v. enkele zinnen die je schrijft, bepalen wat je onderwerp moet zeggen. De AI zal dan berekenen hoe de mond precies moet bewegen bij elke individuele klank. Wat uniek is aan deze techniek is dat men ook kan kiezen op welke manier deze zinnen overgebracht worden: energiek, mompelend, … Je kan je onderwerp zelfs laten glimlachen.
Wanneer je resultaat er niet uitziet zoals je gehoopt had, heb je zelfs de kans nog om deze te verfijnen d.m.v. enkele instellingen aan te passen bv.: het bepalen van de snelheid van de mond.

In vergelijking met soortgelijke technieken, spant deze techniek de kroon. Het grote “probleem” met programma’s die artificieel intelligentie gebruiken is dat ze veel data nodig hebben die geanalyseerd moet worden, echter is dit nu niet het geval vermits je maar enkele minuten aan videomateriaal van je onderwerp nodig hebt . Aangezien er niet zoveel data nodig is, zijn de berekeningen die vereist zijn om tot een resultaat te komen veel sneller, namelijk 40 seconden i.p.v. enkele uren. Ook de kwaliteit van de mondbewegingen komen beter overeen, bv.: bij een ‘b klank’ staan de lippen op elkaar, wat hiervoor niet altijd het geval was. En ten laatste is er, aan de hand van een bevraging, geconcludeerd dat de fragmenten van een korte zin er even goed / een beetje beter uit zien dan eerdere versies, met 12 keer zo weinig data te gebruiken. En fragmenten van langere zinnen er 10 % geloofwaardiger uit zien dan eerdere versies, opnieuw met 12 keer zo weinig data te gebruiken. 

Links