Microsoft onthulde recent hun nieuwste AI model: VASA-1. Deze slimme technologie kan een geanimeerde video maken van een pratend of zingend persoon, op basis van slechts een foto en een bestaand audiobestand. Je hoeft dus alleen maar een stukje audio op te nemen van iemand en een foto maken… en je kan al een volledige virtuele clone maken die zegt wat jij hem verteld.
Mogelijke toepassingen? Denk aan virtuele avatars die lokaal gerenderd worden zonder video feeds, of zelfs het animeren van een willekeurige foto van iemand online, waardoor het lijkt alsof die persoon iets zegt. Er zijn al de gektste voorbeelden opgedoken; van de Mona Lisa die aan het rappen is, tot President Biden die oproept niet te gaan stemmen. Inderdaad; dit soort deepfakes kunnen ook heel negatieve kanten hebben. Een filmpje kan je hier vinden.
In de begeleidende onderzoekspublicatie wordt gesteld dat deze innovatie de weg vrijmaakt voor real-time interacties met levensechte avatars die menselijke conversatiegedragingen nabootsen. Het VASA framework, wat staat voor “Visual Affective Skills Animator,” maakt gebruik van machine learning om een statisch beeld en een audiofragment te analyseren. Hieruit genereert het een realistische video met nauwkeurige gezichtsuitdrukkingen, hoofdbewegingen en lip-sync die perfect op het audiofragment aansluit. Het model bootst geen stemmen na, maar gebruikt een bestaand audio-input, speciaal opgenomen of gesproken voor een bepaald doel.
Microsoft beweert dat VASA-1 aanzienlijk beter presteert dan eerdere methoden voor spraakanimatie, zowel in realisme, expressiviteit als efficiëntie. Mijn eerste indruk? Het lijkt inderdaad een flinke vooruitgang ten opzichte van eerdere animatiemodellen die met een enkele afbeelding werkten.