Microsoft onthulde recent hun nieuwste AI model: VASA-1. Deze slimme technologie kan een geanimeerde video maken van een pratend of zingend persoon, op basis van slechts een foto en een bestaand audiobestand. Je hoeft dus alleen maar een stukje audio op te nemen van iemand en een foto maken… en je kan al een volledige virtuele clone maken die zegt wat jij hem verteld.
Mogelijke toepassingen? Denk aan virtuele avatars die lokaal gerenderd worden zonder video feeds, of zelfs het animeren van een willekeurige foto van iemand online, waardoor het lijkt alsof die persoon iets zegt. Er zijn al de gektste voorbeelden opgedoken; van de Mona Lisa die aan het rappen is, tot President Biden die oproept niet te gaan stemmen. Inderdaad; dit soort deepfakes kunnen ook heel negatieve kanten hebben. Een filmpje kan je hier vinden.
In de begeleidende onderzoekspublicatie wordt gesteld dat deze innovatie de weg vrijmaakt voor real-time interacties met levensechte avatars die menselijke conversatiegedragingen nabootsen. Het VASA framework, wat staat voor “Visual Affective Skills Animator,” maakt gebruik van machine learning om een statisch beeld en een audiofragment te analyseren. Hieruit genereert het een realistische video met nauwkeurige gezichtsuitdrukkingen, hoofdbewegingen en lip-sync die perfect op het audiofragment aansluit. Het model bootst geen stemmen na, maar gebruikt een bestaand audio-input, speciaal opgenomen of gesproken voor een bepaald doel.
Microsoft beweert dat VASA-1 aanzienlijk beter presteert dan eerdere methoden voor spraakanimatie, zowel in realisme, expressiviteit als efficiëntie. Mijn eerste indruk? Het lijkt inderdaad een flinke vooruitgang ten opzichte van eerdere animatiemodellen die met een enkele afbeelding werkten.
Jan Scheele werkt dertien jaar op het snijvlak van deep tech, strategie en leiderschap. Als keynote spreker en dagvoorzitter maakt hij technologie tastbaar voor boardrooms, directieteams en grote podia, zonder de complexiteit te versimpelen of te verbergen achter buzzwords.
Zijn achtergrond ligt in het bouwen. Als CEO van een technologie scale-up, oprichter van meerdere techbedrijven en organisator van meer dan vijftig TED-events wereldwijd zag hij van dichtbij hoe technologische keuzes doorwerken in strategie, governance en cultuur. Vanuit zijn betrokkenheid bij het World Economic Forum en de BCNL Foundation kijkt hij daarbij niet alleen naar wat technisch mogelijk is, maar ook naar wat bestuurlijk houdbaar en maatschappelijk wenselijk is.
Hij publiceerde vijf boeken, waarvan twee Amazon-bestsellers, en schrijft wekelijks over AI, blockchain en de organisatorische gevolgen van deep tech. Zijn blogs bereikten inmiddels meer dan twee miljoen lezers.