Advertentie
Een onderzoeksgroep binnen Microsoft heeft VASA-1, zoals de applicatie heet, getoond op de website van het bedrijf. VASA-1 kan een foto, of zelfs tekening, van een persoon combineren met een audiofragment om een filmpje te maken waarin het lijkt alsof de afgebeelde persoon het audiofragment uitspreekt, of zingt.
Het programma kan onder andere de gezichtsuitdrukkingen en hoofdbewegingen uitbeelden die iemand zou kunnen maken tijdens het uitspreken of zingen van een audiofragment. Ook de lipbewegingen moeten overeenkomen met de stem. Op de pagina van de onderzoeksgroep staan een tiental voorbeelden. De meeste voorbeelden zijn niet helemaal perfect, maar zeker goed genoeg om iemand te misleiden wanneer deze niet goed oplet. Ook lijkt de 1 in VASA-1 te duiden op komende generaties, die hoogstwaarschijnlijk nog betere videobeelden kan genereren.
Het is eenvoudig om technologie als deze in te zetten voor kwaadaardige doeleinden. Daarom hebben de onderzoekers ervoor gekozen geen demo, API, of product beschikbaar te stellen. Er is ook niks in productie waarbij deze nieuwe technologie in geïmplementeerd zou kunnen worden. Uiteindelijk is het wel de bedoeling om de technologie beschikbaar te maken, maar alleen als aan bepaalde voorwaarden en regulaties voldaan kan worden. Duidelijke informatie geven de onderzoekers niet in hoe zulke waarborgen er uit moeten komen te zien.
Ondanks de vele gevaren van de zien de onderzoekers ook veel voordelen van de technologie. Zo zou het gelijkheid in onderwijs moeten kunnen verbeteren, en toegankelijkheid voor mensen die moeite hebben met communiceren. Hoe dit exact zou moeten werken is niet geheel duidelijk, maar mogelijk is het de bedoeling om de techniek in te zetten voor gebruik als een virtuele avatar. Een andere optie zou gebruik zijn voor therapeutische en sociale doeleinden. Hiermee zou het programma gebruikt kunnen worden om mensen te laten praten met een AI-chat-avatar. Volgens het onderzoek was VASA-1 getraind op de VoxCeleb2 dataset. Deze dataset bevat een miljoen fragmenten van 6112 beroemdheden die verkregen zijn via YouTube-video's. Het AI-model was dus getraind op enkel beelden van echte mensen, maar de techniek werkt ook goed op afbeeldingen van fictieve personages. Op de pagina van het onderzoek is bijvoorbeeld een rappende Mona Lisa te vinden.