Tim peneliti kecerdasan buatan (AI) Microsoft baru saja memamerkan kemampuan VASA-1, sebuah kerangka kerja pembuatan wajah bicara yang sangat realistis. VASA-1 cukup cerdas untuk mengubah foto seseorang menjadi video berbicara lengkap dengan sinkronisasi bibir, ekspresi wajah natural, dan gerakan kepala.
Teknologi ini masih dalam tahap penelitian dan belum tersedia untuk umum. Namun, video demonstrasi yang ditampilkan Microsoft terlihat sangat meyakinkan. Dibandingkan teknologi lip sync dan gerakan kepala yang sudah ada, VASA-1 menawarkan hasil yang jauh lebih realistis dan minim artefak.
Bagaimana cara kerja VASA-1?
VASA-1 dirancang khusus untuk menghidupkan karakter virtual. Sebenarnya, semua orang dalam video demo adalah karakter buatan menggunakan DALL-E. Namun, kemampuan VASA-1 tidak terbatas pada foto AI. Ia juga bisa menganimasikan foto asli Anda.
Hasilnya? Video orang berbicara layaknya rekaman sungguhan, dengan gerakan sedikit hentak namun tetap natural. Sinkronisasi bibirnya sangat mengesankan, tanpa artefak di sekitar mulut yang kerap ditemui pada teknologi lain.
Salah satu keunggulan VASA-1 adalah kemampuannya menganimasikan foto dari berbagai sudut, tidak harus foto portrait standar. VASA-1 juga menawarkan kontrol tinggi, bisa menerima input arah tatapan mata, jarak kepala, dan bahkan emosi untuk menghasilkan animasi yang lebih sesuai keinginan.
Kemana VASA-1 akan digunakan?
VASA-1 berpotensi besar meningkatkan kualitas lip sync di dunia game. Kemampuan menciptakan NPC AI dengan gerakan bibir natural bisa membuat pengalaman bermain jauh lebih imersif. VASA-1 juga bisa dimanfaatkan untuk membuat avatar virtual di media sosial, seperti yang sudah dilakukan oleh HeyGen dan Synthesia.
Selain itu, VASA-1 berpotensi membuka jalan ke pembuatan film berbasis AI. Bayangkan video musik dengan penyanyi AI yang ekspresi wajahnya terlihat natural saat bernyanyi. Para peneliti Microsoft menegaskan bahwa VASA-1 saat ini hanya demonstrasi penelitian. Belum ada rencana untuk rilis publik ataupun menyediakannya untuk developer.
Para peneliti sendiri terkejut dengan kemampuan VASA-1. VASA-1 ternyata bisa melakukan lip sync lagu dengan sempurna, mengikuti kata-kata penyanyi padahal data latihannya tidak menggunakan musik. VASA-1 juga bisa menangani berbagai gaya foto, termasuk Mona Lisa.
Saat ini, VASA-1 mampu menghasilkan video beresolusi 512×512 pixel pada 45 frame per detik. Proses pembuatannya memakan waktu sekitar 2 menit menggunakan GPU Nvidia RTX 4090.
Meskipun hanya untuk penelitian, kemampuan VASA-1 sangat disayangkan jika tidak dibagikan ke publik, setidaknya untuk developer. Integrasi VASA-1 ke platform seperti Runway atau Pika Labs tentunya akan sangat menarik, apalagi mengingat Microsoft memiliki keterlibatan dengan OpenAI.