A Microsoft egy olyan új mesterséges intelligencián dolgozik, amely egyetlen fotó és hangminta alapján képes olyan hiperrealisztikus videót készíteni rólunk, amin beszélünk, írja a Tom’sGuide.
A VASA-1 mindössze egyetlen fotó alapján képes olyan videót szerkeszteni, amin a szájmozgás, az arcvonások változásai és a fejmozgás is reálisan történik. A modell jelenleg csak egy kutatási demó, és a Microsoft Research csapatán kívül senki sem próbálhatja ki, a videók azonban lenyűgözőek.
A példákban szereplő emberek mindegyike szintetikus, DALL-E képgeneráló programmal készült, de ha képes valósághű MI-képet animálni, akkor bizonyára a valódi fotók animálásával is elboldogul majd a rendszer.
Külön kiemelendő, hogy a szoftver nemcsak olyan felvételek alapján képes videót létrehozni, amin az alany előre néz, így kevésbé jól sikerült fotókkal is lehet élethű videókat gyártani. A fejlesztők szerint a program fő felhasználása a videójátékokban lehet, ezzel ugyanis élethű NPC-ket létrehozni reális szájmozgással és mimikával.
A program mindössze annyi a korlátja, hogy 512×512 pixeles mozgóképeket lehet csak készíteni 45 képkocka/másodperc sebességgel, és ehhez is Nvidia RTX 4090 GPU kell. Mindazonáltal érdemes lesz követni a projekt utóéletét, a Microsoftnak ugyanis komoly részesedése van az OpenAI-ban és akár a Sorában is be lehet majd vetni.