Tech

Nem meri nyilvánossá tenni döbbenetes fejlesztését a Microsoft

Microsoft / VASA-1
Microsoft / VASA-1

A Microsoft egy olyan új mesterséges intelligencián dolgozik, amely egyetlen fotó és hangminta alapján képes olyan hiperrealisztikus videót készíteni rólunk, amin beszélünk, írja a Tom’sGuide.

A VASA-1 mindössze egyetlen fotó alapján képes olyan videót szerkeszteni, amin a szájmozgás, az arcvonások változásai és a fejmozgás is reálisan történik. A modell jelenleg csak egy kutatási demó, és a Microsoft Research csapatán kívül senki sem próbálhatja ki, a videók azonban lenyűgözőek.

A példákban szereplő emberek mindegyike szintetikus, DALL-E képgeneráló programmal készült, de ha képes valósághű MI-képet animálni, akkor bizonyára a valódi fotók animálásával is elboldogul majd a rendszer.

Az egyik példában Mona Lisa elevenedik meg, az eredmény pedig hátborzongatóan jó.

Külön kiemelendő, hogy a szoftver nemcsak olyan felvételek alapján képes videót létrehozni, amin az alany előre néz, így kevésbé jól sikerült fotókkal is lehet élethű videókat gyártani. A fejlesztők szerint a program fő felhasználása a videójátékokban lehet, ezzel ugyanis élethű NPC-ket létrehozni reális szájmozgással és mimikával.

A csapat azonban azt állítja, hogy nem tervezik nyilvánosságra hozni a programot, és fejlesztők számára sem akarják elérhetővé tenni.

A program mindössze annyi a korlátja, hogy 512×512 pixeles mozgóképeket lehet csak készíteni 45 képkocka/másodperc sebességgel, és ehhez is Nvidia RTX 4090 GPU kell. Mindazonáltal érdemes lesz követni a projekt utóéletét, a Microsoftnak ugyanis komoly részesedése van az OpenAI-ban és akár a Sorában is be lehet majd vetni.

Kapcsolódó
Döbbenetes és ijesztő az OpenAI új fejlesztése
Az OpenAI legújabb, Sora nevű modellje pár szó alapján képes generálni egy fotorealisztikus, vagy épp animált kisfilmet.

Ajánlott videó

Olvasói sztorik