Nem meri nyilvánossá tenni döbbenetes fejlesztését a Microsoft

A Microsoft egy olyan új mesterséges intelligencián dolgozik, amely egyetlen fotó és hangminta alapján képes olyan hiperrealisztikus videót készíteni rólunk, amin beszélünk, írja a Tom’sGuide.

A VASA-1 mindössze egyetlen fotó alapján képes olyan videót szerkeszteni, amin a szájmozgás, az arcvonások változásai és a fejmozgás is reálisan történik. A modell jelenleg csak egy kutatási demó, és a Microsoft Research csapatán kívül senki sem próbálhatja ki, a videók azonban lenyűgözőek.

A példákban szereplő emberek mindegyike szintetikus, DALL-E képgeneráló programmal készült, de ha képes valósághű MI-képet animálni, akkor bizonyára a valódi fotók animálásával is elboldogul majd a rendszer.

Az egyik példában Mona Lisa elevenedik meg, az eredmény pedig hátborzongatóan jó.

Külön kiemelendő, hogy a szoftver nemcsak olyan felvételek alapján képes videót létrehozni, amin az alany előre néz, így kevésbé jól sikerült fotókkal is lehet élethű videókat gyártani. A fejlesztők szerint a program fő felhasználása a videójátékokban lehet, ezzel ugyanis élethű NPC-ket létrehozni reális szájmozgással és mimikával.

A csapat azonban azt állítja, hogy nem tervezik nyilvánosságra hozni a programot, és fejlesztők számára sem akarják elérhetővé tenni.

A program mindössze annyi a korlátja, hogy 512×512 pixeles mozgóképeket lehet csak készíteni 45 képkocka/másodperc sebességgel, és ehhez is Nvidia RTX 4090 GPU kell. Mindazonáltal érdemes lesz követni a projekt utóéletét, a Microsoftnak ugyanis komoly részesedése van az OpenAI-ban és akár a Sorában is be lehet majd vetni.

Kapcsolódó

Döbbenetes és ijesztő az OpenAI új fejlesztése

Az OpenAI legújabb, Sora nevű modellje pár szó alapján képes generálni egy fotorealisztikus, vagy épp animált kisfilmet.

Nem meri nyilvánossá tenni döbbenetes fejlesztését a Microsoft

Ajánlott videó

Friss

Népszerű

Azonnal bezáratták az undorító körülmények közt működő budai éttermet