Miután bejelentették az első videógeneráló mesterséges intelligencia alkalmazásokat, mint a Sora, vagy a publikusan elérhető Luma AI, a Google egy újfajta program kifejlesztésén kezdett dolgozni. A cég MI-re szakosodott alakulata, a DeepMind egy olyan alkalmazást álmodott meg, ami zenét vagy szinkront tudna készíteni a kész mozgóképekhez, írja a TechCrunch.
A DeepMind a YouTube-on most be is mutatta, hogyan néz ki a V2A néven emlegetett fejlesztés a gyakorlatban. Az eredmény egy demóhoz képest igen meggyőző, a szakértők szerint ez pedig annak köszönhető, hogy a V2A képes elemezni a pixeleket, majd szöveges utasítást készít, amit aztán a megfelelő hanghatásokká konvertál át.
A rendszert videókon, hangokon és a mesterséges intelligencia által generált tartalmakon képezték ki. Ennek köszönhetően megtanulta, hogy bizonyos hangokat milyen vizuális elemekhez társítson. A hvg szerint egyébként nem csak a Google dolgozik ilyen fejlesztésen, ám a DeepMind szerint azzal kiemelkednek a tömegből, hogy a felhasználó dönthet, akar-e szöveges parancsokat adni a hang elkészítéséhez.
A prompt természetesen használható arra is, hogy finomhangoljuk a végeredményt. A szakemberek jelenleg azon dolgoznak, hogy a generált párbeszéd szinkronban legyen a beszélő ajkának mozgásával, valamint a létrehozott hang jó minőségű legyen és ne torzítson.