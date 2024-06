Miután bejelentették az első videógeneráló mesterséges intelligencia alkalmazásokat, mint a Sora, vagy a publikusan elérhető Luma AI, a Google egy újfajta program kifejlesztésén kezdett dolgozni. A cég MI-re szakosodott alakulata, a DeepMind egy olyan alkalmazást álmodott meg, ami zenét vagy szinkront tudna készíteni a kész mozgóképekhez, írja a TechCrunch.

A DeepMind a YouTube-on most be is mutatta, hogyan néz ki a V2A néven emlegetett fejlesztés a gyakorlatban. Az eredmény egy demóhoz képest igen meggyőző, a szakértők szerint ez pedig annak köszönhető, hogy a V2A képes elemezni a pixeleket, majd szöveges utasítást készít, amit aztán a megfelelő hanghatásokká konvertál át.

Érdekesség, hogy a fejlesztést a tervek szerint párosítani lehet majd a Google saját fejlesztésével, a Veo videógeneráló MI-szoftverrel, de akár a konkurens OpenAI eszközével, a Sorával is össze lehet majd kapcsolni.

A rendszert videókon, hangokon és a mesterséges intelligencia által generált tartalmakon képezték ki. Ennek köszönhetően megtanulta, hogy bizonyos hangokat milyen vizuális elemekhez társítson. A hvg szerint egyébként nem csak a Google dolgozik ilyen fejlesztésen, ám a DeepMind szerint azzal kiemelkednek a tömegből, hogy a felhasználó dönthet, akar-e szöveges parancsokat adni a hang elkészítéséhez.

A prompt természetesen használható arra is, hogy finomhangoljuk a végeredményt. A szakemberek jelenleg azon dolgoznak, hogy a generált párbeszéd szinkronban legyen a beszélő ajkának mozgásával, valamint a létrehozott hang jó minőségű legyen és ne torzítson.