Tech

Bárki hangját képes lesz imitálni a Microsoft új programja

grinvalds / Getty Images
grinvalds / Getty Images

Már napjainkban is rendkívül valósághű formái léteznek az írott szöveg beszédre történő átültetésére, azonban a Microsoft új projektje a következő szintre emelheti ezt a technológiát – írja a Gizmodo.

A VALL-E elnevezésű, neurális kódnyelvi modellnek ugyanis mindössze három másodpercnyi hanganyagra van szüksége ahhoz, hogy reprodukálja a beszélő hangját. A mesterséges intelligencián alapuló eszköz nemcsak a hangszínt képes leutánozni, hanem a beszélő érzelmi hullámzását, de akár a szoba akusztikáját is élethűen tudja visszaadni. Ezeket az alábbi GitHub-oldalon lehet meghallgatni.

Hatalmas sikere az eszköznek az is, hogy a végtermék a CD-nél is jobb minőségű hangot generál, ráadásul az MP3-fájloknál tízszer kisebb adatátviteli sebességre tömörítve azokat, érdemi minőségromlás nélkül.

Az eszközt 60 ezer órányi angol nyelvű szöveggel tanították be, ami több mint 7000 különböző embertől származott.

A mérnökök szerint az utánozni kívánt hangnak egyelőre hasonlítania kell valamelyik olyan hangmintára, amin a VALL-E-t betanították. Az eszköz jelenleg az angol nyelvű beszéd szimulálására korlátozódik, és bár teljesítménye még nem hibátlan, kétségtelenül javulni fog, ahogy a mintaadatok száma tovább bővül.

A VALL-E tökéletesítése kizárólag a Microsoft kutatóin múlik majd, mivel a csapat nem adja ki az eszköz forráskódját. Ez annak is köszönhető, hogy a program rengeteg visszaélési lehetőséget hordoz magában. Mivel az MI megőrzi a beszélő identitását, potenciális kockázatot jelent, ami magában foglalhatja a hangazonosítás meghamisítását vagy egy adott beszélő megszemélyesítését. Éppen ezért már fejlesztés alatt áll egy olyan felismerési modell, amely megkülönbözteti, hogy egy hangfájl a VALL-E által lett-e szintetizálva, vagy sem.

Ajánlott videó

Olvasói sztorik