Szájról olvasni nem mindenki tud, azt pedig végképp nem gondolnánk, hogy egy élettelen tárgy simán lepipálja az embert. Márpedig így van, és erre az Oxfordi Egyetem mesterséges intelligenciája a legjobb példa, ami nem véletlenül kapta a LipNet nevet.
Nem nehéz elképzelni, hogy mit jelenthet ez a hallássérültek számára, bár azt azért hozzá kell tenni, hogy a szakemberek szerint a rendszer tényleges használhatósága majd csak akkor derül ki, amikor a való életben tesztelik. Azt pedig csak tippelni tudjuk, hogy milyen hasznos szolgálatot tehet az olyan szervezeteknek, mint az FBI, CIA, KGB vagy éppen a TEK (hogy egy másik hárombetűst is említsünk).
A szájról olvasás igen nehéz művelet, és még a legképzettebbek is nagyjából 60 százalékos pontossággal képesek végrehajtani a műveletet, így jól látható, hogy miért lenne hatalmas előrelépés az Oxford rendszere, amennyiben nem csupán az elé tett videónál lenne képes hozni a 93 százalékos értéket.
A gépi szájról olvasás óriási potenciállal rendelkezik, akár a hallássérültek, akár a közterületeken történő csendes diktálást, titkos beszélgetéseket, zajos környezetben való hangfelismerést, biometrikus azonosítást, vagy éppen a némafilmeket vesszük alapul
– írják az Oxford kutatói a projekt összegzésében, melyben az is olvasható, hogy a mesterséges intelligencia számára teljes mondatokat biztosítanak, ami így képes saját magát tanítani annak megfelelően, hogy melyik szóra milyen szájmozgás jellemző.
A tréningezés az Egyetem AI laborjában történik, ahol közel 29.000 videón gyakorolt a LipNet, melyek egyenként 3 másodpercesek, és hasonló nyelvtani mintát követnek. Ezeket a rövid bejátszásokat embereknek is megmutatták, akik 47,7-es hibaszázalékkal dolgoztak, míg az AI mindössze 6,6-tal, ám érdemes figyelembe venni Neil Lawrence véleményét, aki tesztelte a LipNetet, és szerinte a mondatok egyszerű szövegezéssel, és nagyon egyszerű nyelvtannal rendelkeztek.
A projektet egyébként részlegesen a Google is támogatta a DeepMind AI-val.