Ijesztően jól olvas szájról és még csak nem is ember

Valami biztosan van a levegőben, mert rövid időn belül ez a második szenzációs hír a szájról olvasás témakörében. Pár nappal ezelőtt a LipNet nevű rendszerről számoltunk be, amely félelmetes, 93,4 százalékos hatékonysággal tudta leolvasni, hogy milyen szavakat ejt ki az ember a száján.

Most viszont a Google MI (mesterséges intelligencia) részlege, a DeepMind mutatta be, hogy hova jutottak ezen a téren és ez, ha lehet, még félelmetesebb eredményeket produkált.

Politkiai szövegen edződött intelligencia

Nem kerülhető ki a 46,8 százalékos hatékonyság, ami a LipNet ismerete nélkül bőven zseniális lenne, de így maximum egy biccentésre jó. Ezért is teszik hozzá a Google és az Oxfordi Egyetem szakemberi rögtön, hogy hatalmas különbség van a két eljárás és módszer között.

A LipNet esetében ugyanis a teszteket speciális környezetben végezték, ahol önkéntesek mondtak ki olyan átlagos kifejezéseket, mint a „Nézd!, Hallgasd!, Figyelj!, vagy Betűzd!”. A DeepMind azonban sokkal durvább terepen bizonyított, méghozzá több ezer órányi BBC műsor megnézésével és elemzésével.

Valós emberek, valós helyzetekben kimondott szavait ismeri fel a rendszer

Az eredmények nagyszerűségét jól érzékelteti, hogy a brit csatorna politikai vitaműsoraiban elhangzottakat a professzionális szájról olvasók 12,4 százalékban tudták értelmezni és ez az a műsoranyag, ahol a Google MI-je közel 50 százalékot tud.

Féljünk tőle, vagy már mindegy?

Több mint 5000 órányi műsort nézett végig az MI, amibe olyan adások kerültek be, mint a Newsnight, a Question Time, vagy a World Today. Vagyis minden esetben élő, valódi beszédet kellett beazonosítania. A videók 118 ezer különböző mondatot, illetve 17 500 egyedi szót tartalmaztak, amivel szemben a LipNetnek mindössze 51 szóval kellett megbirkóznia.

Az eljárás metodikájának egyik egyszerűbb illusztrációja

Most próbáljuk elnyomni magunkban a lehetséges összeesküvés elméleteket és koncentráljunk arra, mi mindenre lehet majd használni mindezt. A DeepMind tudósai szerint a hallássérültek így érthetik majd meg, hogy miről beszélnek körülöttük az emberek, hasznos lehet a némafilmek feliratozásában is, de a jövőben némán is szólhatnánk a digitális asszisztensekhez (Siri, Alexa, Cortana), ami miatt valószínűleg sokkal többen is próbálkoznának meg így információhoz jutni pl. publikus helyeken.

A kutatók szerint azért sem kell nagyon aggódnunk a magánszféránk miatt, mert egy-egy ilyen szájról leolvasás csak akkor működik, ha az illető tökéletes minőségű videófelvételen látható huzamosabb ideig. De mivel egy ilyen megfigyelés simán megoldható manapság, mi mégis aggódunk egy kicsit.