Tudomány

Ijesztően jól olvas szájról és még csak nem is ember

Hanem robot, sőt, valójában a Google által kiképzett mesterséges intelligencia.

Valami biztosan van a levegőben, mert rövid időn belül ez a második szenzációs hír a szájról olvasás témakörében. Pár nappal ezelőtt a LipNet nevű rendszerről számoltunk be, amely félelmetes, 93,4 százalékos hatékonysággal tudta leolvasni, hogy milyen szavakat ejt ki az ember a száján.

Most viszont a Google MI (mesterséges intelligencia) részlege, a DeepMind mutatta be, hogy hova jutottak ezen a téren és ez, ha lehet, még félelmetesebb eredményeket produkált.

Politkiai szövegen edződött intelligencia

Nem kerülhető ki a 46,8 százalékos hatékonyság, ami a LipNet ismerete nélkül bőven zseniális lenne, de így maximum egy biccentésre jó. Ezért is teszik hozzá a Google és az Oxfordi Egyetem szakemberi rögtön, hogy hatalmas különbség van a két eljárás és módszer között.

A LipNet esetében ugyanis a teszteket speciális környezetben végezték, ahol önkéntesek mondtak ki olyan átlagos kifejezéseket, mint a „Nézd!, Hallgasd!, Figyelj!, vagy Betűzd!”. A DeepMind azonban sokkal durvább terepen bizonyított, méghozzá több ezer órányi BBC műsor megnézésével és elemzésével.

google_deepmind_lip
Valós emberek, valós helyzetekben kimondott szavait ismeri fel a rendszer

Az eredmények nagyszerűségét jól érzékelteti, hogy a brit csatorna politikai vitaműsoraiban elhangzottakat a professzionális szájról olvasók 12,4 százalékban tudták értelmezni és ez az a műsoranyag, ahol a Google MI-je közel 50 százalékot tud.

Féljünk tőle, vagy már mindegy?

Több mint 5000 órányi műsort nézett végig az MI, amibe olyan adások kerültek be, mint a Newsnight, a Question Time, vagy a World Today. Vagyis minden esetben élő, valódi beszédet kellett beazonosítania. A videók 118 ezer különböző mondatot, illetve 17 500 egyedi szót tartalmaztak, amivel szemben a LipNetnek mindössze 51 szóval kellett megbirkóznia.

Az eljárás metodikájának egyik egyszerűbb illusztrációja
Az eljárás metodikájának egyik egyszerűbb illusztrációja

Most próbáljuk elnyomni magunkban a lehetséges összeesküvés elméleteket és koncentráljunk arra, mi mindenre lehet majd használni mindezt. A DeepMind tudósai szerint a hallássérültek így érthetik majd meg, hogy miről beszélnek körülöttük az emberek, hasznos lehet a némafilmek feliratozásában is, de a jövőben némán is szólhatnánk a digitális asszisztensekhez (Siri, Alexa, Cortana), ami miatt valószínűleg sokkal többen is próbálkoznának meg így információhoz jutni pl. publikus helyeken.

A kutatók szerint azért sem kell nagyon aggódnunk a magánszféránk miatt, mert egy-egy ilyen szájról leolvasás csak akkor működik, ha az illető tökéletes minőségű videófelvételen látható huzamosabb ideig. De mivel egy ilyen megfigyelés simán megoldható manapság, mi mégis aggódunk egy kicsit.

Ajánlott videó

Olvasói sztorik