Valami biztosan van a levegőben, mert rövid időn belül ez a második szenzációs hír a szájról olvasás témakörében. Pár nappal ezelőtt a LipNet nevű rendszerről számoltunk be, amely félelmetes, 93,4 százalékos hatékonysággal tudta leolvasni, hogy milyen szavakat ejt ki az ember a száján.
Politkiai szövegen edződött intelligencia
Nem kerülhető ki a 46,8 százalékos hatékonyság, ami a LipNet ismerete nélkül bőven zseniális lenne, de így maximum egy biccentésre jó. Ezért is teszik hozzá a Google és az Oxfordi Egyetem szakemberi rögtön, hogy hatalmas különbség van a két eljárás és módszer között.
A LipNet esetében ugyanis a teszteket speciális környezetben végezték, ahol önkéntesek mondtak ki olyan átlagos kifejezéseket, mint a „Nézd!, Hallgasd!, Figyelj!, vagy Betűzd!”. A DeepMind azonban sokkal durvább terepen bizonyított, méghozzá több ezer órányi BBC műsor megnézésével és elemzésével.
Az eredmények nagyszerűségét jól érzékelteti, hogy a brit csatorna politikai vitaműsoraiban elhangzottakat a professzionális szájról olvasók 12,4 százalékban tudták értelmezni és ez az a műsoranyag, ahol a Google MI-je közel 50 százalékot tud.
Féljünk tőle, vagy már mindegy?
Több mint 5000 órányi műsort nézett végig az MI, amibe olyan adások kerültek be, mint a Newsnight, a Question Time, vagy a World Today. Vagyis minden esetben élő, valódi beszédet kellett beazonosítania. A videók 118 ezer különböző mondatot, illetve 17 500 egyedi szót tartalmaztak, amivel szemben a LipNetnek mindössze 51 szóval kellett megbirkóznia.
Most próbáljuk elnyomni magunkban a lehetséges összeesküvés elméleteket és koncentráljunk arra, mi mindenre lehet majd használni mindezt. A DeepMind tudósai szerint a hallássérültek így érthetik majd meg, hogy miről beszélnek körülöttük az emberek, hasznos lehet a némafilmek feliratozásában is, de a jövőben némán is szólhatnánk a digitális asszisztensekhez (Siri, Alexa, Cortana), ami miatt valószínűleg sokkal többen is próbálkoznának meg így információhoz jutni pl. publikus helyeken.
A kutatók szerint azért sem kell nagyon aggódnunk a magánszféránk miatt, mert egy-egy ilyen szájról leolvasás csak akkor működik, ha az illető tökéletes minőségű videófelvételen látható huzamosabb ideig. De mivel egy ilyen megfigyelés simán megoldható manapság, mi mégis aggódunk egy kicsit.