Tudomány

Ijesztően jól olvas szájról és még csak nem is ember

Horváth Balázs
Horváth Balázs

újságíró. 2016. 11. 24. 19:43

Hanem robot, sőt, valójában a Google által kiképzett mesterséges intelligencia.
Korábban a témában:

Valami biztosan van a levegőben, mert rövid időn belül ez a második szenzációs hír a szájról olvasás témakörében. Pár nappal ezelőtt a LipNet nevű rendszerről számoltunk be, amely félelmetes, 93,4 százalékos hatékonysággal tudta leolvasni, hogy milyen szavakat ejt ki az ember a száján.

Most viszont a Google MI (mesterséges intelligencia) részlege, a DeepMind mutatta be, hogy hova jutottak ezen a téren és ez, ha lehet, még félelmetesebb eredményeket produkált.

Politkiai szövegen edződött intelligencia

Nem kerülhető ki a 46,8 százalékos hatékonyság, ami a LipNet ismerete nélkül bőven zseniális lenne, de így maximum egy biccentésre jó. Ezért is teszik hozzá a Google és az Oxfordi Egyetem szakemberi rögtön, hogy hatalmas különbség van a két eljárás és módszer között.

A LipNet esetében ugyanis a teszteket speciális környezetben végezték, ahol önkéntesek mondtak ki olyan átlagos kifejezéseket, mint a „Nézd!, Hallgasd!, Figyelj!, vagy Betűzd!”. A DeepMind azonban sokkal durvább terepen bizonyított, méghozzá több ezer órányi BBC műsor megnézésével és elemzésével.

Valós emberek, valós helyzetekben kimondott szavait ismeri fel a rendszer

Az eredmények nagyszerűségét jól érzékelteti, hogy a brit csatorna politikai vitaműsoraiban elhangzottakat a professzionális szájról olvasók 12,4 százalékban tudták értelmezni és ez az a műsoranyag, ahol a Google MI-je közel 50 százalékot tud.

Féljünk tőle, vagy már mindegy?

Több mint 5000 órányi műsort nézett végig az MI, amibe olyan adások kerültek be, mint a Newsnight, a Question Time, vagy a World Today. Vagyis minden esetben élő, valódi beszédet kellett beazonosítania. A videók 118 ezer különböző mondatot, illetve 17 500 egyedi szót tartalmaztak, amivel szemben a LipNetnek mindössze 51 szóval kellett megbirkóznia.

Az eljárás metodikájának egyik egyszerűbb illusztrációja

Most próbáljuk elnyomni magunkban a lehetséges összeesküvés elméleteket és koncentráljunk arra, mi mindenre lehet majd használni mindezt. A DeepMind tudósai szerint a hallássérültek így érthetik majd meg, hogy miről beszélnek körülöttük az emberek, hasznos lehet a némafilmek feliratozásában is, de a jövőben némán is szólhatnánk a digitális asszisztensekhez (Siri, Alexa, Cortana), ami miatt valószínűleg sokkal többen is próbálkoznának meg így információhoz jutni pl. publikus helyeken.

A kutatók szerint azért sem kell nagyon aggódnunk a magánszféránk miatt, mert egy-egy ilyen szájról leolvasás csak akkor működik, ha az illető tökéletes minőségű videófelvételen látható huzamosabb ideig. De mivel egy ilyen megfigyelés simán megoldható manapság, mi mégis aggódunk egy kicsit.

vissza a címlapra

Kommentek

Legfrissebb videó mutasd mind

LONDON, ENGLAND - MARCH 22:  A member of the public is treated by emergency services near Westminster Bridge and the Houses of Parliament on March 22, 2017 in London, England. A police officer has been stabbed near to the British Parliament and the alleged assailant shot by armed police. Scotland Yard report they have been called to an incident on Westminster Bridge where several people have been injured by a car.  (Photo by Carl Court/Getty Images)
Nézd meg a legfrissebb cikkeinket a címlapon!
24-logo

Engedélyezi, hogy a 24.hu értesítéseket
küldjön Önnek a kiemelt hírekről?
Az értesítések bármikor kikapcsolhatók
a böngésző beállításaiban.