Tech

A gépelésnél is gyorsabb a beszédfelismerő szoftver

A Baidu egy nagyon jó beszédfelismerőt készített, de juszt se hajlandó közzétenni.

A beszédfelismerő szoftverek nem mindig vannak a helyzet magaslatán, hiszen nagyon sokszor már egy enyhe háttérzaj is bezavar nekik, arról nem is beszélve, hogy a szókincsük meglehetősen korlátozott, és emiatt viszonylag ritkán tudjuk hasznukat venni. Ám a kínaiak ebből is kihozták a legjobbat, így sikerült egy valóban ütőképes megoldást alkotniuk.

A népszerű kínai keresőmotor, a Baidu fejlesztői létrehozták a Deep Speech 2-t, ami angolt és mandarint háromszor gyorsabban fordít, mint ahogyan egy ember az okostelefonja virtuális billentyűzetét püföli. Sőt, ha ez nem lenne elég, a gépi tanulás folyamatát használja arra, hogy gyorsítsa a saját beszédfelismerési képességét. Legalábbis ezt állítja a Stanford tanulmánya, és ők már csak tudják, hiszen a Washingtoni Egyetemmel együtt segítették a Baidu munkáját.

További érdekesség, hogy a rendszer 20,4 százalékkal kevesebb hibát ejt, mint amikor az ember angol szavakat gépel, és 63,8 százalékkal kevesebbet, mint amikor a mandarint pötyögik. Ebből egyébként arra is lehetne következtetni, hogy a felhasználók lényegesen rosszabbul értik a mandarint, mint az angolt, de inkább ne vonjunk le messzemenő következtetéseket. Bár hozzá kell tenni, hogy emberkísérleteket is végeztek az eredményeket illetően, 32 fő bevonásával. Ők mindannyian okostelefonos QWERTY pötyögéssel, illetve kimondva próbálkoztak olyan kifejezésekkel, mint a “fizika és a kémia nehéz”, “legyen jó hétvégéd”, és “menjünk pizzát enni és sört inni”. A beszédfelismerő sokkal jobban teljesített.

Ennek ellenére a Baidu nem tervezi, hogy publikussá teszi azt, ugyanakkor be fogja építeni a kínai applikációiba, holott a gyakorlati haszna megkérdőjelezhetetlen egy olyan rendszernek, ami tényleg normálisan képes felismerni az emberi beszédet.

Ajánlott videó

Olvasói sztorik