A gépek eddig nem voltak különösebben sikeresek abban, hogy különféle beszédhangokat szűrjenek ki nagyobb tömegben – elég csak arra gondolni, hogy mi történik akkor, ha valaki egy házibuli közepén, hangos zene közepette beszél egy virtuális asszisztenshez.
A Google ezen a problémán kíván javítani egy saját megoldásával: olyan mélytanulásos rendszert fejlesztettek, ami képes kiszűrni a beszédet a zajos környezetekben úgy, hogy közben az emberek szájáról is “olvas”. Egészen pontosan vizuális jeleket keres a beszélő arcán, gesztusokat, szájmozgásokat.
Az eredményt egy videón is megnézhetjük, amin két humorista beszélget a harsogó tömegben. A szoftver képes csak az egyik beszédét kiemelni olyan módon, hogy a férfi arcára összpontosít, a hangsávról pedig minden más zavaró hangot leválaszt. A feladatot akkor is sikeresen teljesíti, ha az előadó arca részben el van takarva saját kezével, vagy a mikrofonjával.
A Google a jövőben számos termékében tervezi az algoritmus felhasználását. A Hangouts és Duo nevű csetprogramokban például érthetőbbé válhatnának azok a csoportos beszélgetések, amelyekben a résztvevők zajos helyszíneken jelentkeznek be.