Tech

Egyre jobban értik a hangunkat a gépek

A mentális egészségügy legalább annyira láthatja előnyeit az új ausztrál kutatásnak, mint az emberek megértését célzó mesterséges intelligenciák is.

A University of South Queensland szakértői nemrégiben publikálták eddigi kutatásaik eredményét Context-aware Mood Mining címmel. A meglehetősen rövid anyag első megállapítása az, hogy ugyan a köznyelvben nem sok különbséget teszünk a “milyen hangulatban vagyunk” és a “mit érzünk” között, igenis el lehet (és el is kell) ezeket választani egymástól. A hangulat ugyanis hosszabb belső állapotot ír le (hosszát tekintve órákról vagy napokról beszélünk), míg érzelmeink rövid ideig tartanak, múlékonyak (percekről beszélünk, ha már kvantálni kell), így nem is lehet indikátornak tekinteni ezeket sem egészségügyi, sem teljesítménybeli felmérések kapcsán.

Míg érzelmeinket elég könnyen ki lehet olvasni hangunkból és egyes algoritmusok még arra is képesek, hogy érzelmi állapotunk mellett mentális állapotunkat is felderítsék (a Nemesysco által fejlesztett Layered Voice Analysis, azaz LVA nevű technológia például több száz különböző tényezőt figyel beszédünkben és ezekből képes extrapolálni, valamint bizonyos helyzetekben akár hazugságvizsgáló eszközként is működhet), addig hangulatvizsgáló programok, sőt, a hangulatot az érzelmektől elválasztó kutatások sem nagyon léteznek, állítják az ausztrálok.

A kutatók a hangulatvizsgálatot valósághűbbnek tartják, ha egy ember beszédét dialógus közben figyelik meg: a beszélő hanglejtését és hangfekvését ugyanis nemcsak egy referenciaátlaghoz mérjük (ami nem is lehet minden esetben pontos), hanem beszélgetőpartnereinkéhez, az ő átlagukhoz is, ilyen esetben pedig a beszélgetés többi résztvevőjének és az ő mondanivalójuknak érzelmi szerkezete felhasználható környezeti információnak számít majd. Magyarul: ha valaki éppen egy számára izgalmas és érdekes dologról beszél, az esetek nagy részében pozitívan reagálunk rá, ha mi is jó hangulatban vagyunk, ha viszont nagyon magunk alatt vagyunk, nem fog minket magávalragadni a lelkesedés – mindez pedig nagyon jól árulkodik hangulatunkról. Ez tehát azt jelenti, hogy a jövőben a gépek nem csak a kimondott szavak és mondatok értelmét figyelik, hanem a hanglejtést, dinamikát és egyéb meta-információkat is, tehát

úgy fognak olvasni a hangunkban, mint egy másik ember.

A tanulmány hosszasabban is kitér a hangelemzés problematikájára is: a legnagyobb gond a szerzők szerint ott van, hogy a telefonbeszélgetésekből ki kell szűrni a háttérzajokat (legyen az forgalomzaj, tévé a háttérben, kellően hangosan rohangáló gyerekek, stb.), illetve mobilhasználatnál nem állandó a beszélő és a telefon mikrofonja közti táv, ami szintén ronthatja az érzékelést: mindehhez olyan ún. deep neural network nevű  mesterséges idegi hálózatokat használnak fel, amelyek várhatóan gyakrabban is fognak megjelenni a mobilpiacok appjaiban, legalábbis ezt ígéri a Telecom Bretagne három kutatójának nemrégiben publikált anyaga is.  Azt viszont, hogy hogyan dolgozza fel az idegi hálózat azt, ha beszélgetőpartnereink túl sok koffeint isznak és bármivel kapcsolatban tudnak lelkesek lenni, nem részletezték az ausztrál kutatók: valószínűleg tudják, az ilyen és ennél rosszabb anomáliákra is fel kell készülni.

Ajánlott videó

Olvasói sztorik