Tech

Egyre jobban értik a hangunkat a gépek

Bari Máriusz
Bari Máriusz

tech-újságíró, kreatív. 2016. 03. 25. 14:00

A mentális egészségügy legalább annyira láthatja előnyeit az új ausztrál kutatásnak, mint az emberek megértését célzó mesterséges intelligenciák is.

A University of South Queensland szakértői nemrégiben publikálták eddigi kutatásaik eredményét Context-aware Mood Mining címmel. A meglehetősen rövid anyag első megállapítása az, hogy ugyan a köznyelvben nem sok különbséget teszünk a “milyen hangulatban vagyunk” és a “mit érzünk” között, igenis el lehet (és el is kell) ezeket választani egymástól. A hangulat ugyanis hosszabb belső állapotot ír le (hosszát tekintve órákról vagy napokról beszélünk), míg érzelmeink rövid ideig tartanak, múlékonyak (percekről beszélünk, ha már kvantálni kell), így nem is lehet indikátornak tekinteni ezeket sem egészségügyi, sem teljesítménybeli felmérések kapcsán.

Míg érzelmeinket elég könnyen ki lehet olvasni hangunkból és egyes algoritmusok még arra is képesek, hogy érzelmi állapotunk mellett mentális állapotunkat is felderítsék (a Nemesysco által fejlesztett Layered Voice Analysis, azaz LVA nevű technológia például több száz különböző tényezőt figyel beszédünkben és ezekből képes extrapolálni, valamint bizonyos helyzetekben akár hazugságvizsgáló eszközként is működhet), addig hangulatvizsgáló programok, sőt, a hangulatot az érzelmektől elválasztó kutatások sem nagyon léteznek, állítják az ausztrálok.

A kutatók a hangulatvizsgálatot valósághűbbnek tartják, ha egy ember beszédét dialógus közben figyelik meg: a beszélő hanglejtését és hangfekvését ugyanis nemcsak egy referenciaátlaghoz mérjük (ami nem is lehet minden esetben pontos), hanem beszélgetőpartnereinkéhez, az ő átlagukhoz is, ilyen esetben pedig a beszélgetés többi résztvevőjének és az ő mondanivalójuknak érzelmi szerkezete felhasználható környezeti információnak számít majd. Magyarul: ha valaki éppen egy számára izgalmas és érdekes dologról beszél, az esetek nagy részében pozitívan reagálunk rá, ha mi is jó hangulatban vagyunk, ha viszont nagyon magunk alatt vagyunk, nem fog minket magávalragadni a lelkesedés – mindez pedig nagyon jól árulkodik hangulatunkról. Ez tehát azt jelenti, hogy a jövőben a gépek nem csak a kimondott szavak és mondatok értelmét figyelik, hanem a hanglejtést, dinamikát és egyéb meta-információkat is, tehát

úgy fognak olvasni a hangunkban, mint egy másik ember.

A tanulmány hosszasabban is kitér a hangelemzés problematikájára is: a legnagyobb gond a szerzők szerint ott van, hogy a telefonbeszélgetésekből ki kell szűrni a háttérzajokat (legyen az forgalomzaj, tévé a háttérben, kellően hangosan rohangáló gyerekek, stb.), illetve mobilhasználatnál nem állandó a beszélő és a telefon mikrofonja közti táv, ami szintén ronthatja az érzékelést: mindehhez olyan ún. deep neural network nevű  mesterséges idegi hálózatokat használnak fel, amelyek várhatóan gyakrabban is fognak megjelenni a mobilpiacok appjaiban, legalábbis ezt ígéri a Telecom Bretagne három kutatójának nemrégiben publikált anyaga is.  Azt viszont, hogy hogyan dolgozza fel az idegi hálózat azt, ha beszélgetőpartnereink túl sok koffeint isznak és bármivel kapcsolatban tudnak lelkesek lenni, nem részletezték az ausztrál kutatók: valószínűleg tudják, az ilyen és ennél rosszabb anomáliákra is fel kell készülni.

vissza a címlapra

Kommentek

Legfrissebb videó mutasd mind

Armed police patrol near Manchester Arena following a deadly terror attack in Manchester, northwest England on May 23, 2017.
Twenty two people have been killed and dozens injured in Britain's deadliest terror attack in over a decade after a suspected suicide bomber targeted fans leaving a concert of US singer Ariana Grande in Manchester. / AFP PHOTO / Oli SCARFF
Nézd meg a legfrissebb cikkeinket a címlapon!
24-logo

Engedélyezi, hogy a 24.hu értesítéseket
küldjön Önnek a kiemelt hírekről?
Az értesítések bármikor kikapcsolhatók
a böngésző beállításaiban.