A jövő számtalan, egymásba olvadó technológia kaotikus egyvelege, amiben meg kell tanulnunk valahogyan járható utat vágni – egy ilyen út például az a látásmód, ami a felhasználói felületek és azok gyakorlatiasítása során jelentkezik. Ennek egyik legjobb példája a nemrégen hazánkban járt Jody Medich, UX-designer és kutató, a Singularity University designigazgatója, akivel a kiterjesztett és virtuális valóságok fejlődéséről beszélgettünk, illetve arról, hogy a mesterséges intelligenciák és a gépi tanulás hol csatlakozik ezen fejlesztésekhez.
Többször foglalkoztunk már korábban DARPA-támogatta anyagokkal és a Big Dog-szériával, ezért is figyeltem fel arra a munkára, amit velük végzett (Medich azt a rendszert segített felépíteni, amivel a katonák képesek jelnyelvben kommunikálni a robotokkal harctéri körülmények között – szerk). Tudna arról mesélni, hogy miért pont a taktikai jelnyelv lett a befutó?
JM: Ez volt a leggyorsabb megoldás. A különböző kézmozdulatokat egyébkéntis nehéz megtanulni – ez is a probléma a gesztusalapú kommunikációval, hiszen az emberek egy bizonyos alkalmazás esetén nem tudnak 3-5 új mozdulatnál többre emlékezni. Az ASL (az amerikai jelnyelv – szerk.) esetében sok időre van szükség nem csak ahhoz, hogy megtanuljuk, hanem hogy folyékonyan is tudjuk használni. Kifejezetten nehéz egy olyan rendszert építeni, ami csak három mozdulatra és azok kombinációira épít. Ezért voltunk szerencsések, láttuk azt, hogy van már egy különleges katonai jelnyelv és nem kellett a taktikai osztag tagjainak tanítanunk semmit. Ezért döntöttünk ezen nyelv mellett.
Ráadásul nehéz általános kommunikációhoz kidolgozni egy alapvető jelnyelvet, a kultúrák közötti gesztusok ugyanis eltérnek. Amikor a Microsoft HoloLens-t fejlesztettük, kitaláltuk azt, hogy ezzel a mozdulattal (ld. a fenti videót) lehessen előhozni a menüt. Ezzel a mozdulattal, aminek az ellentettével az olaszok azt jelzik valakinek, hogy idióta. Egy másik alkalommal azt találtuk ki, hogy amikor a zenelejátszót akarjuk elindítani, akkor mutassunk egy rockvillát. Ami a braziloknál azt jelenti, hogy “megvolt a feleséged”. Nem könnyű egységes nyelvet kialakítani mindezek között. Még a jelnyelvek is különböznek, van amerikai, van európai, ezeknek vannak variációik – értelemszerűen, hiszen nyelvekről beszélünk. Úgyhogy elég nehéz egy jelzésnyelvet választani, amivel beszélhetünk a gépekhez – igaz, kinevezhetnénk valamit köznyelvnek és akkor azt kellene megtanulnia mindenkinek. Ez pedig gyakorlatból tudható, hogy nem működőképes. Ezért tartom azt annyira fontosnak, hogy a rendszerek megtanuljanak adaptálódni hozzánk.
Korábban említette már azt, hogy az emberek kénytelenek gépül beszélni. Hol van a jó kompromisszumos megoldás ember és gép között?
JM: A gépi tanulás akkor működik a legjobban, ha a technológia meglátja a mintákat, de természetesen nem zárható ki, hogy inkorrekt következtetéseket von le a megfigyelésekből, ezt tudjuk. Egyfajta beszélgetésnek kell kialakulnia ember és gép között, egy olyan beszédhelyzetnek, ahol az ember mondhatja azt, hogy “nem, ne így csináld, inkább így”. A kialakuló beszélgetésnek sosem szabad egyoldalúnak lennie. Ha megnézzük a mi mostani beszélgetésünket, te is megnézted a videóimat, vannak kérdéseid felém – és pont ez a beszélgetéseim lényege, provokálni kell az embereket ahhoz, hogy beszélgetést kezdeményezzenek. Ugyanezt kellene tapasztalnunk majd az említett rendszereknél is – a gépeknek meg kell tanulniuk annyit rólunk, amennyit csak lehet, majd ezt egyeztetniük kell velünk, hogy ez mindkét fél számára működő szisztémát hozzon létre.
Mi a helyzet az anomáliákkal, az inkorrekt következtetésekkel? A gépi tanulással kapcsolatban abból az elméletből indulunk ki, hogy van egy elvárt működési folyamata a gépi-emberi interakciónak, de sokszor ez nem így van…
JM: Hát nem. Szerencsére nem vagyunk kétdimenziós rajzfilmkarakterek. Ráadásul minden ember más, vannak olyanok, akik bizonyos helyzetekben roppant kommunikatívak, máskor meg egy szót nem tudunk kihúzni belőlük. Jelenleg meg vagyunk mi meg a számítógépeink és bármit is akarunk csinálni, alkalmazkodnunk kell a gépünkhöz. Ez egy egyoldalú kommunikáció, roppantul szűk kommunikációs csatorna. Úgyhogy amikor gépi tanulásról vagy AI-tréningről beszélünk, úgy vélem, a legjobban a kutyaneveléshez lehetne ezt hasonlítani. A kutyáink kellően komplex lények, megvannak a maguk kutyaszerű viselkedésformái, amik nekik teljesen normálisak, mi pedig úgy véljük, hogy teljesen meg vannak kergülve. Nekünk, embereknek meg megvannak a magunk dolgai, a kutyáink pedig nem értik, hogy miért megyünk ki a lakásból az esőbe, például. Ha például egy emberrel beszélgetek, ezerféleképpen invitálhatom arra, hogy foglaljon helyet, egy kutyának viszont csak egy szót tudunk megtanítani, ennyire emlékszik. Ez egy kétirányú tanulási folyamat, legalább annyit tanulok a kutyámról, mint amennyit ő rólam. A gépekkel ugyanez a helyzet.
A nagyközönség a technológiát a leggyakorlatibb oldaláról szereti megközelíteni. Mit lát most az AR és a VR világában a közeljövőben, mik a leggyakorlatiasabb felhasználási módok?
JM: Túl sok van! Az AR esetében a legfontosabb talán a hatékonysági megoldások lesznek a legfontosabbak. Azért is, mert az AR mindent lát, ami a látómezőnkben van, a gépi tanulás pedig jól működik együtt a képfelismerő rendszerekkel, úgyhogy egyszerű megérteni a kontextust. És ez a számítógépek esetében igencsak egyedi dolog, ugyanis a kontextus hiányzik a legjobban. Ez a legfájóbb dolog, tekintve hogy a felhasználói élmény alapjáról beszélünk. Gondoljunk csak például az autóvásárlásra: ha vettem egy autót, nem akarok olyan online reklámot látni, ami még egy autót akarna eladni nekem. Úgyhogy a hatékonyság jelentősen fejlődhetne az ilyen technológiák révén.
És mit gondol az AR-élmény problémáiról? Kezdve azzal, hogy az agyunknak kétféle valóságot kell kezelnie egyidőben – a hús-vér valósat és a cunamiként érkező értesítéseket?
JM: Ezért is fontos a kontextus, ezért kell azt beleégetni az új készülékekbe. Ha belegondolok a Google Glass példájába, gyakorlatilag az képezi le, hogy milyen mostanság az ember-számítógép modell. A számítógép mindent elmond nekem, amit akarok, pedig én csak két opciót szeretnék látni. Ez nagy probléma. Önmagában már az probléma, amikor leülök a gép elé és azonnal elvonódik a figyelmem vagy túlcsordulok ingerekkel, amikor multitaskolni szeretnék. És ha ugyanezt egy képernyőn keresztül élném meg és ott például már a velem szembejövők arca mellett kezdenék el adatokat látni, az ijesztő. Ez az egyik legerősebb rémálmom. És ezért is hoztam fel a kontexus kérdését, mert az itt válik roppantul fontossá. Ha ugyanis most veled szemben ülve egy AR-szemüveg lenne rajtam, nem akarnám azt, hogy elkezdje mutogatni, hogy milyen cikkeket írtál eddig, vagy mennyi a testhőmérsékleted. És azt sem akarom tudni, hogy milyen messze vagyok attól a vasútállomástól, ahova egyébként sem akarok eljutni.
Ellenben ez az adatsűrűség remekül jöhet például a hírszerzőknek vagy a pénzügyi elemzőknek, már ha AR-hez nyúlnak.
JM: Természetesen, és ez is a kontextus függvényében zajlik! Nemcsak a környezetemről beszélünk, hanem arról is, hogy én hogyan viselkedem ebben a környezetben. Lehet, hogy pár perc elteltével mégiscsak meg akarom nézni, hogy milyen cikkeket írtál. Vagy a beszélgetésünk előtt szeretném látni a cikklistát, mert kíváncsi vagyok, hogy az érdeklődési területeink hol találkoznak. De most itt ülünk és nincs szükségem ezekre az információkra beszélgetés közben, arra meg pláne nem, hogy itt villogjon minden a szemem előtt. Meg kell tehát értenünk az általunk tett dolgok helybeliségét meg azt is, hogy mi az emberek közti kommunikáció kontextusa. A te AR-rendszered például teljesen eltérően fog működni az enyémtől. És itt köthetjük vissza az AI-tréninghez az egészet: a gépnek meg kell tanulnia engem legalább annyira, mint amennyire én megtanulom a gépemet, hogy a kettőnk viszonyából együttműködés születhessen, ne pedig zavar.
Mikor számíthatunk erre?
JM: Nem mondanám, hogy sok időt kell erre várnunk, főként, hogy az ehhez szükséges technológiák nem egymástól elzárva,hanem egymás mellett alakulnak. Ezek a technológiák, amikről beszélgetünk, most vannak éppen születőben, viszont van még egy pár dologra szükségünk ahhoz, hogy ezek a megoldások mindenhol el tudjanak terjedni..
És itt dobhatjuk be a Pokémon GO-t…
JM: Igen! Amennyire vicces kis játékként indult el, maga rohangáló kis figuráival, annyira kellemetlen lett, amikor ezek a lények például megjelentek Auschwitzban. Mert egy olyan buborékban fejlesztették ki ezeket, ahol a kód nem kommunikált más rendszerekkel, nem volt helyzetérzékenység. Ha volt valahol szabad hely, akkor megjelentek a környéken. Konklúzió: a kulturális kontextusról sem feledkezhetünk meg.
Miként fogja egy AI kezelni az ilyen vagy ehhez hasonló helyzeteket egy AR- vagy VR-környezetben?
JM: Ez a VR egyik legjobb hozadéka – képes empátiát kelteni embertársaink iránt, mert megnézhetem a dolgokat az ő szempontjukból is. Ezen dolgoznak most az AR-fejlesztők is, hogy kitalálják: hogyan tudjuk azt látni, amit mások látnak? Ez nemcsak a nyelvünket fordítja le, hanem a tapasztalatainkat is – úgyhogy nem csak a te nyelvedet fordítja le az enyémre, hanem segít megérteni azt, hogy te hogyan értesz meg engem.
Mi a helyzet az AR és a VR ötvözéséből született kevert valósággal?
JM: Ez egy roppantul izgalmas dolog, amit még fel kell fedeznünk magunknak, erre nincs kész válasz. Gyanítom, hogy a kevert valóság hoz magával egy harmadik fajta valóságot, ami nem hús-vér, nem virtuális, hanem a kettő kombinációjából álló valami, ahol olyan dolgok történnek meg, amik külön-külön egyikben sem történhetnek meg. Amikor a jövőre gondolok, ez az egyik legnagyobb megválaszolatlan kérdés és egyben a legnagyobb potenciális lehetőség is. Sokat beszélek a dematerializálódó világról az új technológiák megjelenésekor. Most már jó képünk is van arról, hogy mit csináltak velünk eddig a számítógépek. És most még azt is akarjuk, hogy a gépeken keresztül is nézzük mindent? Ez a szoba, ahol beszélgetünk, tömve lehetne emberekkel, akik fizikailag nincsenek itt, de amúgy itt vannak, de nem *itt* vannak…
Ez eléggé emlékeztet a Facebook-barátságok társadalmi megítélésére, amikor egyesek például nem tudják kezelni azt, hogy a hús-vér világban barátok valakikkel, de a Facebookon nem létezik egy hasonlóan erős kötés. Vagy éppen fordítva.
JM: Ez most még létezik, amikor éles határ van a digitális is a valós világ között. És ez nagyon, nagyon ronda lesz a későbbiekben, el is felejthetjük hamarosan azt a demarkációs vonalat a valóságok között.
Mindez, amiről beszélgettünk, elég élesen jelentkezik a nagyvárosi területeken, de mi a helyzet mondjuk a harmadikvilágbeli országokkal vagy a brazil favelákkal?
JM: Ezekről a helyekről gondolom azt, hogy… ezek a jövő. Nézzük csak meg, hogy hogyan használták a mobiltechnológiát Kínában vagy Indiában, például. Azokról a helyekről beszélünk, ahol nem kellett kalkulálniuk a hagyományos telefonrendszerek megöröklött infrastruktúrájával, az elvárásaik vagy a módszereik nem is ezekhez kötődnek és olyan megoldásokat produkálnak, amik egyszerűen hihetetlenek, észveszejtők.
Ahogy William Gibson is mondta, az utca mindennek megtalálja a saját felhasználási területét..
JM: Pontosan! És annyira különböző és hihetetlen dolgokkal rukkolnak elő, hogy ez nekünk is segít meghaladni a gondolkodásunkat. Vegyünk például egy afrikai diákot, aki nem fér hozzá a közoktatáshoz. Vagy minden tanárra jut négyszáz tanuló, akiket nem lehet életkor szerint szeparálni. Nem tudnak utazni, nem juthatnak el más országokba, nem tudnak terepgyakorlatra menni, nem tudnak kísérletezni, mert se laboruk, se felszerelésük nincs. A tudásanyaguk korlátozott, mert nincs hozzáférésük az összegyűjtött tudásanyaghoz.
És mindezt meg lehet szüntetni egy tablettel. Ha csak fél órát ülnek előtte.. fél óra alatt sétálhatnak a Marson, megnézhetik, hogy milyen egy tanóra a Harvardon, beszélhetnek egy szakértővel bármiről, ami érdekli őket. Nem csak azon kezdhetnek el gondolkodni, hogy hogyan lehet másként használni azt a készüléket, hanem hirtelen hozzáférnek ahhoz a tudáshoz, amit a tablet nélkül sosem tudtak volna elérni. Ez a legizgalmasabb és legjobb dolgok egyike a világon.
Mi volt a legelképesztőbb AR- vagy VR-élmény, amit megélt eddig?
JM: Van egy hihetetlen VR-élmény, de azt nem én éltem át, nem is élhettem át. Arról a rendszerről van szó, amit a kétoldali bénulásban szenvedőknek fejlesztettek, ezt egy exoskeletonnal (hidraulikusan mozgatott mesterséges külső vázzal) kötötték össze. Kiderült, hogy a bénultak egy idő után a VR és a gépi irányítás következtében el tudták kezdeni maguktól mozgatni a lábukat. Minden egyes alkalommal átfut rajtam a hideg, amikor ezt hallom. Ami az AR-t illeti, és itt tegyük hozzá, a VR körülbelül egy évvel mozog az AR előtt még akkor is, ha az AR a kettő közül a sokkal nagyobb dolog – nos, az AR-ben nem volt ilyen elképesztő élményem. Még.
Egy ilyen “még”-et hallva nem tudom nem megkérdezni, hogy mit vár az AR jövőjétől.
JM: Azt mondanám, hogy az AR jövője egy nagyon is alkalmazkodó, reszponzív környezet, nem olyan, mint a mostani előírásszerű, statikus kiterjesztett valóság. Nem azt mondjuk majd, hogy “ha ez történik, ez lesz a következménye”, hanem azt, hogy “itt vannak az építőelemek, figyeld meg az embert, nézd meg, mik történnek, építs ebből egy modellt és a helyzettől függően reagálj rám eszerint.” Mindezek mellett az AI szerepe sokkal erősebb, mint sokan gondolnák – nem is látok jövőt a kiterjesztett valóságban az AI vagy legalábbis a gépi tanulás nélkül.