A Google-nál teljes mértékben a Gemini-korszakot éljük
– mondta Sundar Pichai Google-vezér a nyitóbeszédében, ami egyrészt kikacsintás volt Taylor Swift The Eras koncerttunéjára, másrészt tökéletes összefoglalója annak, hogy miről fog szólni a 2024-es Google I/O, illetve a keresőóriás elkövetkezendő néhány éve.
A Gemini a cég saját fejlesztésű, 2023-ban debütált, több nagy nyelvi modellt is tartalmazó mesterséges intelligencia platformja, ami a közeljövőben beépül a vállalat összes szolgáltatásába és szoftverébe, a Google keresőmotortól kezdve az Android mobil operációs rendszeren át egészen a Gmail levelezőig és a Google Fotókig.
Ahová lépünk, MI terem
A mesterséges intelligencia sokáig csak sci-fi és elmélet volt, az utóbbi években viszont szép lassan az életünk részévé vált. Nem támadt az emberiségre, mint a SkyNet a Terminátor-filmekben, helyette észrevétlenül teszi jobbá az okostelefonos képeinket, válaszol a kérdéseinkre egyre fejlettebb chatbotok képében, megdöbbentő videókat készít pusztán szavak alapján vagy éppen megkönnyíti a netes keresést a mobiljainkon. A piacon már kaphatók az első MI-alapú kütyük, az OpenAI a GPT-4o-val lassan valósággá váltja a Scarlett Johansson és Joaquin Phoenix főszereplésével készült A nő (Her) virtuális asszisztensét, és alig akad olyan vállalat, ami ne akarna egy jókora szeletet a mesterséges intelligencia tortából.
Egy profitorientált vállalatról van szó, ahol minden termék mögött a bevételtermelés reménye áll, így nem feltétlenül a világ jobbá tétele a cél, de ettől még a prezentáció során láthattunk olyan fejlesztéseket, amik hasznosak lehetnek a mindennapokban. A teljesség igénye nélkül itt van néhány tényleg ígéretes megoldás, ami kezdésnek a bétatesztelőknek, majd idővel szélesebb rétegek számára is elérhetővé válik:
- A Gemini nemcsak alkalmazásként lesz elérhető az okostelefonokon, de a Gemini Nano beépül az Androidba (leváltva a Google Asszisztenst), és többek között képes lesz arra, hogy – szigorúan a készüléken futva – velünk együtt valós időben hallgassa a beérkező hívásainkat és figyelmeztessen, ha olyan beszélgetési mintát érzékel, ami csalásra utal. A cég demójában az MI egy olyan, hazánkban is gyakori átverés miatt riasztott, mikor a vonal másik végén lévő csaló banki ügyintézőnek adja ki magát, és a saját védelmünkben a pénzünk elutalására biztat.
- Az Egyesült Államokban már a nyár folyamán elérhetővé válik a Google Fotók mesterséges intelligencia hajtotta új funkciója, az Ask Photos, amivel a vállalat felhőjében tárolt képeink közti keresés válik a korábbinál sokkal hatékonyabbá. Ha például elfelejtenénk a rendszámunkat, akkor nem kell a több évnyi felvétel között keresni egy fotót, amin szerepel az adat, csupán rá kell kérdezni az alkalmazásban, hogy „mi a rendszámom?”, és az MI azonnal talál nekünk egy képet, amiről leolvasható az információ – már amennyiben a múltban készült ilyen fotó.
- A Gemini integrálódik a Google Workspace szolgáltatásaiba (Gmail, Naptár, Drive, Dokumentumok, Meet) is, és többek között használható lesz arra, hogy összefoglalja számunkra egy több e-mailből álló levélváltás tartalmát, sőt, akár azt is kérhetjük majd, hogy készítsen egy kategóriákra bontott táblázatot a költéseinkről a postafiókunkba érkezett vásárlási visszaigazolások alapján.
- A NotebookLM az egyszerű magolásnál sokkal szórakoztatóbbá és interaktívabbá teheti a tanulást. A szoftverbe lényegében bármilyen témában feltölthető forrás (tankönyv, videók, ábrák, jegyzetek), az MI ezeket feldolgozza, majd készít belőle egy olyan hanganyagot, ahol két különböző orgánummal rendelkező virtuális entitás egy beszélgetés formájában, közérthetően összefoglalja a begyűjtött információkat – amit önállóan kiegészíthet máshonnan származó információkkal. Ez már önmagában lenyűgöző, de a társalgásba be lehet csatlakozni, hogy kérdéseket tegyünk fel a mesterséges intelligenciának. A Google demójában a különböző erőhatások volt a választott téma, amire a prezentáló egy kosárlabdás példát kért beszélgetés közben, az MI pedig készségesen válaszolt.
- Fejlődik az Androidon elérhető, tavaly debütált MI-alapú Circle to Search funkció is, ami a LearnLM jóvoltából idővel arra is képes lesz, hogy értelmezzen és megoldjon összetettebb problémákat. Egy írásos matematikai feladványt bekarikázva például prezentálhatja számunkra a megoldást.
- A bemutató során többször is elhangzott, hogy a Gemini multimodális, azaz képes feldolgozni a szöveget, a hangot, a képet és a videót, és a kinyert információkat összefüggésükben kezelni. Ezt a Project Astrával demonstrálta a cég, amit a jövő digitális asszisztenseként mutattak be, és képes arra, hogy kommunikáljon a felhasználóval, aki egy kamerán keresztül közvetíti a valóságot, miközben élőszóban tesz fel kérdéseket az MI-nek a látottakkal kapcsolatban – legyen az egy tárgy felismerése, vagy éppen egy monitoron látszódó programozási kódsor értelmezése. A Google mindezt először egy okostelefonnal demonstrálta, de aztán előkerült egy kameraként funkcionáló szemüveg is, így nem elképzelhetetlen, hogy valamikor a közeljövőben visszatér a mesterséges intelligenciával felvértezett Google Glass.
A Google fog helyetted guglizni
A Google legfontosabb terméke (és bevételének egyik legnagyobb forrása) persze továbbra is a Google kereső, ami nagyjából 25 éve ugyanúgy működik: a keresőmotor indexeli az internetre kikerülő tartalmakat, majd egy keresést követően ezeket attól függően rendezi egymást követő linkek sorozatába a felhasználó számára, hogy a rendszer mennyire tartja őket relevánsnak a bepötyögött keresőszavak fényében.
Az elmúlt negyed században konkrét szakma (SEO) épült arra, hogy lehet jó helyen végezni a találati listákban, bevétele pedig abból lesz a Google-nek, hogy pénzért be lehet kerülni az első pár találat közé hirdetés formájában.
Az AI Overview legegyszerűbben úgy írható le, ahogy azt a prezentációjában Liz Reid összefoglalta: „Google will do the googling”, azaz a Google fog helyettünk guglizni. Eddig úgy zajlott a keresés, hogy beírtuk a keresőszavakat, aztán a megjelenő linkek között csemegézve, azokat lekattintva begyűjtöttük a számunkra releváns információkat.
Ennek vethet véget a multimodális Gemini integrálása, ami képeket, szövegeket és videókat feldolgozva anélkül nyújt komplex válaszokat, hogy akár egyetlen linket is megnyitnánk. A Google egy jól megfogalmazott keresésre már eddig is sokszor megjelenített az oldal tetején egy konkrét választ (amit például egy cikkből emelt ki), de a jövőben ez válhat általánossá, azzal a különbséggel, hogy az MI több forrásból összegyűjtött információk alapján fogalmazza meg a választ.
És ez csak a kezdet, hiszen az egyre több információt feldolgozni képes mesterséges intelligenciát akár arra is kérhetjük majd, hogy több információt megadva (hely, idő, résztvevők, utóbbiak igényei) állítson össze egy utazási tervet – amit a Google meg is fog tenni, gusztusos formában tálalva számunkra a különböző lehetőségeket.
Ördögi kör
Ez elsőre jól hangzik, de van egy olyan bökkenő, amiről a Google egyetlen szót sem ejtett a kétórás prezentációja során: az új rendszer teljesen felborítja az elmúlt 25 évben felépített azon ökoszisztémát, ami kedvező volt a felhasználóknak, a keresőóriásnak és a keresőóriás találatait biztosító tartalomgyártóknak is. A Google-t használva az emberek megtalálták a számukra releváns tartalmakat, a keresőnek hála a tartalomgyártók forgalomhoz jutottak, a forgalomból pedig bevétel keletkezett.
Erre a kérdésre konkrét választ adni most még nem lehet, de az optimista MI-jövőkép alatt itt azért már felsejlenek a forradalmi változás problémás részletei.
Mert ha a mesterséges intelligencia begyűjti a más által biztosított információt, de az előállítójához (legyen az híroldal, egy blog, vagy akár egy YouTube-csatorna) nem érkezik (elég) forgalom, akkor nem lesz bevétel, ha pedig nincs bevétel, akkor nem lesz tartalomgyártás, ami oda vezet, hogy nem keletkezik új és releváns tartalom.
Egy másik lehetséges kimenetel, hogy a felhasználást és a forgalom elmaradását látva a tartalomgyártók egész egyszerűen nem teszik lehetővé, hogy a Google hozzáférjen a tartalmaikhoz, tehát azt nem használhatja a kereső és a mesterséges intelligencia, ami megint csak oda vezet, hogy kevesebb lesz a már megszokott módon elérhető jó minőségű tartalom. Ami senkinek nem jó, mind veszítünk vele.
Láthattunk egy olyan fejlesztést is, amivel úgy kérhető segítséget az MI-től, hogy levideózunk egy rosszul működő lemezjátszót, feltéve a kérdést, hogy mi lehet a probléma? A Gemini pedig a neten lévő tartalmakat felhasználva ad egy leírást, hogy mi a megoldás. A gond itt ugyanaz, mint fentebb: a mesterséges intelligencia megszerezheti a választ egy, nem feltétlenül a bevételért teperő lelkes videóstól, aki elmagyarázza, mit kell tenni, de az MI-keresésből nézettsége ebből nem lesz, ami hosszú távon oda vezethet, hogy felhagy a tartalomgyártással, tehát megint csak kevesebb lesz az olyan információ a neten, ami a felhasználó számára értékes lehet.
Ezekre a dilemmákra a Google egyelőre túl sok konkrét választ nem adott, azt leszámítva, hogy a hagyományos keresés nem fog teljesen eltűnni, továbbra is elérhetők lesznek a klasszikus linkek, sőt, Liz Reid arról beszélt, hogy az AI Overview a tapasztalataik alapján csak tovább növelte a keresés közbeni kattintásokat – ezt a kijelentést azonban érdemes némi szkepticizmussal kezelni.
Emellett az sem világos még, hogy a hagyományos keresésnél jóval nagyobb erőforrást igénylő, éppen ezért magasabb költséggel járó mesterséges intelligencia-használatot a cég milyen módon fogja ellensúlyozni. Drágábbá válnak a hirdetések? Vagy – ahogy azt egy ideje már pletyka szinten hallani – fizetős lesz a mesterséges intelligenciát használó Google keresés, így csak a tehetősebbek férhetnek hozzá az MI nyújtotta jobb, kényelmesebb és gyorsabb megoldásokhoz? Ma még erre sincsenek konkrét válaszok.
Nem vagyunk egyenlők
Abban persze nincs semmi meglepő, hogy a cégek pénzt vagy az átlagnál valamivel több pénzt kérnek a prémium szolgáltatásokért. A jobb színházi ülőhely drágább, a Netflix is többe kerül, ha egyszerre több tévén és 4K minőségben akarjuk élvezni a filmeket, ahogy fizetni kell azért is, hogy ne legyen reklám a YouTube-on és a Spotify-on, és az OpenAI is megkéri az árát, hogy használhassuk a legjobb nyelvi modelljeit.
Egyenlőtlenséget viszont nemcsak az okozhat, hogy valaki megengedheti-e magának a prémium szolgáltatást, avagy sem. Ilyen tényező lehet az is, hogy hol él és milyen nyelvet beszél. Bár manapság folyamatosan arról van szó, hogy a mesterséges intelligencia milyen fejlődést hoz, a nyelvi korlátokat még mindig nem sikerült áthidalni. Ez rögtön kiderül, ha elkezdünk angol szöveget magyarra fordíttatni bármelyik MI hajtotta chatbot segítségével, legyen az a Copilot, a ChatGPT vagy éppen a Gemini.
Az is megszokott, hogy a Google-hoz hasonló nagy cégek először az Egyesült Államokban teszik elérhetővé az újdonságaikat, és csak később következnek más régiók. Ám a cég hiába beszél arról, hogy a fejlesztései hamarosan milliók, sőt milliárdok számára lesznek elérhetők, ez koránt sem jelenti azt, hogy a közeljövőben a (csak) magyarul kommunikáló emberek például hozzáférhetnek a fentebb említett újdonságokhoz. Jól példázza ezt a 2016-ban debütált Google Asszisztens, ami a megjelenése óta nem tanult meg magyarul, és jó eséllyel egy darabig még nem is fog – ami miatt a gyártó kapcsolódó eszközei itthon hivatalosan nem is kaphatók, sőt, sok esetben más cégek egyes termékeinél ezért nem érhetők el bizonyos funkciók.
Ez valószínűleg a mesterséges intelligencia esetében sem fog változni egy darabig, szóval arra még néhány évet biztos várnunk kell, hogy egy videó rögzítése közben magyarul kérdezhessük meg a Google-től, hogyan is kell megszerelni a problémás lemezjátszónkat. Kizárva persze nem vagyunk, hiszen más nyelveken például itthon is használható a Google Asszisztens, és bár a Gemini okostelefonos verziója hazánkban nem letölthető, a webes verzióval azért már a saját anyanyelvünkön is cseveghetünk.