A big data az elmúlt évek egyik felkapott kifejezése, amiről mindenki tudja, hogy nagy lehetőségek rejlenek benne, de azt csak kevesen, hogy a gyakorlatban miként lehet abból előnyt kovácsolni. Nap mint nap ott hagyjuk digitális lábnyomunkat az interneten: böngészünk, vásárolunk, online sorozatokat nézünk, tartalmakat fogyasztunk, de már azzal is adatot generálunk, ha a mobilunk csak ott lapul a zsebünkben. Ebbe pedig újabb források csatlakoznak be: terjednek az okos otthoni eszközök, és egyre többen kezdik használni az analóg adatokat is.
Duzzad az adattenger, híznak az adatbázisok, de azok mit sem érnek, ha nincsenek meg a feldolgozáshoz szükséges eszközök, és legfőképp – ha nincs elég jó minőségű adat, amiből következtetéseket lehet levonni. A big data, mint téma kiemelt szerepet kapott az idei Smart konferencián, ahol többek közt terítékre került az IoT, a jövő közlekedése, a mesterséges intelligencia, az oktatás kérdése is.
Földi Tamás, a budapesti Starschema alapító tagja és fejlesztési igazgatója mesélt arról, hogyan használja fel nagyon okosan az adatokat a Netflix és az Uber, és hogy a kezdő magyar cégeknek milyen irányokban, trendekben érdemes gondolkodniuk.
A 2006-ban alapított magyar cég ezen a téren igazi nagyágyúnak számít: olyan ügyfelekkel dolgoztak már együtt, mint a Netflix, a Walt Disney, vagy a Facebook, a Szilícium-völgy nagyjai egyre többen fordulnak a magyar adatmágusokhoz. Beszédes az is, hogy a cég árbevétele 2016-ra túllépte a kétmilliárd forintot.
De mi is az a big data? Földi egyszerűen definiálja:
Az Uber az egyik olyan cég, amelyik ilyen módon is próbálja maximalizálni profitját. Ők valós időben, algoritmusok segítségével határozzák meg nagyon sok információ alapján, hogy adott időszakban mennyi legyen például a mérföld ára, többek közt a lokációs adatok elemzésével. New Yorkban előfordul ugyanis, hogy míg kora este egy adott táv ára 25 dollárba kerül, addig hajnal tájékára már 130 dollárra kúszik. A cég nemcsak a pénzre gondol: már közel 2 milliárd anonim utazás adatait közzétették, méghozzá teljesen ingyen, amiket többek közt az okosvárosok tervezéséhez fűződő projektek tudnak hasznosítani.
Egy klasszikus és sokat emlegetett példa még a Netflixé, akik valóban nagyüzemben zsonglőrködnek az adatokkal. Az ajánlórendszer által kiválogatott sorozatok nagyon sok tényszám figyelembevételél kerülnek a felhasználó elé: a rendszer arról is gyűjt infókat, ki mikor szüneteltet egy sorozatrészt, milyen sorozatokat néz, azokat milyen gyakran, mely témák érdeklik.
A legizgalmasabb mégis az, hogy a saját gyártású szériák esetében is mennyire tudatosan kamatoztatják ezt. Már évek óta tudjuk azt is, hogy a hihetetlen sikernek örvendő, dollármilliókból készített House of Cardsnak (Kártyavár) eredetileg volt egy brit verziója. A felhasználók szokásainak elemzésével arra jutott a cég, hogy annak nagy sikert arathatna egy amerikai verziója, ha David Fincher rendezné, és Kevin Spacey lenne a főszereplője.
A hazai piac egyelőre még éretlen, a magyar cégeknek még nincs túl sok adatuk, de páran már foglalkoznak adatszolgáltatással is. Hazánkban a Telekom az egyik olyan cég, amelyik rárepült a data service-re. A felhasználók telefonjainak rádiójeleinek segítségével hatalmas adatbázist lehet építeni a lokációs adatokról, és ezáltal látható, hogy adott területen hol halad el a legtöbb ember, a felhasználók melyik üzletből, hová tartanak. Ezeket a Telekomtól meg is lehet venni (természetesen anonimizáltan), így hasznos következtetéseket vonhat le például egy étteremlánc arról, hogy hova érdemes tervezni.
Nemcsak a telekommunikációs szektor foglalkozik ezzel, a logisztikában is működik. Elképesztő mennyiségű adat van az olyan cégek birtokában, mint a DHL, a Fedex, a UPS: ki mit rendelt, mit, hova, mikor és mennyiért. Ezek alapján meg lehet nézi, mi megy Amerikában: milyen áron, hogyan árazzák, mit rendelnek a világban, egy vállalkozás pedig megpróbálhatja azt honosítani. Hogy ezt miként használjuk fel saját javunkra, annak csak a marketinges kreativitás szab határt- mondja Földi.
Egy másik érdekes trendet is említ, a politikai kampányokét. A Stanford Egyetem egy év elején végzett, adatokkal kapcsolatos kutatása arra tettpróbát, hogy képek alapján megjósolja, mennyi lehet adott területen a republikánus, vagy demokrata szavazó. Ehhez a Google által gyűjtött adatokat vették alapul, egészen pontosan 35 millió képet a cég Street View szolgáltatásából.
Az egyes területeken található autómodelleket és típusokat vették figyelembe, ezek alapján lehetett következtetni iskolázottságra, vagyonra, és politikai beállítottságra is. Természetesen ehhez összetett gépi tanulásos algoritmusokat használtak fel, és rengeteg további mintát. Ez azt mutatja, hogy a vásárolt adatokból akár politikai kampány is felépíthető.
Természetesen legtöbbeknek az adattárolás és a feldolgozás okoz fejtörést. A multik is csak vakargatják a fejüket, ha big datáról van szó, és azt kérdezik, hogy mire és mivel kell használni? Mára abban a szerencsés helyzetben vagyunk, hogy a big data minden szegmensét meg lehet vásárolni – mondja Földi.
A nagy cégek nemcsak adatokat adnak, de hozzá platformot is, hogy azokat tudjuk tárolni a felhőben, tudjunk azokkal dolgozni. Ilyen például a Google TensorFlow függvénycsomagja, ami a mélytanulásos algoritmusok fejlesztésében segít, vagy ott van a Facebook Torch nevű eszköze.