Tech

Már azt is tudják az adattudósok, mikor fognak szenvedni az allergiások

MARTIN SCHUTT / dpa-Zentralbild / dpa Picture-Alliance / AFP
MARTIN SCHUTT / dpa-Zentralbild / dpa Picture-Alliance / AFP
Bár a világjárvány rengeteg területre, így a munkaerőpiacra és számos ipari ágazatra is negatívan hatott, ugyanakkor kirajzolódott egy olyan trend is, hogy a korábbinál több egészségügyi projektjük lett az adattudósoknak. Az adatelemzésben vezető magyar Starschema szakértői elárultak nekünk pár érdekes részletet azokról a munkáikról, ahol az adatokat az egészség szolgálatába lehet állítani.

A big data (elképesztő mennyiségű adat vagy gyorsan érkező információ, amit hagyományos eszközökkel nem lehet elemezni) az elmúlt évek egyik felkapott kifejezése, amiről mindenki tudja, hogy komoly lehetőségek rejlenek benne, de azt csak kevesen, hogy a gyakorlatban miképp kovácsolható előny belőle. A 2006-ban alapított, üzleti intelligenciával és big datával foglalkozó magyar Starschema ezen a területen igazi nagyágyúnak számít: a cég olyan ügyfelekkel dolgozott már együtt, mint a Netflix, a Disney, a Facebook vagy a Tesla.

Az előzetes számítások szerint a cég tavaly csaknem 20 százalékos bővüléssel mintegy 5 milliárd forintos bevételt ért el.

A data science célja olyan algoritmusok kifejlesztése és használata, amik segítségével a statisztika, a gépi tanulás és nagy mennyiségű adatfeldolgozási technológiák felhasználásával komplex összefüggéseket lehet feltárni. Ezek az összefüggések legtöbbször valamilyen új üzleti felismeréshez vezetnek: megtudhatjuk, hogy az egyes ügyfeleket milyen marketing kampányokkal érdemes megkeresni, milyen bankkártya-használat esetén gyanakodhatunk csalásra, vagy adott genomok milyen betegségek kialakulásában játszhatnak szerepet. Korábban már bővebben is bemutattunk pár alkalmazási módot, hol jelenthetnek előnyt üzleti döntésekben az adatok:

Kapcsolódó
Elképesztő, hogy lesz pénz az adatainkból
Nem is gondolná, hogy a House of Cards című sorozat is az adatok miatt jó, hiába tűnik elsőre furcsa hype-nak az úgynevezett big data.

A világjárvány és az idei év egyik tanulsága, hogy a gyógyszeripar és az egészségügy a korábbinál is jobban kezdte el felhasználni az adatokban rejlő lehetőségeket, a Starschema is leginkább a nagyvállalati megrendelésekkel, azon belül is részben a gyógyszeripari óriáscégek megkereséseivel magyarázza a bővülését. A gyógyszeripari cégeket ugyanis erősen érintette a COVID-19 miatti piaci bizonytalanság. Az üzleti tervezéshez (termelőkapacitások optimalizálása, értékesítési tevékenység tervezése, fejlesztések, stb.) az előző évi eladási adatokból és trendekből 2020-ban nem lehetett kiindulni, emiatt új előrejelzési modellekre volt szükség, ezeknek a kidolgozásához nyújt támogatást a cég technológiája és üzleti intelligencia szolgáltatása. A tengerentúli gyógyszeripari óriások tavaly ezeket a szolgáltatásokat az eddigiekhez képest nagyobb arányban vették igénybe – osztotta meg a cég a 24.hu-val.

Kapcsolódó
„Azok jutnak előre, akik nem tudnak szart csinálni, mert az fájna nekik”
Földi Tamással, a big datával foglalkozó Starschema alapítójával beszélgettünk arról, mire jók az adatok, illetve a vállalkozásukkal hogyan jutottak el odáig, hogy mára a Netflix és a Facebook is az ügyfeleik közt található.

Földi Tamás ügyvezető szerint a digitalizáció globális gyorsulásával ügyfeleik részéről egyre nagyobb az igény új digitális termékek és adatelemzési szolgáltatások kidolgozására. „A piac rendkívüli módon pezseg. A jelenleg 30 milliárd dollárosra becsült globális analitikai szegmens évente közel 25 százalékkal bővül, és a lendület jó eséllyel az évtized végéig ki is fog tartani” – mondta Földi.

Az allergiások is örülhetnek az adatoknak

A legtöbb ilyen projekt szigorú titoktartás mellett működik, mivel már csak a feldolgozott adatok típusából is könnyen kikövetkeztethető, hogy éppen min dolgozik a konkurencia, ezért nem mindegyik megrendelő vagy projekt nevesíthető. Az egyik, nem megnevezhető amerikai gyógyszergyártó óriás allergia-előrejelző alkalmazásában is a Starschema algoritmusa ketyeg. Az app 80 százalékos pontossággal tudja megjósolni a felhasználónak, hogyan fogja érezni magát az elkövetkezendő napokban. Az előrejelzés egy gépi tanulási algoritmuson és az ennek segítségével megalkotott adatmodellen alapszik.

A szolgáltatás alapvetően három adatforrásra épül:

  • az adott földrajzi helyhez kötött pollenadatokra,
  • az időjárási adatokra,
  • valamint a felhasználói visszajelzésekre.

Ezek alapján számolja ki az algoritmus, hogy mire számíthat az allergiás, és minél több adatot szolgáltat ő maga is arról, hogyan érzi magát, annál pontosabb lesz idővel az előrejelzés is. Az alkalmazás egyelőre csak Észak-Amerikában érhető el, de a tervek között szerepel az európai terjeszkedés is. A további fejlesztések egyik fő csapásiránya, hogy a felhasználó ne csak a várható közérzetére vonatkozóan kapjon információkat, hanem arról is, hogy a tünetei alapján milyen pollenekre lehet érzékeny.

Christopher Furlong / Getty Images

A cég együtt dolgozott a Richter Gedeon Nyrt.-vel is egy neurológiai gyógyszerkutatási projekten. A neurológiai gyógyszerkutatás egyik problémás területe a háromdimenziós mikroszkópos felvételeken az úgynevezett mitokondrium hálózat alakjának elemzése. A mitokondriumok lényegében a sejtek erőművei, ezek az apró szervecskék alakítják a tápanyagokat energiává, ami sejtjeink működéséhez szükséges. A hálózat geometriáját leíró program és gépi tanulás segítségével automatizáltan megkülönböztethetők az egészséges és a sérült szövetek. A módszertan egy fontos lépés a gyógyszerkutatási folyamatokban, amire eddig nem volt automatizált megoldás. A sejtszerkezetek elemzését korábban manuálisan oldották meg a biológusok, ami sokkal lassabb volt, így viszont már automatizáltan is el lehet végezni ugyanezt.

Az adatelemzés az MRI-felvételek automatikus minőségkontrolljában is új utat jelent – mesélte nekünk Windhager-Pokol Eszter, a Starschema vezető adattudósa. Jellemző, hogy az orvosok sok esetben csak hetekkel később tudnak megnézni a felvételt, és ha esetleg nem jó annak minősége – mert például a páciens bemozdult –, akkor az érintettnek újra időpontot kell foglalnia, így pedig sok idő telik el. Egy automatikus elemzőeszköz az MRI elkészültekor azonnal megállapítja, hogy alkalmas-e a felvétel a diagnózisra, és ha nem, akkor rögtön elkészíthető egy újabb.

A Starschema és a felhőalapú adatkezelési technológiákban élen járó kaliforniai tech-óriás, a Snowflake együttműködésének köszönhetően március 25-én elérhetővé vált egy integrált információs rendszer is, amely a járvánnyal kapcsolatos hiteles forrásokra támaszkodva jelenleg az egyik legátfogóbb adatszolgáltatást nyújtja a világon. Az ingyenes és szabadon felhasználható adathalmaz óriási segítséget nyújthat a kormányoknak, a nemzetközi nagyvállalatoknak és szervezeteknek a rendkívüli intézkedéseik és gazdasági döntéseik meghozatalához.

A komplexitását az adja, hogy a fejlesztők ezt olyan releváns információkkal egészítették ki, mint például a megbetegedések földrajzi elhelyezkedése, a laborvizsgálatok részletes eredményei, az adott terület egészségügyi infrastruktúrája, demográfiai adatai (átlagéletkor, nemek aránya, népsűrűség) vagy a bevezetett járványügyi intézkedések. A felhasználók tisztított, elemzésre kész formátumban férhetnek hozzá az adatokhoz, amelyeket könnyen és gyorsan integrálhatnak a saját adatbázisaikhoz.

A vírus terjedéséhez kapcsolódóan a legtöbb adat és a jogkörök a kormányzatoknál voltak és vannak, azonban a kormányzatnál is meg tudnak jelenni adatszolgáltatóként telekommunikációs cégek, melyek egészen pontos lokációs adatokkal rendelkeznek ügyfeleikkel kapcsolatban. Konzultánsként részt vettünk egy olyan projektben is, amikor a telkócég adatszolgáltatását kellett megoldani a kormányzat felé, és segíteni az adatok értelmezésében. A vírus terjedésének becsléséhez hasznos információt jelent, hogy az emberek például mennyit mozognak a különböző települések vagy régiók közt. Ezek az adatok természetesen anonimizált formában kerülnek átadásra

– osztott meg velünk egy másik példát Fekete Ákos, a cég adattudósa.

Bár ezek rendkívül izgalmas területek, ha az adatok felhasználásáról van szó, általánosságban elmondható, hogy az elemzések 90 százalékát a jobban targetált reklám és tartalom teszi ki minden platformon. Ezt talán fel is erősítette a járvány, mert mindenki a neten lógott és intézte a dolgait, így pedig még több adat keletkezett. Windhager-Pokol kiemeli a jövőbeli trendekkel kapcsolatban az Augmented Analytics, azaz kiterjesztett elemzés területét.

Rainier Ehrhardt/Getty ImagesRainier Ehrhardt / Getty Images Szerverek a Facebook egyik adatközpontjában.

„Már egy egyszerű cég is képes arra, hogy különféle mutatókból jelentéseket állítson elő, akár több ezer táblából. Ebből előállt az igény, hogy a riportok közül az adattudósok kiválogassák az érdekeseket. Megkeresni, hol látható, ha valami eredmény a korábbi trendektől eltér, sokkal rosszabbul vagy éppen jobban teljesít. Ha ez megvan, utána okozati feltárásra is szükség van – meg kell találni, hogy miért éppen az a terület teljesít rosszabbul vagy jobban. Egy ilyen folyamat nagyon nehezen automatizálható, de hatalmas rá az igény, ezért előrehaladtak az ilyen jellegű módszertanok és kutatások is.”

Továbbra is hatalmas a kereslet az adattudósokra

Windhager-Pokol szerint egy közepesen képzett data scientist naponta több megkeresést kaphat a Linkedlnen, akkora szükség van az ilyen tudású szakemberekre. Ugyan itthon is elérhetők képzések data science területén, konkrét egyetemi alapszak egyelőre nincs. A legnagyobb probléma, hogy az egyetemek nem tudnak lépést tartani azzal, hogy mennyire gyorsan fejlődik ez a technológia – mondta a szakértő. Mire sor kerülhetne a tanterv oktatására, addigra lényegében elavul.

Amíg nincs kifejezetten adattudós- vagy adatmérnökképzés, addig egy természettudományos diploma jó alap lehet, akár matematika, fizika, programozás, közgazdász ismeretekkel. A neten rengeteg, adatelemzéssel kapcsolatos, akár ingyenes kurzus is fellelhető, amelyek elvégzésével már egy elég nívós tudást össze lehet szedni.

A data scientistek iránt is nagy a kereslet, de a data engineerekre, a mérnökök iránt még inkább. Ők felelnek az adatok összegyűjtéséért és elemezhető formában való előkészítéséért. Az ilyen szakemberek kevesebben vannak ahhoz képest, hogy egy munkafolyamat 80 százaléka éppenséggel az adatok összegyűjtése és előkészítése, a további 20 százalék körülbelül az elemzés és a predikciós modellek elkészítése

– magyarázza Windhager-Pokol. A data engineering ott folytatódik, ahol a data science véget ér: itt már a meglévő modelleket kell kiterjeszteni, skálázni. Ez egy tisztán technológiai műfaj, ahol nem az elemző algoritmusok megalkotása a feladat, hanem az, hogy az adatelemzés és az adatvizualizáció hatalmas mennyiségű adatok esetén is gyorsan, akár valós időben is elvégezhető legyen. Ez a tudás világszinten is keresett, és mint minden szakterületen, erős fókusszal itt is bárhova el lehet jutni.

Ajánlott videó

Olvasói sztorik