Kultúra

Kötelezővé kellene tenni a magyar internet aranybányáját

Az Arcanum Digitális Tudománytár 30 millió oldalnyi folyóirata és könyve számára nincs lehetetlen: mindenre választ ad.

A városligeti Lilliputi Színház, a mellette viaszba öntött Jókai, Hitler és Tarzan, az Ördögorom titkai, a Rákos-patakból táplálkozó, botrányokat kavart strandfürdő, vagy épp a nyolcvanas évek hajnalának Gül baba türbéje mellé tervezett bulinegyed – ez csak néhány történet azok közül, amikről saját koruk napi-, vagy hetilapjainak átböngészése nélkül nem lehetne teljes képet alkotni.

Néhány évvel ezelőtt ehhez még el kellett volna zarándokolnunk ehhez az Országos Széchenyi Könyvtárig, vagy ha a közelmúlt eseményeiről volt szó, akkor a legközelebbi városi könyvtárig, ahol remélhetőleg néhány hét, vagy ideális esetben néhány nap alatt rábukkantunk volna a kellő információkra. Ehhez persze oldalak ezreit kellett volna végigböngésznünk, ami az évtizedes, vagy évszázados lapok közt egyáltalán nem lett volna könnyű feladat.

Épp ezért jelent óriási változást az elmúlt két évtizedben több mint háromszáz CD-formátumú kiadványt – lexikonokat, szépirodalmi műveket, helységnévtárakat, vagy épp fontos alapműveket – kiadó (ezeket azóta ingyenesen online is elérhetővé tett) Arcanum 2014-ben született

Digitális Tudománytára, ahol ma már több mint harmincmillió oldalon olvashatjuk az elmúlt két és fél évszázad lapjait, illetve számtalan fontos könyvét.

Ez már önmagában óriási eredmény, a hosszú évek alatt elképesztő méretűre nőtt adatbázis azonban pillanatok alatt átlátható, hiszen a kívülről átlagosnak tűnő budatétényi házban nem csak digitalizálják, és szabadon letölthetővé, illetve felhasználhatóvá teszik az oldalakat, de a folyamat során egy meglepően effektív karakterfelismerő programot is végigfuttatnak a lapokon, így egy ügyesen megválasztott keresőkifejezéssel pillanatok alatt ráakadhatunk például a magyar médiában hosszú éveken át előszeretettel csépelt Beatles négy tagjáról készült, retusált fotóra, amin

a négy fiatal angol dzsesszénekes és zenész nőiesen hosszú, parókaszerű

hajuk nélkül tűnik fel:

in. Hétfői Hírek, 1964. április 6.

Nem csak célzottan lehet persze keresni a rendszerben, így a teljes címlista bármelyik elemét tetszőlegesen kiválaszthatjuk, néhány pillanattal később pedig máris a szocializmus legismertebb szatirikus lapja, a Ludas Matyi egy rajza, Az Est szüleink születésének napján megjelent száma, a lassan százhúsz éve megjelenő Nemzeti Sport hatvanas évek végi meccseredményei, vagy épp a saját gyerekkori arcképünk kerül elénk.

„A chinaiak ugy látszik, a tánczot hasztalan fáradságnak tekintik”, Vasárnapi Ujság, 1854. november 19.

A lehetőségek száma végtelen, így mindenki megtalálhatja azt a tartalmat, amire szüksége van: a művészettörténészek hetekkel, vagy hónapokkal rövidíthetik le a könyvükhöz szükséges információgyűjtés idejét, a helytörténészek minden eddiginél könnyebben megismerik egy vidéki város, vagy egy fővárosi utca érdekes történéseit, a nosztalgiázni, családfát kutatni, vagy épp spontán kutakodni vágyók pedig hosszú éveken át olvashatják a számukra érdekes lapokat: a Színházi Életet, a már említett Ludas Matyit, a Népszabadságot, az Autó-Motort, vagy épp a Modellezést – anélkül, hogy a kutatás miatt akár csak egyetlen pillanatra is fel kelljen állniuk a kényelmes fotelből.

Zimmer Ferit nem a Balatonhoz közeli szobáikat kiadó házaspárok, vagy a szobára vágyók találták ki: a férfi száztíz évvel ezelőtt már halkereskedést vezetett a Fővám téri csarnokban, 1930-ban – a feni hirdetés megjelenésének idején – már a belváros két másik népszerű pontján is árulta a húsokat.

A keresés jóval könnyebb, mint hinnénk: elég csak egy-két kifejezést megadnunk (mint például a „beatles gombafejűek”), és máris záporoznak a találatok, amiket azután számtalan módon szűrhetünk: megadhatjuk, hogy melyik évtizedekre, vagy évekre, sőt, melyik lapra vagyunk kíváncsiak.

Ebben az esetben például csak az 1968-as évet szerettük volna látni:

A már említett karakterfelismerés persze nem tökéletes, sőt, a lapok sem mindig voltak épp a helyesírás bajnokai, így jó mindenre felkészülni. Előbbire a Tudománytár munkatársai is megpróbálnak megoldást nyújtani, így a gépi helyesírás-ellenőrzés után egy élő ember is végigfutja az oldalakat, megbizonyosodva arról, hogy a rendszer a szöveget szövegként, a képet képként, a táblázatot pedig táblázatként ismerte-e fel.

A helyesírási, illetve a különböző okokból született nyomdahibák problémáját ez persze nem oldja meg, így egy épület történetének kutatásakor például nem csak az esetleges házszám-, vagy utcanév-változásokra (ilyen a Sasból lett Guszev utca, ami ma újra az eredeti nevét viseli), de a gyakori hibákra, sőt, a helyesírási szabályok változásaira is érdemes felkészülni: ezért lehet például

a Lónyayból Lónyai, az utczából pedig utca, a találatok közt pedig ugyan lesz átfedés, de nem fognak teljesen megegyezni.

 

Egy cikk – így az Ismeretlen Budapest sorozatunk epizódjainak – írásakor ugyanezt természetesen a nevekkel is el kell játszani, így Kossuth Lajos vezetéknevét a gyűjteményben meglévő XIX. századi folyóiratok 164 alkalommal írták egy s-sel, Kosuth formában.

Az Arcanum Digitális Tudománytára emellett nem csak szövegre, de arcra is képes keresni, így ha egy híresség fotóját mutatjuk meg a rendszernek, az jó eséllyel mutatni fogja a személy lapokban feltűnt említéseit. A rendszer itt persze még több hibalehetőséget rejt, hiszen az évtizedes lapok jó része olyan nyomdatechnológiával készült, ami egyáltalán nem segíti a mesterséges intelligencia dolgát, az adatbázis azonban sokszor így is ezrével mutat teljesen más szögből készült képeket a feltöltött személyről.

Egerszegi Krisztina különböző lapokban megjelent fotói az adatbázisban

A röviden csak ADT-ként emlegetett, cikkünk írásakor 30 567 830 oldalt magában foglaló rendszer nélkülözhetetlen fegyver tehát a kutatók kezében, de a kényelmes nappaliban ülve érdekességre vágyóknak is hosszú éveken át tartó szórakozást, sőt, tanulási lehetőséget ad, előfizetni pedig akár csak egyetlen hónapra, vagy akár csak 24 órára is lehet, de a szolgáltatás több száz hazai közintézményből – főleg felsőoktatási intézményekből, illetve könyvtárakból – ingyenesen is elérhető.

Ajánlott videó

Olvasói sztorik