Belföld

Virtuális kincsek – mindenki múzeuma

Világszerte egyre több múzeum, illetve levéltár határozza el, hogy digitálisan archiválja összegyűjtött anyagát. Elektronikus úton szélesebb közönséghez juthatnak el, olyan alkotások is, amelyek más módon nem.

Digitalizálás során az információt a számítógép számára olvasható formába hozzuk. A digitális könyvtárak, levéltárak és múzeumok nagy számban tesznek hozzáférhetővé képzőművészeti alkotásokat, irodalmi műveket és tudományos publikációkat. Ezekhez a művekhez az interneten ki-ki a Föld bármely pontjáról hozzáférhet és olyan dokumentumokat is láthat, amelyeknek az eredeti példányait már nem adják kézbe. Hazai viszonylatban érdemes megemlíteni a Magyar Elektronikus Könyvtárat, amely 1994 óta teszi közkinccsé a műveket.


Virtuális kincsek – mindenki múzeuma 1


Könyvek, képek, költségek

Egy-egy ilyen digitalizálási folyamatban nagyon nagy mennyiségű anyagot kell feldolgozni. Vegyük példaként a holland Royal Dutch Library gyűjteményét: a szakértők több mint 3,3 millió könyvet, folyóiratot, kéziratot, illetve egyéb speciális írásos anyagot dolgoztak fel ezzel a módszerrel.

A munkát az IBM végezte, sok más hasonló projekt, például az orosz Ermitázs és a dán Statens Museum for Kunst gyűjteményeinek rögzítése mellett. Ez utóbbi múzeumban például több mint ötezer festményt digitalizált. Mivel a készítendő adatbázis nagyon sokféle lehet, a legjobb megoldás egy professzionális archiváló szoftvert használni; az IBM a Content Manager termékcsaládra támaszkodik.



Virtuális kincsek – mindenki múzeuma 2



A digitalizálás igen költséges vállalkozás, nagyon sok előkészítő munkát és hatalmas tárkapacitást igényel. A következőkben Kovács Lászlónak, az IBM munkatársának segítségével egy szöveges alapú tár feldolgozásának technikáját mutatjuk be.

Bölcső a szkennerben



Virtuális kincsek – mindenki múzeuma 3


A papír alapú állományok digitalizálása az előválogatással kezdődik: ki kell válogatni a feldolgozásra szánt anyagokat és előkészíteni őket a további műveletekhez – például el kell távolítani róluk az esetleges szennyeződéseket, idegen anyagokat. A szakértők ezután méret és (vagy) tartalom alapján kialakítják a megfelelő logikai csoportokat.

A következő lépés a nagy teljesítményű lapolvasókkal végzendő szkennelés. A lapolvasók működési elvükben erősen eltérhetnek egymástól; aszerint kell választanunk közülük, hogy mit akarunk beolvasni. A lapáthúzós szkennerrel gyorsabb az iratanyagot digitalizálni, állományvédelmi szempontból azonban kockázatos lehet ezt használni, mert a mechanikája begyűrheti az olvasott anyagot.

A műszaki szkenner a lapáthúzós szkenner elvén működik, de jóval nagyobb méretű dokumentumokat lehet vele beolvastatni, ha kell, 2400 pont/hüvelykes felbontással; főleg tervrajzok, térképek digitalizálására használják. Ezekben a lapolvasókban is károsodhat az irat, bár van olyan változatuk is, amelyben nem az beolvasandó dokumentum mozog, hanem az olvasófej fölötte.

Egy harmadik szkennerfajtával, a dobszkennerrel 11 ezer pont/hüvelykes felbontás sem lehetetlen; a dokumentumot egy forgó dobra rögzítik és belülről világítják meg. A könyvtári, levéltári munkára a legjobbak a könyvszkennerek; a mikrofilm-felvételezőéhez hasonló elv szerint működnek, vagyis felülről vagy oldalról világítják meg a dokumentumot és egy fent elhelyezett kamerával rögzítik a képét. Az iratot, könyvet nem éri közvetlen mechanikus hatás, ez állományvédelmi szempontból fontos – bár az eredeti kép visszafordíthatatlan romlásnak indulhat a lapolvasó üveglapjának tisztítására használt vegyszerek, valamint a kép többszöri átvilágítása miatt, ennek a kiküszöbölésére nagy gondot kell tehát fordítani.



Virtuális kincsek – mindenki múzeuma 4


A könyvszkennerek A/2-es vagy még nagyobb méretű dokumentumok olvasására is alkalmasak, és beépített könyvbölcső jóvoltából a könyv gerincét kisebb megterhelés éri a beolvasáskor, mint más lapolvasókban. Németországban már automatikusan lapozó könyvszkennert is kifejlesztettek – azzal jóval gyorsabb a munka.

Rendszerez a gép

A szkennelés után információkat (indexet, metaadatot) rendelnek az egyes képekhez (például cím, szerző, dátum, leírás, kivonat), amelyek alapján később azonosíthatók. Ez az információ-hozzárendelés történhet kézileg és automatikusan is. A kézi megoldáshoz persze több ember és idő kell, különösen, ha nagy anyagmennyiséget kell feldolgozni, érdemes tehát az automatikus rendszerezést választani; ez utóbbiban többféle technika is segítségül hívható, például az optikai karakterfelismerés (intelligens karakterfelismerés).

Az automatikus megoldásban használatos szoftverek “felismerésbiztonsági szintet” rendelnek a képhez, s az szűrőként szolgálhat a következő lépésben – a kézi ellenőrzésben. Elég csak azokat a képeket ellenőrizni, amelyeknek a biztonsági szintjét a szoftver egy általunk tetszőlegesen kiválasztott értéknél kisebbnek ítélte meg.


Virtuális kincsek – mindenki múzeuma 5

Tartalomtár több szinten

Ezután a dokumentum elektronikus képe és a hozzá rendelt metaadatok automatikusan kerülnek a tartalomkezelő rendszerbe. Az IBM Content Manager termékcsalád elemeiből például korlátlanul méretezhető, nagy megbízhatóságú tartalomtár alakítható ki.

A rendszer lényegében két kiszolgálóoldali komponensből épül fel. Az egyik, a Library kiszolgáló a központi nyilvántartó: megvan benne a visszakereséshez szükséges valamennyi információ, metaadat és minden jogosultsági beállítás. A másik komponens, a Resource Manager magukat az állományokat tárolja, hierarchikus tárolókezeléssel, vagyis az állományok a visszakeresési gyakoriságnak és az elvárt válaszidőknek megfelelő tárolási szintre kerülnek. A leggyorsabb tárolási szint a lemezterület, az állományok automatikusan kerülhetnek át innen a lassúbb, de költséghatékonyabb szintre, például mágnesszalagra vagy optikai alapú tárolóeszközre.

A rendszer azáltal méretezhető, hogy dinamikusan bővíteni lehet a Resource Managerekhez rendelt tárolóeszközöket, vagy több Resource Managert használni ugyanabban a rendszerben. Például a földrajzilag elosztott rendszerekben több helyen – s ha kell, több példányban – tárolhatók az állományok, s a rendszer mindig optimális válaszidővel elégítheti ki a visszakeresési igényeket.

Rajzold le, mit keresel!


Virtuális kincsek – mindenki múzeuma 6

A következő lépéssorozat: lehetővé tenni az igény szerinti tartalomkeresést, amely egyre összetettebb feladat lesz. Szöveges tartalmat a már említett indexek vagy metaadatok alapján lehet keresni, sőt lehet keresni a teljes szövegben is. A keresés legkifinomultabb formája az információbányászat: a rendszer a tartalmuk alapján automatikusan megvizsgálja a dokumentumokat, és például csoportokba rendezi őket, kivonatot készít, logikai kapcsolatokat alakít ki közöttük, egymáshoz rendeli őket. Ehhez persze meg kell kapnia a szükséges definíciókat, és példadokumentumokkal be is kell tanítani. A Content Manager termékcsalád megfelelő komponensében megvannak ezek a funkciók is.

Alternatív tartalomra, például képre keresni még érdekesebb feladat. A szentpétervári Ermitázsban például többféle módon is lehet. Az egyszerűbb mód a Qbic (Query by Image Content ) Colour Search: ebben megadhatjuk, hogy a keresett képen függőleges irányban milyen eloszlásúak legyenek a színek. Az összetettebb keresési mód a Qbic Layout Search: különböző geometriai alakzatokat rajzolhatunk az egyelőre képzeletbeli képre, tetszőleges színekben és szabad elrendezésben, s a szoftver majd kikeresi a megadott keresési feltételhez legközelebb álló képeket. Ha például naplementét ábrázoló képet szeretnénk látni, akkor a kép aljára valamilyen sötétebb, a tetejére meg világosabb – lehetőleg sárga, vörös – alakzatot érdemes rajzolni.

Ajánlott videó

Olvasói sztorik