Digitalizálás során az információt a számítógép számára olvasható formába hozzuk. A digitális könyvtárak, levéltárak és múzeumok nagy számban tesznek hozzáférhetővé képzőművészeti alkotásokat, irodalmi műveket és tudományos publikációkat. Ezekhez a művekhez az interneten ki-ki a Föld bármely pontjáról hozzáférhet és olyan dokumentumokat is láthat, amelyeknek az eredeti példányait már nem adják kézbe. Hazai viszonylatban érdemes megemlíteni a Magyar Elektronikus Könyvtárat, amely 1994 óta teszi közkinccsé a műveket.
Könyvek, képek, költségek
Egy-egy ilyen digitalizálási folyamatban nagyon nagy mennyiségű anyagot kell feldolgozni. Vegyük példaként a holland Royal Dutch Library gyűjteményét: a szakértők több mint 3,3 millió könyvet, folyóiratot, kéziratot, illetve egyéb speciális írásos anyagot dolgoztak fel ezzel a módszerrel.
A munkát az IBM végezte, sok más hasonló projekt, például az orosz Ermitázs és a dán Statens Museum for Kunst gyűjteményeinek rögzítése mellett. Ez utóbbi múzeumban például több mint ötezer festményt digitalizált. Mivel a készítendő adatbázis nagyon sokféle lehet, a legjobb megoldás egy professzionális archiváló szoftvert használni; az IBM a Content Manager termékcsaládra támaszkodik.
A digitalizálás igen költséges vállalkozás, nagyon sok előkészítő munkát és hatalmas tárkapacitást igényel. A következőkben Kovács Lászlónak, az IBM munkatársának segítségével egy szöveges alapú tár feldolgozásának technikáját mutatjuk be.
Bölcső a szkennerben
A papír alapú állományok digitalizálása az előválogatással kezdődik: ki kell válogatni a feldolgozásra szánt anyagokat és előkészíteni őket a további műveletekhez – például el kell távolítani róluk az esetleges szennyeződéseket, idegen anyagokat. A szakértők ezután méret és (vagy) tartalom alapján kialakítják a megfelelő logikai csoportokat.
A következő lépés a nagy teljesítményű lapolvasókkal végzendő szkennelés. A lapolvasók működési elvükben erősen eltérhetnek egymástól; aszerint kell választanunk közülük, hogy mit akarunk beolvasni. A lapáthúzós szkennerrel gyorsabb az iratanyagot digitalizálni, állományvédelmi szempontból azonban kockázatos lehet ezt használni, mert a mechanikája begyűrheti az olvasott anyagot.
A műszaki szkenner a lapáthúzós szkenner elvén működik, de jóval nagyobb méretű dokumentumokat lehet vele beolvastatni, ha kell, 2400 pont/hüvelykes felbontással; főleg tervrajzok, térképek digitalizálására használják. Ezekben a lapolvasókban is károsodhat az irat, bár van olyan változatuk is, amelyben nem az beolvasandó dokumentum mozog, hanem az olvasófej fölötte.
Egy harmadik szkennerfajtával, a dobszkennerrel 11 ezer pont/hüvelykes felbontás sem lehetetlen; a dokumentumot egy forgó dobra rögzítik és belülről világítják meg. A könyvtári, levéltári munkára a legjobbak a könyvszkennerek; a mikrofilm-felvételezőéhez hasonló elv szerint működnek, vagyis felülről vagy oldalról világítják meg a dokumentumot és egy fent elhelyezett kamerával rögzítik a képét. Az iratot, könyvet nem éri közvetlen mechanikus hatás, ez állományvédelmi szempontból fontos – bár az eredeti kép visszafordíthatatlan romlásnak indulhat a lapolvasó üveglapjának tisztítására használt vegyszerek, valamint a kép többszöri átvilágítása miatt, ennek a kiküszöbölésére nagy gondot kell tehát fordítani.
A könyvszkennerek A/2-es vagy még nagyobb méretű dokumentumok olvasására is alkalmasak, és beépített könyvbölcső jóvoltából a könyv gerincét kisebb megterhelés éri a beolvasáskor, mint más lapolvasókban. Németországban már automatikusan lapozó könyvszkennert is kifejlesztettek – azzal jóval gyorsabb a munka.
Rendszerez a gép
A szkennelés után információkat (indexet, metaadatot) rendelnek az egyes képekhez (például cím, szerző, dátum, leírás, kivonat), amelyek alapján később azonosíthatók. Ez az információ-hozzárendelés történhet kézileg és automatikusan is. A kézi megoldáshoz persze több ember és idő kell, különösen, ha nagy anyagmennyiséget kell feldolgozni, érdemes tehát az automatikus rendszerezést választani; ez utóbbiban többféle technika is segítségül hívható, például az optikai karakterfelismerés (intelligens karakterfelismerés).
Az automatikus megoldásban használatos szoftverek “felismerésbiztonsági szintet” rendelnek a képhez, s az szűrőként szolgálhat a következő lépésben – a kézi ellenőrzésben. Elég csak azokat a képeket ellenőrizni, amelyeknek a biztonsági szintjét a szoftver egy általunk tetszőlegesen kiválasztott értéknél kisebbnek ítélte meg.
Tartalomtár több szinten
Ezután a dokumentum elektronikus képe és a hozzá rendelt metaadatok automatikusan kerülnek a tartalomkezelő rendszerbe. Az IBM Content Manager termékcsalád elemeiből például korlátlanul méretezhető, nagy megbízhatóságú tartalomtár alakítható ki.
A rendszer lényegében két kiszolgálóoldali komponensből épül fel. Az egyik, a Library kiszolgáló a központi nyilvántartó: megvan benne a visszakereséshez szükséges valamennyi információ, metaadat és minden jogosultsági beállítás. A másik komponens, a Resource Manager magukat az állományokat tárolja, hierarchikus tárolókezeléssel, vagyis az állományok a visszakeresési gyakoriságnak és az elvárt válaszidőknek megfelelő tárolási szintre kerülnek. A leggyorsabb tárolási szint a lemezterület, az állományok automatikusan kerülhetnek át innen a lassúbb, de költséghatékonyabb szintre, például mágnesszalagra vagy optikai alapú tárolóeszközre.
A rendszer azáltal méretezhető, hogy dinamikusan bővíteni lehet a Resource Managerekhez rendelt tárolóeszközöket, vagy több Resource Managert használni ugyanabban a rendszerben. Például a földrajzilag elosztott rendszerekben több helyen – s ha kell, több példányban – tárolhatók az állományok, s a rendszer mindig optimális válaszidővel elégítheti ki a visszakeresési igényeket.
Rajzold le, mit keresel!
A következő lépéssorozat: lehetővé tenni az igény szerinti tartalomkeresést, amely egyre összetettebb feladat lesz. Szöveges tartalmat a már említett indexek vagy metaadatok alapján lehet keresni, sőt lehet keresni a teljes szövegben is. A keresés legkifinomultabb formája az információbányászat: a rendszer a tartalmuk alapján automatikusan megvizsgálja a dokumentumokat, és például csoportokba rendezi őket, kivonatot készít, logikai kapcsolatokat alakít ki közöttük, egymáshoz rendeli őket. Ehhez persze meg kell kapnia a szükséges definíciókat, és példadokumentumokkal be is kell tanítani. A Content Manager termékcsalád megfelelő komponensében megvannak ezek a funkciók is.
Alternatív tartalomra, például képre keresni még érdekesebb feladat. A szentpétervári Ermitázsban például többféle módon is lehet. Az egyszerűbb mód a Qbic (Query by Image Content ) Colour Search: ebben megadhatjuk, hogy a keresett képen függőleges irányban milyen eloszlásúak legyenek a színek. Az összetettebb keresési mód a Qbic Layout Search: különböző geometriai alakzatokat rajzolhatunk az egyelőre képzeletbeli képre, tetszőleges színekben és szabad elrendezésben, s a szoftver majd kikeresi a megadott keresési feltételhez legközelebb álló képeket. Ha például naplementét ábrázoló képet szeretnénk látni, akkor a kép aljára valamilyen sötétebb, a tetejére meg világosabb – lehetőleg sárga, vörös – alakzatot érdemes rajzolni.