Aprónyomtatványok teljes szöveges keresésének megvalósítása könnyen, gyorsan

Kategória: 2007/ 1

Köszönet Káldos Jánosnak.
(OSZK MEK Osztály)

„A könyvtárak túlnyomó többsége az önfeltáró rendszert választja, vagyis a tárolás tematikus rendben történik” – írta a könyvtárak helyismereti tevékenységét összefoglaló művében az aprónyomtatványokról Bényei Miklós.1 Ugyanő 2004-ben így fogalmazott: „A feltárásban új formákat kell előnyben részesíteni – pl. a mikroanalitikus feltárást –, illetve szükségessé válik olyan dokumentumfajták egyedi feltárása is, amelyeket eddig nem így, hanem az ún. önfeltáró módszerrel dolgoztunk fel (pl. állóképek, aprónyomtatványok). [...] Az aprónyomtatványok történeti forrásértéke napjainkban kezd nyilvánvalóvá válni; a bennük rejlő információk könyvtári feltárása szintén kemény feladat, itt is a számítógép adhat reális esélyt.”2Hogy miként?
Erre próbáltam választ adni a jászberényi konferencián a helyismereti gyűjteményekkel foglalkozó könyvtárosoknak azzal a figyelmeztetéssel, hogy az eljárást – egyelőre – tanulmányozásra ajánlom, mert nagyobb gyűjteményen még nem volt módom kipróbálni…
Húzhatjuk-halaszthatjuk a dolgot, de nem hiszem, hogy elkerülhető feladat lenne aprónyomtatvány-gyűjteményeink digitalizálása, első lépésként képként való beŹszkennelése.
Ha rászánjuk magunkat, először is célszerű e feladatra szabályzatot alkotnunk, hogy a végeredmény azonos (minél jobb!) minőségű legyen. Pár tucat dokumentum próbaszkennelése esetén bárki beláthatja ugyanis, hogy pl. a kisméretű, kettéhajtott (négyoldalas) meghívók esetén az oldalankénti beolvastatás nyomán szebb végeredmény születik, ha azonban ugyanezt a dokumentumot kihajtjuk, és csak két képet készítünk róla, sokkal gyorsabban tudunk haladni. Ha oldalanként szkennelünk, eldönthetjük, hogy az „üres” oldalakról is készítünk-e képet (nyomtatóval így a teljes dokumentum reprodukálható) vagy ezt a feladatot megspóroljuk. Azt is minél előbb döntsük el, hogy milyen szisztéma szerint adjunk neveket fájljainknak; ha utólag jövünk rá, hogy az összeset át kell nevezni, nagyon fogunk bosszankodni… Szerencsés dolog jó előre eltervezni, hogy elkészült képeinket milyen struktúrában fogjuk tárolni. Az „önfeltáró” rendszer könnyen (számítógépes) könyvtárszerkezetté alakítható, ugyanakkor, ha a „végterméket” egy vagy több DVD-n szeretnénk tárolni, a gyarapodás beillesztése kicsit körülményes lehet.
A fentiek végiggondolásához a feldolgozandó gyűjtemény alapos ismerete szükséges. Munkamódszerünk meghatározásában – nyilván – nagy súllyal szerepel a gyűjtemény nagysága (darabszáma, a becsült oldal-, és ebből adódó képszám), a rendelkezésünkre álló szkenner gyorsasága, a feladat elvégzésére szánható munkaidő mennyisége. A digitalizálható aprónyomtatványok körét – értelemszerűen – meghatározza szkennerünk mérete is.
Egy biztos, mindenképpen készítsünk a felismertetett képről egy legalább 600 DPI-s, több millió színű, tömörítésmentes (legkevésbé tömörített) képformátumú (BMP, TIF) archív példányt (legalább két, egymástól távol tárolt adathordozón). A további munkát egy ebből konvertált, 300 DPI-s JPG-képpel célszerű folytatni. A konvertáláshoz az internetről többféle ingyenes szoftvert tölthetünk le. Fontos, hogy az archív és a „használati” képnek ugyanaz legyen a neve!
Gondoljunk arra, hogy digitális aprónyomtatványaink használói esetleg szeretnék az eredeti dokumentumot is kézbe venni! Gondoskodjunk tehát arról, hogy a képfájltól valahogy el lehessen jutni ahhoz a teremhez, polchoz, dobozhoz, borítékhoz, ahol az aprónyomtatványunkat tároljuk. A raktári jelzetet érdemes magába a képfájlba rögzíteni.

 
Erre – JPG-kép esetén – két helyen (JPG-megjegyzés, IPTC-adatok) is módunk van. (Ha valaki figyelmesen megnézi a fenti képet, rájöhet, melyik szoftvert célszerű e feladatra [is] használni! A kép betöltése után az i billentyű lenyomásával hívható elő a fenti ablak!) Nem haszontalan végiggondolni, hogy kell-e, érdemes-e ugyanitt egyéb információkat is rögzítenünk (meggondolandó pl. az aprónyomtatvány eredeti méretének rögzítése, vagy – ha más gyűjteményből származó dokumentumokat is el szeretnénk helyezni új szolgáltatásunkba – a tulajdonos neve, esetleg elérhetősége).Ha csak ennyit teszünk, már akkor elmondhatjuk, hogy új és korszerű szolgáltatással várjuk a helyismeret iránt érdeklődőket! Nem kell dobozokban kotorászniuk, gyűjteményünket gyorsabban áttekinthetik, a másolatszolgáltatás egy pillanat műve, egyedi dokumentumaink a továbbiakban nincsenek kitéve a kopás veszélyének, és – ráadásul – megtettük az előkészületeket egy színvonalas webes szolgáltatás kialakítására is.
Cikkem címe azonban ennél többet ígért, haladjunk tehát tovább!
Aprónyomtatványaink döntő többsége szöveges információkat tartalmaz, a digitális képként rögzített dokumentumokon szereplő karakterek felismertetéséhez pedig régóta léteznek szoftverek. Ezek közül az egyik (kérem, nézzék figyelmesen az alábbi képet is!) biztosan alkalmas a következő munkamenet végrehajtására.1. Ismertessük fel a programmal a képen található szöveget!

 

2. A felismert szöveget mentsük el egy „kétrétegű” pdf-fájlba, amelyben az előtérbe a kép, a háttérbe a felismert szöveg kerül:

 

Figyeljünk arra, hogy a létrejövő pdf-fájl neve ugyanaz legyen, mint a képfájlé volt. Így sokkal könnyebb lesz a szolgáltatás kezelése.
„Régi OCR guruk” a második képre pillantva azonnal látják, hogy a program közel sem ismerte fel helyesen az egész szöveget (pl. az „ünnepi” szót). Készüljünk fel arra, hogy sok esetben (pl. ha grafikai motívumok és a szöveg fedik egymást az aprónyomtatványon) ennél is rosszabb lesz. A karakterfelismertető program – ismét csak: természetesen – lehetőséget ad a felismertetett szöveg korrektúrázására is. Ennek (részleges vagy teljes) vállalása ismét csak a gyűjtemény nagyságától, a feladat teljesítésére fordítható munkaidő mennyiségétől függ.

Pdf-dokumentumaink olvasására, kezelésére az Adobe Reader legfrissebb, magyar nyelvű verzióját érdemes használni (a cikk írása közben a 7.0.5-ös verziót használom). Ez az ingyenes olvasóprogram ugyanis képes meg nem nyitott fájlokban is keresni, ha megadjuk azt a könyvtárat, amelynek fájljaiban (vagy alkönyvtáraiban található fájljaiban) keresni szeretnénk.
A keresés lefuttatása után listába gyűjti azokat a fájlokat, amelyekben a keresett szót (a fenti esetben ez: „földműves szövetkezet”) megtalálta, a lista elemére kattintva pedig be is tölti azt a fájt, amelyet kiválasztottunk. Mivel „kétrétegű” pdf-dokumentumot hoztunk létre, a képernyőn mi a képet látjuk, ám a program meg is jelöli nekünk azt a részt, ahol a keresett szöveg szerepel:

 

Több találat esetén egymás után az összes „képet”, pdf-dokumentumot megnézhetjük, kiválasztva a nekünk megfelelőket. Ne lepődjünk meg! Ha már sok pdf-fájlunk van, a keresés több percig is eltarthat! Természetesen van mód állományaink indexelésére, így a gyorsabb keresés megvalósítására; ez pénzkérdés.
Ha mindent a fentiek szerint csináltunk, akkor a pdf-fájlnevektől eljutunk a jpg-képig, a képbe ágyazott raktári jelzettől pedig magához a dokumentumhoz…
Jól látszik, ez a módszer közel sem száz százalékos biztonsággal juttat el bennünket a keresett aprónyomtatványhoz. Ha a módszert továbbgondoljuk, és kiterjesztjük cikk-kivágatainkra, vagy a mikrofilmjeinken őrzött helyi lapok digitalizált változatának kezelésére, az eljárás olykor csak 70–80 százalékos hatékonyságúnak mondható; ez az arány csak szorgos munkával (korrektúra) javítható. De ha magunk elé képzeljük a dobozokban kotorászó, cikk-kivágatok tömegében elvesző, és a sötét, szellőztethetetlen helyiségekben mikrofilm-leolvasó fölé görnyedő és közben jegyzetelni próbáló felhasználót, kipróbálása, tesztelése – legalábbis remélem – meggondolandó.

P.S.
Kedves szakcikk-olvasó könyvtáros kollégám! Tudom, hogy a számítógépes munkavégzést ezerszer könnyebb megmutatni, mint leírni! Írás közben keservesen megtapasztaltam ennek igazságát!
Azt mondják, egy jó kép ezer szóval is felér! Ez esetben talán mondhatom: egy jó fájl ezer cikkel is felér. Ha tehát felkeltette kíváncsiságát a fent leírt eljárás, és szeretné kipróbálni, telepítse az Acrobat Reader programot, írjon egy levelet a tbela@vfmk.hu címre, és az általam készített, kereshető pdf-fájlokat csatolva pár napon belül elküldöm. Örömére fog szolgálni a bennük való teljes szöveges keresés!

1 Bényei Miklós: Helyismereti tevékenység a könyvtárakban. Nyíregyháza, 1994. 86. p.
2 Bényei Miklós: Genius loci – A helyismereti tevékenységről. Budapest, 2004. 47–48. p.

Címkék

(1) (1) (1) (1) (12) (1) (2) (2) (3) (3) (1) (1) (2) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (10) (3) (2) (3) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (2) (1) (1) (1) (1) (1) (1) (4) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (3) (2) (1) (1) (1) (1) (20) (1) (18) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (2) (1) (1) (1) (1) (1) (1) (1) (1) (1) (7) (1) (1) (1) (1) (1) (1) (1) (1) (3) (3) (1) (1) (5) (1) (3) (2) (1) (1) (1) (3) (2) (1) (1) (1) (1) (1) (1) (1) (1) (1) (4) (1) (1) (1) (1) (1) (1) (1) (2) (2) (1) (5) (1) (1) (2) (1) (2) (1) (2) (2) (1) (1) (1) (1) (1) (1) (6) (28) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (7) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (3) (1) (1) (1) (1) (1) (1) (2) (10) (1) (5) (1) (1) (2) (1) (1) (4) (1) (1) (5) (1) (1) (1) (1) (18) (6) (1) (6) (1) (1) (1) (1) (1) (1) (2) (1) (1) (1) (1) (1) (27) (3) (10) (1) (1) (1) (1) (1) (1) (1) (1) (1) (2) (1) (8) (3) (4) (1) (1) (1) (1) (1) (9) (2) (1) (1) (1) (1) (1) (1) (1) (1) (2) (1) (1) (12) (3) (1) (2) (1) (1) (1) (1) (1) (1) (2) (7) (11) (1) (1) (1) (1) (1) (1) (1) (2) (4) (2) (11) (1) (1) (1) (2) (1) (1) (2) (3) (2) (1) (1) (1) (1) (1) (1) (4) (4) (2) (10) (1) (2) (2) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (2) (3) (1) (1) (1) (1) (2) (1) (1) (1) (30) (3) (1) (1) (1) (1) (1) (1) (2) (33) (1) (1) (2) (1) (1) (1) (2) (2) (1) (1) (1) (1) (1) (1) (1) (1) (1) (9) (1) (1) (1) (4) (3) (1) (1) (1) (1) (2) (2) (2) (1) (1) (1) (2) (2) (1) (1) (1) (1) (1) (1) (1) (1) (3) (1) (2) (1) (1) (1) (1) (6) (1) (3) (1) (19) (1) (1) (1) (1) (1) (1) (1) (3) (4) (1) (9) (2) (1) (1) (1) (2) (1) (1) (3) (6) (15) (1) (3) (1) (1) (1) (1) (1) (1) (2) (2) (1) (1) (2) (1) (1) (3) (1) (1) (1) (2) (1) (1) (1) (1) (1) (10) (2) (2) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (4) (1) (1) (1) (1) (7) (5) (1) (2) (1) (1) (1) (2) (6) (1) (2) (1) (2) (1) (1) (2) (1) (1) (1) (13) (1) (1) (2) (4) (3) (1) (1) (1) (1) (3) (2) (1) (1) (1) (1) (1) (1) (1) (1) (1) (3) (1) (38) (1) (1) (1) (1) (1) (1) (1) (3) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (3) (1) (6) (1) (6) (17) (1) (1) (1) (1) (6) (1) (2) (1) (5) (1) (1) (1) (1) (19) (1) (1) (1) (1) (1) (1) (1) (3) (1) (1) (1) (4) (1) (3) (1) (1) (2) (1) (9) (1) (1) (1) (4) (1) (1) (1) (2) (1) (21) (6) (5) (1) (3) (2) (1) (1) (2) (3) (1) (1) (1) (1) (3) (1) (1) (1) (8) (1) (25) (1) (1) (1) (1) (1) (2) (6) (1) (1) (1) (1) (1) (1) (18) (3) (1) (1) (1) (2) (1) (1) (1) (4) (14) (1) (2) (1) (1) (1) (2) (2) (14) (7) (2) (4) (2) (3) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (2) (1) (3) (1) (1) (1) (1) (2) (1) (1) (2) (1) (1) (1) (1) (2) (2) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (2) (1) (1) (2) (5) (1) (1) (1) (1) (2) (22) (1) (1) (1) (1) (1) (2) (2) (1) (2) (1) (1) (2) (1) (1) (3) (1) (1) (1) (6) (1) (4) (1) (1) (1) (10) (1) (1) (1) (1) (1) (1) (1) (1) (4) (1) (1) (3) (12) (1) (4) (1) (1) (3) (1) (1) (1) (1) (1) (1) (1) (2) (1) (1) (1) (17) (4) (1) (1) (2) (1) (3) (1) (2) (1) (1) (2) (1) (1) (1) (2) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (2) (1) (1) (1) (6) (1) (1) (1) (2) (1) (1) (5) (2) (1) (2) (1) (1) (1) (1) (1) (1) (1) (1) (1) (2) (1) (9) (1) (2) (1) (4) (1) (1) (1) (1) (3) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (2) (1) (1) (1) (1) (2) (1) (1) (3) (1) (1) (1) (1) (1) (1) (2) (1) (1) (1) (62) (1) (1) (1) (3) (3) (1) (4) (1) (11) (10) (3) (1) (1) (3) (1) (1) (2) (2) (2) (1) (4) (1) (6) (1) (1) (1) (1) (1) (1) (2) (1) (1) (1) (1) (1) (1) (7) (9) (1) (1) (7) (6) (1) (1) (1) (1) (1) (1) (1) (7) (42) (3) (1) (1) (1) (1) (1) (1) (1) (1) (1) (2) (9) (1) (2) (1) (1) (1) (2) (2) (1) (1) (1) (2) (2) (1) (1) (1) (1) (2) (1) (1) (1) (2) (2) (1) (1) (1) (1) (2) (1) (1) (1) (1) (1) (1) (2) (1) (1) (1) (1) (2) (6) (1) (1) (1) (1) (2) (1) (4) (1) (1) (4) (6) (1) (1) (1) (2) (1) (1) (2) (4) (1) (1) (1) (1) (2) (1) (1) (1) (1) (1) (1) (1) (4) (1) (2) (1) (1) (1) (1) (1) (1) (1) (2) (1) (4) (1) (1) (1) (1) (4) (4) (1) (1) (1) (1) (1) (1) (2) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (2) (1) (1) (8) (1) (4) (1) (1) (1) (1) (1) (2) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (2) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (5) (1) (2) (2) (9) (1) (7) (1) (1) (1) (1) (2) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (2) (1) (1) (1) (1) (1) (1) (2) (1) (1) (1) (1) (3) (1) (1) (1) (1) (2) (1) (2) (1) (1) (1) (2) (1) (1) (2) (1) (1) (2) (4) (1) (1) (1) (1) (1) (1) (1) (5) (1) (1) (2) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (1) (2) (2) (8) (1) (1) (1) (4) (2) (1) (1) (1) (1) (1) (1) (1) (1) (2) (1) (1) (1) (1) (1) (1)