A szövegdigitalizálás döntési folyamata TÓSZEGI Zsuzsanna Az utóbbi évtizedben gyakran találkozhattunk a hazai könyvtári szaksaj-tóban a digitalizálás módszereivel, eszközeivel, eredményeivel, de kevés olyan publikáció jelent meg, amely a napi gyakorlat, és azon belül is az eldöntendő kérdések felől közelíti meg ezt a sok összetevőből álló folyamatot. Az alábbiakban a nyomtatott művek digitalizálása során számba veendő és mérlegelendő szempontokat vesszük sorra – azt remélve, hogy a döntési folyamat bemutatásával a könyvtáros kollégák segítségére lehetünk a digitalizálási feladatok ellátásában. A fogalmi keretek Bár az eredmény mindkét esetben egy digitális állomány, a feldolgozási folyamat eltérő sajátosságai, illetve a szerzői jogi előírások miatt meg kell különböztetnünk egymástól a digitális formában létrejövő (born digital), illetve a digitalizált (digitized) dokumentumokat. A digitális dokumentumok egyre nagyobb hányada eleve valamilyen számítógépes eljárással készül, tehát digitális formában jön létre. A digitalizálás során viszont a korábban más hordozón megjelent műveket valamilyen digitalizáló eszközzel kódoljuk át a számítógép nyelvére, illetve rögzítjük számítógéppel olvasható adattároló eszközre. Az eredeti mű hordozója lehet papír, bakelit lemez, celluloid szalag stb., a rögzített információ lehet szöveg, hang, álló- vagy mozgókép, illetve ezek együttese. A cikkünk tárgyát képező szövegdigitalizálás azoknak az eszközöknek, módszereknek, eljárásoknak az összességét jelenti, amelyek segítségével az analóg eljárással nyomtatott dokumentumról a számítógép által kezelhető, digitális jelek sorozata jön létre.1 A digitalizálás során az analóg jeleket valamilyen digitalizáló eszközzel alakítják át a számítógép által olvasható jelekké (kódokká). Más szavakkal azt is mondhatjuk, hogy a digitalizálás eredményeként az analóg nyomat számítógépes reprezentációja jön létre. A digitalizálási folyamat bemeneti (input) oldalán az eredeti mű (a forrásmű) – kimeneti (output) oldalán pedig a számítógépes reprezentáció (a digitalizált állomány) áll. A szövegek digitalizálására használatos eszköztár igen szűkös – gyakorlatilag a számítógép-billentyűzetre és a szkennerre korlátozódik. A digitalizáló eszközök azonban a digitalizálás tárgyát képező forrásművek információtartalmának csak egy részét képesek bináris kódokra áttenni, így bizonyos értelemben a digitalizált állomány információtartalma az eredeti forrásénál kevesebb. Más vonatkozásban viszont – a forrásmű információtartalmán túl – a digitális változathoz olyan további funkciókat is rendelhetünk, amelyek az analóg változathoz képest értéktöbbletet eredményeznek. Ha a digitális változat tulajdonságait az eredeti műhöz viszonyítjuk, három szintet különböztethetünk meg:
Ha a fent vázolt három szintet összevetjük a digitalizálás leggyakoribb forrásául szolgáló hagyományos könyvekkel, a következő eltéréseket állapíthatjuk meg. Az első szinten nincs lényegi különbség a nyomtatott könyv, valamint a csak képként megtekinthető és lapozható digitális állomány között. A második szint olyan keresési lehetőségeket kínál föl, amelyeket a nyomtatott könyv legföljebb csak részben tud nyújtani. A harmadik szinten a forrásmű szövege új dimenzióba kerül: a lineáris olvasatot megtöri a hivatkozásként beillesztett számtalan új elem, amelynek következtében a digitalizált mű nem lesz többé homogén összetevőkből felépülő, egységes, lezárt egész, hanem egy nyitott struktúrájú, heterogén alkotóelemekből álló halmazzá válik, amelynek pontos határait már nem is lehet megvonni a reá mutató, illetve belőle kilépő hipertext kapcsolatok rendszerén belül. A nyomtatott könyv – amelynek tartalma bár-milyen sokrétűen van strukturálva, indexelve – belső tulajdonságainál fogva statikus. Az előre kitalált szerkezeti felépítést, az oldaltükröt, a tartalomjegyzéket, indexeket, hivatkozásokat, utalókat a nyomtatás után már nem lehet megváltoztatni, az esetleges hibákat nem lehet kijavítani. Ugyanez igaz a sokszorosítási eljárással készülő CD-ROM-okon2 publikált művekre is. A hálózaton keresztül elérhető művek viszont többé-kevésbé dinamikusak, hiszen a szolgáltató szervereken tárolt állományok képernyőn való megjelenése a kliens oldali számítógép beállításától, illetve a felhasználó által futtatott programoktól is függ. A digitalizálási folyamat célrendszere Maga a digitalizálás nem túlságosan bonyolult folyamat, előkészítése azonban igen nagy körül-tekintést igényel. Mielőtt a megvalósításhoz hozzákezdenénk, végig kell gondolnunk azokat a legfőbb szempontokat, amelyek segítségével pontosan meg tudjuk határozni a digitalizálás célrendszerét. A digitalizálás célja és a digitalizálhatóság A digitalizálás legfontosabb indítékai általában a következők:
Az alábbiakban a döntéshozatal során figye-lembe veendő legfontosabb szempontokat vesszük sorra, a „kinek, miért, mit, hogyan digitalizáljunk?” leegyszerűsített kérdések köré csoportosítva. A prioritási sorrend is csak a digitalizálás céljainak ismeretében fogalmazható meg. A döntés során meg kell határoznunk, hogy a legértékesebb, a legnagyobb érdeklődésre számot tartó, a legkutatottabb, vagy a legveszélyeztetettebb dokumentumokat részesítjük-e előnyben. A „mit digitalizáljunk?” kérdésre adott válaszokban tudományos, gyakorlati, üzleti stb. szempontok egyaránt érvényesülhetnek. Ha a szelekció nehéz kérdésén túljutottunk, következik a digitalizálandó mű elemzése az állományvédelmi szempontok alapján, majd meg kell vizsgálni a digitalizálandó szöveg adathordozójának fizikai adottságait, illetve a forrásmű szövegének jellemzőit. Végezetül a tartalomszolgáltatás minőségét alapvetően meghatározó, a „hogyan digitali-záljunk?” kérdéskörbe tartozó szempontokat kell sorra vennünk, hogy válaszolni tudjunk az alábbi kérdésekre:
A felsorolt szempontokra a későbbiekben visz-szatérünk, ugyanis a „kinek, miért, mit, hogyan digitalizáljunk?” kérdésekre adott válaszok jelölik ki a feladat minőségi és mennyiségi mutatóit és határozzák meg a digitalizálás erőforrás-igényét. A szerzői jogi szempontok Nem lehet eléggé hangsúlyozni, hogy a digitalizálás szempontjából a szerzői jogi kérdések a legfontosabbak közé tartoznak. Egy szerzői joggal védett mű esetében, ha nem kapjuk meg a jogtulajdonos hozzájárulását, akkor sem az interneten, sem CD-ROM-on, sem más hordozón nem adhatjuk közre a digitalizált művet – márpedig a korábban nyomtatásban megjelent műveket főként azért digitalizáljuk, hogy az interneten vagy CD-ROM-on hozzáférhetővé tegyük őket a nagyközönség számára. A szerzői jogi szabályok szerint a digitalizálás a mű többszörözésének minősül, amelynek engedélyezése a szerző kizárólagos joga – ezért minden esetben először azt kell megvizsgálnunk: a szerzői jog szempontjából védett műről van-e szó? Ha nem, akkor nincs akadálya a digitalizálásnak. Ha igen, akkor fel kell kutatnunk a szerző(ke)t (illetve a jogtulajdonosokat), meg kell velük kötni a felhasználási szerződést, és csak ezután kezdődhet a munka. A szerzői jogi szabályok Minden olyan egyéni, eredeti alkotás3 szerzői jogi védelemben részesül, amely egy vagy több szerző szellemi, művészi teljesítményének ered-ményeként jött létre. A szerzői jog – minden külön regisztrációs kötelezettség nélkül – a művet annak létrejöttétől védi. A szerzőket a műveik után megillető jogok két részre: a személyhez fűződő, illetve a vagyoni jogokra oszlanak. A személyhez fűződő jogok – amelyek nem ruházhatók át – a következőkből tevődnek össze:
A vagyoni jogok – amelyek bizonyos feltételek-kel átruházhatók – legfontosabb szabályai:
A személyhez fűződő jogok közül a név feltüntetésének és a szerzői minőség elismerésének a joga soha nem évül el. A személyhez fűződő további jogok, illetve a vagyoni jogok csak bizonyos ideig, az ún. védelmi időn belül érvényesíthetők; irodalmi művek esetében a védelmi idő a legtöbb európai országban a szerző halálától számított 70 év. Nemcsak a szerzők, hanem a művek nyilvános előadásában, a nyilvánossághoz való közvetítésben szerepet játszó közreműködők, sőt, a jelentős ráfordítással létrejövő adatbázisokat előállítók érdekeit is védik az ún. kapcsolódó jogok. A közreműködők a mű nyilvánosságra kerülésétől számított 50 éven át élhetnek a szomszédos jogok által biztosított jogaikkal; az adatbázisok, adattárak létrehozóira pedig 15 évig érvényesek a sui generis jogok. Aki a védelmi időn belül vagy többszörözni4, vagy nyilvánossághoz közvetíteni akar egy szerzői művet, jogviszonyba kerül a jogtulajdonosokkal5, így a mű felhasználójává válik. A felhasználás körülményeit és feltételeit írásbeli szerződésbe kell foglalni. A felhasználási szerződés tartalmára vonatkozóan nincsenek kötelező előírások, de az alábbiakra mindenképpen érdemes kitérni:
Amennyiben a digitalizálásra szánt műhöz előadóművészi és/vagy közvetítői teljesítmény is kapcsolódik, a szomszédos jogok jogosultjaival is kell felhasználási szerződést kötni. A szerzői jogi rendszer nemcsak a jogtulajdonosok, hanem a felhasználók érdekeit is szolgálja. A tudományos és művészeti alkotások megismerését azok a szerzői jogi rendszerbe épített korlátozások is elősegítik, amelyek bizonyos értelemben határt szabnak a jogtulajdonosi monopol-jogok érvényesítésének. Az össztársadalmi érdekeknek a szerzők jogaival szembeni – bizonyos szűk határokon belüli – érvényesülését a jog szabad felhasználásnak nevezi. A szabad felhasználás körébe tartozó esetekben a felhasználók legálisan és jogdíjfizetés nélkül juthatnak hozzá a szellemi javakhoz. A szabad felhasználás viszont csak akkor érvényesíthető, ha a felhasználás egyszerre tesz eleget az alábbi követelményeknek:
A jelen írás adta keretek nem teszik lehetővé a szerzői jogi rendszer – és ezen belül a szabad felhasználás – kimerítő ismertetését, így most csak a tárgyunk szempontjából legfontosabb eseteket emeljük ki. Archiválási célra lehet másolatot készíteni (tehát digitalizálni is), ha az
Fontos tudni azonban, hogy archiválási céllal sem szabad másolatot készíteni építészeti műről, műszaki létesítményről, szoftverről és számítástechnikai eszközzel működtetett adatbázisról. A forrásmű kiválasztása Könnyű lenne azt mondani, hogy digitalizáljunk minden korábban nyomtatásban megjelent művet, tegyük közzé a hálózaton, és bízzuk a felhasználókra a válogatást. Ez az út azonban – főként anyagi okokból – még a leggazdagabb országok számára sem járható. Sokba kerül maga a digitalizálás, sok élőmunka árán lesznek a művek visszakereshetővé, és hatalmas számítógépes tárkapacitásra van szükség, ha nem csak tárolni, de szolgáltatni is akarjuk a digitalizált műveket. A döntési folyamat egyik legnehezebb kérdése a szelekció. A „mit digitalizáljunk” kérdésre adott válasz az egész tartalomszolgáltatási rendszer minőségét, a szolgáltatást igénybe vevők körét, a szükséges erőforrások nagyságát, a hosszú távú tervezést, és minden további fontos összetevő mibenlétét meghatározza. Éppen ezért az a jó megoldás, ha a szelekció kérdését szakavatott döntéshozókra, a tudományos műhelyekre bízzuk, mert – a köz szolgálatára és a tudomány érdekeire együttes figyelmet fordítva – ők tudnak eleget tenni a kiválasztás nehéz feladatának. A digitalizálandó mű elemzése Alapelvként leszögezhetjük, hogy a digitali-zálásnak nem szabad kárt okoznia: rongálni, roncsolni csak olyan dokumentumokat szabad, amelyekből másik példány is rendelkezésünkre áll. A döntési folyamatban elsőként az állományvédelmi szempontok alapján kell kiválasztanunk a megfelelő eljárást. Ezt követően sorra kell vennünk a rendelkezésre álló analóg példány jellemzőit, illetve a tervezett szolgáltatás céljait; ezek úgyszintén nagyban befolyásolják a digitalizálási technológiát. Az állományvédelmi kérdések tisztázása A forrásművet először állományvédelmi szempontból kell megvizsgálni, hogy ki tudjuk választani a megfelelő digitalizálási eljárást.7 Többféle szkennelési technológia létezik, amelyek közül azonban feltehetően csak egy lesz alkalmazható a konkrét környezetben az adott műre. Az alábbiakban számba vesszük a két szélső értéket és a leggyakrabban alkalmazott megoldást. A forrásmű fizikai adottságainak és szövegének elemzése Mielőtt a digitalizálás technológiáját, illetve az output iránt támasztott követelményeket meghatároznánk, elemeznünk kell az input, vagyis a digitalizálás alapjául szolgáló forrásmű tulajdonságait: A következő oldalon látható táblázatban összefoglaljuk azokat a legfontosabb döntési szempontokat, amelyek befolyásolják, melyik esetben milyen digitalizálási módszert válasszunk.
Tekintetbe kell még venni a dokumentum fizikai jellemzőit is: milyen a papír és a nyomdai elő-állítás minősége, vannak-e a lapokon esetleges elszíneződések, foltosodás stb.? Mielőtt a szkennelés és karakterfelismertetés közös alkalmazása mellett döntenénk, ne hagyjuk figyelmen kívül, hogy az OCR technológia a lé-zernyomtatóval, famentes papírra, folyó szövegként kinyomtatott, mai helyesírású szövegek-re van optimalizálva. Ha a forrásmű bármely vonatkozásban eltér ettől a négy kritériumtól, a karakterfelismertetés során jelentős minőségromlást fogunk tapasztalni, és számíthatunk rá, hogy az eredmény nem lesz megfelelő. Gyakorlati tanácsként azt mondhatjuk, a döntés előtt érdemes próbát tenni: szkenneltessünk be három jellemző oldalt, majd ismertessük föl a szoftverrel, és elemezzük a kapott eredményt. Abból, hogy mennyi időt kell a hibajavításra szánni, ki tudjuk kalkulálni, egy óra alatt milyen mennyiséget lehet kijavítani. Elképzelhető, hogy a kapott eredmény alapján úgy döntünk, inkább begépeltetjük a szöveget. Ez utóbbi professzionális megoldásai között jól ismert a kétszeres bevitel: ekkor két különböző leíró gépeli le a szöveget, majd számítógéppel összehasonlítják a két változatot, és csak azt a szöveget vetik össze az eredetivel, ahol a két változat eltér egymástól. Annak a valószínűsége ugyanis, hogy két leíró ugyanazon a helyen ugyanazt a hibát „állítja elő”, rendkívül csekély. Ha túl bonyolult szöveggel állunk szemben, és/vagy a rendelkezésre álló anyagi eszközeink szűkösek, illetve az outputot illetően nem elsődleges fontosságú a teljes szöveg visszakereshetővé tétele, az eredeti mű fakszimile formátumának megjelentetése kínálkozik megoldásként. Ebben az esetben elmarad az összes, egyenként is jelentős élőmunka-ráfordítást igénylő művelet: a karakterfelismertetés utáni többszöri korrektúra, a strukturális, szemantikai és tipográfiai sajátosságok kódolása – viszont elveszítjük a számítógépes feldolgozás legnagyobb előnyét: a sok szempontú visszakereshetőséget. A döntési folyamat során további megfontolás tárgya a költségek elemzése: ki kell kalkulálni, mekkora beruházás, mennyi élőmunka-ráfordítás szükséges a kívánt eredmény eléréséhez? Erről bővebben „A digitalizálás költségigénye” c. fejezetben olvashatunk. A tartalomszolgáltatás szempontjai Akár online, akár offline módon elérhető szolgáltatást tervezünk, az eddig felsoroltakon túlmenően további számos kérdésre kell előre megadnunk a választ annak érdekében, hogy helyesen tudjuk kialakítani a digitalizálás célrendszerét, majd kiválasztani a megfelelő eljárást. A tartalomszolgáltatás olyan sokrétű tevékenység, amelynek alapos ismertetése szétfeszítené e cikk kereteit, ezért kénytelenek va-gyunk a legjellemzőbb kérdések föltevésére és a rájuk adott legtipikusabb válaszokra szorítkozni.
A szövegek reprezentációjára szolgáló formátumok, jelölőrendszerek A szöveg értelmezésének három szintje ismeretes: a formai (layout), a logikai (szintakti-kai) és a tartalmi (szemantikai). Vannak olyan szövegformátumok, amelyek csak a formai adottságokat, mások pedig a szintaktikai és szemantikai elemeket is tudják kezelni. Ha a hosszú idejű megőrzés mellett a szöveg bizonyos elemeinek minősített keresésére13 és a számítógépes hardver- és szoftvereszközök adottságaitól független, széles körű használhatóságra egyidejűleg törekszünk, akkor nem elégedhetünk meg a ma elterjedt HTML formátummal14. Bár sokkal több előkészületet igényel, és nagy az élőmunka-ráfordítás igénye, hosszabb távon megéri az SGML szabványt, vagy annak legújabb „leszármazottját”, az XML-t alkalmazni. Az SGML szabványt15 1986-ban fogadták el. Az elmúlt két évtized során számos tudományterületre és annak jellemző dokumentumtípusaira kidolgozták a speciális SGML alkalmazásokat, a világot az 1998-ban napvilágot látott XML16 változat hódította meg, amely érvényesíti az SGML előnyeit, de igyekszik kiküszöbölni annak hátrányait. Az SGML szabvány alkalmazása jelentős előkészítő munkát igényel, melynek során ki kell dolgozni a tartalmi elemek jelölését, rögzíteni kell a különböző információtípusok közötti kapcsolatokat, a dokumentum struktúrájára vonatkozó szabályszerűségeket. Azt is meg kell határozni, a dokumentumban mely elemek kötelezőek és melyek opcionálisak. A dokumentum struktúrájára jellemző szabályokat előre meg kell fogalmazni, és le kell írni a dokumentum-típus definícióban (Document Type Definition – DTD). Az SGML alkalmazások „lelke” a DTD, amely nem más, mint az egyes szövegtípusok (ez lehet például vers, dráma, szabadalmi leírás stb.) szövegmodellje. Az SGML szabvány szerint feldolgozott dokumentumban a szövegbe ágyazva, de attól speciális határoló jelekkel elválasztva jelöljük a meta-adatokat. A metaadatok három típusát különböztetjük meg:
Másként fogalmazva az elemek a dokumentum logikai szerkezetét határozzák meg, az entitások pedig a logikai szerkezet mögött lévő fizikai szerkezetet írják le. A felsorolásból látható, hogy a dokumentumok formai jegyeit az SGML állományok nem tartalmazzák. Mindazt az információt, amelyet az egyes dokumentumtípusok megjelenítésével kapcsolatban fontosnak tartunk, részben a DTD fájlokban, részben a külön definiálandó stíluslapokban határozhatjuk meg.17 A dokumentumok megjelenítésére külön szabvány, a DSSSL18 szolgál. Az SGML egyik legnagyobb előnye, hogy független a hardver- és szoftvereszközök fajtájától és típusától, illetve a számítógép operációs rendszerétől19. A szabvány további kedvező adottsága, hogy különválasztja a tartalmat a formától; hátránya viszont, hogy bonyolult és drága, mert alkalmazása speciális tudást igényel. Ha valóban hosszú távra akarunk digitalizálni, akkor viszont megéri az SGML technológiát alkalmazni, mert a szabványos eszközökkel kódolt szöveghez mindig lehet olyan konverziós programot írni, amelyik az output oldal mindenkori kívánalmainak megfelel. A digitalizált állomány megőrzésének kérdései Az informatikai hardver- és szoftvereszközök rendkívül gyorsan elavulnak, ezért a ma rendelkezésünkre álló digitalizálási eljárások eredményeként létrejövő számítógépes állományok várható élettartama igen rövid. A gyors technológiai avulás következtében – nem véletlenül – a jelentős ráfordítást igénylő digitalizálás egyik kulcskérdése a megőrzés, illetve a tartalomszolgáltatás tervezett időtartama. Egy adott számítógépes környezetben alig néhány évig tudunk úgy dolgozni, hogy a gépünkből kikerülő szövegek és egyéb állományok a mindenkori átlagos színvonalon lévő számítógépekkel értelmezhetőek legyenek. Sajnos, ez igaz a merevlemezen tárolt fájlokra, de még inkább az offline hordozókra (például CD-ROM-okra) kiírt állományokra. Ahogy ma már – lejátszó egységek híján – nem tudjuk a 80-as évekbeli mágnesszalagokat, vagy a 90-es évek elején használt 5,25 inches hajlékony lemezeket leolvasni, tíz év múlva ugyanígy nem lesznek eszközeink a ma általánosságban elterjedt háttértárolókon lévő állományok olvasására. A digitalizált állomány megőrzése részben a fizikai, részben a technikai környezettel szemben támaszt követelményeket. Fizikailag biztosítanunk kell a tárolóeszközök védelmét a valós és virtuális veszélyek ellen (tűz- és vízkár, betörés- és vírusvédelem stb.), technikailag pedig karban kell tartani a tárolóeszközöket (beleértve az adatellenőrzést, és szükség esetén az egyik hordozóról a másikra való átírást). Kívánatos a dokumentumok azonosító adatainak (a metaadatoknak) időnkénti ellenőrzése és karbantartása. A szövegdigitalizálás módszerei Szkennelés, fakszimile kép előállítása A szkennelés eredményeként a digitalizált oldal képe jön létre, amely az eredeti oldal hű leképezése. A szkenner által létrehozott képfájl a hagyományos nyomdatechnikában ismert „fakszimile”, „hasonmás” oldalra hasonlít. A digitalizálás célkitűzései között meg kell határozni, kielégíti-e céljainkat a képfájl, vagy kereshetővé akarjuk tenni a szöveget – ez utóbbi esetben a képen látható szöveget át kell kódoltatni számítógéppel olvasható formátumra. A szkennerekről elég annyit tudni, hogy – a digitalizálandó mű hordozójától, fizikai paramétereitől és az állományvédelmi szempontoktól függően – különböző típusok közül választhatunk. A legismertebbek az ún. síkágyas szkennerek, amelyek leginkább a jól ismert másológépekre hasonlítanak, de vannak olyanok is, amelyek szabadlapok, vagy mikrofilmek, vagy diaképek digitalizálására alkalmasak. Bár nem a szkennerek között tartjuk számon őket, a digitális fényképezőgépek is használhatók dokumentumok digitalizálására. Szövegfelismerés (OCR) Amennyiben a digitalizálás célja számítógéppel olvasható szöveg előállítása, akkor szükség van a szkennelt képek konvertálására, vagyis a képi elemekként tárolt információk szöveggé való visszafejtésére. E célra speciális karakterfelismerő szoftvereket20 fejlesztettek ki, amelyek működési elve a következő. A képfájl egészen apró elemekből, pontokból (ún. pixelekből) épül föl. A digitalizált kép adottságaitól függően minden egyes képpont hordoz valamilyen információt: a legegyszerűbb esetben, amikor a fehér lapon csak fekete betűk szerepelnek, ez az információ az igen/nem (vagyis az 1 és a 0) váltakozására szorítkozik. Esetünkben az „igen” a feketével fedett, a „nem” pedig a nem fedett képpontot jelenti.21 A szkenner a lap minden egyes apró pontjáról tárolja azt az információt, van-e ott festék („igen”), vagy nincs („nem”). A szövegfelismerő szoftver ezen a képfájlon halad végig, és a képpontok eloszlását hasonlítja össze azzal a mintázattal, amelyet a program az adott karakterkészletről tárol. A képfájlban található pontok és a memóriában tárolt karakterkészlet összevetésének eredményeként egy szöveg-imitáció áll elő. A szövegfelismertetés következő fázisa a karakterláncok értelmes szavakká alakítása. A szövegfelismerő szoftverek nemcsak az egyes írásjelek képét tárolják, de terjedelmes szótárakat is tartalmaznak. Még a szövegfelismertetés elején ki kell választani a munkanyelvet, amelynek szókészletével a szoftver a feldolgozás utolsó fázisában összeveti az általa felismerni vélt szavakat, és a képernyőn (általában valamilyen színes kiemeléssel) jelzi, ha két szóköz-jel között olyan karaktersort állapított meg, amelynek megfelelője nem található meg a szókészletben. A számítógép által hibásnak jelzett szavakat mindenképpen ellenőrizni – és szükség esetén javítani – kell. Gyakran előfordulnak azonban alakilag hibátlan, az adott szövegkörnyezetben mégis hibásnak számító szavak, amelyeket szintén javítani kell. A korrektúrázást csak intellektuális munkával lehet elvégezni – éppen emiatt igényel a szövegfelismerés jelentős élőmunka-ráfordítást. A kijavított szöveget – a digitalizálás célfügg-vényében meghatározott elvek alapján – vagy újból ellenőrizzük és javítjuk, vagy nem. Ha jó minőségű szöveget kívánunk reprodukálni, minimum kettő, de sok esetben három korrektúra-fázisra is szükség van. Minél bonyolultabb, összetettebb szöveget digitalizálunk, annál több emberi beavatkozásra van szükség a karakterfelismerés során előállt hibák kijavítása érdekében. Begépelés Nehéz egzakt módon meghatározni, hol van az a határ, amelynél a begépelést érdemesebb választani. Általánosságban azt mondhatjuk, ha régies helyesírású, vagy sok idegen szót tartalmazó, vagy különleges tipográfiai elemeket (például sok dőlt betűt, vagy hasábokra tördelést) tartalmaz a szöveg, akkor kifizetődőbb leíratni a szöveget, mint a karakterfelismerés után korrektúráztatni. Korábban már említettük: ha a cél igazán jó minőségű szöveg előállítása, akkor érdemes két leíróval legépeltetni ugyanazt a szöveget, amelyet egy számítógépes programmal összehasonlítva csak ott korrektúrázzák, ahol eltérés mutatkozik a két változat között.22 A különböző szövegdigitalizálási eljárások előnyeit és hátrányait az alábbi táblázatban foglaltuk össze: Mindig a cél határozza meg, melyiket választjuk! A digitalizálás sikere számos, egymással ellentétes hatást gyakorló tényező helyes megválasztásán múlik, így a munka megkezdése előtt még az alábbiakat is mérlegelnünk kell: A digitalizálás költségigénye A megfelelő kapacitású digitalizáló rendszer kialakításának költségei több összetevőből állnak, melyek közül vannak kötelezően, illetve opcionálisan előfordulók. Az alábbi táblázatban azokat a költségtípusokat foglaljuk össze, amelyek egy tipikus digitalizálási feladat végrehajtása során jelentkeznek. Az előzetes költségszámítások alapján lehet eldönteni, mely fázisokat tudjuk „házon belül” elvégezni, és melyeket kell kiadni külső vállalkozónak. Saját digitalizáló műhelyt akkor érdemes kialakítani, ha annak kapacitását folyamatosan ki tudjuk használni. Azt is érdemes tekintetbe vennünk, hogy az informatikai rendszerek és eszközök amortizációja 2–3 év, ezért már a tervezés során kell az infrastruktúra megújítására gondolnunk. A szerzői jogok védelme digitalizált művek esetében A digitalizálás során a szerzői jog védelmével nemcsak a korábban nyomtatásban megjelent művek felhasználójaként, hanem tartalomszolgáltatóként is tisztában kell lennünk. A jelentős ráfordítással digitalizált és ugyancsak komoly költséggel működtetett rendszerben szolgáltatott művek illegális felhasználása ellen nemcsak saját érdekünkben, de azoknak a jogtulajdonosoknak az érdekében is fel kell lépnünk, akiknek mi annak rendje-módja szerint kifizettük a jogdíjat. A jogtulajdonosok elvárják a tartalom-szolgáltatóktól, hogy akadályozzák meg műveik engedély nélküli letöltését és esetleges illegális forgalmát. A digitálisan hozzáférhető állományok szerzői jogvédelmére a hagyományos eszközök nem alkalmasak, ezért informatikai megoldásokat fejlesztettek ki erre a célra. A digitális tartalmakhoz való hozzáférést lehetővé tevő, illetve szabályozó technikai, műszaki, hardver- és szoftvereszközök összefoglaló neve: digitális jogkezelés (Digital Rights Management, DRM). A különböző DRM-technológiák a szerzői jog által védett digitális tartalom meghatározására, azonosítására szolgálnak, és biztosítják a törvény által előírt szabályok betartatását. A DRM a jogvédelem alatt álló digitális tartalmak illegális terjesztése ellen kifejlesztett olyan műszaki eljárások komplex rendszere, amely
A DRM rendszer két alapvető funkciója:
A dokumentumok azonosítására szolgál a Digital Object Identifier (DOI) és a digitális vízjel. A szerzők, illetve a jogosult felhasználók a digitális aláírás segítségével igazol-hatják személyazonosságukat. A digitális tartalomátvitel során a jogosulatlan hozzáférést megakadályozó jogkezelő eljárás a hitelesítés és a titkosítás. Összegzés A digitalizálási feladatoknak akkor tudunk a legjobb színvonalon eleget tenni, ha minden-kor a nemzetközi szinten elterjedt szabványos megoldásokat alkalmazzuk.23 Ebben az esetben még abban is bízhatunk, hogy időről időre elkészül majd az a konverziós és/vagy migrációs eljárás, amely úgy váltja föl a jelenleg ismert szabványos eljárásokat, hogy adatainkat és a digitalizált állományokat veszteség nélkül tölthetjük át az új rendszerbe. Jegyzetek
|
||
|