47. évfolyam, 2001. 1. szám
Archívum

Egy szegény elektronikus könyvtáros panaszai
A digitális szövegformátumok problémái

Drótos László

kondrot@gold.uni-miskolc.hu 

Elhangzott az MKE  Elektronikus Könyvtár Szekciójának az OSZK-ban 2001. március 1-jén tartott rendezvényén, melynek központi témája a szövegdigitalizálás volt. 

Ha már előadásom címéül szegény Kosztolányi versciklusának címét torzítottam el, még egy Csokonai parafrázist is megengedek magamnak: „Az is bolond, aki elektronikus könyvtárossá lesz manapság”. Annyira kiszámíthatatlan ugyanis a számítógépes dokumentumok jövője, a sokféle szabvány, kvázi szabvány és házi szabvány vetélkedése, hogy lehetetlen okos döntést hozni annak, aki digitális könyvek archiválásával és szolgáltatásával akar foglalkozni. Forrong az egész terület, az elektronikus publikálás egyre nagyobb üzlet és sok új játékost vonz, akik gyakran még azt a néhány játékszabályt is felrúgják, ami nagy nehezen kialakult. A HTML például az elmúlt években teljesen összekuszálódott (vagy ahogy egy amerikai cikk szerzője találóan fogalmazott: „balkanizálódott”), a kiutat ígérő XML lassan terjed, viszont havonta jelennek meg új, semmivel sem kompatibilis e-book formátumok, miközben a konzervatívabb folyóirat-és könyvkiadók legszívesebben a nyomtatotthoz leginkább hasonló PDF-ben publikálnak, ám ugyanakkor szinte mindenki a Word-öt veszi elő, ha szöveget akar írni számítógépen.

Ahhoz, hogy valamennyire a jövőbe tudjunk látni, a múltba érdemes előbb visszanézni, és ha áttekintjük a gépek és szövegszerkesztő programok elmúlt 20-30 éves történetét, azt vesszük észre, hogy a számítógépes szövegek tárolási és megjelenési módját bizony leginkább a mindenkori műszaki (főleg hardver) lehetőségek határozták meg, és nem az, hogy mi lett volna az emberek számára az ideális megoldás (pl. a drága háttértárak és memóriák miatt lett először csak 6, majd 7, később 8 bites az ASCII szabvány, pedig a 12 vagy 16 bites karakter-kódolás az optimális az emberiség számára, ezért fogunk még évtizedekig szenvedni a magyar ékezetekkel; vagy például állítólag a 80 oszlopos lyukkártyák miatt lettek 80 karakteresek az első képernyők és nyomtatók, pedig az emberi szemnek az 50-60 karakteres sorhosszúság a kényelmes, ahogy ez a nyomtatott könyveknél is van.). Várhatóan továbbra is a technikai változások fogják leginkább befolyásolni az elektronikus dokumentumok sorsát. Hogy a mindenkori „tökéletes megoldás” mennyire függ a műszaki lehetőségektől ezen a téren, azt jól mutatja a Ted Nelson nevéhez kötődő Xanadu projekt, mely több mint 30 év alatt sem hozott gyakorlati eredményt a tökéletes hipertext rendszer megalkotása terén, mert az elképzeléseket és az elkészült szoftvereket állandóan hozzá kellett igazítani az újabb és újabb számítástechnikai lehetőségekhez, míg végül a kilencvenes évek elején a – sokkal tökéletlenebb – Web megjelenésével és gyors elterjedésével az egész Xanadu fejlesztés értelmét vesztette. A napjainkban zajló e-book forradalom is hasonló fordulatot hozhat: hiába írtak össze annyi minden okos dolgot az elmúlt években arról, hogy milyen is az ideális formátum az elektronikus szövegekhez és hiába születtek a bonyolult, mindenre kiterjedő szabványok, indultak be az ezekre épülő különféle kezdeményezések, könnyen lehet, hogy pár év múlva az emberek egyszerű, hordozható kis célgépeken fognak könyveket olvasni, melyek alig tudnak többet, mint a hagyományos nyomtatott könyvek, igaz nem is drágábbak és a használatukhoz sem kell többet tudni. (Analógia: a 70-es és 80-as évek csúcstechnikájú, precíziós HiFi lemezjátszói helyett ma a jóval gyengébb hangélményt nyújtó MP3 lejátszók terjednek el, olcsóságuk és egyszerűségük miatt.)

Persze, hogy milyen is volna a tökéletes elektronikus könyv, az nagyban függ attól, hogy ki, mit ért ez alatt a fogalom alatt. A formátumokról folytatott viták mögött gyakran a definíció hiánya áll. Mindenféle értelmezés előfordul: az alapvetően nyomtatáshoz formázott, csak éppen számítógépen tárolt és terjesztett könyvektől kezdve, a csak interneten vagy sepciális e-book olvasókon böngészhető dokumentumokon át, a tudományos célokra is alkalmas, tökéletesen feltárt szerkezetű teljes szövegű adatbázisokig. Az én számomra az ideális elektronikus szöveg olyan, mint a „folyadék": könnyen önthető át egyik edényből a másikba, amelynek automatikusan felveszi az alakját, egyszerűen szétosztható vagy egyesíthető, és olcsón, gyorsan továbbítható egyik helyről a másikra, akár a legprimitívebb csatornákon át is.

Néhány konkrét tulajdonság, amelyek a számítógépes formátumú dokumentumoktól jogosan elvárhatók lennének:

Az elektronikus dokumentum legyen...

mindenféle külön művelet (pl. teljes letöltés, visszakódolás, konvertálás) nélkül azonnal bele tudjunk olvasni, lehetséges legyen a szöveg tetszőleges pontjára ugrani, illetve felmérni a terjedelmét, tetszőleges és kényelmesen olvasható külalakot lehessen beállítani hozzá, a vakok által használt programokkal is felolvastatható legyen...

a teljes szövegben kifinomult és gyors keresési lehetőségre van szükség (szekvenciálisan, illetve indexelt adatbázisként), de nemcsak az egyedi dokumentumok szintjén, hanem a dokumentumok tetszőleges méretű halmazán is, akár a felhasználó saját gépén, akár az egész interneten...

az elektronikus szövegnek – hosszú ideig – a legkülönbözőbb alkalmazásokba, mindenféle célra, többféle platformra egyszerűen és rugalmasan átalakíthatónak kell lennie, és miközben csak az elméletileg is elkerülhetetlen információvesztés következhet be...

a módosíthatóság alapvető különbség a nyomtatott és az elektronikus könyv között, ezt a lehetőséget mindenképpen biztosítani kell, legfeljebb azzal a megkötéssel, hogy – indokolt esetekben – az eredeti változat mindig előhívható marad...

az olcsó vagy ingyenes másolhatóság szintén hatalmas előny és a elektronikus könyvek népszerűségének legfőbb oka, azért a magáncélú (a copyright tiszteletben tartásával történő) másolás tiltása értelmetlen, legfeljebb – indokolt esetben – a korlátozott mértékű másolás vagy a tényleges lemásolás nélküli beillesztés lehetősége fogadható el...

a papírról való olvasás még nagyon sokáig fennmarad, ezért az elektronikus dokumentumoknál biztosítani kell a jó minőségű nyomtatás lehetőségét, részben vagy egészben a felhasználó által preferált formátumban...

az egyik legnagyobb hiányosság jelenleg, hogy az elektronikus dokumentumok lelőhelye, önazonossága és hitelessége nem garantálható, ami elsősorban a tudományos szakirodalom terén nehezíti meg az átmenetet a nyomtatott publikálásról az elektronikus felé...

egy további tulajdonságcsoport, amivel a hagyományos könyv magától értetődően rendelkezik, de az e-book megoldásoknál – főleg jogi okokból – egyre inkább veszélybe kerül: egyes kiadók egy konkrét gépre, személyre, meghatározott időtartamra korlátozzák az olvasás lehetőségét.

Mint sejthető, egyelőre nincs olyan ideális szabvány vagy rendszer, amely a fenti kritériumoknak mind maradéktalanul megfelel. Ez még nem lenne olyan nagy baj, mert legfeljebb több formátummal kell együtt élni és mindig azt választani, ami az adott dokumentumhoz és felhasználási formához a leginkább megfelel. (Ezt az elvet követtük, mi is, a MEK-nél az elmúlt 7 évben és nem bántuk meg.)

Az viszont aggasztó, hogy a jelenlegi trendek épp ellentétes irányba mennek: nemhogy letisztulna a formátumok kavalkádja és kikristályosodnának az ideálishoz legközelebb álló megoldások, inkább csak a káosz nő.

Néhány konkrét formátum és probléma

Befejezésként még néhány szó a Magyar Elektronikus Könyvtár (MEK) terveiről, abból az apropóból, hogy remélhetőleg az idén elkezdjük a 2.0-s verzió építését. Szeretnénk minden dokumentumból legalább egy on-line böngészhető (HTML, XML, PDF) és egy összecsomagolt, letölthető (az előbbiek mellett RFT, Word, TeX, PostScript, Open E-book, vagy egyéb) verziót is szolgáltatni. Azoknál a dokumentumoknál, ahol fontos a szerkezet is (pl. bibliográfiák, szótárak, lexikonok), SGL/XML kódolást tervezünk. Ehhez az átalakításhoz az egész állományt át kell nézni (részben selejtezni is) és elkészíteni a szükséges formátumokat azoknál a dokumentumoknál, amelyeknél nincs meg mindkét verzió. (Azért már most is gyakran vannak alternatív formátumok ugyanabból a műből a MEK-ben. Nemrég tettem fel például Illyés Gyulától a „Puszták népé”-t HTML, PDF Word 6 és RTF formátumban, amiket egy finnországi segítőnk készített.) Igyekszünk a legelterjedtebb formátumok optimális „keverékét” megtalálni, hogy legalább ez ne legyen akadálya annak, hogy – Ranganathan 1931-es könyvtári alaptörvényeit a mai korra kiterjesztve – „minden elektronikus könyv megtalálja a maga olvasóját” és minden olvasó megtalálja a maga elektronikus könyvét.

Országos Széchényi Könyvtár
Észrevételek