Száz nap az élet. A világhálón található információk gyűjtésének és megőrzésének áttekintése

Bevezetés

Tételezzük fel, hogy 2030. október 1-jét írunk. Egy, a 2010-es belpolitikai események sajtóvisszhangját kutató egyetemi hallgató bemegy a könyvtárba és az Index.hu hírportál 2010-es parlamenti választásokkal kapcsolatos cikkeit szeretné összegyűjteni, amihez segítséget kér a könyvtárostól. Vajon tud-e segíteni neki?
A legtöbb ember erre a kérdésre valószínűleg azt válaszolná, hogy igen, hiszen az nyilvánvaló, hogy a hírportálnak 2010-ben kiemelt témája volt a magyar belpolitikát meghatározó parlamenti választásokról történő híradás. Annak ellenére válaszolnák ezt, hogy akár személyes tapasztalataikat végiggondolnák: az interneten böngészve ugyanis gyakran előfordul a használóval, hogy a keresett oldal helyett csak egy hibaüzenetet talál, amely arról tájékoztat, hogy az adott oldal már nem érhető el. Jóllehet az információt kereső bosszankodik a jelenségen, ám alaposabban nem foglalkozik vele; megváltoztatott paraméterekkel folytatja tovább a keresést, bízva abban, hogy valamilyen más módon el tudja érni a számára szükséges információt. Vajon ugyanezzel a módszerrel boldogulni fog-e képzeletbeli hallgatónk is? Nem valószínű, hiszen a kutatók szerint egy weblap élettartama átlagosan száz nap, mielőtt megszűnne, vagy megváltozna1. Ám amennyiben a hírportálokat és az online hírlapokat nézzük, ez az idő sokkal rövidebb is lehet, hiszen – e közvetítő csatornák jellegéből, funkciójából eredően – akár percről percre változhat a cikk vagy akár az oldal tartalma. Közismert, hogy a nyomtatott dokumentumok összegyűjtésére, nyilvántartására, megőrzésére jogszabályok, szabályozók, stratégiák léteznek, de mi történik például azokkal a folyóiratokkal, amelyek csak elektronikus formában léteznek?
Gyakorló informatikusként korábban magam is azt gondoltam, hogy azok a honlapok, információk, amelyek korábban keletkeztek és aktuálisan már nem találhatók meg az interneten, archivált formában, valahol mégis fellelhetők. Feltételezésemet megerősítette a munkahelyemen folytatott gyakorlat is, hiszen ott valamennyi adatról napi mentéseket készítünk, és így a keresett anyagot – igény esetén – vissza tudjuk tölteni, elérhetővé tudjuk tenni az érdeklődők számára. Ehhez képest nagy meglepetést okozott számomra egy cikknek – amelyet 2008 nyarán olvastam a Heti Világgazdaságban az „eltűnő” weblapokról2 – az a megállapítása, hogy a megszűnt weboldalak Magyarországon semmilyen, a nagyközönség vagy a kutatók számára elérhető formában nincsenek tárolva. Ha régebbi vagy az interneten már nem megtalálható weblapokat keresünk, akkor csak az Internet Archive3 – amerikai nonprofit cég – webarchívumában érdemes keresgélni.
Ez már csak azért is elgondolkodtató, mert napjainkban az internet rohamos terjedése és a hírportálok növekvő népszerűsége egyre inkább háttérbe szorítja a nyomtatott sajtót. Sokan már az egyes hírportálokról vagy a hír¬la¬pok online vál¬tozatából tájékozódnak, azoknak a segítségével ismerik meg a legfrissebb híreket. Kérdés, hogy ezek az „újságok” ugyanúgy „elvesznek-e”, mint bármelyik másik weblap, vagy rájuk is vonatkozik a kötelespéldány rendelet alapján a beszolgáltatási kötelezettség? Egyáltalán létezik-e bármilyen törvény vagy szabályozás az elektronikus dokumentumok megőrzésére Magyarországon és a világ más országaiban? Külföldön működnek-e már nemzeti internet-archívumok, melyekben a saját nemzeti dokumentumaikat gyűjtik? Ha léteznek ilyen archívumok, akkor milyen elvek alapján válogatják ki, gyűjtik össze és teszik elérhetővé a tárolt dokumentumokat?
Amikor elkezdtem a témával foglalkozni, a fenti kérdések érdekeltek, ezekre kerestem a válaszokat úgy, hogy a weblapok formai és tartalmi feltárásával nem foglalkoztam.
Dolgozatomban, a Magyarországgal több szempontból hasonló helyzetben lévő, hasonló múlttal rendelkező kelet- és közép-európai országokat vizsgálom: sikerült-e, és ha igen, hogyan, túllépniük azokon a problémákon, amelyekkel Magyarország jelenleg küszködik, és létre tudtak-e hozni nemzeti webarchívumokat. Az empirikus kutatás során szerzett tapasztalatok alapján – a magyarországi körülmények és sajátosságok figyelembevételével – megoldási modelleket, javaslatokat, esetleg alternatívákat próbálok meg felvázolni.
Kutatásom kezdetekor megpróbáltam feltérképezni a témával kapcsolatos külföldi és magyar szakirodalmat, illetve a kiválasztott országok nemzeti könyvtárának weboldalait. Mivel a rendelkezésemre álló szakirodalom meglehetősen szegényes volt, ezért a kiválasztott országok nemzeti könyvtárainak elküldtem egy-egy angol nyelvű kérdőívet. Azoknál az országoknál, ahol a nemzeti könyvtár nem adott választ a kérdéseimre, megpróbáltam a határon túli magyar könyvtáros egyesületek, magyar intézetek, illetve végső esetben a magyar nagykövetségek, konzulátusok kulturális attaséjának segítségével egy-egy, a témához értő szakember elérhetőségét megtudni.
A dolgozatomhoz szükség volt néhány, a mai magyar online sajtó archiválási gyakorlatával kapcsolatos információra is, ezért néhány kiválasztott online hírportál, magazin, folyóirat részére kérdőívet küldtem, illetve Szegő Péterrel, az Axel Springer online lapcsoport főszerkesztőjével telefonos interjút folytattam.  Az online hírportálok, magazinok, folyóiratok kiválasztásánál a legfontosabb szempontom az volt, hogy a vizsgált oldal ne az azonos című nyomtatott újság digitalizált változata legyen, hanem a nyomtatott hírlaphoz képest plusz cikkek, információk is szerepeljenek rajta. Ezen kívül rendkívül fontosnak tartottam, hogy a hírportálok közül politikailag kiegyensúlyozottan válogassak, ezért a megkérdezett online hírportálok között szerepel többek között a Népszabadság Online, a Magyar Nemzet Online, a HVG Online, a Kuruc.info és a Fidesz Újság is. Ugyanakkor megkíséreltem a kapcsolat felvételét női magazinokkal, egészséggel, irodalommal, zenével és egyéb más szabadidős tevékenységgel kapcsolatos online magazinokkal és folyóiratokkal is.

1.  Internetarchívumok létrehozásakor felmerülô kérdések

1.1. A saját nemzeti internetarchívum szükségessége
Az internetarchívumok szükségességét az UNESCO már a 2003-ban közzétett chartájában megfogalmazta: „A digitális örökség megőrzése a kormányok, alkotók, kiadók, releváns iparágak és az örökségvédelmi intézmények kitartó erőfeszítéseit igényli.”4 Ez különösen érvényes napjainkban, amikor az online hírportálok és folyóiratok egyre inkább háttérbe szorítják a nyomtatott sajtót. Talán nincs messze az az idő sem, amikor a nyomtatott sajtó teljesen eltűnik, hogy átadja a helyét az online folyóiratoknak. Kutatásom szempontjából ez azért is különösen fontos, mert amennyiben ez bekövetkezik, akkor az internet archívumok hiányában kérdésessé válhat: milyen információkat tudunk megőrizni az utókornak? Milyen dokumentumokból fog majd kutatni a jövő egyetemi hallgatója, kutatója?
A kérdés megválaszolásának egyik lehetősége a nemzetközi gyűjtőkörű webarchívumokra történő hivatkozás. Szűkebb körben ismert, hogy létezik egy nonprofit szervezet Amerikában, amelynek az a célja, hogy a világ összes tudását, művészetét, ismeretét összegyűjtse. Néhány nemzet ennek az archívumnak a segítségét kéri, hogy az általuk megadott weboldalakat – amelyek fontosak lehetnek a jövő nemzedékeinek – archiválják és szolgáltassák. De vajon megfelelő megoldás lehet-e egy külföldi nonprofit szervezetre bízni az egyes nemzetek, országok számára fontos elektronikus oldalak, információs tartalmak megőrzését?
Az Internet Archive archívumában böngészve azt tapasztaltam, hogy évente egyre kevesebb magyar oldalt mentenek.
A csökkenő mentések számának az okát nem ismerem, de mivel nonprofit szervezetről van szó, valószínűleg a pénzügyi források hiánya is közrejátszhat, hogy 2009-ről és 2010-ről szinte semmi sem került megőrzésre, pedig 2010-ben Magyarországon parlamenti és önkormányzati választások is voltak, melyeknek a sajtóvisszhangja így csak részben kerül megőrzésre. A fentiek tükrében, véleményem szerint, nem szabad egy nemzet internetes örökségét külföldi nonprofit cégre bízni. Feltétlenül szükségesnek tartom a nemzeti internetarchívumok létrehozását és működtetését.

1.2. Az intézményi háttér
A nyomtatott dokumentumoknál egyértelmű, hogy a nemzeti impresszum összegyűjtése és archiválása, megőrzése a nemzeti könyvtárak feladata. A kiadványok begyűjtésében segítséget jelent a kötelespéldány-szolgáltatás jogszabályi háttere.
De kinek a feladata az interneten található anyagok összegyűjtése és megőrzése? Szükséges-e, hogy legyen egy felelős intézménye a begyűjtésnek? Mlinarics József, a Magyar Tartalomipari Szövetség ügyvezető elnöke szerint „a megőrzés nem állami feladat, inkább emberi magatartás kérdése: akinek olyan információs javak vannak a kezükben, amelyek megőrzésre érdemesek, azok felelősek annak archiválásáért.”5
Ám amennyiben ezek az archiválások, megőrzések egymástól függetlenül, elszigetelten történnek, akkor a kutatók és érdeklődők honnan tudják majd, hogy hol találják meg a számukra értékes információkat? Vagy mi történik abban az esetben, ha egy hírportál megszűnik? Ki fogja az anyagaikat megőrizni? Ezt a kérdést feltettem a legilletékesebbeknek, a hazai online sajtó néhány képviselőjének (Függelék*). A kérdésre adott válaszok tartalma már önmagában is elgondolkodtató.

 

2. ábra
A lap megszűnése után mi történne az archivált anyagokkal?

Amint a 2. ábrán is látható, sokan nem válaszoltak ugyan, de sikerült telefonos interjút készítenem Szegő Péterrel, az Axel Springer online lapcsoport főszerkesztőjével, aki korábban más online újságoknál is dolgozott. Ő úgy tapasztalta, ha egy hírportál vagy online folyóirat megszűnik, akkor az anyagokat a) az új tulajdonos megtartja és megjeleníti a saját weboldalán, hírportálján; b) ha a cég jogutód nélkül megszűnik vagy ha az új tulajdonos nem tart igényt az előző tartalmakra, akkor megsemmisítik.
A válaszok és az interjú alapján úgy tűnik, az online szerkesztőségek nem tartják fontosnak, hogy az utókor számára megőrizzék az összegyűlt anyagaikat. Ebből viszont az következik, hogy a Mlinarics-féle javaslat a gyakorlatban nem működik. Az általa elképzelt modell a valóságban nem is funkcionálhat, hiszen a nyomtatott sajtó esetében sem a kiadók az elsődleges megőrzők, hanem a közgyűjtemények feladatkörébe delegált tevékenységről van szó. Mindemellett, mivel az archiválás, megőrzés jelentős anyagi ráfordítást igényel, ugyanakkor a várható bevétel minimális, ezért valószínűtlen, hogy bármely profitorientált cég számára kedvezőnek tűnne az internetarchívumok megvalósítása és üzemeltetése. A fenti érvek is azt támasztják alá, hogy – hasonlóan a nyomtatott sajtótermékekhez – különböző nonprofit alapon működő cégek vagy a nemzeti könyvtárak valósítsák meg ezt a feladatot. Ugyanakkor azt is látnunk kell, hogy a megfelelő jogi háttér és anyagi bázis nélkül erre a munkára aligha vállalkozhatnak.

1.3. A jogi szabályozás

A nyomtatott folyóiratok megőrzésére a legtöbb országnak megvan a bevett gyakorlata, illetve a szükséges jogi háttere (kötelespéldány rendeletek6). Néhány országban ezekben a törvényekben és rendeletekben kitérnek az online sajtóra, a hírportálokra és a weboldalakra is, sok esetben pedig különösebb jogi háttérre sincs szükség, mert a világ több webarchívuma – az online szerkesztőségekkel kötött szerződések alapján – hozzá tud jutni a weboldalak archivált változatához.
Az elektronikus dokumentumok összegyűjtésének kérdésén túl a különböző szerzői7 és személyiségi jogi8 szabályozások okozhatnak komolyabb fejfájást a webarchívumok létrehozóinak és üzemeltetőinek.
A legtöbb ország szerzői jogi szabályozása szerint a jogok a szerző halála (ismeretlen szerző esetén a nyilvánosságra hozatal) után 70 évig (adatbázisok, adattárak esetében az utolsó jelentős módosítástól számított 15 évig) vannak érvényben, azaz addig nem lehet semmilyen formában sem nyilvánosságra hozni a műveket a szerző vagy örököseinek engedélye nélkül. A szabályok betartásáért a tartalomszolgáltatók – internetes archívumok esetében az archívum üzemeltetői – felelnek. Ezt az akadályt a különböző archívumok más-más módon próbálják áthidalni.
A nemzetközi és nemzeti könyvtári, könyvtárosi közösségek (IFLA, EBLIDA, Wiener Erklärung – 2009) – inkább kevesebb, mint több eredménnyel – különféle fórumon próbálkoztak/nak az információhoz való szabad hozzáférés nemzetközi elveinek érvényesüléséért. Az általuk kibocsátott dokumentumokban foglaltakkal magam is azonosulni tudok: a szerzői jogi szabályozások nem állhatnak szemben az információhoz való szabad hozzáférés elvével. Így – véleményem szerint – nem az archívumoknak kellene kiskapukat keresniük, hanem a törvényeknek kellene egyértelműen lehetőséget biztosítani az internet¬archívumok működéséhez. Ezt támasztják alá – többek között – a Calimera útmutatóban leírtak is: „Csak a kiegyensúlyozott szerzői jogi törvények segíthetik elő a társadalmi fejlődést azzal, hogy a szerzők és jogtulajdonosok számára erős hatékony jogvédelmet biztosítanak, ugyanakkor azonban lehetővé teszik a felhasználók számára a művekhez való hozzáférést, így hozzájárulva a kreativitás, oktatás, innováció és kutatás fejlesztéséhez.”9
Néhány begyűjtött weblap tartalmazhat különlegesen érzékeny és személyes adatokat is, amelyek felhasználhatóságáról, szolgáltathatóságáról az adott országok személyiségi jogi törvényei rendelkeznek. A felhasználás ellenőrzését az adatvédelmi hivatalok és az adatvédelmi biztosok végzik. Ám ilyen jellegű adatokat csak a begyűjthető weblapok töredéke tartalmaz, ezért dolgozatomban nem kívánok velük részletesebben foglalkozni.

1.4. Az archiválandó dokumentumok köre

Mivel az interneten már-már kezelhetetlen mennyiségű és féleségű dokumentum található, így könnyen belátható, hogy mindent lehetetlen archiválni, hiszen nagyon hamar belefulladnánk a rengeteg mentett tartalomba. Ennek a kérdésnek az eldöntésében is komoly segítséget jelenthetnek az ország nyomtatott dokumentumainak megőrzésére vonatkozó elvek.
Természetesen, ezen kívül célszerű még néhány egyéb szempontot is figyelembe venni, mint például a dokumentumok életciklusa, amelynek segítségével viszonylag meggyőző bizonyossággal dönthető el, hogy meddig érdemes megőrizni egy-egy anyagot. Hiszen a blogok és fórumok naponta bővülnek, de vajon érdemes-e megőrizni minden bejegyzést és minden internetes naplót az utókornak? Egyáltalán meg kell ezeket őrizni? Véleményem szerint, a jövő kutatójának fontos lehet egy-egy tudós vagy politikus blogja, valamint néhány közérdeklődésre számot tartó témával foglalkozó fórum, így ezek mentését célszerű lenne megoldani.
Ugyancsak érdemes azon elgondolkodni, hogy azokat az anyagokat meg kell-e őrizni, amelyek más, már működő archívumokban, adatbázi¬sok¬ban megtalálhatók (pl. MedLine, különböző hírügynökségek stb.)?
Vannak olyan dokumentumok is, amelyek bár megőrzésre érdemesek lennének, az internet struktúrája miatt mégsem gyűjthetők össze vagy csak komoly nehézségek árán lehet begyűjteni őket: ilyenek például a mély hálótartalmak.

3. ábra
Felszíni és mély háló
(Forrás: http://googlediscovery.com/2009/03/26/deepdyve-onde-eles-estao-mergulhando/)

A „víz alatt” található az interneten fellelhető anyagok körülbelül 84%-a10, de ez a tartalom nehezen elérhető, mert az adatokat és információkat a dinamikus weblapok „mögött” különböző adatbázisokban, strukturált adatokként tárolják, amelyekben az általános keresőmotorok általában nem tudnak keresni. Bár ezeknek az adatoknak egy kisebb részét különböző módszerekkel ki lehet nyerni, érdemes elgondolkodni azon, hogy megéri-e a ráfordított időt és energiát?
1.5. A tároláshoz szükséges technikai    háttér
Jóllehet a már több éve működő webarchívumok terrabyte-nyi adatmennyiségekkel rendelkeznek, ám egy most induló webarchívumnak nincs feltétlenül szüksége sem hatalmas tárolókapacitásra, sem a legkorszerűbb szerverekre, mert – a mentett adatmennyiségtől függően – azok később is beszerezhetők. Erre – véleményem szerint – a szlovák webarchívum a legjobb bizonyíték. Szlovákiában 2006-ban kezdtek el egy kísérleti webarchiválási projektet, amihez viszonylag szerény hardvereszköz-állomány állt rendelkezésükre. Az első körben csak az ISSN számmal rendelkező webforrásokat gyűjtötték össze és archiválták. A 260 forrásból begyűjtött összes archivált anyag körülbelül 34 GB-nyi volt, amelynek túlnyomó része HTML és JPEG formátumú volt, de tartalmazott GIF, PDF, TXT és DOC stb. formátumú anyagokat is. 11
Mindemellett már egy induló archívumnál is fontos, hogy a begyűjtött anyagokat biztonságosan tárolják: minél kevesebb lehetőség legyen a tárolt anyagok sérülésére, megsemmisülésére. Ezért célszerű, ha a szerver merevlemezeit raid-be12 szervezik vagy tükörszervert használnak. Így ha az egyik winchester vagy szerver meghibásodik, nagyobb adatvesztés nem érheti az archívumot.
Egy induló webarchívum többféle szoftver közül választhat. Bizonyos szoftverek – melyek a teljes webarchívum működését lefedik – ingyenesen hozzáférhetők, nyílt forráskódú programok, melyeket bármely könyvtár megkaphat, amelyik csatlakozik az International Internet Preservation Consortium-hoz (IIPC)13. Ugyanakkor meg is vásárolhatják vagy saját maguknak fejleszthetik a szükséges programokat. Ezért úgy gondolom, hogy a szoftveres háttér megteremtése nem lehet gond még egy alacsony költségvetéssel dolgozó induló archívumnak sem, hiszen minimális ráfordítással hozzá tud jutni professzionális programokhoz.

1.6. A begyűjtés módszerei

A weboldalak begyűjtésekor úgynevezett pillanatfelvételek készülnek azokról, de ehhez először ki kell válogatni és össze kell gyűjteni azokat az oldalakat, amelyekről a felvételeket el kívánjuk készíteni. A munka manuálisan is végezhető, de sokkal hatékonyabb, ha valamilyen „arató” szoftvert alkalmazunk. Ezek a programok automatikusan letöltik a weboldalakat és új URL-eket szűrnek ki a letöltött honlapok HTML kódjaiból, az új URL-eket pedig automatikusan egy letöltésre váró listába teszik14. A manuális módszer legnagyobb előnye, hogy célirányosan végezhető és lehetővé teszi minél több releváns oldal begyűjtését. Nagy hátránya viszont az, hogy nagy emberi erőforrást igényel. Ám bármekkora erőforrás áll is rendelkezésre – az internet mérete miatt – képtelenség átnézni és begyűjteni az összes releváns weboldalt.
Az automatikus begyűjtést websiklók vagy más néven robotok végzik, amelyek végignéznek minden elérhető linket és oldalt. A letöltött weboldalakat önműködően indexelik, ezzel biztosítják a minél gyorsabb kereshetőséget. Így viszonylag rövid idő alatt nagy mennyiségű weboldalt lehet begyűjteni, ám a websiklók – kis kivételtől eltekintve – csak a felszíni hálót tudják végigpásztázni. A nyílt forráskódú websiklók közül a legismertebb a HTTrack15, amely ingyen letölthető weboldalmásoló és kapcsolat nélküli böngésző program. A websiklók eredményes működéséhez meg kell adni néhány alapértelmezést, többek között azt, hogy mely oldalakat gyűjtse be (például minden .hu domain végződésű oldalt), mikor kell visszatérniük a változások ellenőrzése érdekében, hogyan kerüljék ki azokat az oldalakat, amelyek túlterhelnék a működésüket stb., és koordinálniuk kell a párhuzamosan működő websiklók munkáit is. A websiklók figyelembe tudják venni az oldal változásának gyakoriságát is, amely segíti a hatékonyabb begyűjtési terv elkészítését. Ehhez első alkalommal csak az oldalfrissítéseket ellenőrzi – melyek általában megtalálhatók a szervereken –, de nem tölti le az oldalakat. A robot a következő alkalmakkor már sokkal gyorsabban begyűjti a szükséges információkat, melyekből folyamatos begyűjtés esetén az archiválók akár órára pontosan is meg tudják határozni a várható változtatások idejét. Ha a frissítési információkat nem lehet automatikusan beszerezni, akkor az archiválóknak folyamatosan le kell tölteniük a weblapokat és így felállítani egy becslést a frissítések gyakoriságáról.
Ám a robotok a legszűkebb peremfeltételek beállítása ellenére is sokszor kezelhetetlenül nagy mennyiségű anyagot gyűjtenek össze. Ennek a problémának a megoldására hozták létre a fókuszált websiklókat, más néven témasiklókat. Ezek olyan robotok, amelyek csak a megadott témákba tartozó anyagokat gyűjtik be. Működésükkor értékelik az oldalakat, és ezzel lehetővé teszik, hogy a begyűjtés a web egy specifikus részére koncentráljon. Teljesítményük attól függ, milyen gazdag az adott téma linkgyűjteménye, amellyel a siklók dolgoznak. A témasiklók segítségével a webarchívumok mély és naprakész gyűjteményt tudnak létrehozni.
Bármelyik módszert is használja az archívum, bele kell törődnie abba, hogy a pillanatfelvételek nem lehetnek folyamatosak, hiszen egy-egy begyűjtési periódus a hatalmas adatmennyiség miatt hosszú hónapokig is eltarthat. A manuális és automatikus összegyűjtések hiányosságait úgy próbálják meg kiküszöbölni, hogy a két módszert egymással párhuzamosan használják, így mindkét módszer előnyös tulajdonságait ki tudják aknázni.
Az előző módszereken kívül alkalmazzák még a letéti formát is, amikor a weboldalt vagy az arról készült pillanatfelvételt a weboldalakat működtető webmester az archiváló szervezet rendelkezésére bocsájtja. A módszer legnagyobb előnye, hogy alkalmazásával az archívumokba kerülhetnek olyan oldalak is, melyekhez a websiklók nem férhetnek hozzá.
Ugyancsak hasznos módszer, ha a begyűjtést végző szervezet az adattár tulajdonosától kér engedélyt az adattárban található információk begyűjtésére, az adatok szolgáltatására. Ily módon hozzáférhetnek az adatbázisok tartalmához is, azaz lehetőségük lesz a mély hálóból is adatokat begyűjteni. Mivel az adatbázisok tartalmát első alkalommal lementik, később elegendő csupán a frissítéseket nyomon követni, ezáltal kevesebb adatcserével is könnyen követhető a dinamikus tartalom változása.

1.7. A webarchívumokhoz való hozzáférés

Egy webarchívum létrehozásánál már az elején fontos eldönteni, hogy mely felhasználói rétegeknek fogják az összegyűjtött anyagokat szolgáltatni, illetve az archívum kikerül-e a világhálóra, mindenki számára elérhetővé téve az anyagokat, vagy csak egy szűk kutatói réteg férhet hozzá a könyvtár épületén belül. Amennyiben az archívum zárt és csak a kutatók használhatják, úgy a szerzői és személyiségi jogi kérdésekkel kevésbé szükséges foglalkozni, mintha nyilvános, mindenki számára hozzáférhető lenne.
Természetesen, léteznek hibrid archívumok is, melyeknek zárt és nyilvános részei is vannak. Azok az oldalak, melyekhez az archívum kiadói együttműködés keretében jutott, illetve a szerzők engedélyt adtak, bekerülnek a nyílt, mindenki számára otthonról, a karosszékből is elérhető archívumba, ellentétben azokkal az oldalakkal, melyeket különböző robotok automatikusan gyűjtenek be. Ezek az archívum zárt, csak kutatók által elérhető részébe kerülnek.

2.  Kelet-és Közép-Európa webarchívumai

Ebben a fejezetben összegzést készítek arról, hogy az előző fejezetben felvetett kérdésekre milyen válaszokat adtak az empirikus kutatásban résztvevő kelet- és közép-európai országok, továbbá arról, hogy azokra vonatkozóan milyen válaszokat találtam a publikált dokumentumokban.
A kérdéseimet tartalmazó levelet a következő országok nemzeti könyvtárainak és digitális archívumainak küldtem el: Ausztria, Bulgária, Csehország, Fehéroroszország, Horvátország, Lengyelország, Németország, Oroszország, Románia, Svájc, Szerbia, Szlovákia, Szlovénia és Ukrajna.
Megkeresésemre sajnos, több ország nem válaszolt, és ezekkel az országokkal kapcsolatban a publikált forrásokban sem sok konkrét információt találtam, ezért a vizsgálatból végül is kimaradt: Bulgária, Fehéroroszország, Oroszország és Ukrajna.
Természetesen ez nem jelenti azt, hogy ezekben az országokban nem folyik semmiféle webarchiválási projekt, vagy nem érdeklődnének komolyabban a web archiválásával kapcsolatban. Ezt alátámasztja egy orosz blog16 is, amely a világ készülő és már működő webarchívumaival kapcsolatos aktuális információkat, konferenciákat és az adott országok témával összefüggő jogszabályi változásait gyűjti össze, és ír hozzá néhány gondolatot is. Azonban ezek az információk nem elegendőek ahhoz, hogy az előzőekben felsorolt országokról bármiféle elemzést tudjak készíteni.
A következő alfejezetekben szereplő diagramokhoz tartozó táblázatok országonkénti bontásban a Függelékben találhatók.

1. kérdés: Van-e saját internetarchívumuk?
Általánosságban elmondható, hogy az általam feldolgozott országok – egy kivétellel – mindegyike rendelkezik webarchívummal, vagy az archívum kialakítása jelenleg már kísérleti stádiumban van.

4. ábra
Van-e az országnak webarchívuma?

A válaszoló országok közül Ausztriában, Csehországban, Horvátországban, Lengyelországban, Németországban (Baden-Württemberg tartományban), Svájcban, Szerbiában (Čačak városában) és Szlovéniában már működik webarchívum, míg Szlovákiában még csak kísérleti stádiumban van. A felmérésben szereplő országok közül Romániában nincsen semmiféle webarchiválási kezdeményezés. Bogdan-Florin Popovici, a Romániai Nemzeti Archívum levéltárosa elküldött számomra egy két évvel ezelőtti cikket17, amelyet a webarchiválásról általánosságban írt, de úgy tudja, hogy ebben a témában ezen kívül több cikk nem jelent meg.
Napjainkban már senkiben sem merül fel az a kérdés, hogy egy nemzetnek szüksége van-e archívumokra, könyvtárakra, levéltárakra, ahol a régi iratokat, folyóiratokat, könyveket stb. tárolják. Így miért lehetne kérdés az, hogy kell-e internetarchívum? Hiszen jelenleg a „könyvek és tanulmányok milliói digitális formában, az interneten keresztül vehetőek birtokba, és a hozzáférhető tartalom egyre kisebb hányada érhető el a hagyományos csatornákon keresztül”18.
A vizsgálat eredményeként jól látható, hogy a választ adó országok nagy része úgy gondolja: szükség van egy saját, önálló nemzeti internet¬archívumra.
2. kérdés:  Van-e az archiválásért felelős intézmény?
Mint az alábbi grafikonból is kitűnik, a választ adó országok mindegyikében létezik olyan intézmény vagy szervezet, amely felelős a web archiválásáért.

5. ábra
Mely intézmény a webarchiválás felelőse?

A legtöbb országban – a nyomtatott dokumentumok összegyűjtéséhez hasonlóan – ezt a feladatot a nemzeti könyvtár vagy valamilyen könyvtári együttműködés – amelynek tagja a nemzeti könyvtár is – látja el. Mindemellett találkozunk olyan megoldással is, hogy más típusú könyvtárak végzik a munkát. Ugyanakkor vannak olyan kivételek is, mint például Lengyelország vagy Németország, ahol ezt a feladatot nem a könyvtári rendszer, hanem egy különálló intézmény, a Nemzeti Digitális Archívum vagy egy tartományi levéltár hatáskörébe utalták.
A könyvtári együttműködésekben részt vehetnek az egyetemi könyvtárak, mint például Horvátországban. Ám van olyan ország is – mint például Svájc –, amely az állami és kulturális berendezkedése, hagyományai miatt szétosztja a feladatokat. A kantonok könyvtárai a saját életükben fontos szerepet játszó, megőrzésre érdemesnek tartott és előzőleg meghatározott témájú dokumentumokat gyűjtik, de a hosszú távú megőrzés, a minőségbiztosítás és az egész országra kiterjedő online dokumentumok gyűjtése a nemzeti könyvtár feladata.
Szerbiában és Szlovákiában a webarchiválást nem a nemzeti könyvtár, de könyvtári szervezet végzi. Szlovákiában ezt a munkát a Pozsonyi Egyetemi Könyvtár vállalta fel, mely 2006 óta kísérletezik a nemzeti internetarchívum létrehozásával. Szerbiában pedig egy dél-szerbiai város, Čačak közkönyvtára egészíti ki a helytörténeti gyűjteményét a szerb weben található anyagokkal.
A felmérésből egyértelműen kiderült, hogy minden választ adó országban van legalább egy olyan szervezet, amely a webarchiválást végzi vagy koordinálja, hiszen csak így kerülhető el az, hogy míg bizonyos oldalakat többször is lementenek, más fontos oldalak nem kerülnek mentésre.

3. kérdés: Van-e jogi szabályozás?
A 6. ábra grafikonjából látható, hogy a legtöbb válaszoló ország megteremtette a webarchiválás jogi kereteit.

6. ábra
Létezik-e jogi szabályozás?

Arra viszont már többféle megoldás létezik, hogy mely jogszabályban szabályozzák a web archiválását. Horvátországban és Szlovéniában ez a kötelespéldány-rendeletbe került, más országokban pedig a Levéltári Törvénybe, a médiatörvénybe vagy a szerzői jogi törvénybe került be ez a szabályozás.
A választ adó országok közül két olyan ország is van (Szlovákia és Szerbia), ahol eddig még nem született jogi szabályozás. Ezekben az országokban a jogi szabályozás hiánya komoly problémákat vet fel.
Szlovákiában – részben a jogi szabályozás hiányából eredően – jelenleg szünetel a webarchiválás. A Pozsonyi Egyetemi Könyvtár ugyan még 2008-ban megpróbálta a kiadókat együttműködésre bírni, ám a megkeresett 176 kiadó közül csak 94 válaszolt. A válaszadók több mint 91%-a saját archívumra hivatkozva visszautasította az együttműködést. Még az is felmerült, hogy a kiadók szerint, a könyvtár nem képes biztosítani a szerzői jogok megfelelő védelmét.19
Szerbiában Bogdan Trifunovic (információs menedzser a Čačaki Városi Könyvtár Digitalizációs Központjában) szerint is igen fontos lenne a webarchiválás jogi szabályozása. A Szerb Nemzeti Könyvtár tervei között ugyan szerepel a szerb domain archiválása, de megfelelő jogi háttér nélkül nem kezdhetnek bele a munkába. A jogi szabályozást több nemzeti intézmény is várja, mivel ők is kísérleteznének saját webarchívum létrehozásával.
E két ország példájából levonható következtetés: megfelelő jogi háttér nélkül szinte lehetetlen nemzeti webarchívumokat létrehozni és hosszú távon működtetni.

4. kérdés: Mit archiválnak és meddig őrzik meg?
Mivel az egész webet nem lehet archiválni, ezért minden országnak, minden archívumnak el kell döntenie, hogy a világháló mely részét akarja megőrizni az utókor számára.
A kapott válaszokban többféle megközelítés létezett, amelyeket az alábbi három csoportba lehetett rendezni: a) teljes nemzeti domain; b) patriotika; c) egyéb, előre meghatározott feltételeknek megfelelő oldalak.

7. ábra
Milyen oldalakat archiválnak?

Bár a 7. ábra grafikonja alapján úgy tűnhet, hogy sok ország a teljes nemzeti domaint archiválja, de ez a kép kicsit csalóka, ugyanis Szlovákiában és Csehországban ez még csak kísérleti fázisban van. A nemzeti domain begyűjtésén túl a patriotika anyagok gyűjtését a megkérdezett országok közül csak Ausztria és Horvátország vállalta fel.
Mint a grafikonon is egyértelműen látszik, a legjellemzőbb az, hogy az országok bizonyos tartalmi, formai feltételek alapján meghatároznak bizonyos oldalakat és azoknak a betakarítására összpontosítanak. A kiválasztott oldalak többnyire minőségi, magas kutatási, tudományos vagy kulturális értékkel bírnak, melyeknek a megőrzése fontos lehet az utókor számára. További gyűjtési szempontok lehetnek: adott település vagy tágabb régió (például kanton) életével, történelmével stb. kapcsolatosak, különböző állami szervek, kulturális és tudományos intézmények honlapjai, különböző, előre meghatározott témákhoz, vagy bizonyos eseményekhez kapcsolódó oldalak, ISSN számmal rendelkező e-folyóiratok, weboldalak.
Bár konkrétan egyik ország sem írt semmit azzal kapcsolatban, hogy figyelembe veszik-e a dokumentumok avulását, de mivel eleve olyan oldalakat választanak ki, amelyeket a jelenben és a jövőben is értékesnek tartanak, ezért valószínűleg számíthat a dokumentum értékállósága.
A választ adó országok mindegyike a teljes weboldalt gyűjti be, és a megadott információkból az is kiolvasható, hogy csak a felszíni háló nyilvános, jelszóval nem védett tartalmát mentik le.
5. kérdés:  Milyen technikai hátteret, tároló kapacitást és szoftvereket használnak?
Mint már az előzőekben is említettem, egy induló webarchívumnak nincs szüksége a legmodernebb számítógépekre és jelentős tároló kapacitásra, de ezt a későbbiek során bővíteni kell. Bár nem kérdeztem konkrétan rá a használt szerverekre és az operációs rendszerekre, azonban nem tartom valószínűnek – mert szükségtelen is lenne –, hogy azok sokban különböznének a különböző internetes szolgáltatóknál működő szerverektől és az azokon használt operációs rendszertől.

8. ábra
Mekkora a webarchívum mérete?

A megkérdezett országok közül csak kevesen adtak választ arra a kérdésemre, hogy mekkora a webarchívumuk mérete. Mint a 8. ábrából is látszik, elég nehéz összehasonlítani az értékeket.
A cseh webarchívum mérete a legnagyobb: 30 TB, míg a baden-württembergi (német) 200 GB, svájci 100 GB, a szerb 26 GB és a szlovén 3 TB. Az eltéréseknek az az oka, hogy az öt gyűjtemény közül a cseh webarchívum működik a leghosszabb ideje (2001 óta), míg a baden-württembergi 2006-ban, a svájci és a szlovén 2008-ban, szerb pedig 2009-ben kezdte el működését.
A használt programokkal kapcsolatos kérdésemre minden ország értékelhető választ adott.

9. ábra
Milyen programokat használnak?

Egyedül a svájci archívum vállalkozott saját programok kifejlesztésére, de ők sem az egész munkafolyamatra. Az URL szerinti kereséshez, megjelenítéshez, a többiekhez hasonlóan, ők is az IIPC Wayback nevű nyílt forráskódú programját alkalmazzák. A többi archívum által használt program mind nyílt forráskódú, szabadon terjeszthető szoftver.
Az itt leírtak alapján a technikai háttérről ugyan nem tudunk meg sokat, de az egyértelműen kiderült, hogy a választ adó országok többségében a már kipróbált, ingyenesen hozzáférhető, nyílt forráskódú szoftvereket használják.
6. kérdés:  Milyen módszert használnak a begyűjtésre?
Ahogy a 10. ábrán is látható csak néhány ország választja a domain betakarítást, ami az adott ország domainja alá regisztrált összes weboldal összegyűjtését jelenti.

10. ábra
Milyen gyűjtési metódust használnak?

Feltehetően erre a feladatra azért vállalkozott kevesebb ország, mert nagyobb az erőforrás igénye, és hosszabb ideig is tart, mint a legtöbb ország által választott szelektív begyűjtés.
A szelektív és az esemény vagy tematikus betakarítási módhoz mindenekelőtt ki kell választani az összegyűjtendő oldalakat, amelyeket előre meg kell határozni a program számára, ám ettől kezdve már maga a szoftver hajtja végre az összes feladatot. Természetesen a betakarítandó oldalak listája bővíthető vagy szűkíthető.
Akadnak olyan országok is (például Szerbia, ahol csak elszigetelt kezdeményezésként működik webarchívum), amelyek más szervezetek – legtöbb esetben az amerikai Internet Archive – segítségét kérik. Az adott szervezetnek megadják azoknak a honlapoknak a címeit, amelyeket feltétlenül le szeretnének mentetni. A megbízott szervezet azután, meghatározott időnként, lementi az igényelt oldalakat, azokat saját archívumában tárolja, így csak ott lehet hozzájuk férni. Ennek komoly hátránya az, hogy egy más országbeli szervezettől függ egy adott nemzet kulturális, politikai örökségének archiválása.

7. kérdés:  Ki és hogyan férhet hozzá a gyűjteményhez?
A választ adó országok nagy része a saját archívumát különböző okok miatt nem teszi ki a világhálóra, így csak egy szűkebb réteg számára hozzáférhető.

11. ábra
Milyen módon lehet hozzáférni az archívumhoz?

Ennek legfőbb okait a szerzői és személyiségi jogi szabályozásokban kell keresnünk. Azokban az országokban, ahol automatikus domain-betakarítás működik, szinte lehetetlen feladat lenne minden egyes oldalnál megszerezni a szerzők beleegyezését, illetve minden egyes oldalt átnézni, hogy tartalmaz-e érzékeny, személyes adatot. De ha át is nézik az oldalakat, akkor sem mindig sikerül az összes szerzőt vagy kiadót megtalálni, vagy felvenni velük a kapcsolatot annak érdekében, hogy hozzájáruljanak a művek ilyenfajta nyilvános megjelenítéséhez. Ezekhez a gyűjteményekhez rendszerint a nemzeti vagy más, meghatározott könyvtárakban (például kantoni könyvtárak) vagy intézményben (például kulturális intézetek) lehet hozzáférni.
Vannak olyan országok is – Horvátország és Lengyelország –, ahol valamilyen jogi szabályozásnak, esetleg a kiadókkal kötött együttműködésnek köszönhetően bizonyos oldalakat nyilvánosan is megjeleníthetnek. Ez megkönnyíti az online webarchívum létrehozását.
Csehországban – hasonlóan az ausztrál Pandora projekthez – az archívum egy offline és egy online részből áll. Az offline részben az automatikus betakarítás eredménye kerül, ez csak az archívumban dolgozók és a kutatók számára elérhető, az online részben pedig a szelektív módon begyűjtött oldalak találhatók.

3. A magyar internetarchívum

A kelet- és közép-európai körkép után dolgozatomban a magyarországi helyzetet szeretném áttekinteni – az előző fejezetekben felmerült kérdések figyelembevételével –, és néhány esetben megpróbálok megoldási javaslatokat is felvázolni.

1. kérdés: Van-e saját internetarchívumunk?
Magyarországon ma még nincs internet archívum, bár eddig már több eredménytelen kísérletet tettek annak létrehozására.
Az archívum létrehozásának alapötlete onnan indult ki, hogy „a hagyományos dokumentumok digitalizálásának szükségességét már evidenciának tekintik a hazai közgyűjteményekben és – a lehetőségek függvényében – folyik is ez a tevékenység. De közben egyre nagyobbra nyúlik az a „sötét” korszak, amiről semmilyen lenyomat nem marad ezekben a gyűjteményekben, mert a fontos webhelyek archiválását nem sikerült megszervezni.”20
Az archívum létrehozásának szükségességét először Drótos László vetette fel a nyilvánosság előtt 2006-ban 21. Ezzel együtt javaslatot tett néhány munkacsoport felállítására is, amelyek felmérnék a jelenlegi állapotokat és kidolgoznák a Magyar Internet Archívum (MIA) létrehozásához szükséges akcióterveket. A munkacsoportokat és a feladataikat az alábbiak szerint határozta meg:
Az előkészítő csoport javaslatokat tenne a konzorcium tagjaira és elkészítené a stratégia tervet: mely intézmény legyen felelős a válogatásért; definiálniuk kell a magyar web kiterjedését (például .hu domain és a magyar tartalmakat szolgáltató szerverek), nyilvántartásba kellene venniük a magyar webtérbe tartozó szervereket, valamint ki kellene jelölniük a gyűjtés mélységét és az objektumok típusait.
A begyűjtés és tárolás technikai kérdéseivel foglalkozó munkacsoport feladata lenne a rendelkezésre álló arató robotok megvizsgálása és tesztelése, majd a feladatnak leginkább megfelelő kiválasztása. A nemzetközi szabványoknak és gyakorlatoknak megfelelően ki kellene dolgozniuk a begyűjtött dokumentumok tárolásának technikáját is.
A metaadatok kérdéseivel foglalkozó munkacsoportnak javaslatokat kellene kidolgoznia a mentett honlapok metaadatainak mentésére, mint például arra, hogy ki lássa el a weblapot Dublin Core leírással.
A hasznosítás/szolgáltatás kérdéseivel foglalkozó munkacsoportnak át kellene tekintenie, hogy az archívumba kerülő anyagokat milyen formában lehet hasznosítani. Szükséges lenne felmérnie a használói igényeket, el kellene végeznie a piackutatást, meg kellene becsülnie a várható forgalmat, és a lehetséges bevételek nagyságát.
A jogi kérdésekkel foglalkozó munkacsoport feladata lenne az internet archiválásával kapcsolatos jogi problémák áttekintése (például kötelespéldány-rendelet kiterjesztése az internetes dokumentumokra, szerzői és személyiségi jogi törvények stb.), és ezzel egyidejűleg különböző szerződésterveket kellene összeállítania a weblapok archiválásához (a weboldal tulajdonosának, az archívumoknak a jogai és kötelességei).
A finanszírozás kérdéseivel foglalkozó munkacsoport feladata a célzott támogatások és pályázati lehetőségek felkutatása, valamint az archívum működtetéséhez szükséges pénzösszegek előteremtése lenne.
Drótos az elméleti munkán kívül – saját erejéből és szabadidejében – megpróbált egy kis archívumot22 (magángyűjteményt) létrehozni a nemzeti könyvtár egyik szerverén, ám az erre a célra használható tárhely betelt, így a kísérlet függőben maradt.
A szegedi Egyetemi Könyvtár 2009-ben tett kísérletet a MIA létrehozására, amikor a TÁMOP (Társadalmi Megújulás Operatív Program) pályázat keretében támogatást próbált szerezni annak érdekében, hogy legalább elkezdődhessen a munka. A pályázat mellett aláírtak egy keretmegállapodást a NIIF-fel (Nemzeti Információs Infrastruktúra Fejlesztési Program) és az Országos Széchenyi Könyvtárral. A NIIF biztosította volna a leendő archívum technikai hátterét, míg az OSZK végezte volna a keresést, szelektálást, és biztosította volna a szakmai hátteret. A szegedi Egyetemi Könyvtár vállalta az alapok kiépítését, majd a projekt beindulása után azt visszaadták volna a nemzeti könyvtárnak és a NIIF-nek. Mivel a pályázat eredménytelen lett, így – bár igény lenne rá – továbbra sem indulhatott el a MIA-projekt.
Annak érdekében, hogy a magyar weben található kulturális értékeink visszavonhatatlanul ne tűnjenek el, az OSZK 2007-ben több mint háromszáz honlapcímből álló listát küldött az Internet Archive-nak és kérték azok mentését. Arról nincs információm, hogy ez megtörtént-e, de az tény, hogy találtam a gyűjteményükben magyar weboldalakat.

2. kérdés:  Melyik intézmény koordinálja az archiválást?
Erre a legkézenfekvőbb válasz, hogy az Országos Széchenyi Könyvtár feladata legyen, mivel a hagyományos, nyomtatott dokumentumok összegyűjtését is ők végzik. Az azonban nyilvánvaló, hogy a nemzeti könyvtár egyedül aligha lenne képes a feladat megoldására. Ezt látszik alátámasztani az a javaslat, mely Moldován István úti jelentésében található. Eszerint az OSZK tapasztalatával, de más könyvtárak mozgósításával, egyfajta könyvtári együttműködés keretében lehetne elindítani egy kísérleti internetarchívumot.23 Ilyen, a nemzeti könyvtár szakmai irányításával működő könyvtári együttműködésre nem csupán a régiónkban Horvátország és Svájc lehet a példa, hanem az Egyesült Királyság és Ausztrália is, amelyek az együttműködés segítségével példaértékű nemzeti internet¬archívumot működtetnek.
Ugyancsak az OSZK vezető, irányító szerepét támasztaná alá a jelenlegi magyarországi központosított intézményrendszer is, ellentétben a Németországban megszokott tartományi vagy a Svájcban működő kantoni rendszerrel.
Más elképzelések szerint ma Magyarországon – a törvényhozók és a hatóságok teljes elzárkózása miatt – csupán alulról jövő kezdeményezéssel lehetne bármiféle internetarchívumot létrehozni. Feltehetően ilyen kezdeményezésre gondolt Ládi László is, amikor civil mozgalom szervezését javasolta. Véleménye szerint fel kellene hívni az országos gyűjtemények figyelmét, hogy „a nemzetnek fontos anyagokat mentsék, amennyire telik az erejükből. (öt is több mint a semmi!)” 24.
Egyetértek Ládi Lászlóval abban, hogy az alulról jövő kezdeményezés is több, mint a semmi, de ennek is vannak veszélyei. Mindenféle koordináció nélkül lehetnek olyan oldalak is, melyeket akár 5–10 példányban is elmenthetnek, míg más, fontos oldalakról nem biztos, hogy készül mentés. További problémát jelenthet az, hogy ezek a gyűjtemények egymástól teljesen elkülönülten működnek, így a jövőbeli felhasználóknak fogalmuk sem lesz arról, hogy mit hol keressenek. A felsorolt okok miatt én is fontosnak tartom egy koordináló szervezet kijelölését, melyre a legtapasztaltabb szervezetet kellene kijelölni, amely Magyarországon az OSZK. Ugyanakkor a könyvtárak közötti munkamegosztás elkerülhetetlennek látszik.

3. kérdés: Van-e már jogi szabályozás?
A 60/1998. (III. 27.) kormányrendeletet áttanulmányozva azt tapasztaltam, hogy a rendelet nemcsak a papír alapú sajtótermékekről, hanem az elektronikus dokumentumokról is rendelkezik. A rendelet a 19.§-ban meghatározza, hogy mit tekint elektronikus dokumentumnak: „csak számítógéppel olvasható (mágneslemezen, CD-ROM-on vagy egyéb digitális formában megjelenő) dokumentum, beleértve azt a szoftvert is, amely az elektronikus dokumentum része, illetve annak használatához szükséges”25. Az előző meghatározás alapján egyértelmű, hogy az elektronikus dokumentum kategóriájába kell besorolni az összes weblapot, így a hírportálokat is. A rendelet alkotói mégsem bíztak semmit a véletlenre, mivel az előbb említett paragrafusban konkrétan azt is kimondták, hogy e rendelet hatálya alá tartoznak a különböző sajtótermékek elektronikus változatai is. A rendelet alapján az „elektronikus dokumentum esetén az előállított példányszámtól függetlenül kell kötelespéldányokat szolgáltatni”26, a sajtótermékeknél – így az elektronikus sajtótermékeknél is – „minden kiadási és előállítási változatából”27. Természetesen, ha gyakorlatban akarnánk alkalmazni ezt a rendeletet, akkor egy egészséges határt meg kell húzni, hiszen ha csupán az Origo, vagy az Index minden változtatásából újabb és újabb példányokat kapna a könyvtár, akkor egy idő után belefulladnának már csak ennek a két hírportálnak a weblapjaiba is.
Ugyancsak a webarchiválás jogi kereteit teremti meg az 1999. évi LXXVI. törvény a szerzői jogról (továbbiakban Szjt.) 2003. évi módosítása is. Ez a rendelet engedélyezi a közgyűjtemények számára, hogy „archiválási célra készíthetnek digitális másolatot a jogvédett művekről”28. Ebbe – legalábbis az én olvasatomban – a különböző weboldalak is beleférnek.
A fentiek alapján úgy gondolom, hogy Magyarországon a meglévő jogszabályi keretek már most lehetővé teszik a webarchívum létrehozását, bár a 60/1998. (III. 27.) kormányrendelet azért minimális pontosítást igényelne a beszolgáltatás gyakoriságával kapcsolatban, melyet én a működő hírportálok esetében évente egyszer tennék kötelezővé visszamenőleg az egész évre. A megszűnésre vagy felvásárlásra kerülő hírportálok esetében a megszűnés vagy felvásárlás dátumához kötném a legutolsó változat beszolgáltatását függetlenül attól, hogy a felvásárolt hírportál jelenlegi anyagait a felvásárló cég fel fogja-e használni vagy sem.

4. kérdés: Mit archiváljanak?
A 60/1998. (III. 27.) kormányrendelet egyértelműen meghatározza, hogy mely weboldalakat kell beszolgáltatni, ebből pedig egyértelműen az is kiderül, hogy mit kell archiválni. Ez bizonyos fokú könnyebbséget jelent, mivel a kormányrendelet értelmében elvileg a teljes magyar web lementésre kell, hogy kerüljön. Ám ha csak szűkebb értelemben vesszük, akkor is az összes magyar online hírportálnak be kellene szolgáltatnia az oldalak különböző változatait. Ezzel a legfontosabb, az online sajtó archiválása megoldódik ugyan, de mivel a kormányrendelet nem rendelkezik a dinamikus weboldalak és a hozzájuk tartozó adatbázisok beszolgáltatásáról, így a mély háló mentésének problémája továbbra is megmarad.
Ugyancsak el kell gondolkodni azon, hogy a reklámoldalakat, blogokat, fórumokat, chatszobák tartalmát kell-e gyűjteni? Véleményem szerint a blogok megőrzése hasznos lehet, különösen a tudósok, politikusok, művészek vagy más híres emberek blogjai, hiszen a régi híres emberek, politikusok naplói ma a történészeknek, művészettörténészeknek, kutatóknak sok segítség adnak. Ugyanilyen fontos lehet egy adott település életével foglalkozó blog is, mely komoly helytörténeti értéket jelenthet. De későbbiekben még egy cukrász, tanuló vagy orvos blogja is hasznos információkat tartalmazhat a jövő kutatói számára, hiszen ha más érték nem is jelenik meg bennük, akkor is fontos kortörténeti dokumentumok. Mindemellett kétségtelen, hogy nem egyszerű feladatot jelentene a megvalósítása.
Ugyanez a véleményem a fórumokkal kapcsolatban is. Persze itt már sokkal több olyan bejegyzés lehet, mely csak az adott csoportnak, adott időpontban jelenthet információs értéket, de például akár egy állatvédelmi fórumon is lehetnek olyan „beszélgetések”, melyek hasznosak lehetnek a későbbiekben egy kutató számára.
Természetesen a chatszobák bejegyzéseit is meg lehetne őrizni, hiszen például a nyelvészek a nyelv átalakulását vizsgálhatnák a segítségével, de azt gondolom, hogy ezek a beszélgetések már sok esetben a beszélgető felek intim szféráját is érintik, ezért nem tartom szerencsésnek ezek mentését. Valószínűleg jogilag is meglehetősen nehéz lenne alátámasztani ezeknek az információknak mentését és szolgáltatását.
Mindezeken kívül hasznos lehet a különböző állami hivatalokkal, oktatási és kulturális intézményekkel külön szerződést kötni arra vonatkozóan, hogy a weboldalaik tartalmát meghatározott rendszerességgel beszolgáltassák az OSZK-nak.
A hungarika anyagok gyűjtése már lényegesen nehezebb feladat, hiszen ezek felkutatásához már nagyobb emberi erőforrásra van szükség, de ahhoz, hogy az archívum teljessé váljon, érdemes lenne a későbbiekben ezzel is foglalkozni. Mindazonáltal Magyarország esetében – különös tekintettel a magyar nemzet széttagoltságára – ez megkerülhetetlen feladat.

5. kérdés:  Milyen technikai hátteret és szoftvereket használjanak?
A szükséges hardveres hátteret valószínűleg a szegedi próbálkozáshoz hasonlóan a NIIF-től meg lehetne igényelni, bár Rácz Ágnes szerint az OSZK „technikailag már felkészült akár a webaratásra is”29, így a technikai háttér kiépítésének problematikájával – úgy tűnik – nem szükséges a továbbiakban foglalkozni.
Hazánkban az internetarchívum működéséhez szükséges szoftverek egy része rendelkezésre áll30 (például saját fejlesztésű kereső31 és országos metaadatgyűjtő rendszer32), de a többi szoftver beszerzése sem igényel jelentősebb kiadást, mert mint az előző fejezetekben írtam, az internetarchívumok által leggyakrabban használt szoftverek ingyenes, nyílt forráskódúak. Ezek pedig szabadon beszerezhetők, vagy az IIPC a tagországok számára térítésmentesen rendelkezésre bocsájtja azokat. Így a szükséges szoftverek beszerzéséhez csak arra van szükség, hogy hazánk is csatlakozzon a konzorciumhoz, mely nemcsak a szoftverekkel tudja segíteni az új tagjai munkáját, hanem a régi tagok tapasztalatai is nagy segítséget jelenthetnek.
A fentiekben leírtak alapján az archívum működéséhez szükséges technikai és szoftverháttér megteremtése, véleményem szerint, nem okozhat különösebb anyagi megterhelést.

6. kérdés:  Milyen módszert használjanak a begyűjtésre?
Ha a törvény által meghatározott weboldal-beszolgáltatás megvalósulna, akkor ezzel már a nemzeti domain egy része begyűjtésre kerülne. Ám ez olyan nagy mennyiségű dokumentumhalmazt generálhat, melynek a kezelése már komoly gondokat okozna. Ennek kiküszöbölésére hasznos lehet bizonyos, meghatározott oldalakra (például kulturális, tudományos és oktatási intézmények és kultúrával, tudománnyal kapcsolatos oldalak) külön is koncentrálni, kiemelten kezelni és megőrizni azokat. A szelektív összegyűjtésnél külön figyelmet kellene szentelni azoknak a weboldalaknak is, amelyek a könyvtárak helyismereti gyűjteményét bővítené.
Az archívum teljessége érdekében eseményalapú betakarítást is lehetne végezni, így az ország számára fontos események (például parlamenti és önkormányzati választások, EU elnökség stb.) külön, tematikusan is megtalálhatók lennének.
Még ha a jogszabály által maghatározott beszolgáltatásnak nem is lehet minden esetben érvényt szerezni, akkor is fontos lenne legalább a szelektív és az eseményalapú betakarítás megvalósítása.

7. kérdés:  Ki és hogyan férhet hozzá a gyűjteményhez?
Az Szjt. szerint a szabad felhasználás feltétele a következő: a dokumentumok a közgyűjtemények helyiségeiben az „ezzel a céllal üzembe állított számítógépes terminálok képernyőjén tudományos kutatás vagy egyéni tanulás céljára a nyilvánosság egyes tagjai számára szabadon megjeleníthetők, és ennek érdekében […] szabadon közvetíthetők, ideértve a nyilvánosság számára történő hozzáférhetővé tételt is, feltéve, hogy az ilyen felhasználás jövedelemszerzés vagy jövedelemfokozás célját közvetve sem szolgálja”.33 Eszerint a létesítendő internetarchívum gyűjteménye a zárt könyvtári hálózaton belüli szabadon szolgáltatható lenne.  Természetesen ez csupán a szelektív és tematikus betakarítás eredményeire vonatkozhatna, a domain aratás eredménye továbbra is csak a levéltárakban megszokott feltételek mellett lenne a nyilvánosság számára elérhető.
Hogy minél többen hozzáférjenek az archívumhoz, célszerű lenne a könyvtárakban, kulturális intézményekben létrehozni egy zárt hálózatot, amire mintául szolgálhatna az Ausztriában már működő rendszer.
A Drótos László-féle tesztarchívum is az Szjt-nek megfelelően készült el.

12. ábra
MIA teszt változatának kereső felülete
(Forrás: http://mekosztaly.oszk.hu/mia/)

A táblázat oszlopaiban látható a weblapok azonosítója, neve, egy link az eredeti változathoz és egy másik, amely az archívumban található helyére mutat. Az utolsó oszlopban látható, hogy az adott weblap fel lett-e dolgozva, van-e már Dublin Core-adata. A weboldalak archivált változatai csak egyes OSZK gépekről érhetők el.
Ha a későbbiekben tervezik a gyűjtemény internetes, szabad elérését is, akkor külön engedélyek beszerzésére (szolgáltatóktól, kiadóktól, szerzőktől stb.) vagy jogszabályi módosításokra is szükség lesz

Összegzés

Írásomban áttekintést adtam hazánk, valamint a kelet- és közép-európai régió már működő internetes archívumairól, illetve azokról a kezdeményezésekről, amelyekkel a szomszédos országok kísérelnek meg internetes archívumokat létrehozni.
Az áttekintés eredményeként látható, hogy a kiválasztott régió országainak jelentős része a felmerülő problémák ellenére is fontosnak tartja, hogy saját internetes dokumentumait a jövő nemzedék számára valamilyen formában tárolja. Sajnálatos, hogy Magyarország a kivételek között szerepel, hiszen egy szűkebb szakmai csoporton kívül érdemben senki sem foglalkozik ezzel a problémával. Ezt azért is tartom aggasztónak, mert mint a dolgozatban is látható, közvetlen szomszédaink nagy része már megtette a kezdeti lépéseket saját internetarchívumuk kialakítására.
Egy webarchívum létrehozása nem igényel különösebben nagy anyagi ráfordítást, ellenben emberi erőforrásra és jogszabályi háttérre feltétlenül szükség van hozzá. Ez hazánkban – legalábbis a jogszabályi hátteret illetően – részben már biztosított, aminek köszönhetően – Szerbiához és Szlovéniához viszonyítva – mi ennyivel jobb helyzetben vagyunk. Ugyanakkor hazai példánkból látható, hogy az internetarchívum elindításához nem elegendő a jogi szabályozás, ennél többre van szükség. Mindenekelőtt politikai akaratra, szakmai összefogásra és egy kevés kezdeményezőkészségre.
Ugyanakkor hiába van jogszabályi háttér, ha az abban rögzítettek betartásáért és betartatásáért felelős intézmények és szervezetek, valamint a beszolgáltatásra kötelezettek könnyen kibújhatnak a felelősségre vonás alól, vagy sor sem kerül a felelősségre vonásra. Ezért, amennyiben valóban szeretnénk nemzeti internetarchívumot létrehozni, akkor első lépésként az OSZK elindíthatna egy kampányt a különböző hírportálok tulajdonosainak, a kiadóknak, az oktatási intézményeknek, a színházaknak és a közgyűjteményeknek, ebben felhívná a figyelmüket arra, hogy ha eleget tesznek a beszolgáltatási kötelezettségeiknek, akkor azzal a magyar kulturális örökség megőrzésében komoly szerepet vállalnak. Nyilvánvaló, hogy valamennyi eredménye már ennek az akciónak is lenne. Az eredménytelen kezdeményezések esetében pedig az OSZK következetesebben alkalmazhatná a törvényt, és szigorúan élhetne a számára biztosított szankcionálási lehetőségekkel. Így a törvény konzekvens alkalmazásával – a kezdeti nehézségek és kemény viták után – feltehetőleg a rendszer már működőképes lenne. Így nem fordulhatna elő olyan eset, hogy a különböző hírportálok tulajdonosai, a kiadók és a többi szervezet alulértékelné a feladatokat és a megvalósításban szerepet vállaló szervezeteket, intézményeket. „Van pl. olyan kiadó, amelyik minden, csak elektronikusan létező kiadványából az OSZK számára nyomtat egy példányt, és azt küldi be kötelespéldány gyanánt.”34
Ezen felül jogszabályi módosítással elérhető lenne az is, hogy az OSZK az így befolyó pénz egy részét a projekt további folytatására fordíthassa.
Amennyiben a MIA létrehozása eddig a pontig eljutna, akkor már majdnem mindegy, hogy milyen módszerrel folytatja a gyűjtemény építését, és milyen módon lehet a gyűjteményhez hozzáférni. Egy a fontos: minél hamarabb kezdődjön el egy hazai internetarchívum létrehozása, hiszen azok az információk, amelyek eltűntek a tétlenség évei alatt, már pótolhatatlanok. Talán az Internet Archive-tól meg lehet szerezni néhány, általuk archivált weboldalt, esetleg az internetszolgáltatóktól, szerverszolgáltatóktól is el lehet kérni az adatvesztés elkerülése miatt archivált anyagaikat, de ezek bonyolult és valószínűleg nem is túl olcsó lehetőségek. Ám amennyiben nem történik hamarosan előrelépés ebben az igen fontos kérdésben, úgy „a történelem, a Nagy Moloch fölfal mindent, az egész elektronikus kultúránk úgy tűnik el, mint a rendszerváltáskori tv-archívumok sokasága: gróf Apponyi Albert cilinderes trianoni bevonulását több filmszalag is őrzi, de hogy »hogyan is foglaltuk el a tévét Cserhalmival«, arról alig van valami, holott mindenki láthatta, 100 kamera vette. Digitális volt, letörölhető, eldobható. Amennyiben így állunk hozzá értékeink megőrzéséhez, akkor végül is Snydernek lesz igaza: a jövő gengszterei biztonságban vannak. S mi, akik állítólag a digitálissá váló múlt őrzői is vagyunk, mit szólunk ehhez?”35

Kitekintés

2010 novemberében Szőcs Géza, a kultúráért felelős államtitkár az oktatási, ifjúsági, kulturális és sportügyekért felelős miniszteri tanács ülésén, Brüsszelben bejelentette a Magyar Nemzeti Digitális Archívum (MaNDA) közeli létrehozását.36
Az Országgyűlés 2011. június 6-án elfogadta a filmtörvény és a múzeumi törvény módosítását, amelynek alapján a Magyar Nemzeti Filmarchívum átalakulásával létrejöhetett a MaNDA, melynek a legfontosabb feladata a hazai közgyűjtemények kulturális tartalmának digitalizálása és az ily módon létrehozott anyagok elérhetővé tétele egy közös, egységes felületen. E mellett kiemelt feladata lesz, hogy az Europeanába37 minél több magyar tartalom kerüljön fel.38
Sajnos, a MaNDA céljai között sem szerepel a nemzeti web archiválása, így a MIA továbbra is csak egy álom marad.

Köszönöm dr. Sipos Anna Magdolnának a segítségét és a támogatását.

Jegyzetek

1. Nagyüzemi információtermelés: ki dönti el mi a fontos, és mi nem? http://hvg.hu/Tudomany/20100920_informacio_tultermeles_archivum_web (2010. november 30.)
2. RIBA István: Eltűnő honlapok – Hibaüzenet. = Heti Világgazdaság, (30. évf.), 2008. 32. sz., (augusztus 9.) 22–23. p.
3. Internet Archive (USA) www.archive.org
4. Magyar UNESCO Bizottság: Charta a digitális örökség védelméről (Elfogadva az UNESCO Közgyűlésének 32. ülésszakán, 2003. október 17-én.) http://www.unesco.hu/informacio-kommunikacio/digitalis-orokseg/charta-digitalis-orokseg (2010. március 14.)
5. RIBA István id. m. 23. p.
6. Magyarországon a kötelespéldány-szolgáltatásra a 60/1998. (III. 27.) Kormányrendelet, a sajtótermékek kötelespéldányainak szolgáltatásáról és hasznosításáról, vonatkozik. http://www.oszk.hu/hun/helyi/koteles/koteles_jogszab_hu.htm (2009. március 11.)
7. Magyarországon a szerzői jogokra a többször módosított 1999. évi LXXVI. a szerzői jogról szóló törvény vonatkozik. http://www.complex.hu/jr/gen/hjegy_doc.cgi?docid=99900076.TV (2009. december 5.)
8. Magyarországon a személyiségi jogokra az 1992. évi LXIII., a személyes adatok védelméről és a közérdekű adatok nyilvánosságáról szóló törvény vonatkozik. http://www.complex.hu/jr/gen/hjegy_doc.cgi?docid=99200063.TV (2010. március 31.)
9. Calimera útmutató http://www.ki.oszk.hu/old/calimera/index.html (2010. február 22.)
10. RUTKOVSZKY Edéné – RUTKOVSZKY Ádám: A láthatatlan web keresése https://nws.niif.hu/ncd2003/docs/ehu/EHU-61.htm (2009. december 8.)
11. ANDROVIČ, Alojz: Web-archívum made in Slovakia: Kísérleti projekt az elektronikus információforrások gyűjtésére és archiválására. = Tudományos és Műszaki Tájékoztatás, (54. évf.), 2007. 10. sz. http://tmt.omikk.bme.hu/show_news.html?id=4788&issue_id=487 (2009. március 11.)
12. A RAID (Redundant Array of Inexpensive Disks vagy Redundant Array of Independent Disks) napjaink egyik fontos technológiája. A RAID technológia alapja az adatok elosztása vagy replikálása több fizikailag független merevlemezen, egy logikai lemezt hozva létre. Erről lásd részletesebben BÉRES László: RAID – Halálbiztos (?) http://www.sulinet.hu/tart/fcikk/Ka/0/21715/1 (2010. december 13.)
13. International Internet Preservation Consortium (IIPC)  http://netpreserve.org/about/mission.php (2009. október 22.)
14. JODELIS, Remigijus: Elektronikus források begyűjtése és archiválása Litvániában: úton egy virtuális könyvtár felé. = Tudományos és Műszaki Tájékoztatás, (51. évf.), 2004. 6. sz. http://tmt.omikk.bme.hu/show_news.html?id=3640&issue_id=451 (2009. április 11.)
15. HTTrack Website Copier http://www.httrack.com/ (2009. október 22.)
16. HRAMSOVSZKAJA, Natasa: Kto ne igyjot fpirjod, tot igyjot nazad (Кто не идёт вперед, тот идёт назад)  http://rusrim.blogspot.com/ (2010. december 20.)
17. POPOVICI, Bogdan-Florin: Consideratii asupra arhivarii Web-ului http://bogdanpopovici2008.files.wordpress.com/2009/09/arhivare-web-2007.pdf (2010. december 2.)
18. KARVALICS László, Z.: Bevezetés az információtörténelembe. Budapest : Gondolat – Infonia, 2004. 12. p.
19. KOVACICOVÁ, Katarína: Archiving of the Slovak web space. http://www.webdepozit.sk/images/dokumenty/webdepozit_report_sept2009.pdf (2010. november 29.)
20. DRÓTOS László: Egy gondolat az internet archiválásról. In: Katalist 2009. december 21. https://listserv.niif.hu/pipermail/katalist/2009-December/019825.html (2010. január 10.)
21. DRÓTOS László: Mi a MIA? – Javaslat egy Magyar Internet Archívum létrehozására. = Tudományos és Műszaki Tájékoztatás (53. évf.), 2006. 6. sz. 267‒274. p.
http://tmt.info.omikk.bme.hu/show_news.html?id=4431&is sue_id=473 (2009. március 9.)
22. Magyar Internet Archívum http://mekosztaly.oszk.hu/mia/ (2010. december 31.)
23. MOLDOVÁN István: Úti jelentés. Webarchiválási tutoriál az Osztrák Nemzeti Könyvtárban. http://mek.oszk.hu/html/irattar/utijelentes/2010/becs.htm (2010. november 28.)
24. LÁDI László: Egy gondolat az internet archiválásról. In: Katalist 2009. december 21.  https://listserv.niif.hu/pipermail/katalist/2009-December/019826.html (2010. január 10.)
25. 60/1998. (III. 27.) Kormány rendelete a sajtótermékek kötelespéldányainak szolgáltatásáról és hasznosításáról.
http://www.oszk.hu/hun/helyi/koteles/koteles_jogszab_hu.htm (2009. március 11.)
26. A Kormány 60/1998. (III. 27.) Korm. rendelete a sajtótermékek kötelespéldányainak szolgáltatásáról és hasznosításáról. id. m.
27.  A Kormány 60/1998. (III. 27.) Korm. rendelete a sajtótermékek kötelespéldányainak szolgáltatásáról és hasznosításáról. id. m.
28. TÓSZEGI Zsuzsanna: A digitalizálás és a szerzői jogok. = Tudományos és Műszaki Tájékoztatás, (51. évf.), 2004. 2. sz.  55-60. p.
http://tmt.omikk.bme.hu/show_news.html?id=3510&issue_id=448 (2009. március 9.)
29. RÁCZ Ágnes: Egy gondolat az internet archiválásról. In: Katalist 2009. december 21.  https://listserv.niif.hu/pipermail/katalist/2009-December/019827.html (2010. január 10.)
30. DRÓTOS László: Egy gondolat az internet archiválásról. id.m.
31. Sztaki kereső http://keres.sztaki.hu/ (2010. január 10.)
32. Nemzeti Digitális Adattár http://www.nda.hu/ (2010. január 10.)
33. 1999. évi LXXVI. törvény a szerzői jogról.
http://www.complex.hu/jr/gen/hjegy_doc.cgi?docid=999 00076.TV (2009. december 5.)
34. RÁCZ Ágnes i. m.
35. KOKAS Károly: Egy gondolat az internet archiválásról. In: Katalist 2009. december 21. https://listserv.niif.hu/pipermail/katalist/2009-December/019823.html (2010. január 10.)
36. SZŐCS Géza: Létrejön a Magyar Nemzeti Digitális Archívum  http://www.origo.hu/kultura/20101118-szocs-geza-magyar-nemzeti-digitalis-archivumot-hoznak-letre.html (2010. november 20.)
37. Közös európai kulturális adatbázis: www.europeana.eu
38. Megalakult a magyar nemzeti digitális archívum http://index.hu/tech/2011/06/09/megalakult_a_magyar_nemzeti_digitalis_archivum/ (2011. július 12.)

A bejegyzés kategóriája: 2011. 3. szám
Kiemelt szavak: , , .
Közvetlen link.

MINDEN VÉLEMÉNY SZÁMÍT!