Az OSZK webarchívumának újdonságai

A tanulmány  a Könyvtári Figyelő 2019. évi 1. számában megjelent  „Az OSZK web-archiváló kísérleti (pilot) projektjének eredményei és egy üzemszerűen működő magyar webarchívum terve” című cikk folytatása.

A web megőrzési szempontból

A World Wide Web harminc éve született a hipertext és az internet összeházasításával a svájci CERN intézetben, a kutatási anyagokhoz való hozzáférés megkönnyítése céljából. A HTML-nek elnevezett egyszerű jelölőnyelv, a HTTP adatátviteli szabályrendszer és az egyedi URL címzés bevezetése lehetővé tette a dokumentumok összekapcsolását és böngészését, függetlenül attól, hogy ezek ugyanazon a számítógépen vannak-e, vagy a világ különböző pontjain levő szervereken. Az info.cern.ch címen még megnézhető az a honlap, ami az azóta szinte végtelenné tágult web-univerzum kiindulópontjaként szolgált. A Mosaic nevű grafikus böngésző 1993-as megjelenésekor a web hiperszövegből hipermédiává vált azáltal, hogy a HTML fájlokba egyéb formátumú állományokat is be lehetett ágyazni. A kilencvenes évek végén elindult még egy fontos változás: az addig jellemzően csak olvasásra használt világhálón megjelentek vagy hirtelen megnőttek azok a webhelyek, amelyek csak egy szolgáltatófelületet adnak, de a tartalmat maguk a felhasználók állítják össze.

Jelentős volt a technológiai fejlődés is: a HTML nyelv már az ötödik generációjánál tart, a HTTP protokollt lassan mindenhol felváltja a biztonságosabb HTTPS szabvány, a webszervereken mindenféle scriptek és egyéb szoftverek futnak, a böngészőprogramok pedig szinte már operációs rendszer bonyolultságúak. Elterjedtek az olyan megoldások, mint a dynamic web page, a dynamic HTML (DHTML) és a rich internet application (RIA), melyek a korai statikus, egyszerű szerkezetű weboldalak helyett szerver és/vagy kliens oldalon futó parancsokat és programokat is használó, gyakorlatilag önálló alkalmazások (pl. közösségi oldalak, webáruházak, internetes bankok, online játékok).

Ha megnyitunk egy mai hírportált, már első ránézésre is látszik, hogy mennyivel összetettebb dokumentum egy hagyományos újsághoz képest. Abban ugyan sajnos hasonlítanak, hogy a tényleges tartalom már szinte elvész a hirdetések között, de a digitális változatban ezek a reklámok gyakran animációk vagy videók, és a szemünk elé ugró ablakokban nyílnak meg, vagy görgetéskor együtt mozognak az oldallal. Sőt, olyan ajánlatokat is tartalmazhatnak, melyeket a földrajzi helyünk, a korábbi kereséseink és más internetes tevékenységeink, valamint a közösségi oldalakról rólunk gyűjtött információk alapján kifejezetten nekünk céloznak a hirdetésszolgáltatók. De a reklámokon túl még számos más elem is van egy ilyen oldalon: cookie- és GDPR-tájékoztatók, időjárási és egyéb aktuális információk, olvasói hozzászólások, további ajánlott cikkekre és webhelyekre vezető linkek, navigációs és értesítő funkciók, beágyazott Facebook, Twitter vagy Google Maps modulok, keresőmező, megosztás gomb, RSS csatorna, forgalommérő kódok…

Ha az F12 gomb megnyomásával megnézzük, hogy mit is tölt le a böngészőnk, amikor megnyitunk egy ilyen híroldalt, igencsak meglepő számokat látunk. Tíz-húsz megabájtnyi méretben akár több száz fájlra is szükség van egy néhány sornyi hír köré felépített weblap megjelenítéséhez. A wappalyzer.com címen levő szolgáltatással azt is meg tudjuk vizsgálni, hogy milyen technológiák működnek az adott honlap mögött. Ezek nagy száma és sokfélesége is azt mutatja, hogy a mai web már jelentős részben szoftver, nem csupán egyetlen nagyra nőtt hipermédia dokumentum.

1. ábra
Egy rövid cikk egy mai hírportálon és a mögötte levő technológia

Ha ehhez még hozzávesszük, hogy weboldalból sok-sok milliárd van a felszíni weben, vagyis a Google által is használt programrobotokkal bejárható nyilvános szervereken, és ezek többsége ráadásul változik (akár naponta többször is), akkor könnyen belátható, hogy a web a legnehezebben megőrizhető médium. De egyben napjaink legfontosabb információhordozó eszköze, így ha töredékesen és pillanatszerűen is, de érdemes róla mentéseket készíteni akár jelenlegi, akár jövőbeli felhasználások, kutatások számára.

Az OSZK webarchívuma

Az Országos Széchényi Könyvtárban 2017-ben indultak el a nemzeti szintű webarchívum előkészítő munkálatai az Országos Könyvtári Rendszer projekt részeként. A végleges infrastruktúra az idén áll majd össze, ezért 2019-ben is még ideiglenes szervereken folytak a szoftvertesztek és az aratások. A jogi és technikai okok miatt egyelőre még zárt gyűjtemény a Kormányzati Informatikai Fejlesztési Ügynökség (KIFÜ) által biztosított gépen van. Itt témák szerint válogatott, eseményalapú és a magyar webtér nagy részére kiterjedő aratások egyaránt találhatók a külföldi webarchívumoknál is használt, szabványos WARC formátumú fájlokban, melyek az URL címek alapján böngészhetők. Ennek az anyagnak az összmérete 2019 novemberének elején 29 terabájt volt, a lementett fájlok/URL címek száma pedig közel 500 millió. A tematikus részgyűjtemények esetében több mint 20 ezer webhelyről készültek egy vagy több alkalommal mentések. A főbb témakörök: közgyűjtemény, felsőoktatás, kutatás/tudomány, kormányzat/önkormányzat, vallás/egyház, közművelődés/kultúra általában, szépirodalom és egyéb művészetek. (E cikk írásakor már a könyvkiadók és -kereskedők honlapjainak az első aratása is megtörtént.) Az eseményekhez kapcsolódó archiválások közül a 2018-as téli olimpiát, a 2018. és 2019. évekbeli országgyűlési, európai parlamenti, illetve önkormányzati választásokat, valamint a 2019–2020-as Rákóczi-emlékévet érdemes megemlíteni. A magyar webtér jelentősnek mondható részéről 2018 szeptemberében tudtunk először egy reprezentatív jellegű pillanatfelvételt készíteni, amely akkor 291 ezer doménnévre terjedt is. Ezt az aratást 2019 végén megismételtük egy valamivel kisebb, de jobban megszűrt URL címlistával.

Az online időszaki kiadványok mint a hagyományos könyvtári dokumentumoknak leginkább megfeleltethető műfajú dokumentumok, kiemelt fontosságúak a webarchiválási projektben. Bár az Elektronikus Periodika Archívum és Adatbázis (epa.oszk.hu) már 2004 óta nyilvántart, részben tárol és szolgáltat is ilyeneket, de az EPA csak kiadványszámok szintjén archivál, elsősorban folyóiratokat. A webarchívumban viszont a számokra nem tagolódó, folytatólagos kiadványok is megőrizhetők, valamint az EPA-ba főként PDF fájlok formájában lementett folyóiratok eredeti honlapjai is. 2017 és 2019 között jelentősen megnőtt a webarchívumba bekerült periodikák száma. Ezek műfaj szerinti megoszlásáról és az egyes aratások méretéről a 2. ábra tájékoztat.

2. ábra
Az online elérhető magyar időszaki kiadványok weboldalainak
megoszlása műfajok szerint és eddigi aratásaik adatai

Demonstrációs célokra az OSZK egyik szerverén (mekosztaly.oszk.hu/mia/demo/) létrehoztunk egy kisebb nyilvános gyűjteményt olyan webhelyekből, melyek másolatainak szolgáltatására a tulajdonosaiktól engedélyt kaptunk. Ebben 2019 őszén 186 honlap, blog és időszaki kiadvány volt; ezekhez részletes metaadatok és oldalképek is kapcsolódnak. E mellett egy másik részgyűjteményben (mekosztaly.oszk.hu/mia/demo/oszk_demo.html) 44 OSZK-s webhely mentései is megnézhetők, melyek részben eltérő archiváló szoftverekkel készültek és általában többféle megjelenítő programmal is böngészhetők, így lehetőség van összehasonlítani az egyes megoldások előnyeit és hátrányait. A nyilvános állományhoz teljes szövegű és képkereső is tartozik, különböző szűrési, statisztikai, linkgráf és térképre vetítési funkciókkal.

3. ábra
Egy találati lista a nyilvános webarchívum SolrWayback nevű teljes szövegű keresőjében

A projekt egyéb újdonságai

2019 márciusában az Internet Fiesta keretében először hirdettük meg a „Segíts te is megőrizni a magyar webet!” akciót. Egy űrlapon keresztül bárki javasolhatott kevéssé ismert, de értékes tartalmú irodalmi vagy művészeti honlapokat archiválásra. A felhívást a közösségi médiában és néhány könyvtár honlapján is közzétettük.

Az OSZK jogászának segítségével újrafogalmaztuk azt a szerződést, amely a korábban használt ideiglenes engedélynél részletesebben és szakszerűbben határozza meg az archivált és nyilvánosan szolgáltatott webhelyek tulajdonosainak és a nemzeti könyvtárnak a jogait, illetve kötelezettségeit.

Több tanulmányt, rövidebb cikket és összefoglalót publikáltunk magyar és külföldi szaklapokban, továbbá előadásokat tartottunk itthon és néhány szomszédos országban a webarchívumok metaadatolásáról, a kutatási célú hasznosításukról, az internetes tartalmak megőrzésének fontosságáról, a webarchiválás oktatásáról, valamint az OSZK-s projekt eddigi eredményeiről.

Összeállítottunk egy tananyagot Az internet archiválása mint közgyűjteményi feladat címmel, melyet a Könyvtári Intézet 2019 tavaszán és őszén is meghirdetett akkreditált tanfolyam formájában. Mindkét alkalommal nagy volt az érdeklődés, számos intézményből vettek részt rajtuk könyvtárosok és informatikusok. Egy távoktatási tananyagokat fejlesztő cég közreműködésével a tanfolyam anyagát e-learning formátumra is átdolgoztuk és betöltöttük a Könyvtári Intézet Moodle rendszerébe.

Nemzetközi kapcsolatok

Az OSZK 2018-ban csatlakozott a webarchiválással foglalkozó intézményeket összefogó International Internet Preservation Consortium nevű szervezethez (netpreserve.org). Abban az évben az IIPC kongresszusa Új-Zélandon volt, melyen a nagy távolság és költségek miatt nem tudtunk részt venni, csak egy rövid videóban mutattuk be a magyar projektet. 2019-ben viszont hozzánk jóval közelebb, a horvátországi Zágrábban volt a rendezvény, ahol hazánkat Németh Márton képviselte, aki amellett, hogy segített a szervezésben és ellátta az egyik szekció vezetését, két előadást is tartott. Ugyancsak ő vesz részt az IIPC oktatással foglalkozó munkacsoportjában, melynek keretében oktató és ismeretterjesztő anyagokat fejlesztenek.

Jó személyes vagy legalább virtuális kapcsolatokat sikerült kiépíteni többek közt szlovák, cseh, osztrák, holland, belga, dán szakemberekkel, akiktől nemcsak tanulni tudunk, hanem már mi is képesek vagyunk tesztelési tapasztalatokkal és javaslatokkal segíteni nekik. Szintén a nemzetközi együttműködést erősítik azok az URL címlisták, melyeket a magyar híroldalakról gyűjtöttünk a külföldi webarchívumok számára az általuk kért témákban (pl. a christchurchi terrorista támadás, a Notre Dame leégése, a klímaváltozás, a mesterséges intelligencia, az EP választások). Támogattuk továbbá az európai webarchívumokra alapozott kutatási infrastruktúra kiépítését célzó dán projektjavaslatokat: Transnational Research Use of Web ARChives (TRUeWARC) és Web ARChive Studies Network Researching Web Domains and Events (WARCnet).

Felvettük a kapcsolatot a világ legnagyobb web­archí­vu­mával, az amerikai Internet Archive-val is, ahonnan árajánlatokat kaptunk a gyűjteményükben található magyar webtartalom visszakeresésére, illetve a magyar domének listájának átvételére. Az Internet Archive (web.archive.org) 1996 és 2018 között több mint 1 milliárd .hu végű URL címet archivált, tömörítve 44 terabájt összméretben. Ha sikerülne forrást szerezni ennek az anyagnak a teljes szöveggel való kereshetővé tételére, akkor az hatalmas előrelépés lenne a magyar web történetének kutathatóságában.

Továbbá mintegy 626 gigabájtnyi WARC fájlt vettünk át az önkéntesekből álló nemzetközi szerveződés, az ArchiveTeam nyilvános archívumából. Ezek az elmúlt néhány évben magyar webszerverekről készült mentéseket tartalmaztak.

Középtávú tervek

  • Közép-európai együttműködés kezdeményezése a környező országok webarchívumai között (pl. közös portál és keresőfelület).
  • Multimédia oktatóanyag készítése középiskolások számára az intézményes és a személyes web­archi­vá­lásról, az internetes tartalmak megőrzésének fontosságáról.
  • A már létrehozott tematikus címlisták karbantartása és kb. negyedéves rendszeres mentése mellett új részgyűjtemények összeállítása és archiválása (pl. történelem/helytörténet, média, sport, közoktatás).
  • A nyilvános gyűjtemény további bővítése és metaadatolása.
  • Az RDA-alapú metaadatolás előkészítése.
  • Átköltözés az új infrastruktúrára.
  • A webarchívum új honlapjának (webarchive.hu) elindítása, fejlett böngésző- és keresőfunkciókkal.
  • Kapcsolódás a fejlesztés alatt lévő Országos Könyvtári Platform moduljaihoz (pl. partnernyilvántartás, jogkezelés, hozzáférés-kezelés, discovery eszköz, hosszú távú megőrzés), a Nemzeti Névtérhez (pl. települések honlapjai) és a többi digitális gyűjteményhez (pl. periodikák archivált weboldalainak kereshetősége az EPA-ban).
  • Együttműködés a Közgyűjteményi Digitalizálási Stratégia (KDS) pályázat nyerteseivel és más közgyűjteményekkel, egyetemekkel és kutatóintézetekkel.
  • A KDS keretében egy mintaalkalmazás kialakítása részben a webarchiválási technológiák demonstrálása céljából, részben pedig annak bemutatására, hogy egy webarchívum hogyan integrálható más digitális könyvtári gyűjteményekkel.

4. ábra
A II. Rákóczi Ferenc Emlékév alkalmából létrehozott honlap a webarchívum
és további három digitális gyűjtemény anyagából

Irodalom

(Az elektronikus források megtekintése: 2020. január 2. )

„404 Not Found – Ki őrzi meg az internetet?” workshop. OSZK, 2019. november 14. – http://mekosztaly.oszk.hu/mia/404_workshop.html

DRÓTOS László – MOLDOVÁN István: Az OSZK web-archiváló kísérleti (pilot) projektjének eredményei és egy üzemszerűen működő magyar webarchívum terve = Könyvtári Figyelő, 65. évf. 2019. 1. sz., 38–51. p. http://ki2.oszk.hu/kf/2019/04/az-oszk-webarchivalo-kiserleti-pilot-projektjenek-eredmenyei-es-egy-uzemszeruen-mukodo-magyar-webarchivum-terve

DRÓTOS László – NÉMETH Márton: Az OSZK-ban folyó kísérleti webarchiválási projekt első évének tapasztalatai = Tudományos és Műszaki Tájékoztatás, 65. évf. 2018. 7–8 sz. 389–400. p. http://tmt.omikk.bme.hu/tmt/article/view/7153/8156

NÉMETH Márton: Webarchiválás két szakmai rendezvény tükrében = Könyv, Könyvtár, Könyvtáros, 28. évf. 2019. 6. sz. 26-29. p. http://ki2.oszk.hu/3k/2019/11/webarchivalas-ket-szakmai-rendezveny-tukreben/

Beérkezett: 2020. január 2.

A bejegyzés kategóriája: 2020. 1. szám
Kiemelt szavak: , , , , .
Közvetlen link.

MINDEN VÉLEMÉNY SZÁMÍT!