Az EHM (EPA-HUMANUS-MATARKA) közös kereső létrejötte

Kategória: 2011/10

A Miskolci Egyetem Könyvtár, Levéltár, Múzeum által 2009-ben beadott TÁMOP 3.2.4 “Tudásdepó-Expressz” – A könyvtári hálózat nem formális és informális képzési szerepének erősítése az élethosszig tartó tanulás érdekében pályázat 194 millió forint támogatást kapott. A program kezdete: 2009. október 1., a projekt vége: 2011. június 30. volt. A projekt igen sok célt tűzött maga elé és sok eredményt ért el, de ezek között – országos szempontból mindenképp a legfontosabb – az EPA-HUMANUS-MATARKA folyóirat-adatbázisok egy ponton való lekérdezése.

A három adatbázis

EPA Elektronikus Periodika Archívum (http://epa.oszk.hu)
Az EPA 2004 óta működik, a Magyar Elektronikus Könyvtár (MEK, http://mek.oszk.hu) kezdeményezésére jött létre azzal a céllal, hogy – a MEK monografikus gyűjteménye mellett – a magyar vonatkozású elektronikus folytatódó kiadványok feltárásával, nyilvántartásával valamint stabil digitális folyóirat-archívum építésével foglalkozzon. Az EPA-archívum gyűjtőkörébe tartoznak a nyilvánosan és ingyenesen online szolgáltatható, magyar nyelvű vagy magyar kiadású, heti vagy annál hosszabb periodicitású (a határon túli kiadványok kivételével), oktatási, tudományos vagy kulturális szempontból hasznos időszaki kiadványok. Az archiválás alapja a “szám”. A támogatott formátumok: HTML, XML, PDF, RTF, JPG, PNG, ASCII text.
Az EPA három különböző nyilvántartást egyesít egyetlen katalógusban. Az archivált hozzáférésű kiadványok teljes szövegű állományait saját szerverén tárolja, és onnan nyilvánosan online szolgáltatja. A távoli hozzáférésű kiadványok teljes szövegű állományaira csak URL-lel hivatkozik a katalógus. Az offline hozzáférésű kiadványok teljes szövegű digitális állományainak csak fizikai elérhetőségéről található információ a leírásban (ezek a források online nem érhetők el).

HUMANUS – humán tudományok adatbázisa (http://www.oszk.hu/humanus)
A 2008 februárjában átadott HUMANUS célja a humán tudományok területén megjelenő, magyar vonatkozású nyomtatott és elektronikus időszaki kiadványokban, valamint a nyomtatott és elektronikus tanulmánykötetekben (közöttük konferencia-anyagokban) megjelent publikációknak a bibliográfiai számbavétele. A HUMANUS konzorciumi formában működik. Tagjai lehetnek mindazon könyvtárak, kiadók, szerkesztőségek, kutatóintézetek, amelyek részt kívánnak vállalni a HUMANUS rendeltetésének megvalósításában.

MATARKA – Magyar Folyóiratok Tartalomjegyzékeinek Kereshető Adatbázisa (www.matarka.hu)
A MATARKA magyar szakfolyóiratok tartalomjegyzékeit dolgozza fel könyvtárak és folyóirat szerkesztőségek összefogásával a Miskolci Egyetem Könyvtár, Levéltár, Múzeum vezetésével. 2002-ben kezdődött a fejlesztése, 2003-tól ismert MATARKA név alatt. A felvett adatok adatbázisba kerülnek, és a szerzők, illetve a címben levő szavak szerint visszakereshetők, az egyes számok külön-külön böngészhetők. A feldolgozás egyrészt kézi adatbevitellel történik, másrészt digitális formában már rendelkezésre álló adatok konvertálásával. A cikkek mintegy 15 százaléka teljes szöveggel közvetlenül is elérhető, a többiről cikkmásolat rendelhető.

A projekt indítása

A közös kereső programozására betervezett pénzösszeg szerencsére nem volt olyan magas, hogy közbeszerzési eljárást kellett volna indítani. Elég volt három ajánlatot bekérni. Nyilvánvaló volt, hogy olyan szoftverfejlesztőt kell találnunk, aki a három adatbázis közül legalább az egyiket jól ismeri, és készített már könyvtári szoftvert. A MATARKA egyik programozója régebben e sorok írója volt, de 2005 óta ilyen jellegű tevékenységet nem folytat, a MATARKA jelenlegi programozójának pedig megosztott a munkája és többgyermekes családanya. Az EPA programozója nemrég ment nyugdíjba, nem lett volna tanácsos olyan fejlesztőt keresni, akinek kötődése a könyvtárügyhöz fokozatosan csökken. Így egyértelművé vált, hogy az amúgy is legösszetettebb rendszer, a HUMANUS fejlesztője, Zawiasa Róbert, a Bodza Bt. tulajdonosa jöhet szóba. Az Országos Széchényi Könyvtárnak egyéb szolgáltatásait is kezeli, a Szegedi Tudományegyetem könyvtárának számos alkalmazását programozza. Nagyon jól ismeri a könyvtárügyben használatos szabványokat (MARC, Dublin Core, OAI). Természetesen közvetlenül csak arra lehetett megkérni, hogy árajánlatkérésünkre adjon pozitív választ, vagyis lehetőleg legyen a három ajánlattevő között. Szerencsénk volt, az ő ajánlata lett a legkedvezőbb, így 2010. január 29-én megtörtént vele a szerződéskötés.
A szerződésben a munka teljesítésére 11 hónapot kötöttünk ki, 2010. február 1-től december 31-ig tartott a fejlesztési időszak. Zawiasa Róbert a teljes időszak alatt kapcsolatot tartott Csáki Zoltánnal, az EPA könyvtáros szakmai rendszergazdájával, Tamás Kincsővel, az OSZK Humántudományi Bibliográfiai Osztály vezetőjével, és velem, a cikk szerzőjével, aki a TÁMOP-projektünk MATARKA-s részeit koordináltam.

A munkamenet

Csáki Zoltán bemutatta neki az EPA adatszerkezetét és rendelkezésére bocsátotta az úgynevezett EPAX munkakörnyezetben létrehozott tartalomjegyzékeket. A MEK Egyesület megbízásából ugyanis már régebben elkészült az EPA tartalomjegyzék DTD, amit később XSD formátumba alakították át, és azóta is így használnak. Erre épül az XML fájlokat feldolgozó, weben adminisztrálható munkakörnyezet, amelyet az EPA és az XML betűszavak keresztezéséből EPAX-nak neveztek el.
Az EPAX-szal összefüggő tevékenység célja az EPA-struktúrából hiányzó “cikk szint” elérhetővé tétele a felhasználók számára. A tartalomjegyzék feldolgozás csak egy eszköz ehhez a tevékenységhez. Az EPA nem tekinti feladatának a tartalomjegyzékek leírását, csak abban az esetben, ha azok külső forrásból nem érhetők el. Ideális esetben az EPA az összes tartalomjegyzék adatot külső forrásból gyűjti be (pl. a MATARKA-ból), és csak a teljes szövegű hivatkozással egészíti ki. Az EPA teljes szövegű hivatkozások nélküli tartalomjegyzékeket vesz át, és teljes szövegű hivatkozással kiegészített tartalomjegyzékeket ad vissza.
Az 1. ábra egy XML-ben elkészült EPA tartalomjegyzéket mutat be. Zawiasa Róbert közös keresője ezeket az EPAX fájlokat dolgozza fel. A távoli és offline tételek adataival az EHM projekt nem foglalkozik, csak az EPA-ban ténylegesen archiváltakkal.

 

 1. ábra: Egy EPA tartalomjegyzék XML változatának kezdete

A MATARKA adatszerkezetét és működését az én leírásaim alapján ismerte meg Zawiasa Róbert. A HUMANUS adatbázis a Bodza Bt. terméke, ezt külön nem kellett megismernie. Szerencsére a HUMANUS teljesen be tudja fogadni mind a MATARKA, mind az EPA leírásait. A MATARKA MySQL adatbázisát közvetlen lekérdezés után konvertálja az EHM, nincs közbeépített interfész (XML vagy OAI). A közvetlen adatkapcsolat új konverziós eljárás kidolgozását igényelte, de nagyon megérte létrehozni, mert így kompromisszumok nélkül a lehető legteljesebb és leggyorsabb megoldást sikerült megvalósítani a MATARKA -> EHM adatáramlás számára.
A HUMANUS fejlesztése idején már kialakított generikus cikk-kezelési eljárásoknak köszönhetően a funkcionalitás (keresés, rendezés, csoportosítás, megjelenítés, letöltés stb.) nagy része megvolt, de ezeket persze számos ponton többé-kevésbé finomítani kellett.
Igazán új EHM-fejlesztés a duplumszűrés mechanizmusa, amely más szempontból is különleges: nem előre az adatbetöltés idején történik, mint például a MOKKA esetében, hanem a találati halmaz lekeresésekor. Ennek számos előnye létezik és még messze nincs kihasználva: pl. az eredeti rekordok változatlan formában megmaradnak a rendszerben, nem “torzulnak el” az összevonás folytán, így később olyan keresések, elemzések is végezhetőek, amelyek az összevonó MPLLA-típusú rendszerekben nem.
A kereső szolgáltatást RSS támogatás (legfrissebb tételek) egészíti ki, illetve két nem webes felület: nyilvános Z39.50 és kérésre engedélyezett OAI szolgáltatás.

Egyéb munkálatok az adatbázisok fejlesztésében, bővítésében

MATARKA – A TÁMOP-projekt támogatásával az adatbázis több mint 600 000 ezer rekorddal bővült, 277 új folyóirat feldolgozása kezdődött el, illetve a meglevő folyóiratok retrospektív feldolgozására került sor. Minden folyóirat metaadatai közé bekerült az OSZK Nektár katalógusában alkalmazott Cool URI és a füzetszámozás is többféle formában (megfelelő mezőkben kiírva: 3. évf. 2. sz., vagy csak számjeggyel: 3, 2) érhető el.

EPA – A projektben az adatbázis tartalmi bővítésének támogatása is szerepelt. Az adatbeviteli munkákat különböző kiadványlisták alapján végezték az EPA munkatársai. Az adatfeldolgozásban hét fő vett részt 2010 júliusától 2011. június végéig. A támogatásnak köszönhetően, 99 672 tétellel bővült a teljes szöveggel elérhető, nyilvántartott cikkek száma.

HUMANUS – A Humántudományi Bibliográfiai Osztály munkatársai a MATARKA és a HUMANUS meglévő állományait a HUMANUS gyűjtőköre szerinti megfeleltették, vagyis a hiányokat, valamint a többszörös feldolgozásokat számba vették, a hiányokat felszámolták, a MATARKA állományából érkező rekordokat a HUMANUS-on belüli honosították, vagyis tartalmilag mélyebben feltárták, és olyan, a HUMANUS gyűjtőköréhez tartozó kiadványokat dolgoztak fel, amelyek mindeddig sem a MATARKA-ban, sem a HUMANUS-ban nem voltak analitikusan feldolgozva.

Az EHM jellemzői

Az EHM közös kereső három keresési lehetőséget kínál. Az egyszerű keresésnél csak egy kereső mező jelenik meg (mint a Google-nél), és a beírt kereső kifejezést a rekord minden adatában (szerző, cím stb.) lekérdezi a program. Az összetett keresésnél mód van a kereső index kiválasztására és összetett, vagyis több indexet is lekérdező, kombinált keresések hajthatóak végre. A szakértői keresés szakembereknek (pl. könyvtárosoknak) való. A szakértői keresés ellen szól az, hogy bizonyos indexek csak a HUMANUS-ban léteznek (pl. tárgyszó), tehát ha tárgyszavakban keres a felhasználó, akkor csak HUMANUS-találatokat fog kapni. Vagyis valójában nincs szüksége a közös kereső használatára, maradhatna a HUMANUS-ban.

A közös (duplum, triplum) rekordokat kétféleképpen kezeli a szoftver. Ha sikerült a duplumot azonosítania, akkor csak a legtöbb adattartalommal rendelkező rekord jelenik meg, ha ez nem sikerült, akkor mind a két vagy három rekord listázása megtörténik. A rekordok mellett a képernyő jobb oldalán mindig látszik az, hogy az adott rekord melyik adatbázisból származik és a felhasználó rögtön továbbléphet az eredeti adatbázisba is, ha kíván.
A 2. ábrán látható, hogyan jelöli meg az EHM a forrást. Az e+h+m, e+m, h+m elnevezések értelemszerűen arra utalnak, hogy több adatbázisban is előfordul az adott rekord, a humanus, matarka, epa jelölés alkalmazása esetén a rekord csak egy adatbázisban szerepel.
A találati listák több szempont szerint rendezhetők: számozás, szerző, cím, dátum, dokumentumtípus, forrás. A találati listákból a kívánt tételek kiválaszthatóak és a kért formátumban letölthetőek.

 

2. ábra

 

 3. ábra: Letöltési párbeszédablak

A legfontosabb statisztikai adatok 2011 júniusában, a projekt befejeződésekor:

EPA:    218 455 rekord
HUMANUS:    376 606 rekord
MATARKA:  1 600 158 rekord
MKszle:     53 214 rekord

Összesen:  2 248 433 rekord

Néhány példa a keresésre

Az EHM közös kereső hasznossága különösen azokon a területeken érzékelhető, amelyeket mind a három vagy a háromból legalább két adatbázis részletesen dolgoz fel. Ilyen többek között a történelem. Vegyünk tehát történelmi példákat:

 

4. ábra: Találati lista részlete

A felület

Az EHM-felület nyitó képernyőjét és az EHM logóját a Miskolci Egyetem könyvtárának informatikus könyvtárosa, Kiss Andrea tervezte meg. A keresőfelület, a találati listák felépítése hasonlít a HUMANUS webes megjelenéséhez: a találatok ugyanúgy több szempontból rendezhetők, csoportosíthatók, a találati listák többféle formátumban letölthetőek. Legnagyobb különbség az, hogy a képernyő nincs kettéosztva.

 

 5. ábra: Az EHM logója

6. ábra: Az EHM webes kezdőlapja

Összefoglaló

Az EHM közös kereső mind a három szolgáltatáshoz képest óriási továbblépést jelent, ami a keresést illeti, hiszen a három adatbázist egyszerre kérdezi le, a felhasználónak elég egy felületet használnia. Ugyanakkor természetesen az egyes adatbázisok önmagukban olyan, egyéb szolgáltatásokkal is rendelkeznek, amelyet az EHM természetszerűleg nem kínálhat: a tartalomjegyzékek böngészése az EPA-nál és a MATARKA-nál jobban megoldott, cikkmásolatküldés csak a MATARKA-nál létezik, a HUMANUS-nál finomabb a rekordkapcsolatok megjelenítése.

Az EHM közös keresőt egyelőre kevesen ismerik, ezért e beszámolócikk szerzőjének fő célja az, hogy a könyvtáros közösség a szolgáltatásról tudomást szerezzen, a jövőben eredményesen használja. Bízom benne, hogy újabb pályázatok hozzásegítenek bennünket ahhoz, hogy a három rendszer még komolyabb színvonalú további integrációja is megvalósulhasson.

Címkék