Nézzünk bele a PAD-ba is avagy egy új adatbázis a hálózaton

Kategória: 1997/ 8

(Elhangzott a Networkshop ’97 konferencián, Keszthelyen)

1. Bevezetés
Örömteli látni, hogy a hálózaton elérhető katalógusaink és adatbázisaink száma milyen rohamosan növekszik. Mindazonáltal úgy tűnik, hogy a bibliográfiai szakadatbázisok mintha alulmaradnának a gyűjteményeket reprezentáló katalógusokkal szemben. Vajon miért? Magyarországnak miért nincs szüksége színvonalas szakirodalom-feltáró eszközökre, amelyeket az Internet segítségével bárki bárhonnan bármikor elérhet? Nem témája az előadásnak, mégis hadd tegyük fel a költőinek szánt kérdést: nem lenne nagyobb igény Magyarországon a szakirodalmi adatbázisok iránt?
Mindenekelőtt persze azt kell tisztázni, mit várunk egy szakirodalmi adatbázistól. Röviden:
• az adott szakterület irodalmának minél teljesebb reprezentálása – dokumentumtípustól függetlenül
• a szakterület információs igényeinek megfelelő struktúrájú és adattartalmú szurrogátumok
• pontos és mély tartalmi feltárás – lehetőleg terminológiai kontrollt biztosító szótár segítségével
• sokoldalú információ-visszakeresési lehetőségek az adatok legszélesebb körére és kombinációjára.
Ezzel szemben mi a feladata egy adott gyűjteményt reprezentáló katalógusnak:
• a gyűjtemény minél teljesebb és gyorsabb reprezentációja
• a gyűjteményt használók igényeinek megfelelő adatstruktúra – amely illeszkedik a hagyományokhoz
• a gyűjteményben való eligazodást segítő tartalmi feltárás
• a dokumentumokhoz való hozzáférést támogató visszakeresési lehetőségek, állomány-, ill. kölcsönzési adatok.
Magyarországon mind a mai napig nem alakult ki az a kettős rendszer, amely a tőlünk nyugatra található információs világot jellemzi: a témádba vágó szakirodalmat gyűjtsd össze a megfelelő szakirodalmi adatbázisokból, a dokumentumokat pedig keresd meg a számodra leginkább megfelelő gyűjtemény katalógusában. Mivel kis országunkban a gyűjtemények gyakran egybeesnek egy-egy szakterület gyűjtőhelyeivel, a katalógusok megkísérlik ellátni mindkét funkciót. Valljuk be azonban őszintén, hogy az OPAC-okat vezérlő integrált könyvtári rendszerek nem alkalmasak arra, hogy szakirodalmi adatbázisok követelményeit kielégítsék, ez nem is feladatuk. Nem nélkülözhetjük továbbra sem a szöveges adatbázis-kezelő szoftvereket, és egyre inkább szükség van központi adatbázis-szolgáltatókra is.
Ma Magyarországon a NIIF-program vállalja fel egyedül ezt a feladatot. Arra lenne hivatott, hogy a nagy nyugati adatbázis-szolgáltatókhoz (DIALOG, DATASTAR, European Space Agency stb.) hasonlóan tájékoztasson a magyar szakirodalmi forrásokról – ezt helyettünk soha senki nem fogja megtenni. Köszönet illeti a NIIF-programot a lehetőségért, a szolgáltatás színvonaláért, a HUNGARNET-en keresztüli ingyenes hozzáférésért. Szakmánknak azonban illene elgondolkodni azon, miért nem élünk jobban ezekkel a lehetőségekkel.
A NIIF hostján jelenleg hozzáférhető adatbázisok nagy része 1994-1995-ben készült. A 60 adatbázisból alig 10 a szakirodalmi, és szinte egy sem naprakész. Jelenleg a két legfrissebb (1997-ben frissített) a Nemzeti Periodika Adatbázis (NPA) és a Pedagógiai Adatbázis (PAD).
2. A pedagógia szakirodalmi adatbázisa – a PAD
2.1. Keletkezés, rövid történet
Az Országos Pedagógiai Könyvtár és Múzeum (OPKM) a neveléstudomány országos szakkönyvtáraként mintegy 40 éve állítja elő és gondozza a pedagógia nemzeti szakbibliográfiáit, a Magyar Pedagógiai Irodalmat és a Külföldi Pedagógiai Információt. 1989-től a bibliográfiák anyaga számítógépes adatbázis formájában is hozzáférhető az OPKM OPAC-ján belül.
Az 1996-os év két országos pályázata (NIIF és NKA) lehetővé tette, hogy az OPAC-ból előállítsuk a PAD adatbázist, amely immár megfelel a szakirodalmi adatbázisok követelményeinek. A NIIF pályázata révén átálltunk a HUNMARC formátumra, az adatbázis struktúráját átalakítottuk, korszerűsítettük. Jelenleg az adatbázis a BRS/Search szoftver segítségével kereshető a NIIF helka gépén, és webes felületen is hozzáférhető (http://www.iif.hu/db). A kialakított struktúra és az adatelemek köre immáron lehetővé teszik, hogy bármely felületen kihasználhatóak legyenek az adatbázis pozitív adottságai.
Az NKA pályázata révén 20 évre visszamenőleg elvégeztük az idegen nyelvű könyvállomány retrospektív konverzióját. A dokumentumok egy részének leírásait az OCLC Microcon szolgáltatása segítségével szereztük meg; a többit házi úton vittük gépre. Így hát tapasztalataink vannak a retrospektív konverzió mindkét megoldási formájáról. Egy év alatt mintegy 8000 rekordot sikerült így előállítanunk. Jelenleg ez a legteljesebb idegen nyelvű szakkönyvállomány ma Magyarországon a neveléstudomány területén, amely immár országosan elérhető adatbázisban került feltárásra, magyar nyelvű hozzáféréssel.
A PAD adatbázis jelenleg mintegy 40 000 rekordot tartalmaz, magyar és idegen nyelű könyveket, gyűjteményes kötetek tanulmányait és folyóiratcikkeket.
A magyar ERIC kíván lenni (ERIC = az Egyesült Államok művelődésügyi minisztériuma által előállított központi pedagógiai adatbázis). Feladatának tekinti, hogy minél teljesebben informáljon, a Magyarországon elérhető, hazai és külföldi, oktatássál, neveléssel kapcsolatos publikációkról. Témáját tekintve az adatbázis igen nagy érdeklődésre, széles felhasználói körre számíthat, hiszen a pedagógia nemcsak a pedagógusok életének a szerves része.
Az adatbázis tartalmazza 1989-től a Magyarországon megjelent teljes pedagógiai szakirodalmat, ezen kívül egy reprezentatív válogatást a Magyarországon hozzáférhető jelentősebb idegen nyelvű folyóiratcikkekről, ill. az Országos Pedagógiai Könyvtár állományában lévő idegen nyelvű könyvekről (1975-ig visszamenőleg). Pedagógiai szakirodalmon értünk minden oktatással, neveléssel, ezek elméleti, politikai, módszertani, történeti, szociológiai; pszichológiai aspektusaival, a pedagógusképzéssel és a felsőoktatás pedagógiájával foglalkozó, terjedelmében, témájában és minőségében a szakirodalom mércéjét megütő publikációt. A tankönyvek maguk nem részei az adatbázisnak; ezek továbbra is csak a könyvtár helyben használható számítógépes nyilvános katalógusában találhatók meg. A tankönyvekkel foglalkozó munkák és a tanári kézikönyvek azonban benne vannak a PAD-ban. Ugyanazon mű többedik változatlan kiadásait csak egyszer tünteti fel az adatbázis, a többes kiadásokat az on-line katalógusban lehet megtalálni. Az adatok forrása a megjelent könyvek mellett mintegy 300 magyar és közel 150 külföldi, elsősorban angol, német és francia nyelvű szakfolyóirat.
2.2. Adatszerkezet – HUNMARC-tapasztalatok
Adatformátumként természetesen adódott a HUNMARC. Nemcsak azért, mert a fenti pályázatoknak ez volt a feltétele, hanem azért is, mivel kiderült, hogy némi módosítással kiválóan alkalmazható adatbázis-igényekhez is. Az adatszerkezet kialakításánál törekedtünk a HUNMARC adottságainak maximális kihasználására. A hagyományos bibliográfiai adatmezők mellett sok lehetőséget ad egyéb információs adatok tárolására is. Bár a HUNMARC erőteljesen kötődik az MNB szükségleteihez, amennyien kibővítjük a hiányzó adatelemek számára USMARC mezőkkel – a USMARC-kal a HUNMARC kiválóan illeszkedik –, szakirodalmi adatbázisokhoz is jól alkalmazkodó formátumot nyerünk.
Adatbázis-igényeinknek pl. sok jó lehetőséget ad a MARC formátum 008-as mezője, amelyet információs adatok tárolására alkalmazunk. Itt tudjuk feltüntetni és visszakereshetővé tenni a dokumentumok műfaját, intellektuális szintjét, illusztráltságát, speciális tartalmi jellemzőit (bibliográfia, statisztika, életrajz stb. Alapjában véve ezek az információs adatok elsősorban nem a visszakeresést szolgálják a MARC formátumban, sok helyen nem is nagyon alkalmazzák őket. Szakirodalmi adatbázisokban azonban rendkívül jó szolgálatot tehetnek, elsősorban a találati halmazainkat szűkítő szempontként. Ezeket az adatokat jelenleg a PAD adatbázisnak csak az OPKM-ben elérhető változata tartalmazza, a BRS/Search alatt kereshető verzió ennél szűkítettebb.
Nagyon hasznos szolgáltatása a MARC formátumnak, hogy lehetőséget ad a személynevek, testületek és rendezvénynevek elkülönítésére, így a visszakeresésnél az eltérő típusú adatokhoz a megfelelő invertálási és keresési módok alkalmazhatók. Személyneveknél nem célszerű a szavankénti keresés, testületeknél, ill. rendezvényeknél azonban kívánatos lehet.
A PAD adatbázis-jellegéből következően a feltárt dokumentumtípusok tekintetében is eltér a katalógusoktól. A szakirodalmi igények a monografikus dokumentumok mellett kiterjednek ezen dokumentumok analitikus feltárására is. Egy igényes adatbázisnak tájékoztatni kell a témájában megjelenő valamennyi publikációról, jelenjék az meg gyűjteményes kötet elemeként vagy akár folyóiratcikk formájában. A HUNMARC csak a monografikus, ill. időszaki kiadványok formátumát tartalmazza egyelőre. Mivel azonban az alapvető adattípusok megegyeznek, nem jelentett különösebb nehézséget, hogy a hiányzó adatmezőket a USMARC-ból átvéve kialakítsuk a PAD számára az analitikus HUNMARC formátumot is. Átemeltük a 773-as (a forrásdokumentum adatai) mező megfelelő almezőit, így jól elkülönítetten, de egységesen tudunk dolgozni folyóiratcikkekkel és egyéb könyvrészletekkel is.
2.3. Tartalmi feltárás
A bevezetésben már említett mély tartalmi feltáráshoz sajnos a HUNMARC nem ad meg minden lehetőséget. Nagyon hiányzik például az egyéb MARC-okban megtalálható 650-es tárgyszó mező (topical subject headings): Mivel Magyarországon nincs egységes tárgyszavazási gyakorlat – mint az Egyesült Államokban a Library of Congress tárgyszórendszerének egységes használata –, ebben a mezőben minden adatbázis a saját tárgyszavas osztályozását alkalmazhatja. A PAD esetében ez az OPKM-ben kifejlesztett és karbantartott pedagógiai tárgyszójegyzék elemeit jelenti.
A HUNMARC a tartalmi feltáráshoz csak az ETO és a tárgyi melléktételek alkalmazására ad lehetőséget, ez a hazai sokszínűséget ismerve az MNB-n kívül aligha elegendő másnak. További ilyen szempontjainkat így nekünk is a helyi adatok számára fenntartott 9xx-es mezőkben kellett elhelyeznünk. Szakirodalmi adatbázisunk pl. nem nélkülözheti a címfordítást és a referátumot. Nem igazán megmagyarázható, hogy a HUNMARC miért nem tartalmaz ilyen adatmezőket, hiszen a referátum vagy az annotáció nem tekinthető. speciálisan helyi adattípusnak. Tény, hogy könyvtári katalógusok és nemzeti bibliográfiák nem szoktak ilyen adatokat felvenni, ebből is látszik, hogy az egységes nemzeti adatformátum kialakításakor nem ártana gondolni a szakirodalmi adatbázisok igényeire is.
A PAD adatbázis sokoldalú tartalmi feltárásával igyekszik minél inkább elébe menni a felhasználói igényeknek. A tárgyszavak alkalmazási rendjeként az Angliából átvett és Magyarországon egyedül itt alkalmazott PRECIS (Preserved Context Indexing System) indexelési eljárást, szintaxist alkalmazzuk. Lényege, hogy szerepoperátorai és rotációs technikája segítségével a tárgyszavak közti szövegösszefüggést megőrizve mintegy a természetes nyelv mondataihoz hasonlóan informál a tartalomról. Többéves tapasztalataink alapján mára jól látszanak ennek előnyei és hátrányai egyaránt. A magas intellektuális szint nehézségeket okoz a visszakeresésben. A PAD jelenlegi állapotában ketté kellett választani a visszakeresés szempontjait szolgáló mellérendelő tárgyszavazást és a tartami feltárás válogatást segítő eszközeként alkalmazott PRECIS indexelést. Az OPKM OPAC-jában a kettő jól megfér egymással: a felhasználó a mellérendelt tárgyszavak között keres, a megjelenítési formátumban azonban ezen tárgyszavak kontextust tükröző láncaival találkozik, amelyek mintegy annotációként informálják a dokumentum tartalmáról. A BRS/Search alatt a hálózaton át kereshető változata az adatbázisnak csak a tárgyszavakat tartalmazza: A tárgyszavazásban azonban érvényesülnek valamelyest az indexelési szempontok is, hiszen a dokumentum tartalmát kifejező tárgyszavak sorrendje ugyanazt az elvet követi, mint a PRECIS. Így az esetek többségében a tárgyszavak egymásutánisága mondatszerűen kifejezi egyszersmind a közöttük fennálló kontextust is. Ennek érdekében helyenként olyan elemek is előfordulnak a tárgyszavak között, melyek önmagukban nem tartalomhordozók, ellentmondanak a. tárgyszavazás szabályainak, de szükség van rájuk a kontextus egyértelműsítéséhez (pl.: szerepe; hatása szempontjából stb.). Az adatbázist igazán professzionális módon kezelni tudó felhasználó ezek segítségével akár egészen kifinomult keresőkérdések megfogalmazására is képes.
A tartalom szerinti visszakeresés differenciálását, finomítását szolgálja továbbá a tárgyszójegyzék generalizáló osztályozásként alkalmazott szakcsoportrendszere. Segítségével egyrészt könnyebb az átfogó témák keresése; nagy szerepe azonban a tematikus keresés finomításánál van. Eredeti funkciója a nyomtatott bibliográfiákban a tételek elrendezése volt. Az adatbázisban a szakcsoportszámok megmutatják, hogy globálisan a dokumentum mely témakör ill. témakörök alá sorolható. Tárgyszavas keresés szakcsoportszámmal kombinálva lehetővé teszi, hogy az adott témakör irodalmát a megfelelő szempontból tárgyaló műveket összegyűjthessük. Ennek hasznát igazán az érzi, aki megpróbált már társadalomtudományi adatbázisokban keresni olyan fogalmakat, amelyek jelentése nagyon tág, ill. amelyek sokféle szempontbál tárgyalhatók. A PAD-ban például nem célszerű általános iskola tárgyszóra keresni, mert a találati halmaz áttekinthetetlen. Minden olyan dokumentum megkapja ugyanis ezt a tárgyszót, amely akár az általános iskolával mint iskolatípussal, az ott folyó bármely tantárgy oktatásával, neveléssel stb. foglalkozik, vagy akár egy konkrét iskolát; az ott folyó gyakorlatot mutatja be. Ez kb. egyharmada a teljes adatbázisnak. A használó azonban feltehetőleg vagy módszertani irodalmat keres, vagy oktatáspolitikai jellegűt, vagy konkrét iskolákat stb. Az ilyen jellegű szűkítéshez ad segítséget a szakcsoportos osztályozás, amely a dokumentum alaptémájának megadásával orientál. Ha pl. az általános iskola mint iskolatípus a keresés tárgya, a dokumentum a 222-es (iskolatípusok) szakcsoportba lesz sorolva, ha iskolatörténeti a tárgyalásmód, akkor. pedig megtalálható a 64-es (neveléstörténet) szakcsoportszám alatt.
A PAD csak szabályozott nyelvű osztályozást alkalmaz, a kulcsszavakat a címmezők szavas invertálása helyettesíti, az azt jelenti, hogy ilyen mezők minden szava – kivéve a stoplistában letiltottakat – kereshető; eredeti formájában: Mivel a BRS/Search kiváló keresőnyelvet kínál (csonkolás, keresőelemek közelségének meghatározása stb.), átgondolt keresőprofillal igen jó pontosság/teljesség arányt érhetünk el.
A tartalmi feltárásnak ez a sokszínűsége az esetek egy részében talán feleslegesnek, erőt, energiát pocsékolónak tűnhet. A célunk azonban az, hogy szakirodalmi adatbázisként minden kérdésre a lehető legteljesebb és legpontosabb választ adja meg az adatbázis, inkább legyen átfedéses, mint hogy elvesszen az információ.
3. Retrospektív konverziós tapasztalatok
Fentebb már említettük, hogy az adatbázis tekintélyes részét képezik azok a tételek; amelyeket a Nemzeti Kulturális Alap támogatásának köszönhetően retrospektív konverzióval építettünk be. Ennek során rendkívül jó tapasztalataink vannak az OCLC Europe szolgáltatásaival. A Microcon szoftver segítségével 4000 tétel leírását kértük az OCLC központi adatbázisától, és 3244-et ténylegesen meg is kaptunk. Úgy hisszük, ez kiváló találati aránynak mondható. Igaz, hogy eleve célirányosan csak angol, német és francia nyelvű dokumentumokkal próbálkoztunk, ezek közül is azokkal; amelyeknek ismert volt az ISBN száma. Kisebb adatrögzítő munkával így ilyen jó eredményt tudtunk elérni: Az OCLC központ szolgáltatásai pontosak, kiszámíthatóak és megbízhatóak.
Némi gondot az OCLC USMARC tételeinek átvétele, konvertálása okozott. A MARC formátumok kompatibilitása természetesen szabványszerű, az alkalmazásbeli különbségek azonban okozhatnak meglepetéseket. A HUNMARC például az adatmezőkön kívül, programozással oldja meg a központozást, az OCLC tételeiben azonban benne vannak a központozási jelek is. A duplázódás kiküszöbölése érdekében ezeket átvétel előtt ki kell szedni. A személynevek leírásában a HUNMARC külön almezőkben helyezi el a név egyes elemeit, az OCLC nem teszi ugyanezt, ott a teljes név egy almezőben van. Ennek utólagos szétszedése automatikusan igen nehéz, szinte lehetetlen. (Csak zárójelben: gondolkodjunk el rajta, tulajdonképpen mi a funkciója annak, hogy elkülönítsük a vezetéknevet a keresztnévtől? Sok problémát megoldana, ha ez egyszerűbb lenne a HUNMARC-ban is).
Befejezés
Őszintén reméljük, hogy a PAD adatbázis kedvelt és sokat használt eszköze lesz információs életünknek. Az Internet természetesen újabb lehetőségeket és kihívásokat jelent majd, de elveinkből nem szeretnénk engedni, és az igényességet mindennél fontosabbnak tartjuk. A puding igazi próbája azonban az, hogy megeszik, az adatbázisé pedig az, hányan és milyen hatékonyan, mennyire elégedetten használják. Az erre vonatkozó visszajelzéseket nagyon várjuk; e nélkül nem tudunk munkánkon javítani. Szeretettel ajánljuk tehát a HUNGARNET közösségnek, hogy minél többször üljön be a PAD-ba.

Címkék