A nemzeti adatcsere formátum és az összevont adatelemek

OSZK Fejlesztési Osztály

Bevezető

Viszontválaszában Bakonyi Géza megismételte azt javaslatát, hogy a HUNMARC nemzeti adatcsere formátumban bizonyos adatelemeket nem a szabvány szerint elkülönítve kellene kezelni, hanem össze kellene vonni. Korábban már megírtuk (A könyvtár nem ellentéte az elektronikus könyvtárnak. Válasz Bakonyi Gézának. In: Könyvtári Figyelő, 5. (41.)évf. 1995. 1.sz. pp. 13-19.), hogy amikor a nemzeti adatcsere formátum tervezetét a múlt évben vitára bocsátottuk, senki sem tett ilyen jellegű módosító javaslatot. Bizonyára azért, mert akik a kérdéssel foglalkoztak, feltételezték, hogy a nemzeti és nemzetközi adatcsere formátumoknak meg kell felelniök az érvényes bibliográfiai szabványoknak. Márpedig, ha a HUNMARC formátumban összevontan kezelnének adatelemeket, akkor a HUNMARC se a szabványoknak, se a nemzetközi adatcsere formátumoknak nem felelne meg.
Az adatelemek elkülönített, minősített kezelése egyébként sem akadálya annak, hogy a HUNMARC-ot használó könyvtárak a szabványos bibliográfiai megjelenítési formátum mellett a szükségleteik szerinti egyéb, adott esetben rövidített megjelenítési formátumokat is használjanak.
Részletes és táblázatban összefoglalt példa segítségével fogjuk bizonyítani, hogy az adatelemeket nem a nemzeti csereformátumban kell összevontan kezelni, hanem az egyszerűsítést, összevonást igénylő könyvtárak adatbázis-kezelő rendszerében.

Konvertálási példa négy könyvtárral

Vegyük példaként a HUNMARC 245-ös hívójelű “Cím és szerzőségi közlés” mezőjének szabványos adatelemei közül az első hatot, melyeket a továbbiakban a hívójel és az almezők betűjelével azonosítunk (pl. “245a Főcím, ill. összetett cím közös része”, “245b Alcím”).
Tételezzünk fel négy, A, B, C és D jelű magyar könyvtárat a következő jellemzőkkel:
1. Az A jelű könyvtár teljes részletességgel, azaz külön-külön minősítve veszi át a fenti adatelemeket, de belső használatban, saját online és egyéb katalógusában csak a “245a Főcím, ill. összetett cím közös része”, valamint a “245c Első elsődleges szerzőségi közlés” adatelemeket óhajtja megjeleníteni.
2. A B és a C jelű könyvtár összevontan akarja a fenti adatelemeket átvenni, ugyanakkor mindegyik átvett adatelemet meg akarja jeleníteni.
3. A D jelű könyvtár összevontan és csak a 245a, valamint a 245c adatelemeket akarja átvenni és megjeleníteni.

Tételezzük továbbá fel az egyszerűen szemléltethető konverzió érdekében, hogy minden adatelemnek van az adatcsere alkalmával értéke. (Ha nem ebből indulnánk ki, nem lenne mit összevonni.)
Az egyes könyvtárak más-más módon azonosíthatják ugyanazt az adatelemet, illetve az összevonás eredményeként keletkezett adatelemeket.
Az A jelű könyvtár például AE1-gyel, [AE2]vel stb. azonosítja a HUNMARC szerinti 245a, 245A stb. adatelemeket (szögletes zárójelek között azok az adatelemek szerepelnek, melyek megjelenítését, adott esetben akár átvételét is a könyvtárban szükségtelennek ítélik).
A B jelű könyvtár BE1-gyel azonosítja a HUNMARC szerinti 245a, 245A, 245b, 245B, 245c és 245e adatelemek összevonásából keletkezett adatelemét stb.
Az összevonások esetén az egyetlen mezőbe kerülő különböző adatelemek közötti elválasztó jeleket is létre kell hozni a BE1, a CE1, illetve a DE1 mezőkben (pl. köz : köz elválasztó jellel jelölve az alcímet, köz / köz elválasztó jellel jelölve az első szerzőségi közlést). Azt nem feltételezzük, hogy a Bakonyi Géza által említett “összevont kezelés” egyben a “leírás adatcsoportjait elkülönítő, illetve adatelemeit megelőző kötelező jelek” elhagyását is jelenthetné, hiszen ez ellentétes lenne a szabványokkal (példánkban v.ö. MSZ 342411 3.2.3). Az A jelű könyvtár esetén viszont nem az AE1 és az AE5 mezőkben kell létrehozni az elválasztó jeleket (hanem azok között), mert azokat az adatbáziskezelő rendszer tudja szükség szerint megjeleníteni, hiszen a könyvtárban a mezőket nem összevontan, hanem elkülönítetten kezelik.
Az elmondottakat az alábbi táblázatban foglaltuk össze. (Az A jelű könyvtárnál, amely nem von össze, az adatelemek kockáiban a szimbolikus adatelem-azonosítókat tüntettük föl. Azoknál a könyvtáraknál, ahol összevonnak, az adatelemek kockáiban az elválasztó jeleket tüntettük föl, melyeket a tárolt adatelemértékeken belül elkerülhetetlenül létre kell hozni ahhoz, hogy megjelenítéskor az összevont adatelemértékeket elkülöníthessék. Az át nem vett adatelemek kockáit – a D jelű könyvtár esete – üresen hagytuk. A közt az aláhúzás jelével jelöltük.)

A példa elemzése

Látható, hogy az A jelű könyvtár esetén nincs összevonás, az egyes átvett adatelemek önálló AE1, [AE2] stb. almezőkbe kerülnek. A saját online és egyéb katalógusban megjelenítendő két, AE1 és AE5 adatelem között az elválasztó jelet a mindenkori adatbázis-kezelő rendszer hozza létre, az elválasztó jel tehát nem alkotja az adatelem értékének részét.
A mai könyvtári adatbázis-kezelő rendszerek iránt természetes követelmény, hogy üzembehelyezésük alkalmával – de akár később is – meghatározza a felhasználó, milyen elválasztó jeleket kíván használni az egyes megjelenítési formátumokhoz.
Látható továbbá, hogy a B és a C jelű könyvtárak az összevontan átvett adatelemeket egyetlen mezőben, egyetlen adatelemként kezelik, és az elválasztó jelek az egységként kezelt mezőben az adatelemérték részét alkotják, attól elválaszthatatlanok.
Látható végül, hogy a D jelű könyvtár esetén kevesebb összevontan átvett adatelem van, de ezt is egyetlen adatelemként kezelik, és az egyetlen szükséges “köz dőlt vonal köz” elválasztó jel az egységként kezelt mezőben ugyancsak az adatelemérték részét alkotja, attól elválaszthatatlan.
Vegyük számba, milyen konvertáló programokra van szükségük az egyes könyvtáraknak:

Az A jelű könyvtárnak olyan konvertáló programra van szüksége, mely a HUNMARC azonosítókkal azonosított adatelemeket a saját rendszere szerint azonosított A1, [A2], [A3j, [A4], A5 és [AG] mezőkbe viszi át és fordítva. Az adatelemek közötti elválasztó jelek nem alkotják az adatelemek értékeinek részét, a konvertáló programba nem kell beépíteni a kezelésüket, az adatbázis-kezelő rendszer specifikálásakor gondoskodnak a megjelenítésükről. A mindenkori adatbáziskezelő rendszer megfelelő képernyő megjelenítő és nyomtatóprogramjainak kell biztosítania, hogy csak azok az adatelemek jelenjenek meg, melyek megjelenítését a könyvtár az adott időszakban, az adott katalógusban szükségesnek tart.

Ez a könyvtár tehát minden, az adatcsere céljára HUNMARC formátumot használó könyvtárral oda-vissza képes adatcserére. Következésképpen tőle a B, C és D könyvtárak is átvehetnek adatokat a HUNMARC-on keresztül, tehát a már meglévő konvertáló programjukkal.

A B és C jelű könyvtárnak olyan konvertáló programra van szüksége, mely a HUNMARC azonosítókkal ellátott adatelemeket a saját rendszere szerint azonosított BE1, illetve CE1 mezőkbe összevontan viszi át, generálva egyúttal az átvett adatelemértékek között az elválasztó jeleket, melyek ettől fogva elválaszthatatlan részét fogják alkotni az összevont adatelem értékének.

Fordítva a csere nem lehetséges: a HUNMARC-ba az összevont adattartalmú BE1, illetve CE1 mezők értékei nem vehetők át egyszerű konverziós módszerekkel. (Egyszerű konverziós programokon kívül készíthetők bonyolultabb, ún. formátumfelismerő programok (formai recognition programs). Ha az összevonások egy-egy adatcsoporton belül maradnak, akkor ezek a programok az egyszerű eseteket konvertálni tudják, de a speciális eseteket nem: ezekben szellemi beavatkozásra van szükség, tehát a konvertálás eleve nem teljesen automatikus. Ha azonban több adatcsoportot is összevonnak, gyakorlatilag lehetetlen a konvertálás, mivel a szabványos bibliográfiai elválasztó jelek homonimák: ugyanaz az elválasztó jel más-más adatelemek között ismétlődhet (például a köz : köz a főcímet az alcímtől, a párhuzamos címet a párhuzamos alcímtől, a megjelenési helyet a kiadótól stb. választja el.)
Ez a két könyvtár tehát minden, HUNMARC formátumot használó könyvtártól át tud venni adatokat, de fordítva ez nem lehetséges.

Egymás között ez a két könyvtár akkor képes adatot cserélni, ha két további konvertáló programmal is rendelkezik. Ezek nem azonosak azzal a konverziós programmal, mely a HUNMARC formátumban levő adatok átvételét biztosítja, hanem olyan konverziós programok, amelyek csak e két könyvtár közötti kölcsönös cseréhez alkalmasak.

Ez a két program biztosítja, hogy a B jelű könyvtár BE1 adatelemét a C jelű könyvtár a maga CE1 mezőjébe átvegye és fordítva.

A D jelű könyvtárnak olyan konvertáló programra van szüksége, mely a HUNMARC azonosítókkal azonosított adatelemek közül csak kettőt vesz át összevontan a saját rendszere szerint azonosított DE1 mezőbe, generálva egyúttal az átvett két adatelemértékek között a “köz dőlt vonal köz” elválasztó jelet, mely ettől fogva elválaszthatatlan részét fogja alkotni az összevont adatelem értékének.

A csere fordítva nem lehetséges: a HUNMARC-ba az összevont adattartalmú DE1 mező értéke nem vehető át egyszerű konverziós módszerekkel. Ugyancsak lehetetlen a csere egyszerű konverziós eszközökkel az A, a B és a C jelű könyvtárakkal.

Következtetések

A fentiekből szükségszerűen az alábbiak következnek;
a) Az adatcseréhez – függetlenül attól, milyen a HUNMARC – minden könyvtárnak konverziós programokra van szüksége.
b) Az A jelű könyvtár oda-vissza tud cserélni adatokat minden olyan felhasználóval, amelyik maga is minősítve, tehát nem összevontan kezeli a HUNMARC adatelemeit. A HUNMARC-on keresztül át tud adni adatokat mind a B, C és D jelű könyvtáraknak. Fordítva nem: a B, C és D jelű könyvtáraktól egyszerű konverziós módszerekkel nem tud átvenni adatokat.

Csak két (a csereformátumról és a csereformátumra)
konvertáló programra van szüksége.
HUNMARC-on keresztüli országon belüli
és nemzetközi adatcserében kötetlenül részt vehet,
saját maga azt használ fel amit és ahogy akar.

c) A B és a C jelű könyvtár csak egymás között tud adatokat cserélni. Az OSZK-tól és az A jelű könyvtártól csak átvenni tud adatokat, saját adatait az OSZK-nak és az A jelű könyvtárnak egyszerű konverziós módszerekkel nem tudja átadni.

Három konverziós programra van szüksége:
az egyikkel átveszi a HUNMARC formátumban az adatokat,
a másik kettővel pedig egymástól veszi át,
illetve adja át az adatokat.
Az országon belüli cserében
csak azokkal a könyvtárakkal vehet részt,
melyek maguk is pontosan úgy vonják össze az adatelemeiket.
A HUNMARC-on keresztüli és nemzetközi adatcseréből kizárta magát.

d) A D jelű könyvtár csak HUNMARC formátumban tud átvenni adatokat az OSZK-tól és az A jelű könyvtártól. Se a B, se a C jelű könyvtártól nem tud átvenni adatokat, és saját adatait egyetlen más könyvtárnak sem tudja egyszerű konverziós módszerekkel átadni.

Egyetlen konverziós programra van szükséges.
Az országos és nemzetközi cseréből kizárta magát.

A fentiekből világosan látható, hogy mind logikailag, mind a cserélési szabadság, mind pedig a gazdaságosság szempontjából a legjobb helyzetben az A jelű könyvtárak vannak. Ezek a könyvtárak nem úgy oldják meg azt a problémájukat, hogy bizonyos adatelemekkel nem kívánnak foglalkozni, illetve bizonyos adatelemeket nem kívánnak minősítve megjeleníteni, hogy összevonják őket egyetlen – szabványosan nem létező adatelembe, hanem úgy, hogy az adatelemek szelektív kezelését saját adatbázis-kezelő programrendszerükre bízzák, nem pedig a csereformátumból konvertáló programjaikra.
Az is világosan látható, hogy a B, C és D könyvtárak helyzete rendkívül hátrányos. Különösen az, ha meggondoljuk, hogy az általuk kezelt adatok egy részében az elválasztó jelek az adatelemhez kötött értékeket képviselnek. Ennek következtében a különböző felhasználói igények szerint kialakítandó megjelenítési formátumokban nincs módjuk automatizált eszközökkel (tehát a saját adatbázis-kezelő rendszerükkel) különféleképpen megjeleníteni az adatokat.
Ahhoz, hogy az OSZK-n kívül minden más könyvtár egymás között adatokat cserélhessen, és ezt ne a “túl részletes” HUNMARC formátum szerint csinálja, arra lenne szükség, hogy minden könyvtárat arra kényszerítsenek, hogy összevontan kezeljen bizonyos adatelemeket, ezt az összevonást mindig egyformán végezzék el, tekintet nélkül az érvényes nemzeti és nemzetközi szabványokra, az adott könyvtár speciális igényeire és az esetleges időbeli változásokra. Eme összevonás következtében – ha egyáltalán rákényszeríthető erre központi erőszak nélkül bármely könyvtár – egyetlen könyvtár sem lehetne abban a helyzetben, hogy a HUNMARC-on keresztül az OSZK-val és bármely más, külföldi könyvtárral adatokat oda-vissza cseréljen.

Gyakorlati példa

Az egyszerűség kedvéért csak a bibliográfiai leírás részletét, a cím és szerzőségi közlés adatcsoportot mutatjuk be. A szemléltethetőség érdekében a csereformátum mutatójában szereplő hívójelet rendeljük hozzá az adatelemhez azonosítóként, elhagyva az indikátorokat és az almező-azonosító típusjelét (vagyis az adatelemek azonosítását a tároláskor is leegyszerűsítve, a kiindulópontul választott eszközökkel jelezzük). Indikátorokkal és almező-azonosító típusjelével az első két adatelem például így festene:10$aMagyarország lombos erdői$bA tiszta levegő szűrői$ADie Laubwälder…A HUNMARC által szolgáltatott tételrészlet fentiek szerint végrehajtott “tárolása” és megjelenítése a következő:

(i) Tároláskor

Látható, hogy a HUNMARC nem tartalmazza az adatelemek közötti szabványos bibliográfiai elválasztó jeleket. A könyvtári adatbázis-kezelő rendszerekben az implementálás során meghatározható, hogy az adatelemek elé az egyes megjelenítési formátumokban a minősítésük alapján milyen elválasztó jel kerüljön. Az így – automatikusan – megjelenített elválasztó jelek nem részei az adatelemek adattartalmának. Más szóval, különböző megjelenítési igényekhez, különféle módon, különféle elválasztó jelekkel lehet a tételeket megjeleníteni. Például:
(ii) A szabványos bibliográfiai leírást tartalmazó megjelenítési formátum a következő (az adatbázis-kezelő rendszer által megjelenített elválasztó jeleket félkövér dőlt szedéssel, a közt az aláhúzás jelével jelöltük):

Magyarország lombos erdői_:_A tiszta levegő szűrői

_=_Die Laubwälder Ungarns_:_Filter der reinen

Luft_/_írta Kálózy István_;_fényképek Horváth Gyöngyvér

(iii) Ugyanez táblázatos megjelenítési formátumban például a következő lehet (az elválasztó jeleket itt is félkövér dőlt szedéssel jelöltük, a CR LF a soremelés kocsi vissza jelölése [hiszen az is az elválasztás jelölése, hogy valami új sor elején kezdődik]):

Az A) könyvtár mindegyik adatelemet átveszi és valamilyen módon tárolja a saját belső formátumában, de csak a főcímet és az első elsődleges szerzőségi közlést tünteti föl a saját online katalógusában, megőrizve az átvett adatelemek eltérő minősítését (azaz “nem von össze” adatelemeket).

(i)Tároláskor:

Az előbbiekben bemutatott két formátum pedig, melyekben csak a félkövéren szedett AE1 és AE5 adatelemeket jelenítik meg, a következő

(ii) Sorfolytonosan (az elválasztójelet a kezelőprogram írja ki):

(iii) Táblázatosan:

Akár megőrzi a könyvtár a későbbiekben a nem megjelenített adatelemeket, akár nem őrzi meg, a példánkban megjelenített AE1 és AE5 adatelemek cseréje minden HUNMARC formátumot használó könyvtárral egyszerű konverziós eszközökkel megvalósítható. A csere független attól, hogy melyik könyvtár milyen elválasztó jeleket alkalmaz, mivel az elválasztó jelek nem részei az adattartalmaknak.
A B) és C) könyvtárak két mezőbe összevonva kezelik az átvett adatelemeket. Náluk a tárolás és a két formátum a következő (a B könyvtár BE1 adatelem azonosítását használva):

(i) Tároláskor:

Azaz, már eleve az elválasztó jelekkel együtt kell tárolni az adatelemeket, mert külön-külön lemondtak a minősítésről azáltal, hogy összevontan kezelik őket.

(ii) Sorfolytonosan:

Mivel a sorfolytonos megjelenítéshez szükség volt elválasztó jelek megjelenítésére, és mert ezek az elválasztó jelek az összevonás következtében – tehát az egyes adatelemek minősített kezelésének hiányában – az adattartalom részét alkotják, ezért minden más megjelenítési formátumban, így a táblázatosban is meg kell hogy jelenjenek.

(iii) Táblázatosan:

A példánkban bemutatott BE1 adatelem cseréje HUNMARC formátumát használó könyvtárral egyszerű konverziós eszközökkel megvalósíthatatlan. A csere csak azokkal a könyvtárakkal lehetséges, melyek ugyanilyen módon vonják össze a szabványos adatelemeket.
A példából jól látható ennek a módszernek a másik súlyos hátránya: többé nem lehet szabadon formátumokat definiálni, hiszen az elválasztó jelek az összevont adatelem adattartalmához tartoznak, attól már nem választhatók el, vele együtt tárolják őket, s ezért minden más megjelenítéskor is meg kell hogy jelenjenek. Persze külön speciális formátumfelismerő programmal és ezt elkerülhetetlenül kiegészítő szellemi munkával az elválasztójeleket újra ki lehetne szűrni ? de akkor meg minek volt az összevonás és minek kellett lemondani a differenciált minősítésekről?
A D) könyvtárban is egyetlen mezőbe összevonva kezelik az átvett adatelmeket, de csak két adatelemet vesznek át. Ebben a könyvtárban a tárolás és a két formátum a következő:

(i) Tároláskor:

Tároláskor itt is eleve az elválasztó jelekkel együtt kell tárolni az átvett adatelemeket, mert külön-külön lemondtak a minősítésről azáltal, hogy összevontan kezelik őket.

(ii) Sorfolytonosan:
Mivel a sorfolytonos megjelenítéshez itt is szükség volt elválasztó jelek megjelenítésére, és mert ezek az elválasztó jelek az összevonás következtében – tehát az egyes adatelemek minősített kezelésének hiányában – itt is az adattartalom részét alkotják, ezért minden más megjelenítési formátumban, így a táblázatosban is meg kell hogy jelenjenek.

(iii) Táblázatosan:
Korábban már kifejtettük, hogy a DE1 adatelem cseréje HUNMARC formátumot használó könyvtárral egyszerű konverziós eszközökkel ugyancsak megvalósíthatatlan, és ebben a könyvtárban sem lehet többé szabadon formátumokat definiálni.
Összefoglalva megállapítható, hogy ha
- valamelyik könyvtár kevesebb adatelemet akar megjeleníteni,
akkor
- kevesebb adatelemet vehet át a HUNMARC formátumon alapuló adatcserében, vagy
- minden adatelemet átvesz, de csak az általa szükségesnek ítélteket használja föl,
de
- semmiképpen se úgy járjon el, hogy összevontan kezeli azokat az adatelemeket, melyek megjelenítésére igényt tart.

Az alternatívák összefoglalása

Az elfogulatlan olvasó levonhatja ezek után magának a következtetéseit: milyen nemzeti adatcsere formátum felel meg a leginkább az érdekeinek?
Az olyan, amely bizonyos adatelemeket öszszevontan, nemzeti és nemzetközi szinten nem csereszabatosan kezel és előre megköti a felhasználó kezét?
Vagy az olyan, amely minden adatelemtípust minősítve kezel, és a felhasználóra bízza, mihez kezd velük?

A nemzeti adatcsere formátum és az összevont adatelemek

MINDEN VÉLEMÉNY SZÁMÍT! Kilépés a válaszból

Bejelentkezés

Archívum