Adalékok az ETO új kiadásához és konkordanciájához (folytatás)

Kategória: 2008/ 4

A Könyvtári Intézet az ETO új kiadásához megvásárolta a UDC Consortium 2000. évi MRF-fájlját. Nagy mennyiségű változást látva benne a, arról született döntés, hogy ehhez az állapothoz kell “felhozni” a magyar ETO-t. Költségkímélés okán az ezt követő évek adatbázisaira nem fizettünk elő, hiszen nem volt – s a körülmények miatt nem is lehetett – olyan szándék, hogy ezeket menet (vagyis a “2000-eshez igazítás”) közben majd beépítjük.
A kiadásra kapott átfutási idő azonban lejárt, és 2005-ben, amikor elkészült a nyomdai kézirat és azt be kellett mutatni a konzorciumnak, illetve regisztrációs számot kérni a kiadáshoz, bizony mégis fizetnünk kellett. De ez nem volt haszontalan, hiszen utóbb szükség volt a teljes törlési/áthelyezési adatbázisra a konkordanciához, amit akkor visszamenőleg megkaptunk a 2001-2004 közötti időszak változásaival egyetemben.Az előfizetés fejében a konzorcium megküldi az aktualizált mesterfájlt (MRF) és külön-külön fájlban az új, a módosított és a törölt/áthelyezett jelzetek iso*-állományát. A két előző információ a mesterfájl rekordjaiban is szerepel, a törölt jelzetek azonban nem kerülnek be az exportba, vagyis hiányoznak az adatbázisból. Ezért is okozott nagy örömöt, hogy a CD-n volt egy General ref 1994-2003 nevű mappa, amiből egyértelműen kinyerhetők lesznek a megszűnt jelzetek – gondoltuk nagy reménnyel. Az adatbázis indexelése után látszott, az első törlési dátum 1993 szeptembere, amikor 794 jelzetet töröltek, helyeztek át. Viszont gyanúra adott okot, hogy sem 1999-es, sem 2000-es adat nem volt benne. Az utóbbit tudtuk pótolni az előfizetéssel kapott iso-fájlból.
Az adatok további elemzéséből, összehasonlításából az derült ki, hogy csak a két adatbázis, az 1990-es saját és a 2000. évi MRF-fájl összefésülésekor kialakult állapotból lehet és kell kiindulni. Ekkor ugyanis kiestek az 1990-esek közül azok, amelyek nem voltak a 2000-esben, és (újként) bekerültek azok, amelyek nem voltak az 1990-esben. Az utóbbi tényre a 901-es mezőben látható évszám, a módosulásra pedig a 921-es mezőben lévő évszám utalt, a következő, 922-es mezőben megadva annak a mezőnek az azonosítóit, ahol a módosulás történt.
Kicsit olyan az 1992-es konzorciumi adatbázis létrehozásakor kialakult állapot, mint a kitalált középkor. Módosulási adataik ugyanis (természetes módon) csak a saját alapjukhoz mérten változások. Így aztán az a konkordancia-megelőlegezésnek szánt információ, amit a táblázatban elhelyeztünk (s amire eleddig nem volt példa), vagyis hogy a jelzet új (megadtuk a beléptetés dátumát), vagy revíziója volt, módosult (itt is megadtuk a dátumot), nem igazán mérvadó. Ennek alapján elkezdve a konkordanciakészítést, nagyon sok esetben kiderült, a jelzet nem új és nem is módosult a miénkhez képest.
A korábbi konkordanciákkal összehasonlítva szerettünk volna egyszerűbb, áttekinthetőbb, a konkordancia-eseteket tisztán megmutató és az adatbázisokban legnagyobbrészt automatikus átvezetésre, átjelzetelésre alkalmas konkordanciatáblát létrehozni.
A hagyományokból az új jelzetekre vonatkozóan átvettük azt az evidenciát, hogy nem érdemes terhelni velük a konkordanciát, hiszen új lehetőségként amúgy is kínálják magukat. A konkordancia alapja tehát: mi módosult (szűkült vagy bővült a jelzet tartalma), mi szűnt meg vagy került át új helyre. Erről kell számot adnunk.
Nézzünk előtte egy összehasonlító táblázatot a mennyiségi változásokról. (Időközben betekintésre, egy későbbi előfizetés reményében megkaptuk a 2006. évi MRF-fájlt is, így annak adatait is szerepeltetjük az összehasonlításban, hogy a felfedezni vélt tendenciára megerősítést nyerjünk.)


 

Játék a számokkal! Az új jelzetek száma 62 056-29 630 = 32426, ennyi az eltérés az 1990. és a 2000. évi jelzetmennyiség között. Igen ám, de a konzorcium jelentése szerint 1099 jelzet utód nélkül szűnt meg, s a későbbi egybevetésből meg kiderült, az 1990-es jelzeteink közül ténylegesen 4457 jelzetnek nincs utódja. Hogy az utóbbiakban mennyi az átfedés, már nem is volt értelme vizsgálni…

Nézzük közelebbről a túlsúlyba került segédtáblázatok változásait!

A földrajzi, nyelvi és az általános ismérvek szerinti alosztások mennyisége nőtt szembetűnően. Eltűnt viszont a szempont szerinti pont-nulla-nullás speciális alosztás, amelynek pótlása külön gondot okoz, ugyanis a jelzetek helyettesítésére – szokatlan módon – főtáblázati jelzeteket alkottak az időközben kiürített 005-ös osztályban, de csak 2001-ben, így ezeket ebben a konkordanciában nem tudjuk ajánlani, hiszen az időszak vége 2000.
Az ETO ellenzői úgy vélekednek, hogy a viszonylag könnyen fellelhető főtáblázati számokkal kellene csak “megfogalmazni” a tartalmat. A segédtáblázatok használata a felhasználó számára befogadhatatlan, kezelhetetlen, főként a régebben korlátozottan közös, utóbb speciális alosztásnak nevezett segédtáblázatok esetében. Mégis azt látjuk az előbbi táblázatból, hogy a segédtáblázati jelzetek mennyisége exponenciálisan növekszik, vélhetően a jelzetalkotás rugalmasságának bővítése reményében. Ebből meg azt a következtetést kell levonnunk, hogy a számítógépes integrált rendszerek programozóinak fokozottan koncentrálniuk kellene a jelzetszerkesztéssel létrehozott összetett ETO-jelzetek elemzésére, értelmezésére, természetes nyelvre fordítására. Amire persze van indirekt válasz is a Köztauruszban:
Lássunk példát erre!
A magyarországi felsőoktatás 2007. évi évkönyve angol nyelven
ETO-jelzetekkel kifejezve:
az 1990-es ETO alapján: 378(439)”2007″(058)=20
a 2000-es ETO alapján: 378(439)”2007″(058)=111
Az időalosztás értelemszerű, itt: “2007″. A (058) formai alosztás helyett a tezaurusz főtáblázati számot tartalmaz az évkönyvre, s az angol nyelv bizony még a régi…
A tezauruszból vett példákból látható, hogy egy összetett fogalom hiba nélkül összeállítható elemeiből, ha háttéradatbázisból dolgozhatunk. Az a baj, hogy pl. a tezaurusz teljes mélységű, a magyar szabvány szerinti relációk szerinti megjelenítésére és kezelésére, sajnos, csak kevés Magyarországon honos könyvtári program képes.
Látszólag eltértünk tárgyunktól, de hitem szerint mégsem. Ugyanis csak úgy lehet rugalmasan, viszonylag könnyen (de emberi beavatkozás, mérlegelés, minősítés nélkül valószínűen sohasem, ám most biztosan nem) átállni az új jelzetrendszerre, ha az integrált rendszer kellő mélységben ismeri az ETO-jelzetek szerkezetét. Az pedig jegyei alapján könnyen felismerhető, azonosítható. (Hála Dewey jövőbe látó bölcsességének!)A tezauruszban az elemek:

 

A konkordancia

Több nekifutás, a minél kisebb hibaarány érdekében végzett elemzés, a gyors, automatizálható megoldások reményének elvesztése után alakult ki az a stratégia, ami alapján végül is készül az 1990-es és a 2000-es ETO közti megfeleltetés, vagyis konkordancia. Ez pedig szövegelemzésen alapuló egybevetés.
Az adatbázisba importáltuk a konzorcium megszűnt, áthelyezett jelzeteket tartalmazó rekordjait (I.), mögé tettük az 1990-es kiadás jelzetrekordjait (II.), végül importáltuk a 2000-es kiadás jelzetrekordjait (III.). Az elemzés alapja természetesen az adatbázis magja, az 1990-es kiadás jelzetállománya (II.) volt.
1) Az első összehasonlításban kiestek azok a rekordok, amelyekben a jelzet és feloldása II-ben és III-ban karakterre megegyezett.
2) Ezt követte az adatbázison (I) alapuló “utódkeresés”. (Amit természetesen egyenként ellenőrizni kell.)
3) Az utolsó “fordulóban” jegyeződtek be a NJS1990-es, vagyis a nem jelzett sorsú 1990-es jelzetek, amelyek utódjául a kiváló Pascal-programozó Tar Katalin munkája nyomán szövegelemzéssel kerültek be javaslatok az utódlásra. Azt azonban, hogy ezek jók vagy sem, csak egyenkénti áttekintéssel, ellenőrzéssel lehet és kell eldönteni.
Ebbe a jegyzékbe nagyjából 17 500 jelzet került, s hozzájuk átlagban három javaslat 1700 oldalon. Köztük vannak a nem jelzett sorsúak, ezeknek “utódot” kell keresni… (A Korán például nem eshet ki az ETO-ból, mert abból akár világfeszültség is következhet, márpedig most nincs önálló jelzete.) Kiesett a rabszolgaság, a földesúr, a hűbériség stb. amelyek ma valóban “nem aktuálisak”, de történetiségükben létező és használt fogalmak, vagyis nem halhatnak el…
Ki nem fejezhető hálám Haralyi Krisztina kolléganőmnek, aki piros bejegyzéseimet kékre váltva egyengeti, s ezek mellé Barátné Hajdu Ágnes zöldje is megjelenik majd a munkapéldányban, vagyis három szintű az ellenőrzés.

A konkordanciatáblázat

Mint már szó esett róla, a konkordanciatáblát a lehető legjobban áttekinthető módon szerettük volna kialakítani, mellőzve minden külön értelmezendő helyzetet.

Konkordanciaféleségek:
a) Az A oszlopban szereplő jelzettel valami történt.
b) A B oszlopban az 1990-es táblázatbeli jelzetfeloldás olvasható.
c) Ha a C oszlop nem üres, a régi jelzet helyét új jelzetértelmezés, új fogalom foglalta el (1. példa).
d) A D oszlop a jelzet-átirányításokat mutatja (1-2. példa).
  jel továbbosztást is jelenthet (3. példa),
a H. h. képzett jelzetet ajánl a régi főtáblázati szám helyett (4. példa),
a H. t. jelzi, hogy a régi táblázatban szereplő képzett jelzet változatlanul használható (6. példa).
e) Az E oszlopban az érvényben maradt régi jelzet értelmezési módosulását, vagy a régi jelzet új helyén használatos értelmezését látjuk (1., 2., 3., 5. és 7. példa). (Helyenként a konkordanciakészítéskor beszúrt helyesbítést láthatunk, mint a 7. példánál.)Alapelv: azokat a jelzeteket, amelyeket (feltételezés szerint!) dokumentumfeltárásra használtak már, pótolni kell, természetesen nem új jelzet létrehozásával, hanem a meglévők bevonásával, esetleg jelzetszerkesztéssel (példa erre az új táblázatból ésszerűsítési és rövidítési szándék okán kimaradt magyar hegységek beillesztése a konkordanciába névalosztással). Persze lehetnek még “felfedezéseink”, a munka most nagyjából a kétharmadánál tart.

Az ETO és a szakrendi tárolás

Minden tisztelet a nemes elődöké – nagyjából ezt summázza immár szinte négy évtizede minden új kiadású raktározási táblázat előszava, s ez természetesen nem is vitatható. Az már inkább, hogy e tisztelet, még ha Sallai Istvánnak szól is, nem tarthatja tovább változatlanságban a raktározási táblázatot.
Mégse járja, hogy négy évtizede olyannyira eltávolodott egymástól az ETO és a szakrendi tárolás, hogy ma már azt lehet tanítani róla: semmi közük egymáshoz. (Leszámítva azt az apróságot, hogy természetesen az aktuális ETO-ból csoportképzéssel lesznek raktári jelzetek.)

Az új raktározási táblázat megalkotásához országos, felsőoktatási, megyei, városi, iskolai stb. könyvtáraktól kértünk közreműködőket, véleményezőket, hogy lehetőség szerint minél több könyvtártípus képviselői határozzák meg az új, ajánlott raktározási rend jelzetrendszerét.
A munkapéldányként kiküldött anyag (l. az Excel-táblát) nem erőszakosan, de sugallta a változtatás igényét. A beérkező javaslatok többsége ezt vissza is igazolta. Ebben a szellemben, a konkordanciával párhuzamosan készül az új raktározási táblázat, legalább négy könyvtártípus igényeit figyelembe véve. Köztük azokét is, amelyek nem akarnak változtatni, hiszen a táblázat A és B oszlopa is bekerül az új kiadásba.)
A gépi rendszerek számára a konkordanciát iso-, XML vagy tagolt szövegfájlban, a raktározási táblát a két utóbbiban tudjuk majd szolgáltatni.

* ISO 2709 sz. szabvány szerinti bibliográfiai adatcsere-formátum.

Címkék