Nemzetközi fejlődés, problémák és tapasztalatok a Köztauruszban és Geotauruszban

Bevezető

A dokumentum tárgyát, témáját jellemezhetik a földrajzi helyek is. A helyeket megnevező földrajzi neveknek két típusa van: az általános földrajzi név (vagy más szóval a földrajzi köznév, mint pl. hegység, tengerpart, gleccser), és a földrajzi tulajdonnév (pl. Pilis-hegység, Horvát tengerpart, Aletsch-gleccser). Az általános földrajzi nevek nem konkrét helyeket, hanem helyek típusait, fajtáit, osztályait nevezik meg, információkereső célú használatuk azonos a többi, köznévből alkotott tárgyi kifejezésével (mint pl. közlekedés, kikötő, olvadás). A földrajzi tulajdonnevek ezzel szemben meghatározott helyeket azonosítanak. Mint ilyenek, az egyértelmű azonosításhoz – akárcsak az egységesített besorolási nevek többi fajtái esetén (mint a személy- és testületi nevek) – névformájuk pontos szabályozást igényel, melyeket a bibliográfiai leírás besorolási adatainak formájában szabványosítottak [17].
A földrajzi nevekkel végzett tartalmi feltárás és keresés helyzetét alapvetően két fejlemény változtatta meg az elmúlt évtizedben: egyrészt az internet lehetőségei, másrészt pedig – részben az internet, s vele a laikus keresők megjelenése miatt – a nemzeti nyelvhasználat általánossá válása a helynevek megnevezésében. E két fejlemény alapvetően felértékelte a földrajzi tulajdonnevek keresőcélú használatát: az internet a speciális földrajzi helyek millióihoz való hozzáférést biztosította, és ez a hozzáférés azt is lehetővé tette, hogy a helyeket a legkülönfélébb nemzeti nyelveken kereshessék. Ez utóbbi lehetőségnek különösen nagy jelentősége van a magyar kultúrában, mivel ennek a kultúrkörnek a nemzeti nyelvű földrajzi névállománya jóval túlnyúlik a mai Magyarország határain.
Ezzel a helyzettel a könyvtári információkeresés területén is fontos lépést tartani. Szükség van olyan strukturált, a földrajzi helyek közötti igazgatási–területi (mi minek a része), történeti (minek mire változott a neve), szomszédsági (mi mi mellett fekszik) stb. összefüggésekről a keresőt tájékoztató névterek és szógyűjtemények (tezauruszok, ontológiák) kialakítására, melyek a laikus felhasználó rendelkezésére állnak mind a könyvtári adatbázisokban, mind a weben való kereséshez.
A tanulmányban részletesen beszámolunk a földrajzi célú keresés lehetőségeinek eme megváltozásáról, és egy, a mai technikai lehetőségek kiaknázására alkalmas információkereső tezaurusz (a Geotaurusz) kialakításáról. A Geotaurusz a számos hazai könyvtárban használt magyar egyetemes tezaurusz (a Köztaurusz) mellett párhuzamosan használható, vele kompatibilis egyetemes igényű földrajzi tezaurusz, mely strukturáltan, azaz a helyek összefüggéseit feltüntetve tartalmazza a magyar nyelvű földrajzi tulajdonneveket a mai Magyarország, a történelmi Magyarország és a világ egyéb tájain [12]. A maga jelenleg már közel 70 000 nevet tartalmazó és folyamatosan bővülő állományával ez a tezaurusz nemzetközi összehasonlításban is a legnagyobbak közé tartozik.

1.  A földrajzi nevek az adatcsere-formátumokban

A bibliográfiai rekord, illetve a besorolási adatok adatcsere-formátumában [9] az általános fölrajzi neveknek és a földrajzi tulajdonneveknek önálló és egymástól eltérő adatmezője van.
Az általános földrajzi neveket a tárgyi kifejezések mezőjébe kell rögzíteni. A bibliográfiai rekordban ez a 650-es, a besorolási rekordban ez a 150-es mező.  A földrajzi tulajdonnevek ezzel szemben a bibliográfiai rekord 651-es, ill. a besorolási rekord 151-es mezőjébe kerülnek.
A földrajzi nevek névformáját (különös tekintettel az összetett nevekre) az adatcsere-formátumok [9] mező-almező szerkezete rögzíti. – az a almezőben a  rendszó szerepel;
– a c almező kiegészítő elemével különböztethetők meg az azonos nevű (homonim) földrajzi nevek;
– a b almező egyéb névelemébe olyan földrajzi hely neve kerül, melyet önálló rendszóként nem, hanem az átfogóbb földrajzi hely nevéhez kapcsoltan veszünk csak fel.Például (a $ jel jelzi, hogy utána almező-azonosító következik, a # jelek az indikátorokat jelölik, melyekkel például megadható, milyen forrásból származik a tárgyi kifejezés, ha például a második indikátor értéke 4, akkor nincs forrás megadva):
Esztergom            151## $a Esztergom
Gellért-hegy (Zalaszentmárton)
151##$a Gellért-hegy $c Zalaszentmárton
A c almező kiegészítő elemével különböztethető meg a többi “Gellért-hegy” nevű rendszótól.
Szeged. Tisza Lajos körút
150## $a Szeged $b Tisza Lajos körút

A “Tisza Lajos körút” mint “Szeged” része jelenik meg.

A földrajzi nevekre vonatkozó adatmezőket az 1. táblázatban foglaltuk össze.

 1. táblázat
A tárgyi kifejezések és földrajzi nevek adatmezői a bibliográfiai és a besorolásiadat-rekordban

Az adatcsere-formátum fent látható része nem tökéletes. A $c almező ismételhetőségének hiányában az ismétlődő elemeket már a bevitelkor el kell látni a ’vesszőköz’ központozással, ami alapvetően ellentmond az adatcsere-formátumok ama elvének, hogy benne minden elemet központozási jelek nélkül, azaz almezőkkel (adott esetben indikátorokkal) kell elkülöníteni. Ilyen eset a Pilisszántó határában fekvő Pilis hegy: mivel a Pilis nem csak hegynév, ezért szükség van a “hegy” kiegészítő elemre, de mert nem csak Pilisszántó határában található ilyen hegy, szükség van a “Pilisszántó” kiegészítő elemre. Mivel az adatcsere-formátumban nemzetközileg úgy szabályozták a $c almezőben, hogy az nem ismételhető, az ismételt értékek között a “köz vessző” központozást kézzel kell bevinni.
A földrajzi nevek formális követelményeit az információkeresésben és a könyvtári világban mára szabványok határozzák meg [13][17][35]. Az információkereső rendszerekben ezek a nevek az adatbázis-rekordok egyik legfontosabb hozzáférési pontjaivá váltak: egyrészt jellemzik magukat a rekordokat (ebben az esetben ún. besorolási adatok), másrészt a felhasználók ezeknek a neveknek az alapján keresnek (ebben az esetben ún. információkereső-nyelvi szavak) (1. ábra).

 

 1. ábra
Az információkereső-nyelvi szavak típusai címkézett irányított gráf formájában

2.  Fordulat a földrajzi helyek kereshetőségében
2.1  Az internet szerepe

Hogy a földrajzi helyek ma a világhálón a keresés kitüntetett szereplői, történetileg szorosan összefügg a második világháború utáni fegyverkezéssel.
A helynevek programozott elhelyezését a műholdfelvételeken az 1947-ben az Egyesült Államok légiereje által kialakított UTM-koordinátarendszer3 tette lehetővé. Annak érdekében, hogy az interkontinentális ballisztikus rakéták célra irányítását a megcélzott földrajzi hely nevének puszta megadásával lehessen elvégezni, a földfelületet felosztották apró, néhány négyzetkilométeres, hosszúsági és szélességi koordinátákkal azonosított négyzetekre (UTM-cellákra), melyekhez hozzákapcsolták az e területen található helyneveket. Ily módon például kb. 30 000 magyarországi természetföldrajzi és lakott helyet is nyilvántartanak az UTM-cellák alapján, a dűlőnevektől a nagyvárosokig, a domboktól a hegyekig, a patakoktól a folyókig. A hidegháború végével ezeket az adatokat nemzetközileg hozzáférhetővé tették.
Az adatbázist az Earth Info (Földi információk) projekt keretében az Egyesült Államok Haderejének ügynöksége, a National Geospatial-Intelligence Agency (NGA, Állami geokoordináta-információszolgálat) tartja fenn [18]. Az adatbázis adatai szabadon felhasználhatók, beleértve a katonai és polgári célokat. A CIA által a föld államairól a weben közzétett és bárki számára hozzáférhető statisztikai adatokhoz az NGA koordinátait hozzárendelve a felhasználók elektronikus térképein ezek az adatok automatikusan megjeleníthetők. A letöltött állomány tabulátorokkal tagolt szöveg, az egyes tabulátorpozíciók határozzák meg a szóban forgó adat típusát (lakott hely, hegy stb.). Az adatbázis 5.517.082 földrajzinév-tételt tartalmaz (2005. március 5-i állapot) az Egyesült Államokon kívüli földterületről, beleértve az igazgatási típust, az UTM–koordinátákat és méretadatokat.
Ennek nyomán alakultak ki a földrajzi információs rendszerek (térinformatikai rendszerek), melyek integráltan tartalmazzák a térbeli és a leíró információkat.
A legismertebb webes kereső a virtuális földgömb szerepét játszó Google Earth. A Föld háromdimenziós modelljére mértékhelyes műholdképeket, légi felvételeket és térinformatikai adatokat vetítettek. A kereső nem csak azt biztosítja, hogy a Föld minden részéről leolvashatók legyenek a földrajzi koordináták, és az adott pont magassága, hanem az egyes földrajzi helyeket név szerint is feltüntetik, és ezek a helyek kereshetők is. A Google Earth nyomában számos specializáltabb webes földrajzi szolgáltatás is megjelent, melyek részletesen tájékoztatnak a keresett földrajzi hely környezetében található többi helyről (nemcsak a településekről, hanem a természetföldrajzi objektumokról is), és információkat nyújtanak a megközelítéshez.
A GeoNames teljes szövegben kereső rendszer [4] például a ’János-hegy’ keresőkérdésre kilistázza az ilyen nevű hegyeket (2. ábra).

 

2. ábra
A GeoNames keresővel a ’János-hegy’ keresőkifejezésre megjelenített találatok
a hozzájuk tartozó UTM-koordinátákkal<
http://www.geonames.org/>

A Budai-hegységben levő hegyre kattintva megjelenik a hegy környékének térképe (3. ábra). A térképen különféle színű jelölők mutatják a különféle típusú kapcsolódási pontokat, melyeket a térkép alatt szövegesen is felsorolnak, megadva a keresett helytől a távolságot. 

 

 3. ábra
A budai János-hegy és környéke a GeoNames keresőben. A legközelebbi helyek,
szállodák és vasútállomások jegyzék formájában is megjelennek

A Rumbletum [20] kereső is megadja a térképet, de a közeli helyeket típusonként csoportosítva sorolja fel (4. ábra). A vezérszóhoz a típusonként csoportosított kapcsolódó helyek struktúrája lényegében megfelel annak, ahogy a tezauruszokban strukturálják relációtípusok szerint a kapcsolatokat.

 

4. ábra
A János-hegy közelében fekvő helyek felsorolása a Rumbletum-keresőben <http://rumbletum.org/>.
A kapcsolódó helyek linkek, bármelyikére kattintva az lesz a vezérszó, és annak a kapcsolódó helyei jelennek meg csoportosítva.
(A 3.2 fejezetben látható a János-hegy deszkriptorcikke tezauruszformában.)

A Global Gazetteer helységnévtár [6] településkeresőjét a légiutas-tájékoztatásra hegyezték ki. 

 

 5. ábra
A Global Gazetteer keresőjében a Zugliget közeli helyek alatt a legközelebbi repülőterek is láthatók a típusjelzésükkel együtt <http://www.fallingrain.com/world/>.

2.2  A földrajzi nevek és a nemzeti nyelv

A pártállami időszakot a nyelvi elzárkózás jellemezte: a nemzeti nyelven csak a nemzetállamon belüli településeket nevezték meg, de azokat kizárólag a hivatalos nyelven, tekintet nélkül az ezeken a helyekén élők nemzeti hovatartozására. Magyarországon ez többek között  kulturális elszegényedést eredményezett, a Kárpát-medencei magyar névállomány kifejezései jelentős mértékben kikoptak a köznyelvből.4
A határon túli természetföldrajzi neveket olykor magyar nyelven tüntették föl, de abban sem volt mindig köszönet, mert az utódállamok névhasználatát követték (a hagyományosan használt “Gömör–Szepesi-érchegység” helyett például a szlovákból fordított “Szlovák-érc-hegység” szerepelt). A helyneveket viszont mindig szigorúan a hivatalos formában közölték. Nagyobb lélekszámú települések esetében idővel ugyan fel-fel tűntek a magyar nevek, de akkor is csak zárójelben, második névként. És ebben alig-alig van változás. Ez magyarázható az autóstérképek esetében, hiszen a hivatalos név kiemelésének praktikus okai vannak egy gyorsan haladó autóvezető számára. A magyar felhasználónak készült földrajzi atlaszban azonban a köznyelvben használt magyar helynevek könnyebben eligazítanak, és az idegen nevek szerepeltetése sokszor kifejezetten zavaró.
A nyugat-európai névhasználatot ezzel szemben a második világháború után az jellemezte, hogy a külföldi helyneveket is nemzeti nyelven nevezték meg, ha volt rá kifejezés. Jellegzetes példája ennek, hogy még az olyan igazgatási egységek nevét is, mint Varsinais Suomi (magyarul: Tulajdonképpeni Finnország), az angol és a német térképeken Finland Proper, ill. Eigentliches Finnland formában adták meg. A magyar térképeken ezzel szemben még a szlovákiai Komárom is csak a hivatalos Komarno formában jelent meg.
A rendszerváltással fordulat játszódott le Magyarországon a külföldi földrajzi helyek térképészeti és köznapi névhasználatában. Mára bevett gyakorlat, hogy nemcsak a tágabb külföldi névanyag esetében (Boroszló, Vezúv, Möll-völgyi gleccser, Szent Ilona-sziget) jelennek meg a térképeken, és olykor már az autópálya-táblákon és a vasúti kijelzőkön is (Bécs, Kairó, Muraköz) magyarul a helynevek, hanem a történelmi Magyarország esetében is.5
A történelmi Magyarország természetföldrajzi neveivel korábban is és ma is az a probléma, hogy számos esetben az egyoldalú államnemzeti eszme szempontjai szerint alakították ki és használják ezeknek a neveknek egy részét. A magyarországi, de valójában Szlovákiában Eperjesig átnyúló Északi-középhegység például szlovák szempontból eleve nem északi, az ottani neve Mátra-Szalánci hegység. A Gömör-Szepesi-érchegységet Szlovákiában Szlovák-érchegységnek (az 1945 előtti Magyarországon Magyar-érchegységnek) hívják, a Kárpátoktól valójában geológiailag teljesen független Erdé­lyi-középhegységet (közkeletűen a Bihart) Romá­niában annak érdekében, hogy a mai román állam természetföldrajzi egységét sugallják, Nyugati-Kárpátoknak nevezik. Ezek az ellentétek egyelőre áthidalhatatlanok, de a mai magyar térképészet európai szellemiségére utal [8], hogy olyan elnevezések használatára törekszenek, melyek nem sértik a szomszéd népek kulturális érzéseit (a javasolt semleges elnevezések egy része egyelőre nem nagyon megy át a magyar köztudatba: például az Északi-középhegység helyett a Mátraerdő, az Erdélyi-középhegység helyett a Biharerdő), a határon túli nemzetállami fogadtatásról nem is beszélve.
A történelmi Magyarország igazgatási nevei (lakott helyek, járások, megyék, országrészek) esetén csak az egyik probléma, hogy az emberi jogokkal összefüggésben szorgalmazni kell a határon túli magyar települések, és igazgatási egységek esetében a hivatalos nyelv mellett a magyar névhasználat törvényesítését is. Ezt már azzal is jelentős mértékben támogatni lehet, ha a Magyarországon kiadott külföldi autó- és turistatérképek  teljességre törekvően feltüntetik a magyar neveket is. Ebből a szempontból születtek már nagyon szép eredmények. Egyik példája ennek a Délvidék (Vajdaság) autótérképe (6. ábra).

 

 6. ábra
A Délvidék (Vajdaság) autótérképe. A hivatalos nevek mellett szerepel a mai és a koraközépkori magyar név is. Például Vrdnik (hivatalos név), Verdnik (mai magyar név) és Udvarnok (történelmi név).

A másik probléma a történelmi Magyarország igazgatási neveivel, hogy ezek állandóan változtak, és ezért meg kellett állapodni abban, hogy melyik időszak névhasználatát lehet a leginkább alapul venni. Mivel 1913-ra Árva és Hunyad vármegye kivételével egységesítették és törzskönyvezték a településneveket, általában ez a névkataszter a kiindulási alap a térképészetben. Ennek nyomán a földrajzi nevekkel foglalkozó legújabb könyvtári szabályzat [13] ezeknek a névformáknak a használatát írja elő deszkriptorként (nem zárva ki megfelelő, a többi névforma feltüntetését is megadó utalókat).

3.  Követelmények a tezaurusz iránt6

3.1  Terjedelem, homonimitás, történelmi változások, szinonimák

A könyvtári rendszerekben a földrajzi nevek alapján végezhető keresésben lépést kell tudni tartani a vázolt fejleményekkel. Ez korántsem kis feladat, aminek négy oka van.

A terjedelem

Egyrészt ehhez a névtípushoz a szaktárgyszavakhoz képest is rendkívül sok névelőfordulás tartozik. Mint említettük, csak az UTM-cellákhoz kapcsolt magyar nevek száma 30 000 körül van; egy részletesebb világatlasz névmutatójában kb. 200 000 név szerepel, és ebben például az előbb említett harmincezres magyar névanyagnak csak a töredéke fordul elő. Ugyanakkor nem megoldás, ha földrajzi helyekre vonatkozó dokumentumtartalmak esetében közelítően osztályoznak: ha például a Budai-hegyekben fekvő Julianna-majoról szól a dokumentum, nem lehet a Budai-hegység vagy a Buda kifejezést, vagy például a Georgia állambeli Budapest kistelepülésről szól a dokumentum, nem lehet a Georgia kifejezést használni a tartalom jellemzésére, mert a dokumentum megtalálhatatlan lesz.
Mindebből következik, hogy az egyetemes magyar földrajzi tezaurusz esetében rendkívül sok lexikai egységre kell számítani

A homonimák7

Másrészt a homonimák a szaktárgyszavakhoz képest sokkal nagyobb számban fordulnak elő, ezeket tehát megfelelően választott kiegészítő adatokkal el kell különíteni. A 2. ábrán látható, hogy 11 János-hegy van Magyarországon; Berlin nevű település pedig ötvenszer fordul elő a világon. A megkülönböztetésükre az adatcsere-formátum $c almezője használandó, amelynek értéke kerek zárójelek között jelenik meg. Ugyanakkor egy tezauruszban el kell dönteni, hogy egységesen mit válasszunk a kiegészítő adat értékéül? Mivel nem minden hegy esetében adható meg, hogy melyik hegységhez tartozik, nem minden kistáj neve értelmezhető köznyelvi szinten, viszont minden hegyről megállapítható, hogy melyik település határában fekszik (és a településneveket a laikus használó is könnyen értelmezni tudja), ezért a tezauruszokban a legcélszerűbb a telepü­lés nevével megkülönböztetni a homonim helyneveket. A János-hegy esetében ez a kö­vetkezőképpen fest:

János-hegy (Alsószölnök)
János-hegy (Bánomhegy)
János-hegy (Budapest)
János-hegy (Buzsák)
János-hegy (Egeracsa)
János-hegy (Felsőmocsolád)
János-hegy (Kismaros)
János-hegy (Lovasberény)
János-hegy (Szentmargitfalva)

Ez egyben azt is jelenti, hogy ezek a hegyek a megadott település határában fekszenek, azok részei.

Ide tartozik, hogy léteznek olyan földrajzi megjelölések, melyek nem csupán vagy nem teljesen a földfelszín részleteinek azonosítására szolgálnak, és nem is igazgatási területegységek vagy elkülönült lakott helyek. Ilyenek a városok ligetei, parkjai, lakótelepei, a közlekedési létesítmények (út, utca, tér, vasútvonal, autópálya stb.), épületek és egyéb létesítmények (ház, kastély, állomás, gát stb.) valamint egyéb, nem meggyökeresedett, véletlenszerű helynevek (homokgödör, kertek alja, telek, országhatár stb.). Ezek száma végtelen, és mert nagyon szorosan összetartoznak az adott településsel, nevük az adott település nevét követi. Például:

Ajka. Jubileumi park
Budapest. 2. kerület
Budapest. Karolina út
Budapest. Istvánmező
Budapest. Wekerle-telep
Budapest. 3. kerület, Széchenyi-telep
Budapest. 15. kerület, Széchenyi telep
Eger. Érsek-kert
Horvátország. Karolina út
Székesfehérvár. Bory-vár
Veszprém. Jeruzsálemváros

A névváltozások8

Harmadrészt pedig a földrajzi neveken belül az igazgatási egységek (települések, területek) nevei rövid időszakon belül is változnak. Borsod vármegyéből 1912 után Borsod és Kishon k. e. e. (közigazgatásilag egyelőre egyesített), 1945 után pedig Borsod-Abaúj-Zemplén megye lett. A középkortól létezett Sáripuszta 1924–1940 között Aleksa Šantić, 1940–45 között Hadikkisfalu, utána megint Aleksa Šantić lett, ma meg a fenti neveken kívül hívják Babapusztának és Katymár-szállásnak is. Ugyan ide tartozik, hogy a római kori és középkori neveket is össze kell kapcsolni a mai településekkel ahhoz, hogy adott esetben a keresés eredményes legyen (nemcsak Aquincumot Óbudával, hanem Brigetiot Ószőnnyel, vagy a középkori Alba Juliát Gyulafehérvárral).
A települések változásainak követése a tezauruszokban viszonylag egyszerűen megoldható az ’előtte–utána’ reláció alkalmazásával (melyet a magyar tezaurusz szabvány az E–R relációjellel jelöl). Például:

 

A magyar vármegyék és megyék, és a külföldi államok velük azonos szintű igazgatási egysé­geinek változásai szintén a fenti módon oldhatók meg, de esetükben a tezauruszban összefoglalóan is át kell tudni tekinteni az egyes időszakok igazgatási rendszerét, hogy a kereső és az osztá­lyozó megfelelő támogatást kapjon. Ennek érdekében korszakhoz kötötten is fölvesszük az adott ország nevét, és ezeket a deszkriptorokat alá­rendeljük a közigazgatási rendszernek. Például Magyarország esetén:

 

E deszkriptorok alatt összekerülnek az adott korszak hivatalos igazgatási egységei. Például:

 

Mindebből az következik, hogy egy olyan egyetemes tezaurusznak, mint a Geotaurusz [12], a teljesség igényével tartalmaznia kell nemcsak magukat a földrajzi neveket, hanem a kapcsolataikat is, hasonlóan, ahogy a térinformatikai webszolgáltatások ma felkínálják a keresett földrajzi hely kapcsolódásait a közeli helyekkel (lásd például a 4. ábrát).

A névváltozatok

Negyedrészt, a földrajzi tulajdonnevekre az összes szótípus között a leginkább jellemző a névváltozatok nagy száma. Egyrészt szinte minden névnek van szinonimája, másrészt gyakori, hogy a szinonimák száma rendkívül nagy. Például (a Geotauruszban szereplő változatokat dőlten, a deszkriptorokat félkövéren írtuk):

 

Még a terminológiailag  teljességre törekvő források [8] [14], melyek igyekeznek a helyesírási változatokat is közölni, sem tartalmaznak minden változatot egységesen. Az információkereső nyelv szempontjából a névváltozatok ilyen mérvű teljességére a lexikai egységek szintjén törekedni a szókincs áttekinthetőségét veszélyezteti. Az információkereső tezaurusz ugyanis se nem terminológiai szótár, se nem nyelvészeti gyűjtemény. Különösen nem szabad elavult névalakkal, ráadásul elavult idegen nyelvű névalakokkal megterhelni. Az újkorban a szabályozatlan helyesírás miatt szinte minden településnek léteztek pusztán helyesírási jellegű névváltozatai.
Azért sem szükséges a lexikai egységek szintjén fölvenni minden névváltozatot, mert többségük betűrendileg ugyanazon a helyen csoportosul, ezért ha közülük egy nemdeszkriptorként szerepel, akkor megfelelő ugrópont annak a keresőnek, aki adott névváltozatból indul ki. Érsekújvár esetében például a magyar Érsekújvár mellett a hivatalos szlovák Nové Zámky (és esetleg az újkorban a leggyakoribb Neuhäusel) elég kell hogy legyen, az utóbbi kettő nemdeszkriptorként.
Az alaktani és egyéb, jelentéktelen névváltozatokat a lexikai egységek megjegyzéseként lehet megadni. Például:

 

3.2 A kapcsolatok fajtái és gazdagságuk10

A Geotaurusz relációtípusainak és feladatának köszönhetően az egyes földrajzi helyek közötti kapcsolatokat nem horizontálisan (puszta közelség–távolság viszonyként) jeleníti meg, ahogy ezt a webes keresőkben megvalósítják (lásd például a 4. ábrán), hanem a kapcsolat típusa szerint.
A földrajzi helyek egyik kitüntetett jellegzetessé­ge, hogy rész–egész relációkban kapcsolódnak egymáshoz. Más szóval, a kisebb földrajzi objektum, igazgatási egység mindig kapcsolódik valamilyen nagyobbhoz. A János-hegy a következő, egyre nagyobb egységek része: Budai-hegység, Budai–Pilisi-hegység, a Dunazug-hegyvidék, Dunántúli-középhegység, Dunántúl, Kárpát-medence, Közép-Európa, Európa. Sáripuszta a Zombori járás, Bács-Bodrog vármegye része, a mai Hadikkisfalu pedig Zombor község (obcsina, nem azonos Zombor városával), rajta keresztül Nyugat-Bácska, a Vajdaság, Szerbia, a Balkán, Dél-Európa, Európa része. Például:

A partitív összefüggések mellett a generikus összefüggéseknek is fontos szerepük van a kereshetőségben: minden földrajzi objektum valamilyen fogalom fajtájának terjedelmébe esik: a János-hegy budai hegy, a budai hegy Pest megyei hegy, a Pest megyei hegy magyarországi hegy, a magyarországi hegy európai hegy. Ez első látásra teoretikusnak tűnik, de számos esetben hasznos, átfogó tájékoztatást kaphatunk az összetartozó földrajzi egységekről. Például:

 

Ha egy földrajzi helynek nagyon sok részét vesszük fel a tezauruszba, az egyes részeket célszerű összevonni közös fölérendelttel, és csak ezt a közös fölérendeltet kapcsoljuk rész–egész relációban az átfogóbb helyhez. Például: 

A fenti eljárás indoka a praktikus szempontok mellett az a fogalomelméleti tény, hogy a generikus fölérendelt fogalom tulajdonságait az alárendelt fajfogalmak öröklik [33]. Ha a János-hegy a budai hegy fajtája, és a budai hegy része a Budai-hegységnek, akkor a János-hegy is része a Budai-hegységnek. Ez a szabály nem azonos a partitív reláció tranzitivitásával, tehát azzal, hogy ha egy egésznek valami része, és ez utóbbinak is van része, akkor ez a rész is része az egésznek. Például a budai hegy része a Budai-hegységnek, az pedig része a Budai–Pilisi hegységnek, akkor a budai hegy is része a Budai–Pilisi hegységnek.
A tezauruszok E–R (kiindulása–következése) oksági relációtípusa az előzőkben tárgyalt névváltozások kifejezése mellett (előzménye–folytatása) további fontos földrajzi jellegű összefüggés, mégpedig a földrajzi objektumok átalakulásának (eredete–eredménye/folytatása) feltüntetésére alkalmas. Például
Galga    R Zagyva    R Tisza    R Középső-Duna    R Alsó-Duna    R Fekete-tenger
A tezauruszok X (egyéb összefüggés) relációtí­pusa a helybeli közelség feltüntetésére alkalmas. Például:

 

A természetföldrajzi képződmények egyszerre tartoznak nagyobb természetföldrajzi képződményekhez és egyszerre fekszenek adott település határában. Mindkét irányból biztosítani kell, hogy a kereső rájuk találjon.
Például a Tétényi-fennsík a Budai-hegység része, és Nagytétény határában fekszik. Hogy megkülönböztessük a két összefüggést, egyezményesen az első esetben a partitív relációt használjuk (“része”), a második esetben a helybeli közelség (“helye”) relációt:

 

Számos olyan eset van, amikor a természetföldrajzi hely (hegy, kisebb tó stb.) egyszerre több település határába esik. Kékes (a hegy) dél felől Gyöngyös, észak felől a Parád határán fekszik. Például botanikai szempontból nem mindegy, hogy a gyöngyösi déli, vagy a parádi északi oldaláról van szó. Ilyenkor mindegyik telepü­lésnevet hozzákapcsoljuk a hegy nevéhez:

 

A tezaurusz és a benne feltüntetett kapcsolatok hasznát az alábbi példával szemléltetjük.
Akinek a János-hegyről kell a lehető legtöbb adatot beszereznie, a tezauruszt nem tartalmazó hagyományos rendszerben két helyen fogja keresni: a János-hegynél és Budapestnél. Az első helyen alig talál valamit (ráadásul közte nemcsak a budapesti, hanem más János-hegyről szóló találatok is lehetnek), vagy semmit, a másodikon pedig a rendkívül sok találat között csak nagyon sok idő ráfordításával találja meg a számára relevánsakat.
A Geotaurusszal támogatott keresőrendszerben a János-hegy deszkriptorcikke a következőket tartalmazza:

 

A kereső elsőször a János-hegy (Budapest) alapján megtalálja azt a pár dokumentumot, amely a területről szól, majd a János-hegy (Budapest) kapcsolatain továbbkeresve megtalálja a Budai-hegység térképeit, Budapest térképeit és Pest megye térképeit is, esetleg a János-hegy kapcsolódó helyein további dokumentumokat a kilátóra vonatkozóan, és az egyéb kapcsolatokat olyan nevesebb, a közeli területen található helyekhez, melyeket a munkájához jól fel tud használni: például Zugliget, a János-hegyi vasútállomáson keresztül a Széchenyi-hegyi Gyermekvasút), Normafa, Széchenyi-hegy (a Széchenyi-hegyen keresztül a Fogaskerekű vasút) stb.
A Johannisberg nemdeszkriptor ismerete alapján pedig akár a weben, akár címek szerint, akár más, például német nyelvű adatbázisban folytathatja a keresést.
Könnyen belátható, hogy a János-hegy deszkrip-torcikkében szereplő minden egyes kapcsolatra emlékezetből keresni meglehetősen bizonytalan és időigényes, még ha olyan helytörténészről lenne is szó, aki az általa kutatott terület névanyagát messzemenően ismeri, a laikus keresőről nem beszélve.
A János-hegy fenti deszkriptorcikke lényegében a 4. ábrán látható webes keresőszolgáltatás által felkínált struktúra megfelelője tezauruszformában.
Hasonló helyzetbe kerülhet a magyar kutató, aki például a berlini Staatsbibliothek online katalógusában a magyarországi térképeket szeretné megtalálni a Dunántúli-középhegységről. Ha nincs tezaurusz, amely támogatja a kereséskor, nagyon kell ismernie a Dunántúli-középhegység szerkezetét, hogy megtalálja a fellelhető kevés dokumentumot. A mai könyvtári rendszerek online katalógusaiban legfeljebb egyszerű mutatókat talál, ezek a kapcsolatok megjelenítésének hiányában valójában rosszabbul használhatók, mint akár az ETO, vagy az ehhez hasonló hierarchikusan felépített rendszerek. A Staatsbibliothek régi hierarchikus katalógusában olyan, teljesen eldugott helyeken találhatók térképek a fenti tárgykörben, melyek pusztán az online mutatóra támaszkodva megtalálhatatlanok maradnának.

3.3  A magyarázatok

A földrajzi helyek közötti összefüggések adott esetben meglehetősen bonyolultak lehetnek, különösen, ami az igazgatási egységek változásait, az összevonásokat és a szétválásokat illeti. A tezauruszok relációtípusaival nem lehet mindig egyértelműen, még kevésbé részletesen leírni ezeket. Erre a feladatra a lexikai egységekhez fűzhető magyarázatok alkalmasak. Ezt a lehetőség egy egyetemes földrajzi tezauruszban különösen fontos kihasználni.
A magyarázatokat a besorolási adatok adatcsere-formátuma is tartalmazza [9] (2. táblázat).

 

2. táblázat
A tezaurusz megjegyzései

A meghatározások általában akkor szerepelnek, ha a földrajzi hely értelmezése nem teljesen magától értetődő. Például:

 

A megjegyzések leggyakrabban történetiek, az adott igazgatási egységgel összefüggő változásokat írják le. Például:

 

A használati megjegyzések biztosítják a lexikai egység egyértelmű alkalmazását az osztályozáskor. Például:

 

Az alkalmazás történetéről szóló megjegyzésekkel lehet emlékeztetni arra, hogy a lexikai egység névalakján már változtattak. Ezzel meg lehet akadályozni, hogy a későbbiekben a kifejezést a korábbi változások ismeretének hiányában ne változtassák folyton ide-oda. Például:

 

A deszkriptorcikkek részletessége a gyakorlati igé­nyek függvénye. Nagyobb vagy népszerűbb települések esetében, melyekről sok dokumentum szól, törekedni kell a földrajzi kapcsolatok minél részletesebb feltüntetésére. Ilyen eset példá­ul Eger, amelyen belül csak a várról is több száz dokumentum létezik. Ezzel szemben a Fü­zé­ri várról és Füzér településről nincs annyi dokumentum, ami szükségessé tenné mind  Füzér, mind a Füzéri vár deszkriptorként való felvételét. Ké­sőbb, a dokumentumok gyarapodása indokolhatja a szétválasztás elvégzését. Ugyanakkor speciális vagy helyi gyűjtemények, anyaguk összeté­telénél fogva dönthetnek úgy, hogy ott mindkét tárgyi kifejezést felveszik. A Geotauruszban a teljes magyarországi névválaszték kínálatára tö­rekszünk. Belőle például az egyetemes célú Köztauruszba csak azokat a lexikai egységeket vesszük föl, melyek a Köztauruszt használó könyvtárakban lehet fontos. Az Országos Széché­nyi Könyvtár Térképtárában viszont magát a Geotauruszt használják, mert a Térképtár gyűjtőkörében mind magyarországi, mind külföldi vonatkozásban nagyon speciális igényeket kell kielégíteni.
Előfordulhatnak olyan értelmezési esetek, melyek ellentmondóak. Ilyenkor belső megjegyzés szerepel, többnyire a forrásra vonatkozó megjegyzéssel együtt. Különösen gyakoriak az ilyen megjegyzések azokban az esetekben, amikor a nemzet- vagy pártállami elkülönülés szellemében nyilvánítottak önálló tájnak termé­szetföldrajzilag nem indokolt területeket. Az utolsó ilyen kataszter 1990-ben jelent meg [16]. Időközben napvilágot láttak olyan tájrendszerek is, melyek az állami kereteken túllépve, a Kárpát–Pannon térség egészét, s így a természetföldrajzi jellemzőket inkább figyelembe vették [8]. Azáltal, hogy a térség államainak többsége már csatlakozott az Európai Unióhoz, az utóbbi szemlélet fokozatosan az előtérbe kerülhet.
Egy földrajzi tezauruszban mindegyik szemlélet által létrehozott kifejezésnek szerepelnie kell, mivel mindegyik szemlélet jegyében születhetnek dokumentumok, és az ezekben tárgyalt tájegységek egymással nem helyettesíthetők, lé­vén áthidalhatatlan a szakadék a szemléletek kö­zött. A tezauruszban ezekre az ellentétekre a belső megjegyzésekben hívható fel a figyelem. Például:

 

A forrásadat biztosíthatja, hogy a lexikai egységgel kapcsolatos jelentésnek pontosabban utá­na lehessen nézni. Példákat az előzőkben láthattunk.
Egy tezauruszban kezdetben nem tartozik minden lexikai egységhez megjegyzés, és nem is kell, hogy tartozzék. A megjegyzéseknek nincs terminológiai érvényük, mert az információkereső tezaurusz nem terminológiai szótár. Arra valók, hogy a használót az osztályozás és a keresés érdekében tájékoztassák. Az információkereső tezauruszban számos terminológiai probléma egyszerűen áthidalható azzal, hogy a vitás kifejezések között “lásd” kapcsolatokat hozunk létre. Más szóval kijelölünk a vitatott kifejezések kö­zött deszkriptort vagy deszkriptorokat, és a többi helyett ezeket kell az osztályozásra használni. Így egyértelműen szabályozhatók az eltérő terminológiát használó szerzők művei.
Mivel tezauruszkészítéskor nemcsak tezauruszszerkesztő szakemberre, hanem az egyes kifejezések használatában jártas szakemberekre is szükség van, sok felesleges erőfeszítés takarítható meg, ha a tezauruszszerkesztő érvényesíteni tudja a fenti módszertani elvet. Végső soron ugyanis a tezaurusz interdiszciplináris munka eredménye, amelyben mind a tezauruszszerkesztés, mind a szakterületek ismereteit össze kell tudni hangolni [19].
A jó tezaurusz a használat során alakul ki. Az egyre bővülő megjegyzések következtében lesz egyre használhatóbb a tezaurusz.

3.4  A tezaurusz polihierarchikus jellege

A polihierarchia fogalma

A tezauruszok polihierarchikus szerkezetűek, azaz a fogalmaknak egynél több fölérendeltjük lehet (több dolog fajtái lehetnek), a földrajzi helyek és igazgatási egységek pedig egynél több átfogóbb, nagyobb helyhez, egységhez tartozhatnak.
A szokásos, Magyarországon kialakított tájrendszerek ezzel szemben monohierarchikusak, azaz a résztáj csak egyetlen átfogóbb, nagyobb tájhoz tartozhat, többhöz nem. Ez azonban nem azért van így, mert elvileg lehetetlen, hogy egy tájrendszer polihierarchikus legyen, hanem egyrészt azért, mert a földrajzi szakemberek ezt többnyire elképzelhetetlennek tartják, másrészt a nemzetállami szemlélettel a polihierarchia szöges ellentétben áll; a kettő összefügg.
A tezaurusz polihierarchikus jellege teszi lehetővé, hogy benne egyszerre több tájrendszer összefüggései is rögzíthetők. Többnyire elég hozzá, hogy adott földrajzi helyet több más tájhoz is hozzákapcsoljuk rész–egész (partitív) relá­cióban.

Különböző tájrendszerek egybeolvasztása a polihierarchia és a tezaurusz megjegyzései alapján

Magyarországon az utolsó hivatalos tájrendszer 1990-ben készült el [16], lényegében még a Ká­dár-rendszerben érvényes szűk államterületi szemlélet alapján. Hajdú-Moharos József és munkatársai a 90-es években kidolgozták a Kárpát-Pannon térség politikai határoktól és szempontoktól független természetföldrajzi tájrendszerét, mely azonban (egyelőre) nem szá­mít hivatalosnak. A dokumentumok szerzői (demokráciában) maguk döntik el, miről és mit publikálnak, más szóval mindkét tájrendszer hí­vei lehetnek szerzők. Következésképp mindkét tájrendszer fogalmai szerint kell tudni a dokumentumokat osztályozni, és arra is számítani kell, hogy a felhasználó is bármelyik tájrendszer megnevezései alapján kíván tájékozódni.
A Geotauruszba tehát beépítettük mindkét tájrendszer egységeit és a közöttük fennálló rész-egész viszonyokat. Ahol ez nem volt lehetséges, ott megjegyzésekkel igazítjuk el a felhasználót.
Az alábbiakban a hivatalos és a Hajdú-Moharos-féle tájrendszer egy részletét hasonlítjuk össze. A félkövér kifejezések deszkriptorként, a kerek zárójelek közötti sovány kifejezések H (helyett) relációjellel nemdeszkriptorként szerepelnek a Geotauruszban. Szögletes zárójelek közé tettünk néhány megjegyzést az eltérésekről, T (egésze) relációjellel jelölve, ha az adott rendszerben a másikhoz képest más nagyobb tájhoz lett a táj besorolva. Ha a két táj lényegében azonos, = jel jelöli. Ha tágabb vagy szűkebb, a <, ill. > jelek jelölik. Ha egyébként azonos tájak nem egymással szemben helyezkednek el, de azonosak, azt kétirányú nyíl jelzi.

 

A két tájrendszer fenti tájai a Geotauruszban a következőképpen olvadnak össze, azaz kapcsolódnak egymáshoz rész–egész (partitív) relációban:

Látható, hogy egyes tájak egyszerre több nagyobb táj részei (az ilyen tájakat aláhúzás jelöli). A tezauruszcikkben ez a következőképpen fest:

 

A Vendvidéki-dombság a Vendvidék termé­szetföldrajzi neve. Mivel a Vendvidék köznyelvibb változat, ez lett a deszkriptor.
Ha  valamelyik táj csak az egyik tájrendszerben szerepel, a forrásmegjegyzés tájékoztat ró­la. Például:

 

Ha eltérés van a táj köznapi és adott tájrendszerbeli értelmezése között, megjegyzés tájékoztat róla. Például:

 

Ha a tájnevet a két rendszerben eltérő értelemben használják, erről megjegyzés tájékoztat. Például:

 

Ha ugyanazt a tájat a két rendszerben eltérően nevezik, akkor mindig a Hajdú-Moharos-féle névváltozat a deszkriptor és forrásmegjegyzés tájékoztat. Például:

A fentiekből az is következik, hogy a tezauruszban nem kell ismerni meghatározott rendszert, mert mindig a kereső által választott szóval lehet belépni, és a lexikai egységek közötti kapcsolatok lehetővé teszik a böngészést (akárcsak az ugró­pontok a weben a “szörfölést”). Ezzel szemben a monohierarchikus tájrendszerek, vagy akár az ETO segítségével végzett kereséshez ismerni kell az adott rendszer szerkezetét és elveit. Az ETO-esetében még segítségül lehet hívni a könyvtárost, de egy tájrendszerben csak a tájrendszert ismerő földrajzi vagy térképész szakember igazodik el, aki általában nem áll könyvtárakban rendelkezésre. Ha tezaurusz áll rendelkezésre, a kereső különösebb nehézség nélkül eligazodik a kapcsolatok között, és ugyanakkor – a tezaurusz generikus és partitív relációnak polihierarchikus jellege következében – egyszerre több, eltérő nézőpontú tájbeosztás között lehet bögészni.

3.5  A földrajzi nevek kapcsolatai a besorolási adatok adatcsere-formátumában

A földrajzi nevek közötti kapcsolatokat a besorolási nevek adatcsere-formátumának erre a célra kialakított, ún. utalói mezőiben és almezőben kell rögzíteni [9] (a 3. táblázatban a HUNMARC szerinti szerkezet látható).

 3. táblázat
A földrajzi nevek kapcsolatai a besorolási adatok adatcsere-formátumában

 

Az adatcsere-formátum kapcsolatokat kezelő része ugyancsak nem tökéletes. A $b és $c almezők (lásd az 1. táblázatot) helyzete ugyanis ellentmondásos. A vezérszó 151-es mezőjében ugyanis az almezőnek is szerepelnie kell, a kapcsolatok 450-es és 550-es almezőiben azonban nem szerepelhetnek hívójeles formában, csak olyan formában, ahogy meg kell jeleníteni őket. Jól látszik ez a János-hegy esetében (aláhúzással jeleztük az ellentmondás helyét).

4.  Önálló egyetemes földrajzi  tezaurusz: a Geotaurusz

A földrajzi tulajdonnevek nagy száma, a sok homonima, a történelmi változások okozta névváltozások 3.1 fejezetben ismertetett problé­mái miatt célszerűbb volt külön egyetemes tezauruszban összefogni a földrajzi neveket, mint beolvasztani őket az ugyancsak egyetemes Köztauruszba [12][26]. Egyszerre nem minden földrajz név használatára kerül sor a Köztauruszt alkalmazó könyvtári és egyéb rendszerekben. Azokat, amelyek szükségesek, az egyes felhasználók visszajelzései alapján vesszük át a Geotaruszból a Köztauruszba, amely csak fokozatosan bővül a ténylegesen használatba vett kifejezésekkel. A Geotaurusz alapja Cserbák András emberföldrajzi történeti földrajzi tezaurusza volt [3] a maga néhány ezres szó­állományával.
Az alábbiakban azokat a fontosabb forrásokat ismertetjük, melyekből a Geotaurusz névállományát kialakítottuk.A 19–20. századi magyarországi GNS-adatok átvétele A 90-es évek második felében került sor arra, hogy a letöltsük a GEOnet Names Server (GNS, Földrajzi nevek hálózati szervere) [15] által kezelt adatbázisból a 2.1 fejezetben már említett, mai Magyarországra vonatkozó kb. 30 000 névből álló állományt (7. ábra).

 

 7. ábra
A GNS-szerverről letölthető magyarorsági adatok. A DESIGN oszlopban a névtípus
(pl. PPL = hivatalosan nyilvántartott település, RSTN = állomás,
PPLX = külterületi lakott hely, MT = hegy), az AREA oszlopban a megye szerepel.

Az adatbázis adatai csak korlátozottan pontosak, az NGA vonatkozó leírása is felhívja rá a figyelmet. A pontatlanságok a tezauruszkészítés szempontjából abból erednek, hogy a magyar névanyag alapjául szolgáló, 1947–1950 kö­rül hozzáférhető kartográfiai források a kistelepülések, dűlőnevek és részben kisebb termé­szetföldrajzi objektumok vonatkozásában szá­mos régies írásmódú névalakot tartalmaznak. A letöltést követő években ennek az állománynak az újraszerkesztésére volt szükség. A munka teljesen még ma sincs befejezve, mivel még nem sikerült minden nevet pontosan beazonosítani (csak a névtípus volt egyértelműen megállapítható a forrásadatbázis alapján). Ezek a lexikai egységek nagyrészt homonimák, és onnan ismerhetők fel a Geotauruszban, hogy a vé­gü­kön számozottak. Például:

 

A jobb oldalon egy azonosított és egy azonosí­tatlan kistelepülés deszkriptorcikke látható. A letöltéskor átvettük az UTM-cellákat meghatá­rozó koordinátaértékeket is, melyek a Q1 és Q2 relációjelekkel kapcsolódnak. A Geotaurusz jelenleg 26 782 lexikai egység esetében tartalmazza ezeket a koordinátákat. Azért nem minden átvett földrajzi név esetén, mivel a nemdeszkriptoroknak minősített esetekben a koordinátákat töröltük.

A 19–20. századi történelmi Magyarországra vonatkozó GNS-adatok átvétele

Elvileg a szomszéd államok, s ezeken belül a történelmi Magyarországra vonatkozó GNS-adatok is átvehetők, de a szerkesztésük sokkal nagyobb munkával járna, mivel ezek a földrajzi nevek nem magyarul szerepelnek. Kétségtelen azonban, hogy egy ilyen munka elvégzése jelentős mértékben bővíthetné azt a kulturális örökséget, melyet – főleg a Kárpát-medencén belül – a magyar vonatkozású földrajzi nevek jelentenek.

A moldvai magyar településnevek

Ugyancsak bedolgoztuk a Geotauruszba a törté­nelmi Magyarország hivatalos településnév-állomá­nyát,12 beleértve a járásokat és a vármegyéket [14], 13 valamint lényegében az összes magyar vonatkozású moldvai településnevet.
Akkora a moldvai magyar névállomány, hogy csoportosítani kellett a magyar településneveket. A hagyományosan használt tájakat néhány esetben ki kellett egészítenünk, hogy a csoportosítás áttekinthető maradjon. Az alábbi deszkriptorcikk ezeket a tájakat tartalmazza. Mivel még e területeken kívül is léteznek magyar vonatkozású moldvai települések, ezeket a mai megyék részeként tüntettük fel (a romániai járási beosztást ugyanis egyelőre nem építettük be a Geotauruszba).

 

A magyarországi várak

A Geotaurusz már nagyon sok történelmi és mai várnevet is tartalmaz. Volt olyan forrás, melyet a teljesség igényével dolgozunk fel [14], más forrásokat az adatok pontosításához használtunk fel. Részletes és átfogó munka Szabó Tibor régész adattára14. Az alábbiakban a várak területi beosztását megadó deszkriptorcikk, és egy Fogaras vármegyei vár deszkriptorcikke látható.

 

Egyéb földrajzi névtárak

Létezik ugyan hivatalos magyar földrajzinév-tár [15], de ennek nyomtatott formája adatbevitelre nem használható, a digitalizált állományához pedig nem lehet szabadon hozzáférni. Ugyancsak hozzáférhető, de nem letölthető a weben a Statisztikai Hivatal által kezelt “A Magyar Köztársaság helységnévkönyve”15. Ez a letölthetetlenség ennyire közhasznú adatok esetében, és a hasonló Egyesült Államokbeli, eredetileg katonai rendszerekben használt adatok mai szabad hozzáférhetőségének fényében több, mint nevetséges.
Tény, hogy alapvetően emiatt kényszerültünk arra, hogy a kevésbé pontos, de hozzáférhető külföldi forrásokat használjuk föl a mai magyarországi kistelepülések és mikronevek összegyűjtésére, többek között a nemzeti könyvtár szá­mára.
Az Árpád-kori Magyarország névanyagának adattára16 (főleg) olyan koraközépkori mikroneveket tartalmaz, melyek egy, a Geotaurusznál speciálisabb tezauruszba valók. Ezt érdemes volna elkészíteni, hogy a névanyagon belüli keresést korszerűvé tegyük, de az állomány nem tölthető le, legfeljebb körülményesen kimásolható Word állományba.
A lehetőségek szemléltetéséül bemutatunk két, egymással a szöveg alapján összefüggő, de az Árpád-kori adattárban relációsan nem összekapcsolt szócikket az Ápád-kori Fejér vármegyei állományból (mely akkoriban átnyúlt a Duna keleti oldalára), és azt, hogy egy jövőbeni átvétel esetén milyen tezauruszcikkben jelenhetne meg egy ilyen szócikk, ezúttal felhasználóbarát relációnevekkel. A Névarchívumban ez a két szócikk így szerepel:

 

A fenti két hely megszerkeszthető tezauruszcikke alább látható, összekapcsolva a már a Geotauruszban szereplő adatokkal. A harmadik és a negyedik, a Halom és a Halom-hegy tezauruszcikke meglévő, csak ki lett egészítve. A Magyar Névarchívumból származó két nevet aláhúzással jelöltük. A példákban a relációkat nem a tezaurusz szabvány rövid jeleivel, hanem felhasználóbarát nevekkel adtuk meg annak szemléltetéséül, hogy a tezauruszt a mindenkori kívánalmaknak megfelelően lehet megjeleníteni.

 

Az ETO neveinek átvétele és az általános földrajzi nevek forrásai
• Az ETO földrajzi neveinek átvétele

A Geotaurusz, s vele a Köztaurusz általános földrajzinév-állományába egyrészt beépítettük az ETO földrajzi névanyagát is. Mivel az ETO igazgatási egységeinek nevei részben a fordítás, részben egyéb okok miatt nem teljesen azonosak az egyes államokban hivatalosan nyilvántartott nevekkel, az egyeztetés jelentős szerkesztési munkával járt. Lényegében az összes általános földrajznevet (földrajzi köznevet) átvettük a ETO-ból.
Tulajdonnevek dolgában jelenlegi állapotában a Geotaurusz helyenként részletesebb, mint az ETO, helyenként pedig a speciálisabb hegységek és hegyek hiányzanak. Ennek oka, hogy kezdetben a felhasználó könyvtárak gyakorlati igé­nyeihez igazodtak az ETO-ból származó átvételek, és ahol az átvétel a maga idejében nem történt meg, ott a jövőben kell ezt pótolni.
Az alábbiakban rövid összehasonlítás látható a bal oldali ETO-jelzetek és a Geotauruszban szerepelő deszkriptorok között. Az ETO-ban csak egyetlen hierarchikus reláció létezik, a generikus és a partitív összefüggések össze vannak mosva. A “pireneusi-félsziget hegységei” például fajtái az európai hegység fogalmának (generikus reláció, A relációjellel jelölve a jobb oldali oszlopban), a Pireneusok viszont elemei, részei a pireneusi-félszigeti hegységnek (partitív reláció, P relációjellel jelölve). A Geotauruszban e két relációt megkülönböztetjük.
Az összehasonlításban jól látható, hogy például a pireneusi-félsziget hegységei részletesebben szerepelnek a Geotauruszban, a franciaországi hegységek viszont kevésbé részletesen.

 

• A CAD tezauruszának átvétele

A Geotaurusz általános földrajzi névi állományát a Californiai Alexandria Digitális Könyvtár tezauruszának [1] vezérszavaival is gyarapítottuk. A két tezaurusz filozófiája azonban alapvetően különbözött, ezért csak a lexikai egységek szintjén áll fenn kompatibilitás, a kapcsolatok szintjén nem. A Geotaurusz egyetemes tezaurusz, részletesebben tartalmazza az általános földrajzi neveket, és relációszerekezete is finomabb annak érdekében, hogy áttekinthetőbben legyenek csoportosíthatók a kapcsolódó lexikai egységek. Az alábbiakban a bal oldalon látható néhány deszkriptor esetében a CAD tezauruszának, a jobb oldalon a Geotaurusznak szócikkei szerepelnek.

 

  A külföldi tezauruszok adaptálása a nyelvi kü­lönbségek mellett azért is okoz nagy munkát, mert a természetföldrajzi felosztások dolgában az államigazgatás és az állami térképészet terü­letén az egyes országokban többnyire a korlátolt nemzeti érdekek szempontjából járnak el. Magyarországi példa erre a már tárgyalt, 1990-ben tető alá hozott magyarországi kistájak katasztere [16] a maga számos, termé­szetföldrajzi szempontból nehezen indokolható tájegységeivel. Nem minden államban tárják fel azonos természetföldrajzi részletességgel az államterületet, másrészt gyakran érvényesültek politikai szempontok. Az elsőre példa az 1990-es tájkataszterben a “Nyugat-magyarországi peremvidék” és annak torz helye a tájhierarchiában (magában foglalja az Alpokalját, a Rábántúli kavicstakarót, a Kemeneshátat és a Zalai-dombvidéket). A másodikra példa, hogy Magyarországon megszüntették a történelmi vármegyék kataszteri kódjait. Ide sorolható az egyik legdurvább megoldás is: Romániában a Keleti- és a Déli-Kárpátokat a Balkán hegységeihez sorolják.

A Geotaurusz (és a Köztaurusz) számokban

A Köztaurusz állománya 2001 óta több mint kétszeresére nőtt (207 %).
A Geotaurusz állománya 2001 óta több mint nyolcsorosára nőtt (833 %).
A Köztaurusz és a Geotaurusz együttes szó­készlete jelenleg: 125 686 lexikai egység.
A számszerű fejlődést a 3. táblázat foglalja össze. Összehasonlításul megadtuk az ETO és a Kongresszusi Könyvtár (LC) vonatkozó adatait.

 

3. táblázat
A Köztaurusz és a Geotaurusz fejlődése számokban

A Geotaurusz további fejlesztésekor az elsődleges cél, hogy a még azonosítatlan kistelepülések és természetföldrajzi objektumok (hegyek, dombok, patakok, mikrotájak stb.) azonosítását elvé­gezzük. Erre a legalkalmasabbak a megyei közművelődési könyvtárak. Osztályozó szakembereik Magyarország legképzettebb könyvtá­rosai, és a helytörténeti gyűjtemény kezelésében is tapasztaltak. Többségük ismeri az országosan használt Relex tezauruszkezelő programot [19], amellyel ez az azonosító munka konkrétan elvé­gezhető.
A Relex segítségével megyénként kigyűjthetők az azonosítatlan nevek (melyek tipizálása ké­szen van). A rendelkezésre álló koordináták alapján a weben pontosan megkereshető a kérdé­ses földrajzi hely, és ennek alapján megállapítható az a tágabb földrajzi objektum, ill. település vagy igazgatási egység, amelynek ré­sze (ahová tartozik).
Ennek a munkának a elvégzése, akárcsak a Kárpát-medencén belüli földrajzi nevek letöltése és beépítése a Geotauruszba, még a jövő feladata. Ahhoz, hogy az ilyen nagyságrendű fejlesztés lehetővé váljék, szükség volna arra, hogy a könyvtári pályázatok kiírói erre tekintettel fogalmazzanak meg pályázati felté­teleket.

Bibliográfia

[1] Alexandria Digital Library Gazetteer <http://middleware.alexandria.ucsb.edu/client/gaz/adl/index.jsp>Alexandria Digital Library Feature Type Thesaurus. University of California, Santa Barbara. Version of July 3, 2002. <http://www.alexandria.ucsb.edu/gazetteer/FeatureTypes/ver070302/index.htm
[2] FARAGÓ Imre: A magyar földrajzinév-használat. = KönyvŹtári Figyelő, 51. évfolyam, 2005. 4. szám.
<http://www.ki.oszk.hu/kf/kfarchiv/2005/4/farago.html>
[3] Geohistaurusz : a Kárpát–medence humángeográfiai tézaurusza : 1723–1983 / Cserbák András. Budapest: 1994. – 68 p. – KMK: 4–10607
[4] GeoNames geographical database
<http://www.geonames.org/>
[5] GEOnet Names Server (GNS) lásd National Geospatial-Intelligence Agency’s (NGA)
[6] Global Gazetter Version 2.1 – Falling Rain Genomics, Inc., 1996–2006. <http://www.fallingrain.com/world/>
[7] HAJDÚ-MOHAROS József: Magyar településtár. – Bu-dapest: Kárpát-Pannon K., cop. 2000. – XXVIII, 788 p.
[8] HAJDÚ-MOHAROS József – HEVESI Attila: A Kárpát-Pannon térség tájtagolódása. In: Magyarország földje : kitekintéssel a Kárpát-medencére. Szerk. Karátson Dávid. Budapest: M. Kvklub, 2002. pp. 274–285. (Pannon enciklopédia, 6.)
[9] HUNMARC, a bibliográfiai rekordok adatcsere forŹmátuma. Összeáll. Sipos Márta; kész. az OrszáŹgos Széchényi Könyvtár Fejlesztési Osztályán. BuŹdapest : OSZK, 1993. 129 p. ISBN 963 200 344 6.A MARC 21 Format for authority data. 1999 ed. Update No. 1 (October 2001) through Update No. 8 (October 2007). – Washington, Library of Congress, Network Development and MARC Standards Office. <http://www.loc.gov/marc/authority/ecadhome.html>HUNMARC, a besorolási rekordok adatcsere formátuma. Összeáll. Sipos Márta. 1998 március. 61 p. Tervezet
[10] ISO/DP 5954–1985 Guidelines for the establishment and development of multilingual scientific and technical thesauri for information retrieval.
[11] ISO/IS 2788–1986 Guidelines for the establishment and development of monolingual scientific and technical thesauri for information retrieval.
[12] Köztaurusz. 2008. július 1. <http://www.oszk.hu — Útmutató/Tezaurusz> és <http://mek.oszk.hu/adatbazis/thes.htm> <http://mek.oszk.hu/adat-bazis/thes.htm>
Geotaurusz. 2008. július 1.
[13] KSZ/5. Földrajzi nevek mint adatbázisrekordok tárgyi hozŹzáférési pontjai. Közreadja a Könyvtári és Szakirodalmi Tájékoztatási Szabványosítási Bizottság. Kiadja az OrŹszágos Széchényi Könyvtár, Budapest. A jóváhagyás időŹpontja 2005. június. <http://www.ki.oszk.hu/szabalyzatok/foldrajzinevek_ksz5.pdf>
[14] LELKES György: Magyar helységnév-azonosító szótár. Második, bőv. és jav. kiad. Baja : Talma Könyvkiadó, 1998. 930 lap, 4 tábla, 64 térkép.
[15] Magyarország földrajzinév-tára. Budapest : Kartográfiai V., 1985. 1. és 2. kötet.
[16] Magyarország kistájainak katasztere [szerk. Marosi SánŹdor, Somogyi Sándor] [kész. az MTA FöldrajztudomáŹnyi Kutató Intézetben] [... írták Ambrózy Pál et al.] [... közrem. Balogh Imre et al.]. Budapest : MTA FKI, 1990. 2 köt. 1023 p.
[17] MSZ 3418H–87 Magyar nyelvű információkereső tezauŹruszok. Szerkezete, részei és formái.
MSZ 3440/5–79 A bibilográfiai leírás besorolási adatai. Földrajzi nevek.
[18] National Geospatial-Intelligence Agency’s (NGA) and the U.S. Board on Geographic Names. GEOnet Names Server (GNS). S search.
<http://gnswww.nga.mil/geonames/GNS/index.jsp>
[19] RELEX. Tezauruszok, szótárak, mutatók készítését táŹmogató program lexikai egységek formájának és relációinak ellenőrzésére. Felhasználói kézikönyv. 3.0 változat. (Borland C++ nyelven WINDOWS számára.) Készítette Ungváry András és Ungváry Rudolf. Bp. Ariel Studió Bt., 2000. 47 p. [1. változat: 1992.] – KMK: 4–10864
[20] Rumbletum <http://rumbletum.org/>
[21] UNGVÁRY Rudolf: Tezaurusz-technológia. Az információ Könyvtári Figyelő 2008/3 427 a fö ld raj zine vek é ssze re pük a zinfo rm ác ióke sé sbe n
kereső tezauruszok készítésének folyamata. Közr. az OrŹszágos Széchényi Könyvtár Könyvtártudományi és MódŹszertani Központ. Budapest : NPI, 1979. 277 p.
[22] UNGVÁRY Rudolf: Application of the thesaurus method to the communication of knowledge. = International Classification, 1983. 2. sz. p. 63–68 <http://ontologia.hu/document/paper/>
[23] GegenstänŹde. – Anwendung der Klassifikation. Proc. der 8. JahrestaŹgung der Ges. für Klassifikation, Hofgeismar, 10–13. April 1984. Frankfurt/Main, Indeks Verlag (1985) – (Studien zur Klassifikation ; Bd. 15) pp. 19–41.
[24] UNGVÁRY Rudolf: A fogalmi szint megközelítése. A strukturált szótárak — tezauruszok — használata a fordításhoz. – In: Előadások a műfordításról / szerk. Hans-Henning Paetzke. – Budapest : Collegium Budapest, 1996. – (Workshop Series) – p. 30-48.
[25] UNGVÁRY Rudolf – ORBÁN Éva: Osztályozás és inforŹmációkeresés. Kommentált szöveggyűjtemény. A bevezetőt és a kommentárokat írta Ungváry Rudolf. Budapest : OSZK, 2001. 1. köt. Az osztályozás elmélete. 450 p. 2. köt. Az információkeresés elmélete. 580 p.
<http://mek.oszk.hu/01600/01683/pdf/>
[26] UNGVÁRY Rudolf: Az OSZK tezaurusza és a Köztaurusz. = Könyvtári Figyelő, Új folyam 11. (47.) évf. 1. sz. 2001. p. 11–40.
<http://www.oszk.hu/kiadvany/kf/2001/1/ungvary.html>
[27] UNGVÁRY Rudolf: Tezauruszkezelő programok és a RELEX. = Tudományos és Műszaki Tájékoztatás, 48. köt. 1. sz. 2001. p. 3–16.
http://tmt.omikk.bme.hu/show_news.html?id=1620&issue_id=26
[28] UNGVÁRY Rudolf: Tezaurusz a felhasználói felületen. = Tudományos és Műszaki Tájékoztatás, 48. köt. 3. sz. 2001. p. 99–108. <http://tmt.omikk.bme.hu/archiv.html>
[29] UNGVÁRY Rudolf; Vajda Erik: Könyvtári információkereŹsés. 2. jav. kiad. Budapest : Typotex, 2002. 170 p.
[30] UNGVÁRY Rudolf; Vajda Erik: Az információkeresés szaŹvai. = Tudományos és Műszaki Tájékoztatás, 50. köt. 12. sz. 2003. p. 1–27. <http://tmt.omikk.bme.hu/archiv.html>
[32] UNGVÁRY Rudolf: A kategóriák rendszere (2004)
<http://ontologia.hu/document/paper/>
[33] UNGVÁRY Rudolf: Tezaurusz és ontológia, avagy a fogalŹmi ismertetőjegyek generikus öröklődésének formalizáláŹsa. = Tudományos és Műszaki Tájékoztatás (2004) 5. sz. 175–191. <http://tmt.omikk.bme.hu/show_news.html?id= 3615&issue_id=450>
[34] UNGVÁRY Rudolf; Radnai Tamás: Thesaurus in user interface. Optimum presentation of thesauri. In: IEEE 3rd International Conference on Compu-tational Cybernetics, 2005. april 13–16. Proceedings. Mauritius, 2005. p. 175–180.
[35] UNGVÁRY Rudolf – PÁSZTI László: A földrajzi nevek mint az adatbázisrekordok hozzáférési pontjai. Egy könyvtári szabályzat elvei és megoldásai. = Könyvtári Figyelő, 51. évfolyam, 2005. 4. szám.
<http://www.ki.oszk.hu/kf/kfarchiv/2005/4/ungvary.html>
[36] UNGVÁRY Rudolf: A tezaurusz mint „kisvilág”. 2006. <http://ontologia.hu/document/paper/>
[37] UNGVÁRY Rudolf: Az ontológia fogalma, avagy az eltűnt tezaurusz. In: Ontosz. Előadássorozat a formális ontolóŹgiákról. Az ontológia fogalmának, felépítésének, alkalmaŹzási lehetőségeinek különböző megközelítései. Budapest, W3C, 2007. április 25. http://ontologia.hu/ontosz/, http://www.w3c.hu/ rendezvenyek/2007/ontologia/index.html
[38] USMARC format for classification data, including guidelines for content designation. 1991 Edition. Prep. by the Network Development and MARC Standards OffiŹce; Cataloging Distribution Service, Library of Congress, Washington, Update No. 1. July 1995.
<http://www.tlcdelivers.com/tlc/crs/clas0001.htm>
Jegyzetek

1. Földrajzi név saját névvel (más megjelöléssel) megkülönböztetett része.
2. A földrajzi nevet azonosító földrajzi név neve, rövidítése, kódja, vagy földrajzi hely típusának neve.
3. Univerzális Transzverzális Merkátor (Universal Transverse Mercator) koordinátarendszer.
4. A folyamat következményeit részletesen tárgyalja Faragó Imre [2].
5. A folyamat megváltoztatásában kiemelkedő szerepe volt Hajdú-Moharos Józsefnek és munkatársainak. Munkássá­guk eredményeként készült el Magyarországnak és közvetlen környékének nem politikai határoktól és szempontoktól függő természetföldrajzi tájrendszere [8], és a történelmi Magyarország részletes településtára [7].
6. A földrajzi tezauruszok strukturális kérdéseit részletesen tárgyalja [35].
7. Az ebben a fejezetben tárgyalt névformákat a KSZ/5 [13] és a tezauruszszabvány [17] szabályozza.
8. Az ebben a fejezetben és a továbbiakban a tezauruszstruktúrákat a magyar és nemzetközi tezauruszszabványok szabályozzák [10][11][17].
9. A deszkriptor neve elvileg ’Magyarország közigazgatási rendszere 1723–1860 között’ lenne, de a rövidség kedvéért a ’közigazgatási rendszere’ rész elhagyható, mivel értelemszerűen következik.
10. A relációtípusok és a fogalmak tárgyalása a következő forrásokon alapul [24][32][33][36][37].
11. A megjegyzések jelölését a tezaurusz-szabvány írja elő. A korabeli MARC adatcsere-formátum ismeretének hiányában csak egy megjegyzést szabványosítottak [10][11][17].
12. Ez a hivatalos névállomány ma már több webes keresőszolgáltatással is hozzáférhető, meglehetősen egyszerű, alig strukturált táblázatos formákban. Ilyen például az Agárdi Norbert által készített “Kárpát-medencei településkereső” < http://mercator.elte.hu/~norbi/. Hasonló termékek a Sebők László korábban készítette könyv és webes kereső, a “Határon túli magyar helységnévtár” < http://sebok2.adatbank.transindex.ro/> és a Szabó M. Attila készítette “Erdélyi és moldvai helységnévtár” < http://szabo.adatbank.transindex.ro/> is. A Magyar földrajzi névi program honlapjának “Letöltés” menüpontján keresztül további, letölthető adattárak érhetők el < http://geo.organic.hu/>, melyek egy része a Geotauruszban is szereplő adatokat tartalmaz.
13. Ebben az esetben jobb lett volna, ha Hajdú-Moharos József névállományát [7] használhattuk volna föl, de ez csak nyomtatott formában áll rendelkezésre.
14. Magyarországi várak < http://www.varak.hu/>.
15. http://www.nepszamlalas.hu/hun/egyeb/hnk2006/tartalom.html
16. A Magyar Névarchívum Kiadványai címen megjelent adattárnak (szerk. Hoffmann Iatván, KLTE Magyar Nyelvtudományi Tanszék, [1998]) és digitális változatának célja Györffy György “Az Árpád-kori Magyarország történeti földrajza” c. művének névanyagának vármegyék szerinti betűrendezett feldolgozása. Egyelőre csak közel egy tucat vármegye neve került fel az internetre.
 < http://nevarchivum.klte.hu/nevarchivum/>
17. A lexikai egységek átlagos hossza: 14 karakter; legkisebb hossz: 1 karakter; legnagyobb hossz: 80 karakter, átlagos kapcsolatszám kb. 10.
18. A Köztaurusz lexikai egységeinek nagy részéhez kapcsolódik ETO-jelzet is, azaz a deszkriptorok és nemdeszkriptorok egyben ETO-mutatószóként is használhatók. Az ETO-jelzeteket a magyarázatokkal együtt a Relex a lexikai egységektől elkülönítetten tudja kezelni, továbbá exportálni meg importálni. A HUNMARC-export alapértelmezésben ETO-jelzet nélküli, de kérhető ETO-jelzetet is tartalmazó változat.
19. Ezek olyan, az ETO-ból származó mutatószavak, melyek ugyan szerepelnek a Relex által kezelt rendszerben, de esetükben még nem volt szükség arra, hogy lexikai egységként (deszkriptorként vagy nemdeszkriptorként) fölvegyük őket a Köztauruszba.
20.  Ezek olyan, az ETO-ból származó és ugyancsak a Relexben kezelt ETO-mutatószavak, melyek jelzetéhez (egy jövőbeli retrospektív tartalmi konverzió érdekében) hozzákapcsoltuk a jelzetet helyettesítő deszkriptorokat, de maguk a belépőszótári szavak (többnyire hosszú összetett kifejezések) nem lexikai egységei a Köztaurusznak. Az OSZK dokmentumrekord-állományát 2000-ig csak ETO-jelzetekkel osztályozták; készült egy program, mely a Köztaurusz lexikai egység–ETO-jelzet kapcsolatait felhasználva a retrospektív állomány rekordjainak 080-as adatmezőjében szereplő jelzetértékek alapján ellátja e rekordokat tárgyi kifejezésekkel (belépőszótár = entry vocabulary).