Középkori szláv kéziratok elektronikus feldolgozása a Bolgár Tudományos Akadémián: a „Repertorium“ projekt DANCS Szabolcs Bevezeto A középkori kéziratos források vizsgálata rengeteg tanulsággal bír mind a nyelv-, illetve irodalomtörténet, mind a filológiát, a paleográfiát segédtudományként alkalmazó történettudomány számára. A különböző kódexek, tekercsek a nyelvállapotok rögzítésén túl a szövegverziók összevetésének lehetőségével is szolgálnak, valamint – tanulmányozásuk révén – hozzájárulnak a történeti kutatások számára egyedülálló fontosságú forrásértelmezés adekvátabbá válásához. A súlyos, tudományos konzekvenciák levonásán túl az egyes kéziratok közelebbi vizsgálata olyan nem kevésbé súlyos, de az egyszeri érdeklődő figyelmét is magára irányító következtetésekhez is elvezethet, mint amilyenek a másoló jellemére vagy az általa beszélt nyelvjárásra vonatkozó megállapítások. A középkori szláv kéziratok általában egyházi, vallási témájú műveket (legendákat, szertartásszövegeket stb.) tartalmaznak. Az ezek feltárása, megőrzése érdekében kifejtett erőfeszítések a közös, európai kulturális örökség megóvásának és megismerhetővé-tételének magasztos célját is szolgálják. A TEI Az elektronikus feldolgozás, illetve szövegkódolás terén betöltött vezető szerepéből következően megkerülhetetlen, hogy néhány szóban jellemezzük azt a nemzetközi kezdeményezést, a Text Encoding Initiative-t (továbbiakban: TEI), amelynek célja a területen egyfajta kvázi-szabvány létrehozása, a szövegek elektronikus feldolgozásának standardizálása tehát, ami érdekében a szervezet szakemberei az egyes tudományterületek képviselőivel karöltve, együttműködve ajánlásokat, útmutatókat (ún. Guidlines) fogalmaznak meg. Julia Flanders (Flanders 2005) a TEI-t egyrészt mint egy (1.) kódolási nyelvet, másrészt mint egy (2.) konzorciumot definiálja, amely utóbbinak céljai között kitüntetett helyet foglal el az említett kódolási nyelv fejlesztése. Míg a hivatalos weboldalon (http://www.tei-c.org/) azt olvashatjuk, hogy „a TEI Guidelines egy nemzetközi és interdiszciplináris szabvány”, Flanders kifejezetten azt állítja, hogy adott esetben nem egy nemzetközi, hanem inkább egy „közösségi szabványról” (community standard) beszélhetünk, amely – alkotóinak szándéka szerint – nem minden egyes dokumentumra vonatkozik. A TEI Guidelinest alkalmazhatjuk szigorúan, de lazán is, a helyi viszonyokhoz igazítva, azaz egy rendkívül rugalmas szabványnak tekinthető. Nem különbözik ilyen értelemben az emberi nyelvtől, amely ugyancsak használható standard és nem-standard módon, s ahogy a földrajzi értelemben egymástól elkülönülő közösségek más-más dialektusokban beszélnek, úgy a TEI Guidelinest alkalmazó különböző embercsoportok is a szabvány egyedi, rájuk jellemző használati módját fejlesztik ki. E tudományos közösségek csupán a Guidelines részhalmazait használják fel igényeik szerint, s bővítik ki a saját, egyedi problémáik kezelését lehetővé tevő módon. A TEI a szövegkódolás legmegfelelőbb eszközének az ún. jelölőnyelveket, ezek közül is az XML-t (eXtensible Markup Language) tartja, amely egy szöveges sorok által megjelenített adatstruktúra, és különösen előnyére szolgál, hogy egyrészt ingyenes, másrészt alkalmazás- és platform-független. Ebből következik, hogy a TEI Guidelines is ezen a nyelven, pontosabban a nyelvhez tartozó sémaleíró nyelven (Document Type Definition, DTD) kerül megfogalmazásra. (A DTD-t tekinthetjük az elektronikusan feldolgozott dokumentumok nyelvtanának.) Az XML abban is segítségünkre van, hogy a szöveg ne csupán karaktersorozatként kerüljön kódolásra, hanem – példának okáért – az eredeti tipográfiáról is elképzeléssel bírjunk. Ahogy Lou Burnard arra felhívja a figyelmünket (Burnard 2005), a szöveg az olvasók képzetében felidéződő absztrakciókat jelenti, s a jelölő nyelvek célja ezen absztrakciók kódolása. A szövegek tehát nem egyszerűen csak kódolt betűk szekvenciái, hanem ezen felül struktúrával, tartalommal, valamint különböző olvasatokkal is rendelkeznek. A kódolás, illetve a jelölő nyelvek feladata e jellemzők explicitté tétele, hiszen a további megbízható – filológiai – feldolgozás csak ez úton válik lehetővé. A „Repertorium” és a MASTER Hiába az egységesítés, a szabványosítás magasztos célja, ha a TEI ajánlásainak eltérő értelmezéseiből fakadóan különböző elgondolások, s e különböző elgondolásokon alapuló különböző modellek születnek. A középkori kéziratok leírására szolgáló modellek egységesítésének céljával jött létre a Bolgár Tudományos Akadémia Irodalmi Intézetének „Repertorium” címet viselő közös kezdeményezése. A projektben részt vállalók közül két nevet mindenképp érdemes megemlítenünk: Anissava Miltenováét és David J. Birnbaumét. A kezdeményezés elsősorban a középkori szláv kéziratok elektronikus leírására koncentrál, de – ahogyan azt Matthew Driscoll, a TEI egyik szakembere egy beszélgetés során e sorok írójának megjegyezte – a kéziratok feldolgozásának problematikája voltaképpen nyelvfüggetlen, avagy (származását, keletkezését nézve) bármilyen kéziratról is legyen szó, a felmerülő alapvető problémák azonosak. A „Repertorium” története A Repertorium voltaképpen egy a középkori szláv kéziratok analitikus leírásaiból felépülő információs adatbázis, amely részletes információkkal szolgál a kéziratok paleográfiájáról, kodikológiai, valamint textológiai adatairól, illetve tartalmazza az eredeti szövegek egy részletét (a címet, az incipitet és az explicitet). A korpusz jelenleg a Bolgár Tudományos Akadémia Irodalmi Intézetében található. A kezdeti szakasz eredménye egy a szláv kéziratok leírására alkalmas SGML-alapú modell létrehozása volt. (Az SGML: Standard Generalized Markup Language, vagyis egy szabványos jelölő nyelv, amelynek voltaképpeni leegyszerűsítése a WWW konzorcium későbbi fejlesztése: az XML.) A „Template for Slavic Manuscripts” egy DTD, amely a TEI SGML-gyakorlatának egyfajta kiterjesztéseként speciálisan a szláv kéziratok részletes leírását szolgálta. Mit szolgál az XML-alapú leírás? Ha meg akarjuk válaszolni az alcímben feltett kérdést, sorra kell vennünk, mi az, ami a Repertorium projekt által javasolt mintán alapuló dokumentum-leírásból kiderül. 1. A leírás legelején a katalogizálást végző személy gondoskodhat a kézirat formájára, típusára vonatkozó információkról (kódex?, tekercs?), valamint meghatározhatja, hogy fizikai és szellemi felépítését tekintve egységes műről van-e szó, vagy sem. Ezután a könyvtári információk kerülnek kódolásra: itt adhatunk meg információkat arra vonatkozóan, hogy a kéziratot jelenleg hol őrzik (ország, város stb.) és melyik gyűjtemény részét képezi. Ugyanitt nyújthatunk információt arról, hogy a leírás alapjául más források szolgáltak-e. 2. Ezután következik az ún. kodikológiai leírás, amelynek első része tartalmazza a kézirat fizikai leírását; a fóliók számának meghatározásával kezdődik, majd a kézirat anyagára vonatkozó információ következik (ez általában pergamen vagy papír), ez után a lapok, illetve az írott részek méretei, az oszlopok és a sorok száma és a használt ábécé. Ezen adatok célja: rövid és lényegi információk nyújtása a kéziratról. Egyes elemeket tovább bonthatunk: például az anyagra vonatkozó leíráson belül nyújthatunk egy általános jellegű leírást, majd meghatározhatjuk a pergamen vagy a papír típusát. A kodikológiai leírás harmadik része a tintáról és a dekorációról tartalmaz információkat, különösen a dekoráció egyes elemeiről. Ez utóbbiakról további részletes leírások adhatók. A rongálódásra és a restaurációra vonatkozó információk is itt kerülhetnek feljegyzésre. 3. A másolat három fő jellemzőjének leírása képezi a feltárás következő, a másoló személyére vonatkozó részét, ezen jellemzők: a paleográfia, a nyelv és az ortográfia. 4. Ezután következik a kézirat keletkezésének helyére és idejére vonatkozó konklúziók levonása, amelyhez a megfelelő szintű kodikológiai, paleográfiai, ortográfiai és nyelvészeti megfigyelések nyújtanak alapot. 5. A tartalom leírása tekinthető a katalógus-információ magjának. A „Repertorium” modelljében ez az a hely, ahol a szövegre vonatkozó összes információ megtalálható, ezen belül: 1.) a kézirat egészének tartalmára vonatkozó információk; 2) a kézirat egyes szövegelemeire vonatkozó információk; 3.) a kéziratban található jegyzetekre vonatkozó információk. 6. A történeti részben a kézirat történetére, beszerzésére vonatkozó információkat találjuk. 7. az adalék információk között a reprodukcióra (pl. fotózás, szkennelés), a kézirathoz csatolt, vele együtt őrzött anyagokra, a kódex kiállításokon való bemutatására vonatkozó feljegyzések találhatóak. Mint láttuk, a Repertorium az ún. metaadatok leírását és kereshetőségének biztosítását tűzte ki célul, így a kézirat teljes szövege nem kerül feldolgozásra, mindössze az incipit és az explicit. A leírás nyelve az angol. Maga a munka amúgy hosszas és nehézkes, elég csak arra gondolnunk, hogy a kéziratok jelentős részét különböző (férfi-)kolostorokban őrzik, ami a feldolgozást kissé körülményessé teszi, hiszen a kéziratok helyben való leírására van csak lehetőség, ehhez pedig külön engedélyek szükségesek, s érthető kikötés (a pópák részéről), hogy nő ezt a munkát nem is végezheti. Meggyőződésem azonban, hogy a szláv nyelv- és irodalomtörténettel foglalkozó szakemberek részéről nem merül fel kétség az energia-befektetés hasznosságát illetően, hiszen a kéziratok (kódexek) feldolgozásának az egyszerű digitalizáláson (szkennelésen) túlmutató módja a metaadatokban való keresgélés, az információk összekapcsolása, „egymásra mutatása” révén rengeteg kiaknázható lehetőséget rejt magában. Irodalom 1. BOJADŽIEV, A.: Electronic Student Editions of Medieval Slavic Texts. In: Scripta & e-Scripta, Vol. 1., Sofia, 2003. 2. BOJADŽIEV, A. – MILTENOVA, A. – RADOSLAVOVA, D.: A Unified Model for the Description of Medieval Manuscripts? In: Computational Approaches to the Study of Early and Modern Slavic Languages and Texts, Sofia, 2003. 3. BRADLEY, N.: Az XML-kézikönyv. Szak, Bicske, 2000. 4. BURNARD, L. Digital Texts, XML, and TEI - 5. CLEMINSON, R. Computer-Supported Processing of Slavonic Manuscripts and Early Printed Books. In: Annual of Medieval Studies in CEU, 1996–1997., Budapest, 146–148. p. 6. FLANDERS, J.: What the TEI does and how it works? Elhangzott: Azbuky Net Conference, Sofia, 2005. okt. 24-27. 7. KAGARLITSKY, Yu.: V. Internet Publication of Slavic Sources by the Russian Language Institute. In: Computational Approaches to the Study of Early and Modern Slavic Languages and Texts, Sofia, 2003. 8. Manuscript Access through Standards for Electronic Records - http://www.cta.dmu.ac.uk/projects/master/) 9. MOTYGIN, O. V. – SLUTSKIJ, A. S.: Electronic Editions of Medieval Manuscripts: Thrirteenth-Century Slavonic Euchologia. In: Computational Approaches to the Study of Early and Modern Slavic Languages and Texts, Sofia, 2003. 12. SALGÁNÉ MEDVECZKI M.: Az XML. Új perspektívák a könyvtár-informatikában. In: Tudományos és műszaki tájékoztatás, 2004. (51. évf.), 2. sz., 61–71. p. 13. SINLCLAIR, J.: Corpus, Concordance, Collocation. Oxford University Press, 1991 14. SÜTHEŐ P.: Hypertext. Természetes intelligencia az információtudományban. Budapest, Országos Széchényi Könyvtár, 1999. 15. Szeged Corpus: a natural language processed Hungarian corpus - http://www.inf.u-szeged.hu/hlt 16. [TEI] Text Encoding Initiative - http://www.tei-c.org/ 17. [TEI Guidelines] Text Encoding Initiative Guidelines - 18. [TEI P4] Text Encoding Initiative Proposals 4 - 19. Thesaurus Linguae Graecae - http://www.tlg.uci.edu/ 20. VAKARELIYSKA, C. M.: Desiderata for an Electronic Collation of Medieval Slavic Gospel Texts. In: Scripta & e-Scripta, Vol. 1., Sofia, 2003 21. Extensible Markup Language - http://www.w3.org/XML/ |
||