Tények, mítoszok és lehetőségek a szemantikus web világában

Bevezetés

A szemantikus web technológiájának alkalmazása sok közgyűjtemény számára többoldalú kihívást jelent. Új szemléletmódot, a könyvtári feldolgozás munkafolyamatának teljes átalakítását, érthetetlen informatikai hókuszpókuszokat foglal magába – vagy mégsem? Valójában a könyvtártudomány és informatika nagyon szerencsés egymásra találásának vagyunk szemtanúi, amely két szempontból is gyümölcsöző a könyvtárosok számára. Gyakorlati alkalmazási lehetőséget biztosít a több mint két évtizede kidolgozott funkcionális modellcsaládnak (az FR-eknek), és ezzel együtt sokkal kényelmesebbé teszi olyan automatizált szolgáltatások építését, amelyek a katalógusokban található hatalmas adatvagyonra épülnek.

Sokan értetlenül állnak a könyvtártudomány új trendje, a szemantikus web felé tapogatózás előtt, vagy ha fel is kelti az érdeklődésüket, nehezen igazodnak el az egyre-másra megjelenő új fogalmak, rövidítések között. Ebben a cikkben áttekintést adunk a fejlődési folyamat legfontosabb mérföldköveiről, amelyek előkészítették a napjainkban is zajló változást, majd pedig szót ejtünk a könyvtárak előtt álló feladatokról és választási lehetőségekről, amikor azok a szemantikus weben történő megjelenésről döntenek. Ez az elhatározás nem takar mást, mint hogy az intézmény a hagyományos megoldások mellett olyan formátumban is szolgáltatja adatait, mely sokrétűbb felhasználási lehetőségeket jelent a partnerek, és új keresési élményt a használók számára.

Elméleti alapok

Ha a mára szinte paradigmaváltásnak tűnő változás könyvtártudományi gyökereit keressük, egészen 1990-ig, a Stockholmban tartott Bibliográfiai Rekordok Szemináriumáig kell visszamennünk. Ezen a rendezvényen a többi között egy olyan javaslatot is elfogadtak, amely egy olyan dokumentum elkészítésére irányult, amelyben a könyvtáros szakemberek rögzítik, hogy „mi az, amiről a bibliográfiai rekordnak információt kell adnia, és mi az, amit a rekordtól elvárunk a használói igényeknek való megfelelés értelmében.”1 A feladat elvégzéséhez el kellett különíteni egymástól azokat a lényeges egységeket, amelyek a használók szempontjából kiemelkedő jelentőséggel bírnak, azaz mindenképpen információt kell közölni róluk. Ezeket a lényeges egységeket elvont fogalmi kategóriák, ún. entitások formájában írták le.

Egy bibliográfiai forrás mindig valamilyen absztrakt gondolati egységre épül, pl. a Rómeó és Júlia történetére – ezt az egységet műnek hívjuk. A gondolati tartalom különféle ún. kifejezési formákban jelenik meg: előadva, drámaként leírva, filmen, hangjátékként – akár több nyelven is. Egy bizonyos kifejezési formának több megjelenési formája lehet: nyomtatott kifejezési formák esetében alkalmasint változnak a kiadók, a gerincméretek, az oldalszámok, a megjelenési évek. Filmek esetében mások a rendezők, mások a szereplők, és ugyancsak mások a készítés évszámai. Végül a megjelenési formáknak elkülönülő példányai vannak, amelyeket egyedi azonosítóval, pl. vonalkóddal, proveniancia-adatokkal jellemezhetünk. További elkülöníthető, fontos egységek az alkotásokat létrehozó személyek vagy testületek, illetve ezen alkotásokkal keletkezési vagy tematikus összefüggésbe hozható fogalmak, tárgyak, események, illetve (földrajzi) helyek.

E tíz entitás, valamint a közöttük húzódó, igen sűrű kapcsolati háló részletes leírása végül 1997-ben jelent meg a Bibliográfiai tételek funkcionális követelményei (Functional Requirements of Bibliographic Records, FRBR) címmel. A munka ezt követően az authority-rekordok, valamint a tárgyi authority-rekordok entitásanalízisével folytatódott: ennek eredményeit az FRAD, illetve az FRSAD néven ismert fogalmi modellek tartalmazták. 2017-ben ezt a három modellt a köztük lévő következetlenségek kiküszöbölésével egységes szerkezetbe foglalták, amivel létrejött a Könyvtári Referenciamodell (Library Reference Model, LRM). Ez a modell napjainkban a Nemzetközi Katalogizálási Alapelvek (International Cataloging Principles, ICP) című dokumentummal egyetemben a forrásleírás elméleti hátterét biztosítja.

A konkrét instrukciókat tartalmazó feldolgozási szabályzatok – az európai területen használt ISBD, illetve az angolszász AACR2 – sokáig nem foglalták magukban az entitásokra vonatkozó ismereteket. Ez csupán az angol-amerikai katalogizálási szabályzat harmadik kiadásának előkészítése során, a 2000-es évek második felében változott meg, amikor a fogalmi modellekben leírtak a könyvtári katalogizálás egész folyamatának szerkezeti alapkövévé váltak. Az entitások elkülönítésére alapuló új katalogizálási szabályzat neve végül nem AACR3, hanem Forrásleírás és hozzáférés (Resource Description and Access, RDA) lett.

A MARC kritikája

A könyvtárügy elméleti fejlődése mellett érdemes szólni az általános informatikai környezet átalakulásáról – s különösképp a világháló megjelenéséről –, ami a közgyűjteményeket egyre hátrányosabb helyzetbe sodorta. A könyvtári világ több mint fél évszázada a MARC-szabványt használja a rekordok készítésére, tárolására és megosztására. Noha az adatcsere a könyvtárak között sem problémamentes a nemzeti MARC-formátumok közötti kisebb-nagyobb különbségek miatt, ez hatványozottan igaz akkor, amikor külső partnerek felé kell adatot szolgáltatni. A könyvtári világon kívül fejlesztett alkalmazások csak igen bonyolult konverziós eljárás után tudják hasznosítani a MARC-ban tárolt adatokat. Ugyanakkor a közgyűjtemények lehetőségei is jelentősen beszűkülnek, mert speciális, a MARC-ra építkező szoftvereket kell választaniuk, hogy kezelni tudják a birtokukban lévő adatvagyont.

Az általános webes jelölőnyelvek (SGML, XML) megjelenésével egyre élesedtek a kritikus hangok. Az SGML megjelenésekor, a world wide web hajnalán még elképzelhetőnek láttak valamiféle szimbiózist a jelölőnyelv és a MARC-alapú szolgáltatások között², az XML korában viszont már sokkal keményebben fogalmaztak. Az ebben az időszakban keletkező szakirodalom olyan kérdéseket feszegetett, mint „Stratégiák a MARC-ból való kilépésre”3 ‒ „A MARC-nak pusztulnia kell”4 ‒ „Szükségünk van-e még a MARC-ra?”5 Jacsó Péter, a hawaii egyetem magyar származású professzora találóan írta le az ekkori gondolatvilág esszenciáját: „a cél a Kánaán, de ha engem kérdeznek, hogy ott vagyunk-e már, azt kell mondjam, nem. Még nem, de már úton vagyunk.”6

Az RDA tesztelésének hosszú időszaka alatt – már a XXI. században – az is egyértelművé vált, hogy a MARC-struktúra nem képes megfelelően tárolni az entitásokra és kapcsolataikra alapuló forrásleírásokat. Noha a MARC21 számos adatmezőjét az új szabályzathoz való igazítás céljából hozták létre (az ún. RDA-mezők, mint pl. a 336, 337, 338, 264, illetve a később tárgyalandó $0 és $1 almezők), ez csak a leírást teszi gazdagabbá, azonban például egy mű-entitás (bibliográfiai rekord legyen? authority-rekord legyen?) és kapcsolatai megfelelő leképezése továbbra sem megoldott.⁷

Ezt a két fő problémakört tekintetbe véve a szakmai közösségnek olyan új hordozóformátum után kellett néznie, mely mindkét kérdésre megoldást kínál, azaz általános, webes szabványokra épül, a könyvtári adatokat az emberi és a gépi feldolgozás számára is értelemmel telíti, továbbá alkalmas a fogalmi modellekben definiált entitások és kapcsolataik leírására. A megoldást végül a minősített módon összekapcsolódó adatok (linked data) technológiája hozta el.

Adatok minősített összekapcsolása – XOBIS

Kevesen tudják, hogy már a kiterjesztett jelölőnyelv (XML) korában is történtek kísérletek a dolgok, valamint a közöttük lévő viszonyok formalizált, tipizált leírására. A XOBIS (XML Organic Bibliographic Information Schema) néven fejlesztett sémát az XMLMARC továbbgondolásaként készítette el a stanfordi egyetem szakmai munkacsoportja 2001–2002-ben.⁸Dick Miller fejlesztő szerint „a XOBIS [...] a bibliográfiai és besorolási adatokat egy egyedülálló, egységes struktúrába szervezi újjá. Egyensúlyozni igyekszik az értékes hagyományok és az új technológiák között, hogy a jövőben alapja lehessen a [...] digitális környezetben megvalósuló információ-hozzáférésnek.” Hozzáteszi, hogy a séma „középút a MARC összetettsége és a Dublin Core túlegyszerűsítése között.”⁹

A XOBIS, akárcsak az FRBR, a különféle bibliográfiai entitások és a köztük lévő kapcsolatok leírásán alapszik; ez biztosítja a tágabb kontextust, rálátást az adott információkvantum szűkebb-tágabb környezetére. A séma kidolgozói szerint bármi, ami a világban absztraktan vagy kézzelfoghatóan létezik,¹⁰ különféle entitástípusba sorolható be, amelyeket a séma principal elementnek (főelemnek) nevez. A főelemek között kapcsolatok állhatnak fent, s mivel bármelyik csoport elemei kapcsolódhatnak bármelyik másikhoz, összesen 100 különféle kapcsolattípus létezik a XOBIS-on belül. Ezek típusát (alá-, fölérendelő, előzmény/folytatás, stb.) és erősségét (pl. egy mű fő- és melléktémái, elsődleges és további szerzője, stb.) a séma segítségével egyaránt meg lehet adni.

1. ábra
A XOBIS-ban előforduló kapcsolattípusok¹⁰

A XOBIS kulturális erősségét megalkotói univerzalitásában látták: nem csupán könyvtári, de múzeumi és levéltári anyagok leírására is képes, ezáltal egymással kompatibilis rekordok jöhetnek létre az egyes memória-intézményekben, amelyek egyszerre szolgálhatják a helyi igényeket, ugyanakkor – megfelelő, egységesítő XSLT-transzformáció után – részét képezhetik egy közös felületnek, amely így – Dick Miller gondolataival élve – több lehet, mint az egyes részek összege.¹¹ Noha Patrick LeBoeuf a XOBIS-t a legeredetibb, leginnovatívabb és legígéretesebb modellnek hívta¹², sajnos a séma – vélhetően az itt bővebben nem ismertetett, igen bonyolult szerkezete miatt – nem terjedt el szélesebb körben, s mára már teljesen kiment a szakmai köztudatból. A minősített kapcsolatok létrehozása azonban a szemantikus web építésének legfontosabb eszköze lett, hála Tim Berners-Lee-nek, és egy olyan informatikai technológiának, amely tíz éven keresztül csak lappangott, várva, hogy valaki végre használja valamire.¹³

Adatok minősített összekapcsolása – Linked Data, RDF és URI

A szemantikus web építése napjainkban úgy történik, hogy a különféle adatok között minősített, tipizált kapcsolatokat hozunk létre oly módon, hogy egyszerű kijelentéseket, állításokat teszünk róluk. Ezek a kijelentések három elemből állnak: a két összekapcsolódó adatból, illetve a közöttük lévő viszony jelöléséből, szokás ezért tripletnek is nevezni őket. Köznapi nyelven ilyen állítás lehet például, hogy az 1984 című könyv – szerzője – George Orwell; vagy a Titanic című film – főszereplője – Leonardo DiCaprio. De hogyan adhatók át az ilyen kijelentések a számítógépes feldolgozás számára? Erre a célra az ún. forrásleíró keretrendszer (Resource Description Framework, RDF) szolgál, amely segítségével ezeket a háromelemű állításokat, az ún. tripleteket formalizálhatjuk. Szükség van azonban még az elemek egyértelmű azonosítására: ezt egyedi azonosítók, URI-k (Universal Resource Identifier, egységes forrásazonosító) segítségével tesszük. Tim Berners-Lee ötlete alapján az URI-k nem egyszerű számsorok, mint pl. az ISBN vagy az ISNI, hanem ún. http-URI-k14, amelyek lényege, hogy nem csupán azonosítanak valamit, hanem segítségükkel további információ szolgáltatható az adott entitásról.

Azonosítókat aránylag könnyen előállíthatunk a világban konkrétan létező dolgoknak: személyeknek, tárgyaknak, földrajzi helyeknek, stb. – az ilyen, egy bizonyos entitástípusra vonatkozó URI-gyűjteményeket szemantikus elemkészletnek hívjuk. Az állítások középső eleme, a viszonyok leírása már nehezebb dolog: fel kell térképezni és formalizálni – azaz ugyancsak azonosítóval ellátni – egy bizonyos terület, esetünkben a könyvtártudomány határain belül előforduló relációtípusokat: kiadója, szerzője, oldalszáma, előzménye, címe, stb., és meg kell határozni ezek hierarchikus viszonyait is (az illusztrátora viszony egyben közreműködője is, az ISBN-je egyben azonosítója is, stb.). A relációkat tartalmazó adatszerkezetet szótárnak, névtérnek, sőt ontológiának nevezik. Szakmánk szótárai közül érdemes megemlíteni a Dublin Core RDF-ben megfogalmazott változatát, a BIBO-t (Bibliographic Ontology), az FRBRoo-t, vagy a legújabb fejlesztések közül a bibliotek-o, az LD4L, a PMO vagy éppen az ArtFrame ontológiákat. Segítségükkel már könnyedén felépíthetők az állításaink.

A Kongresszusi Könyvtár – levonva a MARC általános, és különösképp az RDA-val összefüggő kritikájából származó tanulságokat – ugyancsak kidolgozott egy szótárat, amely alkalmas arra, hogy megfelelően leképezze az entitások igen gazdag kapcsolati hálóját, illetve megszüntesse az adatok elszigeteltségét. Ezen felül átjárható a MARC irányából, de más metaadat-formátumok (mint a DC vagy a MODS) fogadására is felkészült.¹⁵ A szótár a BIBFRAME (bibliographic framework, bibliográfiai keretrendszer) nevet kapta. Noha technikailag semmiben nem tér el a fentebb felsorolt szótáraktól, mégis nagyobb hírnévre tett szert azoknál: a Library of Congress a kezdetektől fogva úgy tekintett az új adatmodellre, mint ami a jövőben a világon mindenütt a MARC helyébe lép.

A könyvtár munkatársa, Sally McCallum ugyanakkor megerősítette, hogy az integrált rendszerek teljes átállítása a linked data-technológiára még igen messze van; a MARC tehát várhatóan még hosszú évekig az alapját fogja képezni a könyvtári munkafolyamatoknak. A szakemberek ezért a MARC-ról BIBFRAME-re történő átalakítás mellett az ellentétes irányú konverzión is dolgoznak, azaz BIBFRAME-ben születő adatokat igyekeznek MARC-ra áttenni. A folyamat legtöbb problémát okozó pontjai az URI-k „átmentésében” (pl. a rögzített hosszúságú mezők esetében), a nem latin betűs adatelemek megfelelő kezelésében, illetve a művek entitásának MARC-ban történő leképezésében mutatkoznak.¹⁶

Gyakorlati kérdések

Ha egy könyvtár a szemantikus weben történő megjelenésről, azaz linked data-szolgáltatás indításáról dönt, az első lépés természetesen a MARC-ban tárolt adatállomány konverziója. A különféle konverter szoftverek bemeneti formátuma rendszerint a MARCXML, amely a legtöbb integrált könyvtári rendszerből könnyen kinyerhető. A konverzió aktív és passzív módon történhet; a kettő közötti különbség, hogy aktív konverzió esetén az RDF-struktúra kialakításával párhuzamosan adatgazdagítás is történik: a MARC-rekordokban elkülönített entitásokat (pl. személyek, testületek, földrajzi nevek) a szoftver felkutatja nagy és közismert névterekben, a VIAF-ban, a GeoNames-ben, stb., s amennyiben lehetséges, létrehozza a kapcsolatot és jelzi a két entitás azonosságát – megvalósítva ezzel a linked data egyik alapkövetelményét, az adatok hálózatba ágyazását.¹⁷

Egyre több helyen bevett gyakorlat, hogy már a konverzió előtt URI-kkal gazdagítják a MARC-rekordokat, megkönnyítve ezzel a későbbi munkafázisok végrehajtását. A PCC „URI-k a MARC-ban” munkacsoportja már több módosítási javaslatot is kidolgozott, amelyek célja az volt, hogy a MARC21 bibliográfiai, valamint besorolási rekordjai egészüljenek ki olyan mezőkkel (758 és mások), illetve almezőkkel ($0, $1), amelyekben az épp leírt entitás (többnyire megint csak személyek, testületek és földrajzi nevek, de akár hordozóformátumok, nyelvek, stb.) URI-ja elhelyezhető, akár a Wikidatáé is. Fontos azonban különbséget tenni – ahogy a MARC21 meg is teszi – az URI-k két típusa között: az egyik az entitásokról szóló authority-rekordokra mutat (például a Library of Congress vagy a Petőfi Irodalmi Múzeum személynévterében találhatóakra), míg a másikba maguknak az entitásoknak az azonosítói tartoznak (az úgynevezett „valóságos dolog”-URI-k.)¹⁸ A fenti megkülönböztetésre való odafigyeléssel elkerülhetjük, hogy adathalmazunk olyan állításokat tartalmazzon, hogy például egy mű szerzője a róla szóló authority rekord, és nem maga a létező személy.

Az elkészült RDF-adatállományt konverzió és alapos ellenőrzés (történt-e nem tervezett adatvesztés, minden entitás létrejött-e, megfelelők-e az URI-k, az azonos entitásokat azonos URI-k jelölik-e stb.) után érdemes ún. triplestore-ban tárolni és onnan SPARQL-endpoint segítségével (is) szolgáltatni. Ezt a megoldást követte a Magyar Nemzeti Múzeum könyvtára, továbbá az Országos Széchényi Könyvtár, amikor konvertált adataikat vagy azok egy részét a Virtuoso nevű triplestore segítségével tették elérhetővé.¹⁹ Az MNM esetében a Virtuosoból származó, BIBFRAME-re konvertált adatok a könyvtár MARC-alapú katalógusában is megjelennek, további tájékozódási lehetőséget, ugrópontokat kínálva az azonosított entitásokhoz, pl. a szerzőkhöz.

Egyes könyvtári rendszerek, mint az Ex Libris Alma, vagy az @Cult OliSuite több lehetőséget is kínálnak a linked data kezelésének területén. Az elkészült rekordok előnézetét nem csupán MARC-ban, de akár BIBFRAME-ben is meg lehet tekinteni, a művek és megjelenési formák adatai API-n keresztül is kiadhatók, illetve a teljes halmaz egyben történő publikálása is szabályozható, formátuma választható.²⁰ A feldolgozási folyamat része a korábban már említett adatgazdagítás ‒ azaz a kapcsolatokat már a bibliográfiai források leírása közben létre lehet hozni.

Ezen kívül egyre nagyobb számban születnek olyan, a linked datára épülő szerkesztőfelületek, amelyek nem csupán a metaadatok rögzítését és tárolását, de a beviteli űrlapok összeállítását, továbbá széles körű paraméterezését is lehetővé teszik oly módon, hogy több szótár használatát is biztosítják, így aztán az adatmezők szintjén szabályozható, hogy a beírt érték milyen tulajdonság (property) használatával képződjön le a kész adathalmazban. Ilyen az orvostudományi kutatások metaadatait összegyűjtő CEDAR (Center for Expanded Data Annotation and Retrieval)²¹, a közös könyvtári katalogizálást célzó Sinopia (a több éve futó Linked Data for Production – LD4P – projekt második fázisában fejlesztve)²², és az OSZK által készített tematikus Tudástárak. Ezek használatával az adatgazdák és a későbbi felhasználók igényeinek is megfelelő adathalmazok születhetnek.

Az összekapcsolt adatokra épülő discovery-szolgáltatások közül érdemes kiemelni a különféle adatvizualizációs megoldásokat. A Petőfi Irodalmi Múzeum személynévterének OPAC-ján olyan gráfmegjelenítő működik, amely a MARC-alapú személynév-rekordokon, továbbá azok szótárból hozzáadott relációin alapul. A kapcsolat típusának megjelölésével bemutatja az épp megtekintett személy családi viszonyait (apa, anya, gyerekek, házastársak), továbbá külső hivatkozásokat is biztosít, amelyek az adott személyről további információt közölnek ‒ megtalálhatjuk a személyt leíró Wikidata-elemet, Wikipédia-szócikket, valamint a Digitális Irodalmi Akadémiában közölt műveit is elérhetjük.

2. ábra
A Petőfi Irodalmi Múzeum névterének OPAC-jából rögzített képernyőképen jól látszik a középpontban elhelyezkedő
(szürke színnel jelölt) személy kapcsolati hálója (opac-nevter.pim.hu, saját szerkesztés)

A SHARE-VDE néven ismert discovery platform az összekapcsolt adatok felhasználási módjának egyszerűsítésére törekszik. Az olasz Casalini Libri bibliográfiai ügynökség, az @Cult integráltrendszer-fejlesztő cég, valamint 16 észak-amerikai könyvtár együttműködésével megszületett felület a BIBFRAME-konverzió során elkülönített, egységesített entitások (művek, ágensek) mentén történő keresést is lehetővé tesz. Az entitásokhoz külső névtér-kapcsolatokat, valamint minden, az adathalmazban előforduló névformát is felkínál. Közös könyvtári katalógusról lévén szó, az ágensekhez kapcsolódó műveken keresztül konkrét könyvtári példányokat leíró rekordokig is el lehet jutni, amelyek a példányt birtokló könyvtár saját katalógusához is elvezetnek.

3. ábra
Egy kiadó-entitás kapcsolatai a Share-VDE felületen (share-vde.org képernyőkép, saját szerkesztés)

A „web mint világkatalógus” mítosz

A linked data korszakának hajnalán számos szerző gondolta úgy, hogy a könyvtárak által birtokolt tudásvagyon a közösen alkalmazott, általános szabványokra épülő adatstruktúra segítségével olyan mértékben tud majd összekapcsolódni és egységesülni, mint addig soha – felülmúlva az összes, ma létező közös katalógus teljesítményét és hatékonyságát. Azt is vizionálták, hogy az ilyen módon közzétett információ könnyűszerrel elérhető lesz a keresőszolgáltatások, mint pl. a Google számára. Az idő és a gyakorlat azonban mindkét mítoszt részben megcáfolta. A könyvtárak által közzétett adatok valóban hálózatot alkotnak, ennek topológiája azonban inkább csillag, semmint teljes. Azok az entitások, amelyek eddig a könyvtárak által épített lokális authority file-okból származtak (személyek, testületek, helyek, stb.), most már származhatnak nemzeti névterekből (ilyen a közeljövőben elinduló Magyar Nemzeti Névtér) vagy nemzetközi szintűekből, mint pl. a VIAF, a GeoNames, a forrásleíráshoz kapcsolódó speciális értékszótárak pedig az id.loc.gov-ról, vagy éppen az RDA Registry-ből is vehetők. Egymással azonban nincsenek összeköttetésben ezek az adathalmazok; mindegyikre helyi szinten építhetők szolgáltatások (pl. vizualizációs megoldások), és egyenként kérdezhetők le, mindegyik a maga SPARQL-végpontján keresztül. Jelen pillanatban még arra sincsen lehetőség, hogy pl. egy személyt azonosító VIAF-URI-ról megtudjuk, hogy az a világban mely gyűjtemények forrásleírásaiban található meg, s hogy így valóban egymással összekapcsolódó állításokat gyűjthessünk.

Korábban már láttuk – az adatgazdagítással összefüggésben –, hogy egyazon entitásnak a világban több URI-ja is létezhet; ez a szemantikus web világában a nem azonos elnevezések feltevése (Non-Unique Name Assumption) néven ismert tétel.²³ Ennek egyik oka, hogy az RDF-struktúrába történő konverzió igényli egy ún. bázis-URI megalkotását, amely a tömegesen képződő entitásazonosítók egy adathalmazon belül állandó, minden esetben azonos része. Minden intézmény, minden adathalmaz nyilvánvalóan más és más bázis-URI-t alkalmaz, így pl. az MNM-ben, a PIM-ben vagy épp a VIAF-ban egyazon entitásnak ‒ mondjuk Jókai Mórnak ‒ teljesen más azonosítói lesznek. Az ugyanazon entitást azonosító URI-kat az owl:sameAs reláció felelteti meg egymásnak.

Nehezebb a dolog akkor, amikor olyan adathalmazokkal kell egyszerre dolgoznunk, melyek más szótárral vagy más szótárkombinációval készültek. Jó példa erre a BIBFRAME-RDA szembenállás. Az RDA-nak ugyanis saját szótára van, amely az új katalogizálási szabályzatban előforduló összes relációt tartalmazza (s kiegészítésül az értékszótárakra alapuló szemantikus elemkészleteket is)²⁴, így a BIBFRAME mellett alternatív megoldási utat kínál a könyvtárak számára az adatpublikációban. Jelentősen eltérő alapszerkezete miatt azonban nem alkalmas BIBFRAME-adatokkal történő együttes kezelésre, ezért vagy eredendően az RDA-szótár szerint kell a MARC-ból átkonvertálni az adatokat, vagy a BIBFRAME-et kell egy SPARQL CONSTRUCT utasítás segítségével az RDA szótárára átültetni. Természetesen lehetséges, hogy egy intézmény mindkét változatot előállítja, és igény szerint szolgáltatja azokat partnereinek.

A Google-ba jutás mítosza

A BIBFRAME-mel kapcsolatban sokáig tartotta magát az az elképzelés, hogy a használatával konvertált adatok bekerülnek a nagy keresőmotorok, így pl. a Google találatai közé, és ez a felhasználók számának jelentős növekedését jelenti a közgyűjtemények számára. A MARC nagy hibája ugyanis a fentebb tárgyaltakon kívül, hogy a segítségével tárolt rekordok az ún. mély webre, tehát a web azon részére kerülnek, amely a keresők számára elérhetetlen. Ezen a problémán azonban a BIBFRAME-re konvertálás nem segít, csupán abban, hogy az adatainkat használni kívánó partnereink részére nem könyvtárspecifikus, hanem közismert, webes szabványok szerint szolgáltassunk adatokat, amelyek felhasználhatósága éppen emiatt jócskán meghaladja a MARC-rekordokét.

Ha azonban a keresőkbe jutás (is) a célunk, másképp kell eljárnunk. A kereshetőség feltétele az indexelés, a robotok pedig – egyebek mellett – akkor tárják fel megfelelően a katalógusainkat, ha a rekordok mindegyike külön URI-val ellátott html oldalon szerepel, a feltérképezhetőséget ún. oldaltérkép biztosítja, az adatelemek pedig szemantikus jelölőkkel értelmezve vannak.²⁵ Erre a célra egy újabb szótár, a schema.org relációi valók, amelyeket a rekordokat megjelenítő html oldal kódjában kell elhelyezni a megfelelő adatelemeknél ‒ némelyik discovery rendszer már beépített funkcióként tartalmazza ezt a lehetőséget. A világ legnagyobb közös katalógusa, a WorldCat a schema.org szerint jelölt adatokat nem csupán az oldal forrásában, hanem az egyes forrásleírások alatt egy külön szakaszban is közli, az azonosítók pedig kattinthatók.

4. kép
Arthur Koestler: Sötétség délben című könyvének szemantikus jelölői (worldcat.org képernyőkép, saját szerkesztés)

A BIBFRAME azonban köztes formátumként közreműködhet a schema.org használatában, hiszen felhasználásával a MARC-rekordokat elég jó minőségben, lényeges adatelem elveszítése nélkül alakíthatjuk linked datává.²⁶ Ez történt a Fennica finn nemzeti bibliográfia adatainak konverziójakor is; a végleges, publikálható adathalmazt a schema.org-alapú állításokat létrehozó SPARQL CONSTRUCT utasítással, valamint több fázisban történt adatgazdagítással és azonosító-egységesítéssel alakították ki.²⁷

Záró gondolatok

Rob Sanderson, a Getty munkatársa 2018-ban a linked open usable data (összekapcsolt, nyílt és használható adatok ‒ ügyes szójátékkal LOUD, azaz hangos) fogalmával állt elő. Okfejtésének alapja a használhatóság volt: azaz ha az adott dolog elősegíti valamely ágens céljainak elérését. Ezért értelmetlen általában, felhasználói kontextus nélkül definiálni a kifejezést. Rob Sanderson kifejtette, hogy a triplestore-okban tárolt, SPARQL-endpointtal ellátott adathalmazok a szolgáltatásfejlesztők számára messze nem a legkényelmesebb megoldások, érdemesebb és logikusabb egy API-val kiszolgálni az igényeiket. Hogy melyek ezek az igények, az az adatgazda és a fejlesztő közötti folyamatos egyeztetések és kommunikáció során kristályosodhat ki. (A fejlesztő pedig az adatokat majd felhasználó ügyféllel áll kapcsolatban, az ő igényeit ismeri és közvetíti, így válik teljessé a lánc.) Tehát az elképzelt működés: az RDF-tripletek formájában, triplestore-ban tárolt adatok lekérdezését egy megfelelően konfigurált API végzi el, majd a válaszokat a további felhasználás céljából legmegfelelőbb formátumban (Sanderson szerint ez a JSON-LD) adja vissza a szolgáltatásnak.²⁸ A kellően paraméterezett, a lehető legnagyobb mértékben testreszabott, nem csupán „ömlesztett” adatátadás a kulcsa lehet annak, hogy egy intézmény valóban megfelelő adatokat nyújtson át az igénylőnek, hozzájárulva azok eredményes, kreatív, értéknövelt újrafelhasználásához.

Irodalom és jegyzetek

1. A bibliográfiai tételek funkcionális követelményei. Zárójelentés [elektronikus dok.]. IFLA Bibliográfiai Tételek Funkcionális Követelményei Munkacsoport
http://www.ifla.org/files/assets/cataloguing/frbr/frbr-hu.pdf [letöltés: 2019. április 22.]

2. McDonough, Jerome: SGML and the USMARC Standard. Applying markup to bibliographic data = Technical Services Quarterly, 15. vol. 1998. 3. no. 29. p.

3. TENNANT, Roy: MARC Exit Strategies = Library Journal, 127. vol. 2002. 19. no. 27–28. p.

4. TENNANT, Roy: MARC Must Die [elektronikus dok.] http://lj.libraryjournal.com/2002/10/ljarchives/marc-must-die/ [Hozzáférés: 2019. április 27.]

5. HOPKINSON, Alan: Traditional communication formats v SGML, metadata, Dublin Core [elektronikus dok.] https://eprints.mdx.ac.uk/5197/1/LITHPAPE.pdf [letöltés: 2019. április 22.]

6. JACSÓ Péter: Digital librarianship. XML and digital librarians = Computers in Libraries, 22. vol. 2002. 8. no. 49. p.

7. Bizonyos szoftvereszközök (pl. az Ex Libris Primo) azonban képesek rá, hogy bizonyos adatmezők egyezésére alapozva utólagos FRBR-esítést (azaz entitások mentén történő csoportos megjelenítést, ún. förbörizációt) hajtsanak végre a katalógus rekordjain. Ez azonban nem jelenti a rekordok bármilyen szerkezeti módosítását, illetve új adatelemek rögzítését.

8. About XOBIS (The XML Organic Bibliographic Information Schema) [elektronikus dok.] http://web.archive.org/web/20051214131234/http://www.xobis.info/ [letöltés: 2017. július 20.]

9. DICK R. Miller: XOBIS-An Experimental schema for unifying bibliographic and authority records = Cataloging and Classification Quarterly, 39. vol. 2005. 3–4. no. 285. p.

10. Uo., 290. p.

11. Uo. 289. p.

12. BOEKE, Cynthia: The future of cataloguing. A survey of trends and issues [elektronikus dok.] www.harep.org/Documentr/g04.pdf [letöltés: 2019. április 27.]

13. GOTTDANK Tibor: Szemantikus web – bevezetés a tudásalapú internet világába. Budapest, Computerbooks, 2006. 31. p.

14. Berners-Lee, Tim: Linked data [elektronikus dok.] http://www.w3.org/DesignIssues/LinkedData.html [Hozzáférés: 2019. április 27.]

15. A Bibliographic Framework for the Digital Age (October 31, 2011) [elektronikus dok.] http://www.loc.gov/bibframe/news/framework-103111.html [Hozzáférés: 2019. április 27.]

16. McCALLUM, Sally: Convert, merge and match [elektronikus dok.] https://www.casalini.it/EBW2018/web_content/2018/presentations/McCallum_2.pdf [letöltés: 2019. április 27.]

17. Berners-Lee, Tim: Linked Data [elektronikus dok.] http://www.w3.org/DesignIssues/LinkedData.html [Hozzáférés: 2019. április 27.]

18. Az angol nyelvű szakirodalom RWO (Real World Object) URI-nak nevezi ez utóbbi típust.

19. A Magyar Nemzeti Múzeum könyvtárának SPARQL-endpointja: http://data.hnm.hu/sparql; a MEK-é: http://v.mek.oszk.hu/FlintSparqlEditor/index-mek.html ; a DKA-é: http://v.mek.oszk.hu/FlintSparqlEditor/index-dka.html

20. Lásd pl. Amy Pemble: Linked Data Implementation at Ex Libris [elektronikus dok.] https://www.loc.gov/bibframe/news/pdf/exlibris-alamw2018.pdf [letöltés: 2019. április 27.]

21. Rövid regisztráció után kipróbálható a https://cedar.metadatacenter.org/ címen.

22. Hozzáférhető a https://sinopia.io/ címen.

23. BAKER, Thomas, COYLE, Karen PETIYA, Sean: Multi-entity models of resource description in the semantic web. A comparison of FRBR, RDA, and BIBFRAME = Library Hi Tech, 32. vol. 2014. 4. no. 564–565. p.

24. Hozzáférhető a https://www.rdaregistry.info/ címen.

25. HORVÁTH Ádám: Online katalógusok felhozása a felszíni webre [elektronikus dok.] https://download.videotorium.hu/recordings/j/j1/j1t/attachments/j1t_hzw_2sq.pdf?filename=converted.pdf [letöltés: 2019. április 27.]

26. Egy Richard Wallis által alapított W3C közösségi csoport – a BIBFRAME2Schema.org – ugyancsak szorgalmazza, hogy a schema.org-ra történő konverzió a BIBFRAME közbeiktatásával történjen. A csoport céljai a konverzió pontos kidolgozása és a két szótár bizonyos mértékű összehangolása.. Bővebben lásd a https://www.w3.org/community/bibframe2schema/ címen.

27. SUOMINEN, Osma: From MARC to Schema.org – via BIBFRAME [elektronikus dok.] https://wiki.dnb.de/download/attachments/125433008/Suominen-FromMARCtoSchema.pdf?version=1&modificationDate=1506077926000&api=v2 [letöltés: 2019. április 27.]

28. SANDERSON, Rob: Shout it out. LOUD [elektronikus dok.] https://www.slideshare.net/azaroth42/europeanatech-keynote-shout-it-out-loud [letöltés: 2019. április 27.]

Beérkezett: 2019. május 17.

Tények, mítoszok és lehetőségek a szemantikus web világában

MINDEN VÉLEMÉNY SZÁMÍT! Kilépés a válaszból

Bejelentkezés

Archívum