Nemcsak weben lenni, hanem webből lenni. A Funkcionális követelmények (FR) metaadatmodell-család névterei és a szemantikus web

“Nemcsak weben lenni, hanem webből lenni”1 mondássá formálhatjuk azt a követelményt, amelyet a neves könyvtári metaadat-kutató és a technológiában a gyökeres változásokért következetesen kiálló Karen Coyle fogalmazott meg 2010-ben írt beszámolójában a szemantikus világhálóról, a könyvtári adatok körében végzett fejlesztésekről és az elért eredményekről.

A Funkcionális követelmények (FR) modellcsalád névtereinek közzététele

Hogy a „webből lenni” követelmény teljesülhessen, a könyvtári adatokat ki kell emelni az adatbázisok mélyéből, és beágyazhatókká kell tenni a webbe. Ezzel kapcsolatos újabb fejleményre utal, hogy 2012 májusának végén több szakmai levelezőlistát is villámgyorsan bejárt a hír, miszerint az IFLA névterében közzétették a Funkcioná­lis követelmények (Functional Requirements, FR) bibliográfiai metaadatmodell-családra vonatkozó névtér-definíciókat a szemantikus világhálóra tervezett RDF formátumban (Resource Description Framework) és beiktatták a Nyílt metaadatok jegyzékbe is (Open Metadata Registry, OMR). Az IFLA névtereinek közös globális azonosítója, ún. névtér URI-ja (Uniform Resource Identifier): http://iflastandards.info/ns/. A link összetevőinek folytatásában az FR modellek közös névterét az /fr/ tag reprezentálja, míg az URI további részei az egyes modellek, illetve az azokban definiált elemkészletek névtereit jelölik.

Az IFLA FR névtereinek közzétételéről szóló hír megfogalmazója Patricia Riva, az FRBR revíziós csoportjának elnöke. A szöveg magyar fordításban a következő:2

„A Funkcionális követelmények (Functional Require­ments, FR) bibliográfiai metaadatmodell-család névtér-definíciói elérhetőkké váltak a szemantikus web alapját képező Resource Description Framework (RDF) formátumban. Az érintett modellek: Functional Requirements for Bibliographic Records (FRBR – A bibliográfiai tételek funkcionális követelményei), Functional Requirements for Authority Data (FRAD – A besorolási/autorizálási adatok funkcionális követelményei) és Functional Requirements for Subject Authority Data (FRSAD – A tárgyi besorolási adatok funkcionális követelményei). A névterek a következő címről érhetők el: http://iflastandards.info/ns/fr/.

Az FR elemek szókészlete magában foglalja az FR modellekben meghatározott entitások, attribútumok és kapcsolatok RDF nyelven definiált osztályait és tulajdonságait. Minden osztálynak és tulajdonságnak saját URI-ja van, amelyek a szemantikus web hármasaiba (triplet) épülnek be.

Valamennyi URI jelentését hivatkozás-feloldó kezeli. Egy közönséges web-böngészőt használva az URI egy html oldalt hív meg, amely az ember számára olvasható formában tartalmazza az elemről vagy a fogalomról szóló információkat. Szemantikus böngészéskor az URI RDF/XML (RDF/Extensible Markup Language) formátumban hozza vissza a géppel olvasható információkat. Ezt a formátumot közönséges böngészővel is meg lehet jeleníteni.

Egy példa: az FRBR entitás–kapcsolat modell (FRBRer, er: entity–relationship) első entitáscsoportjában szereplő „Mű” URI-ja: http://iflastandards.info/ns/fr/frbr/frbrer/C1001. Az RDF/XML megjelenítéséhez a szokványos web-böngészőben az URI-hoz hozzá kell adni az „.rdf” kiterjesztést.

Egy másik példa a FRSAD-ban lévő „elnevezése” („has appellation„) attribútum: az RDF tulajdonságnak megfelelő URI a http://iflastandards.info/ns/fr/frsad/P2003, az RDF/XML fájl a normál böngészővel a http://iflastandards.info/ns/fr/frsad/P2003.rdf URL-nél található meg.

Az FR modellek egyes elemkészletei a következő útvonalakról érhetők el:

FRBRer: http://iflastandards.info/ns/fr/frbr/frbrer/

FRAD: http://iflastandards.info/ns/fr/frad/

FRSAD: http://iflastandards.info/ns/fr/frsad/

Az FR névterekről nyilvántartás található a Nyílt metaadatok jegyzékében (Open Metadata Registry, http://metadataregistry.org/), ahonnan el is érhetők. Az elemek a jelenleg közzétett modelleket tükrözik. Minthogy az FR-család egyesítése folyamatban van, megtörténhet, hogy egyes URI-kat visszavonnak.”

A hírt olvasva talán úgy tűnik, hogy a szemantikus keresésnek már semmi akadálya – ezt a benyomást azonban nem árt árnyalnunk azzal, hogy az újfajta böngészők kifejlesztése még kísérleti szakaszban van. A világháló következő generációjára fejlesztik például a Google Knowledge Graph keresőt, amelyet 2012 májusában jelentettek be, kezdetben csak az USA-ban, majd az angol nyelvterület egészén bocsátották használatba. A szemantikus keresőmotorokról a W3 konzorcium honlapján található linkgyűjtemény.3

Az IFLA névtereiről szóló hír megértése a szemantikus web alapelveinek és a folyamatban lévő könyvtári és más gyűjteményi adatkezelési fejlemények ismerete nélkül nem lehetséges, ezért rövid kitekintéssel megkísérelem összefoglalni az utóbbi bő egy évtizedben történt, a könyvtári adatok szempontjából lényeges, a szemantikus világhálóhoz és a metaadatokhoz kötődő fejlemények alapvonalait. Célom ezzel az, hogy az áttekintés segítséget nyújtson a könyvtári adatok kezelését érintő változások, valamint a kapcsolt adatok (Linked Data, LD) jelentőségének a megértéséhez.

Az RDF és a szemantikus web

Az RDF (Resource Description Framework – Erőforrás-leíró keretrendszer) olyan adatleíró nyelv, amellyel információt adhatunk meg mind a weben, mind a való világban létező, elgondolható dolgokról, fogalmakról és a köztük lévő összefüggésekről. Segítségével állításokat tehetünk a dolgokról, fogalmakról. Újdonsága abban áll, hogy az információkat a gépi interakció folyamatában a tartalom jelentése szerint teszi kezelhetővé, kombinálhatóvá és átjárhatóvá a rendszerek között, illetve a rendszereken kívül is, az általános weben. Az RDF a számítógépek számára teszi megérthetővé az információk közötti összefüggéseket.

A szokványos internetes információkezelés a hiperlinkekkel összekötött weboldalak kapcsolatán alapszik. Tim Berners-Lee, a szemantikus web ötletadója és megvalósulásának ösztönzője megjegyzi: az adatok szintjén ezek a szokványos linkek csak esetlegesen tudják összefűzni az RDF leírásaiban kezelhető dolgokat.4 A web­ol­dalakhoz, webhelyekhez szolgáltatások is hozzákapcsolódhatnak: adatbázisok, portálok, fórumok, blogok és más közösségi webhelyek. Az interneten lévő dolgokra az internetes helyük szerint találhatunk rá, erre szolgál az URL (Universal Resource Locator), s ezt tartjuk az interneten található dolgok, a weboldalak, webhelyek, dokumentumok azonosítójának. Feltűnhet azonban, hogy a hagyományos webes keresőkkel összegereblyézett weboldalak között sok a megtévesztő és fölösleges találat. Ez azért van így, mert a gépek buták. Sem maguktól, sem a jelenlegi fejlettségi szinten használt relevancia-algoritmusok segítségével nem tudnak áttörő lépéseket tenni az intelligensebb keresésért és adatkezelésért. A webről ugyanis hiányoznak a dokumentumokról és a dolgokról szóló egységes és strukturált, a webes feldolgozásban értelmesen felhasználható jelentéssel teli metainformációk. A szemantikus weben az URI (Universal Resource Identifier) játszik fő szerepet, ez az egyedi azonosító a számítógépek számára teszi kezelhetővé azt, hogy mi micsoda és mi hol található meg a weben. Az URI a név szerepét tölti be, bármit azonosíthat: a weben lévő dolgokat éppúgy, mint a való élet dolgait és az emberi fogalmakat. Az RDF szerkezettel állítások tehetők a dolgokról, ennélfogva ez a formátum a tartalom szemantikai elemeit ragadja meg és kapcsolja össze a számítógépek számára is értelmezhető és feldolgozható módon.5

Az RDF nyelvre, és ezzel együtt a könyvtári adatok RDF-re való konvertálására azért van szükség, mert amit az ember az értelmével, a nyelvvel, a látott, hallott vagy más módon érzékelt és megtanult világ környezetében nehézség nélkül megért, azt a webet pásztázó keresőgépek megközelítően sem értik, mert nincsenek meg a kategorizáláshoz, a csoportosításhoz és az értelmezéshez szükséges metainformációik. A „holló” karaktersorról nem tudják mi-mindent jelenthet, hogy az lehet madár, család, vers, utcanév, galéria neve, szimbólum vagy más egyéb, s azt sem tudják, mi-minden jellemzi ezeket a dolgokat. Ezért külön kell gondoskodni arról, hogy a dolgok jelentése számítógépes programokkal is feldolgozható és egységesen értelmezhető legyen. Tudomásul kell vennünk, hogy nem elegendő az olvasó számára a világhálón hozzáférhetővé tenni, illetve egy adott rendszer keretei között és képességei szerint kereshetővé tenni az adatokat, hanem magukat a metaadatokat szükséges a web nyelvére átültetni. Karen Coyle úgy fogalmaz, hogy szolgáltatásainknak nem elegendő csupán áthaladniuk a weben, hanem ott kell élniük és tudniuk kell interakcióba lépni a webbel. Olyan szolgáltatásokra van szükség, amelyek maguk is a webből építkeznek.6

Az RDF nyelvet tehát elsősorban azért hozták létre, hogy a weben lévő információk szemantikus kezelését a számítógépek meg tudják oldani. Herman Iván szavaival „[a] szemantikus Web célja egy olyan infrastruktúra létrehozása, amely lehetővé teszi a Weben lévő adatok integrálását, a közöttük levő kapcsolatok definiálását és jellemzését, illetve az adatok értelmezését.”7 Ehhez szükség van a következőkre:

  1. „Az adatokat egyértelműen meg kell „címez­ni” a weben, vagyis el kell őket nevezni (URI = URL + URN).
  2. Szükség van egy precíz adatmodellre, amely formális keretet ad az adatok egymáshoz való kapcsolatának definiálására, és a kapcsolatok leírására (RDF).
  3. Az adatok közötti kapcsolatokat, illetve a kapcsolt adatok referenciáit, el kell tudni érni, le kell tudni kérdezni (SPARQL).
  4. A kapcsolatok leírására szolgáló terminológiát definiálni kell tudni (RDFS, OWL, SKOS).
  5. A kapcsolatokon, illetve azok leírásán, logikai következtetéseket kell tudni levonni (OWL, RIF).”8

Az RDF a webes adatkezelésre megfogalmazott állítások általános modellje (Herman sémájában ez a második tézis), amely „arra az elvre épül, hogy a leírásra kerülő dolognak több tulajdonsága, a tulajdonságoknak pedig értéke van, és hogy az erőforrások leírhatók […] kijelentésekkel, amelyek specifikálják az erőforrások tulajdonságait és a tulajdonságok értékeit.”9Az RDF terminológiájában az a dolog (erőforrás), amelyről a kijelentés szól, az alany. Az állítmány (vagy tulajdonság) az a mondatrész, amelyik az alany tulajdonságait azonosítja, a tárgy pedig a tulajdonságról mond valamit, annak értékét (value) közli. Ezeket az állításokat az egyszerű kijelentő mondatokhoz szokták hasonlítani, ám ezek a kategóriák nem teljesen azonosak a természetes nyelvet leíró, hasonló elnevezésű grammatikai kategóriákkal. Az állítást tripletnek is mondják, mivel három elemből épül fel. A hármas alapelve: ha valamiről szeretnénk valamit kijelenteni, akkor ehhez meg kell neveznünk és azonosítanunk kell azt a valamit, amelyről a kijelentés szól (például egy mű): a kijelentésben szereplő dolog egy meghatározott tulajdonságát (például a műnek van egy szerzője) és a tulajdonság értékét (például leírjuk a szerző nevét). RDF állítások például (emberi nyelven):

(a) A holló [alany] szerzője [állítmány] Edgar Allan Poe [tárgy].

(b)    A holló fordítója Kosztolányi Dezső.

(c) A holló eredeti címe The raven.

Az FR modellek RDF-re való átültetése és közzététele a fenti szempontok közül az első és a negyedik pontok vonatkozásában jelent megvalósulást és egyben jó esélyt a könyvtári metaadatok szemantikus weben való új életének kezdetéhez.

A könyvtári metaadat-sémák attribútuma az RDF hármasban a tulajdonság (állítmány) tagnak felel meg, ilyen például a fenti (a) mondatból a szerző reláció (nyelvtani szerkezettel: ’szerzője’ vagy ’van szerzője’). A tulajdonságok a bibliográfiai entitásokat jellemzik, egy könyvhöz, cikkhez, filmhez vagy más dokumentumtípushoz kapcsolódhatnak, ezek az entitások az RDF-ben osztályokként vannak reprezentálva. Az entitások közötti kapcsolatok RDF-tulajdonságok: két mű közötti kapcsolattal lehet összefűzni például egy mű átdolgozását, dramatizált változatát, adaptációját. Az IFLA FRBR névterében ez utóbbit a ’has an adaptation (Work) (from Work)’ címke jelöli.10

A gépi feldolgozhatóság érdekében a mondatok elemeit URI-k ábrázolják, az elemek pedig RDF mondatokban használhatók fel, többek között megvalósíthatók RDF/XML, RDFa, Turtle, N-triples és más szintaxisban. Az RDF-állításokat egy gráf csomópontjaival és éleivel lehet modellezni, ahol „a gráfban szereplő minden kijelentést egy egyszerű alany-állítmány-tárgy hármassal írunk le, ebben a sorrendben. […] Minden triplet egy-egy olyan él a gráfban, mely egy kezdő-, és egy végcsomóponttal rendelkezik (ez a kijelentés alanya és tárgya).”11

A tripletek URI hivatkozásai kiválthatók rövidítéssel. Ekkor egy előtagot/prefixet tartalmazó XML minősített névről beszélhetünk. A prefix egy meghatározott névtér URI-jához van rendelve. Az előtaggal kiegészített lokális név szabványos jelölése: a prefix után kettőspont jön, ezt követi a helyi név (egy fiktív példa: rdf: minositettnevPrefix). A teljes URI-hivatkozást megfelelő eljárással vissza lehet állítani a minősített névből.

Az RDF, mivel gépek számára készült nyelv, a kijelentésekben a dolgok megnevezésére bátran használhat szavak helyett URI hivatkozásokat. A közös URI-prefixek, ha közös terminológia körébe esnek, együtt kezelhetők. Specifikus célra viszont az egyes szervezetek vagy metaadat-gazdák specifikus szókészletet definiálnak: saját igényükre kialakított metaadatelem-készletet állítanak össze, az elemek elnevezéseiből pedig adatérték-szókészletet hoznak létre. (1. ábra)

1. ábra
Az FRBRER elemkészlete, IFLA névtér, URI: http://iflastandards.info/ns/fr/frbr/frbrer/ (Forrás: OMR)

A szókészlet annak a gondozásában áll, aki létrehozta azt, s a saját használatára kialakított szókészlet összes kifejezését egy közös névtér-URI-val keríti el. A névtérrel válik kezelhetővé az azon belül megadott elemkészlet és szókészlet érvényességi köre. Egy minősítettnév-prefixet „mindig egy bizonyos szókészlettel kapcsolatban használunk, s így a prefixet gyakran az adott szókészlet nevének tekintjük (így például az RDF Séma szókészletét úgy hívjuk, hogy „rdfs: szókészlet”.)”12

A névtér (namespace) azonosítóval ellátott és definiált elemek halmaza. Szerepe az, hogy a különféle források formátumaiban használt ugyanolyan nevű, de esetleg más jelentésű elemek és tulajdonságok ne keveredjenek össze, s az információkat a névtérben rögzített jelentések szerint lehessen kezelni. A kifejezést informatikai szövegkörnyezetben specifikusan az XML névtér szintaktikai fogalmára használják, illetve „amikor egy olyan URI-re hivatkozunk, amely egy minősített név prefixéhez van rendelve.”13

A hivatkozásokat tehát a dolgok, fogalmak kategoriális és egyedi (a logika nyelvén az intenzionális és extenzionális jelentéstartalmak) azonosítására használják, egy adott, definiált névtérbe helyezett környezetben. Érdemes azonban itt felhívni a figyelmet egy kompromisszumra azzal kapcsolatban, hogy az URI mennyiben vezethet el valamilyen ekvivalenciához, mennyiben lehet valaminek az azonosítója, mit is azonosít tulajdonképpen, és mennyiben tud például egy URI azonosítani egy személyt. Mondhatjuk-e egy bizonyos URI-ról, hogy ez az URI maga Shakespeare? Nyilván nem, és csak reprezentációról, reprezentációs technikáról, tudásreprezentációról, illetve valamilyen referenciális kapcsolatról lehet szó. Az RDF bevezető tankönyve ezt a problémát a következőképpen magyarázza (az idézett szövegben az URIref az URI hivatkozás rövidítése):

„Mind az RDF, mind a Web-böngészők URI hivatkozásokat használnak a dolgok azonosítására. Az RDF és a böngészők azonban némileg eltérő módon interpretálják az ilyen hivatkozásokat. Ugyanis, az RDF csak a dolgok azonosítására használja az URI hivatkozásokat, míg a böngészők a visszakeresésére is. A hatás tekintetében a különbség gyakran nem lényeges, de vannak olyan esetek, amelyekben ez a megkülönböztetés szignifikáns. Az egyik nyilvánvaló különbség az, hogy amikor egy URI hivatkozást használunk egy böngészőben, akkor azt várjuk, hogy ez egy olyan erőforrást azonosít, amelyik visszakereshető: azaz, valami ténylegesen található az URIref által azonosított helyen. Ugyanakkor az RDF-ben egy URIref használható olyan dolog azonosítására is (mint pl. egy személy), ami/aki nem visszakereshető a weben. Néha az RDF-et azzal a konvencióval együtt használjuk, hogy amikor egy URI hivatkozást kijelölünk egy RDF erőforrás azonosítására, akkor egyúttal egy olyan weblapot is elhelyezünk az általa azonosított webhelyen, amelyben leíró információt tárolunk az adott erőforrásról úgy, hogy ez az URIref felhasználható egy Web-böngészőben ennek a weblapnak az elérésére. Ez a konvenció hasznos lehet bizonyos körülmények között, azonban ez nehézséget okoz, amikor meg kell különböztetnünk az eredeti erőforrás identitását az őt leíró weblap identitásától […] Egy ilyen konvenció azonban nem explicit része az RDF definíciójának, hiszen az RDF, maga, nem feltételezi, hogy egy URIref olyan valamit azonosít, ami visszakereshető.”14

Az RDF az osztályokba és tulajdonságtípusokba való besorolást is támogatja definiált tulajdonságokkal (rdf:type). Bizonyos módon a tudás természetéről való klasszikus gondolkodásunkhoz közelít, és ennek a gondolkodásnak web-környezetű reprezentálására és formalizálására ad lehetőséget. A tudást úgy modellezi, mint a dolgok osztályait és a dolgok közötti kapcsolatokat. Az osztályok valamennyi tagjának megvannak azok a tulajdonságaik, amelyek definiálják azt az osztályt.15 Az RDF modell formalizált, bejegyzett elemei a közösen használt webtérben, kapcsolt adatokként (Linked Data) is felhasználhatók. Amennyiben egy adatállomány bárki számára szabadon is hozzáférhető és felhasználható, nyílt kapcsolt adatokról (Open Linked Data) van szó.

Az RDF hasznosulása

Az RDF sem nem adatformátum, sem nem alkalmazás – hangsúlyozza Coyle –, csupán a metaadatok alapszintű struktúrája, amelyre egy-egy aktuális metaadat-rendszer felépülhet.16 Az állításokban szerepelhetnek literálok (szöveges adatértékek), strukturális értékek (szöveg, illetve alfanumerikus elemek, de strukturált formában, mint a dátumok, az idő jelölése) és URI azonosítók. Az első kettő karaktersor-féleség, az utóbbi bármi, ami web-kompatibilis azonosító lehet.

Az RDF tehát a számítógépes értelmezéshez nyújt alapokat, de ő maga nem metaadat-alkalmazás, azonban ma már számos olyan metaadat-szabvány és alkalmazás van, amelyeket az RDF koncepció és szabályok alapján fejlesztettek ki. A könyvtári felhasználás szempontjából a legfontosabbak a következők:17

SKOS

A World Wide Web konzorcium (W3C) a szemantikus web szabványait fejlesztő testülete az RDF felelőse is. A testület néhány RDF-et használó alap-adatformátumot is létrehozott. Ezek egyik legjelentősebbike a Simple Knowledge Organization System (SKOS, egyszerű tudásrendező rendszer).

A SKOS a szemantikus webbel kompatibilis formátumra hozza a már meglévő tudásrendszerező, formális ontológiába konvertálható fogalomtárakat, és hierarchikus kapcsolódásokat, indexkifejezéseket, szócikkeket, definíciókat lehet alkotni vele. A SKOS az RDF keret-fogalmait használja fel az osztályokról, tulajdonságokról, értékekről.

Az egyik tipikus felhasználás a tezauruszok, tárgyszójegyzékek publikálása SKOS formátumban. A Library of Congress tárgyszójegyzékét már közzétették ebben a formátumban,18 s így tett itthon az Országos Széchényi Könyvtár is (lásd a későbbi bekezdéseket). A másik tipikus felhasználási mód a SKOS-elemek beépítése más leírásokba. A SKOS elemeket széles körben használják állítások megfogalmazására, például az új angol-amerikai katalogizálási szabályzat, az RDA (Resorce Description and Access) elemek RDF-es leírásában is SKOS elemeket használnak fel. Az alábbi RDF-leírás részletéből látható, hogy az RDA ’editionStatement’ (szerzőségi közlés) elemének meghatározására a SKOS ’description’ elemét használják fel.

<!–Property: Edition statement–>

<rdf:Description rdf:about=”http://rdvocab.info/Elements/editionStatement”>

<rdfs:isDefinedBy rdf:resource=”http://rdvocab.info/Elements” />

<reg:status rdf:resource=”http://metadatare gistry.org/uri/RegStatus/1002” />

<reg:name xml:lang=”en”>editionStatement</reg:name>

<rdfs:label xml:lang=”en”>Edition statement</rdfs:label>

<skos:definition xml:lang=”en”>A statement identifying the edition to which a resource belongs.</skos:definition>

<rdf:type rdf:resource=”http://www.w3.org/ 1999/02/22-rdf-syntax-ns#Property” />

<reg:hasSubproperty rdf:resource=”http://rdvocab.info/Elements/editionStatementMani festation” />

</rdf:Description>

OWL

W3C szabvány, magas szintű, logikai webon­to­ló­gia nyelv (Web Ontology Language). A szótár alapú gépi feldolgozáshoz is hozzájárul, elsősorban a tudományos szótárakra fókuszál.19

Kapcsolt adatok (Linked Data)

Az az elv, és ha az adatok már össze vannak kapcsolva, akkor megvalósulás, amely egyszerűen használja fel az RDF alapkoncepcióját a tripletekben, az alany–állítmány–tárgy hármasában. A triplet egyes részeit a szabványos azonosító reprezentálja. A kapcsolt adatokról szóló koncepciót Tim Berners-Lee egy rövid írásban fejtette ki a W3C konzorcium weboldalán, ahol javasolja az alapvető szabályokat, az URI-k használatát. Az RDF állítások összekapcsolhatók a gépek által, ám a linkelési folyamat könnyebben elindul, ha maguk az RDF állítások is tartalmaznak linkeket. A kapcsolt adatok nyílt (open) és zárt felhasználási körben is érvényesülhetnek; ontológia-alapú és nem formális ontológián alapuló webes hálózatoknál is találkozunk velük, ez utóbbiak a wikik, a hálózati közösségek – „Friend of a friend” (FOAF), Description of a Project (DOAP) és más hasonló formációk a weben.20 A FOAF formátum felhasználható a könyvtári személynév-állományok RDF adat-publikálásához. Az OSZK a szemantikus weben a tulajdonnév adatokhoz ezt a formátumot használja.

Dublin Core Metaadat Initiative (DCMI)

A Dublin Core Metaadat Initiative is kifejlesztette saját absztrakt RDF-kompatibilis modelljét (Dublin Core Abstract Model, DCAM). A 15 elemű DC jelentősen kibővült a dcterms szótárban,21 a DCAM pedig egyértelműsítette az adatelemek definícióját az RDF állítások számára és új használati szabályokat vezetett be. Ezzel rugalmas RDF-re konvertálható adatkészletté vált. A projekthez kapcsolódó ún. Singapore Framework diagram bemutatja a funkcionális adatelemek komplex felépítményét, és bevezeti az alkalmazási profil (application profile) fogalmát, amellyel ki lehet alakítani a szűkebb szakterületen vagy valamely közösségben, azaz egy meghatározott érvényességi körön belül (domain) alkalmazni kívánt metaadatok gyűjteményét és alkalmazási szabályait.22

Ez a koncepció az FR modellekkel is összhangban van: hasonlóképpen, meghatározott érvényességi körre terjednek ki a könyvtári felhasználásban az FRBR és a kísérő társmodellek, a FRAD és FRSAD elemei, amelyek azokat a komponenseket részletezik, amelyek e területen használatosak és fontosak, egyúttal a könyvtári felhasználású metaadatok körét is behatárolják. Az alkalmazási profillal már egy további szűkebb felhasználást definiálhatunk: a szakma (és társszakmák) számára általánosan meghatározott és meglehetősen absztrakt terminusok definíciói és a rájuk épülő adatstruktúrák az alkalmazási szabályok változatai szerint konkrét tevékenységekhez kapcsolódhatnak. Az egyes profilokban lehetőség van a terminusok szelekciójára, a metaadatok előállításához szükséges útmutatók megalkotására – akár helyi szabályzat szintjén, egy szűkebb metaadat-előállító és felhasználó közösség számára.

CIDOC CRM, FRBROO

A múzeumok nemzetközi szövetsége (Inter­na­tional Council of Museums, illetve a hozzá kapcsolódó Comité International de Documentation szervezet) szintén fejleszti a saját metaadat-modelljét. A kiterjeszthető szemantikus keretrendszer (Conceptual Reference Model, CRM) a kulturális örökséget őrző gyűjtemények tudományos dokumentációját hivatott segíteni. A CIDOC CRM kidolgozásában részt vett a DCMI és az FRBR csoport is. A múzeumi ontológia a kulturális örökség információinak leírásához már szabványosítást nyert (ISO 21127). Az ontológia elérhető RDF állományként is.

Ennek a területnek a modellje több funkcióra terjed ki: a leírásra, az objektum-kezelésére és a megőrzésre. A könyvtári és múzeumi modellek harmonizációja révén létrejött az FRBROO (objektumorientált FRBR). Az FRBR sok mindent átvett a múzeumi modelltől, de nem óhajt múzeumi dokumentumokat leírni, ugyanakkor a CIDOC is gazdagodott az FRBR szempontok figyelembe vételével. A harmonizáció célja, hogy a múzeumi és a könyvtári leírásokat, akár csak egy keresés során is, jobban meg lehessen feleltetni egymásnak.

FRBROO több olyan entitást is tartalmaz, amelyek kifejezetten a múzeumi adatkezelésben fordulnak elő. Ilyenek például az egyedi művek, a komplex művészeti alkotások, a performance és más mű-típusok külön entitásai; a temporális entitások, a tér-idő körülmény hangsúlyos kifejezése a modellben az eseménykezelésen keresztül (például esemény, folyamat, jelenség, cselekvés, állapot) stb. A megjelenési formának ebben a modellben két válfaja van: az egyik a termék jellegű (több példányban keletkező), a másik pedig valamely egyedi műre, azaz a keletkezésétől fogva is egyetlen példányú alkotásra referál (Manifestation Product Type; Manifestation Singleton).23 Ezek az entitások speciálisan a múzeumi igényekből erednek, ezért nem kerültek be a könyvtári modellekbe. A könyvtári és múzeumi terület között viszont nagy átfedés van, s így a CIDOC CRM – az FRBR és RDF szerkezetét követve – kiváló kísérlet lehet a múzeumi és könyvtári metaadatok összekapcsolására.24

Atomisztikus metaadatok: az RDF és a könyvtári adatok

Gordon Dunsire érdekes gondolatmenetbe foglalja az RDF könyvtári adatokra vonatkozó szerepét: minthogy az RDF állításban csak egyetlen vonatkozás (reláció, kapcsolat), egyetlen adatérték és egyetlen hivatkozott dolog szerepelhet, az ilyen állítás „atom” a „molekuláris” metaadat-rekordhoz képest, amelyben a hivatkozott dologról egy egész sor állítást teszünk, s a leírt dolgot több szempontból is jellemezzük a megadott adatértékekkel. Leegyszerűsítve azt is mondhatjuk, hogy az RDF a hagyományos metaadat-rekord alkotórészeivel foglalkozik.25

A hagyományos bibliográfiai rekord Lynne C. Howarth találó meghatározása szerint a forrás logikai és fizikai jellemzőinek halmaza,26 a részeket egésszé kovácsoló könyvtári egység.27 A rekordokban meghatározott körű, pontosan definiált metaadatelem-készlet található. Más rokon gyűjteményi szakmák is kidolgozták a saját követelményeiknek megfelelően a leírási egységben részt vevő metaadat-készletet. Az egyes modellek, bár sokban hasonlítanak egymáshoz, mégsem teljesen ekvivalensek és nem azonos célokra használják őket. A könyvtárakban és a kiadóknál is hasznosak például a szerző, cím, kiadási hely, kiadó, év adatok, és a máshol is előforduló alkotó, műcím stb. Az eddigi gyakorlat azonban az, hogy az egyes metaadatelem-készleteket csak megbonthatatlanul mint egységes egészet lehet használni (lásd a könyvtári MARC formátumot). Ezekben az esetekben a metaadatok a meghatározott rekord-struktúra részei, felhasználásuk korlátozott, és a struktúrán kívül a metaadatokat nem lehet sem bővíteni, sem újrahasználni.

Amint az adatelemeket egy bizonyos rekordszerkezet szabványától függetlenül definiálják, olyan alkalmazásokat és olyan kombinációkat is elő lehet állítani, amelyekben kisebb egységek szintjén, az adatelemek szintjén lehet az információkat akár különböző forrásokból származtatva együtt kezelni, újra felhasználni, illetve a szemantikus web alkotórészévé tenni.28 Az adatok társítására pedig a kapcsolt adatok technológia szolgál. A könyvtári adatmodellek RDF-re való átültetésével, a névterek elemkészleteinek kidolgozásával és publikálásukkal az online metaadat-regisztrumban megérett a helyzet arra, hogy a könyvtári katalógusadatok a szemantikus weben alkalmas formátumban új életet kezdjenek.

Coyle négy alapvető lépést nevez meg, amelyek ahhoz szükségesek, hogy a könyvtári adatok bekerülhessenek a kapcsolt adatok világába, s ezzel a szemantikus weben is jó szolgálatot teljesíthessenek. Ezek a következők:

  1. Az alapvető adatmodell megtervezése. Ezek már megvannak az FR dokumentumokban (FRBR, FRAD, FRSAD és mások). A modellek valószínű még fejlődni fognak, attól függően, hogy a könyvtári adatok és környezetük hogyan változik.
  2. A második lépés az adatelemek definiálása – a szemantikus web szakzsargonjában ezek a metaadatok tulajdonságai (properties, az RDF-ben az állítmány), amelyeket az egyszerűség kedvéért névterekkel adunk meg. A folyamat elengedhetetlen része a definíciók és az RDF állítások elérhetővé tétele a weben, mégpedig a számítógépek számára felhasználható módon.
  3. Valamennyi kontrollált listánkat kapcsoltadat-kompatibilis formátumban közzé kell tenni a weben (Linked Data, LD).
  4. Mindezt bárki számára elérhetővé kell tenni a weben a további felhasználásra, definiálásra és más megjelenítési módok kialakítására (Open Linked Data, OLD).29

Az új angol-amerikai katalogizálási szabályzat (RDA) és az RDF

Az FRBR és FRAD egy meghatározott szakterületre érvényes felfogást tükröz. A két modellre alapozódik a 2010-ben közzétett új angol-amerikai katalogizálási szabályzat, az RDA, amely egyúttal az FR modellek egyféle megvalósítását is eredményezi.30 Az új normatíva nem minden szempontból hűséges a két dokumentumhoz, hozzájuk viszonyítva bizonyos eltérések is felfedezhetők benne.31

Az RDA elemek leírását átfogó elv az FRBR entitás-koncepciója. Az FRBR entitások az RDF osztályai (classes), amelyek a csoportosításra szolgálnak. Például a és a szerző osztályába tartoznak az egyes művek, illetve az egyes szerzők. Az osztályoknak meghatározott tulajdonságai vannak: a tulajdonságai az RDA névtérben például a cím és a forma – az az osztály vagy műfaj, amelybe a mű besorolható. A személyé a név, a születési és halálozási dátum. Az elemek közötti kapcsolatok tulajdonság elemei is regisztrálásra kerültek az RDA elemzése alapján, így ezek is felhasználhatók az RDF állításokban.

Habár az RDA, a korábbi szabályzatokhoz hasonlóan, főként a használati utasításokra koncentrál, a dokumentumból mégis ki lehet hámozni azokat az információkat amelyek a metaadatelem-készlet megalkotásához szükségesek. Ez az elemkészlet bármely meghatározott adat vagy rekordformátumtól függetlenül összeállítható és átültethető RDF nyelvre.

Az RDA elemkészletének meghatározásait és RDF leírásainak elkészítését a DCMI közreműködői (Dublin Core Metadata Initiative Task Group) már 2007 táján kezdeményezték az amerikai és brit könyvtári szervezeteknél. Az indítvány támogatásra talált, s eredményként, hamarosan több, mint 1300 RDA tulajdonság bejegyzésére került sor a Nyílt metaadatok regisztrumba, egyúttal létrehozva az első, a szemantikus webre átalakított könyvtári adatok halmazát.32 Az FRBR entitások első csoportja (mű, kifejezési forma, megjelenési forma, példány) párosan került be: (a) az egyik változat közvetlenül az RDA szövegéből eredezik, kifejezetten a szabvány céljaira szolgál és az abban foglalt definíciókat követi (RDA Group 1 Elements elemkészlet, névtér: Elements, URI: http://rdvocab.info/Elements); (b) a másik változat az alapként szolgáló, RDA szemléletű FR modellek elemkészlete (névtér: FRBRentitiesRDA, URI: http://rdvocab.info/uri/schema/FRBRentities). A fejlemények fényében Coyle úgy látja, a bibliográfiai adatok jövőjét az elemkészlet, a modell és az alkalmazási profil fogja meghatározni.33

Az RDA RDF-re való átültetésében szerepet játszó három fő komponens a következő: (1) az FRBR entitások (az 1., 2., 3. csoportban meghatározott entitások); (2) az RDA elemei alapján meghatározott RDF tulajdonságok, beleértve az RDA szerint definiált entitások közötti kapcsolatokat is; (3) az RDA különböző pontjaihoz csatolható kifejezéslisták (kontrollált, szabályozott szótárak). Ez utóbbiak a DCAM terminológiája szerint az értékszótárak (value vocabularies).

Minden adatelem, amit az új katalogizálási szabvány, azaz az RDA meghatároz, RDF tulajdonságnak tekinthető, s minden egyes elemnek megvan az RDF nyelven készült leírása. Definíciójuk a szemantikus web érvényes konvencióit követi, s alá-fölérendeltségi viszonyban is lehetnek egymással. A regisztrált adatelemek az egyes elemek leírásának részleteivel, illetve az ugyanazon adatelemek más-más érvényességi területű nézeteiben megtekinthetők az online metadat-regisztrumban. A böngészők szövegesen, emberi olvasásra alkalmas megjelenítésben mutatják be az RDF szerkezetet; XML szerkesztőben a regisztrált adatelemek géppel olvasható formátumba, RDF/XML-be konvertálódnak. Ezzel csak a megjelenítési nézet változik, s nem szükséges többszörözni és a különféle alkalmazások számára más-más módon bejegyezni a szemantikus weben aktív szerepet játszó metaadatokat.34

A fontosabb tulajdonságok elemei az FRBR/RDA névtérben a következők:35

  • azonosító (URI) – szemantikusweb-kom­pa­ti­bilis azonosító, aminek a kezdete: http://rdvocab.info/.
  • név (name) – az elem nevének gép-barát formája, rendszerint a szó belsejében nagybetűvel írva (például: ’titleProper’ – főcím).
  • címke (label), amely az emberi felhasználó előtt jelenik meg és az elem kategoriális szemantikájára, típusára utal: ’Title proper’. A címkék nyelvspecifikusak. Az RDA angol nyelvű címkéket tartalmaz, de a címkékhez bármilyen nyelvet hozzá lehet rendelni.
  • leírás (description) – az elem vagy kifejezés emberi felhasználó által olvasható meghatározása. A leírások megtalálhatók az RDA Szójegyzékben. Ez is nyelvspecifikus, de lefordítható, más nyelvek is hozzárendelhetők.
  • érvényeségi kör (domain) – osztály vagy osztályok amihez az elem tartozik. Az osztály FRBR entitás, amelyhez tulajdonságot lehet rendelni, például: ’FRBR Manifestation’ (FRBR megjelenési forma). Amint már említettük, minden elem kétféle formában került be a regisztrumba: az egyik olyan hozzárendeléssel, ahogyan az RDA felépítése szerinti érvényességi kör meg van határozva, a másik az elemet az efféle hovatartozás nélkül tartja nyilván. Ez utóbbit felhasználhatják olyan környezetben, amelyik nem fűződik az FRBR-hez vagy akkor, ha másképp szeretnék kezelni az FRBR osztályokat.
  • értéktartomány (range) – azok az értéktípusok, amelyeket az elem tartalmaként lehet beírni. Mivel az RDA megengedi mind az ellenőrzött, mind az ellenőrizetlen értékeket (azaz a kötött szótárból választható adatelem-értéket és a szabadon beírt értéket/karaktersort is), ezt legtöbbször az alkalmazási profilnál (vagy szabályoknál) határozzák meg, nem az elem-definíciónál.
  • típus (type) – az elem típusa, tulajdonság, alárendelt tulajdonság, osztály vagy alosztály
  • subPropertyOf – olyan tulajdonságok, amelyek valamilyen fölérendelt tulajdonsággal rendelkeznek – például: a címvariáns fölérendelt tulajdonsága a cím. Az állítás pedig így néz ki: ’Címvariáns subPropertyOf Cím’.
  • hasSubproperty – olyan tulajdonságok, amelyekhez alárendelt tulajdonságok tartoznak. Minden alárendelt tulajdonság hozzá van csatolva a megfelelő tulajdonság-állításhoz. Például: ’Cím hasSubproperty Főcím’ vagy …Kulcscím/Rövidített cím stb.

Az RDF sajátos kapcsolat-kezelési jellemzőjéből ered az, hogy az FRBR entitások közötti kapcsolatok tulajdonság kódokkal szerepelnek. Az egyszerűsítés az RDF-hármasok alkalmazásának az eredménye: minden állítás itt is három tagra van redukálva: alanyra, állítmányra és tárgyra. A géppel olvasható tripletekben itt is minden tulajdonságot URI reprezentál.

Az RDA több részlete kötött szótár használatát írja elő. Az RDA regisztumban a szabályozott szótárakat vocabularies kifejezéssel illetik (szókészlet, szókincs), a DC dokumentációban ugyanezt value vocabulary névvel emlegetik (az értékek szókészlete, szókincse), mivel ebben a modellben ezek az adatelemek a tulajdonság értékei (vagy adatértékei, value of the property). Ha az RDA-ban például a tartalomtípus (content type) instanciája szöveg, és ha ezt az RDA által megkötött típuslistából származtatjuk, továbbá, ha a lista értékeit az RDF-ben már leképezték, akkor külön azonosító társul az értékhez, nevesül: http://RDVocab.info/termList/RDAContentType/1020 – ami jelen esetben nem más, mint az RDA tartalomtípus osztályának egyik altípusa, a szöveg (text).36

Az RDA kb. 70 szótárt csatlakoztat, a katalogizálásban ezek a bibliográfiai rekordok adatsorainak szerkesztésénél használhatók. Coyle szóvá teszi, hogy számos más hasonló szakterületi tezaurusz és egyéb szótár, közöttük a Nemzetközi Szabványügyi Szervezet (International Organization for Standardization, ISO) szabványos kifejezéslistái (nyelvek, országok stb.) is jól felhasználhatók lehetnének, így ajánlatos volna ezeket is átültetni a szemantikus web formátumára.37

Az FR-család szemantikus web reprezentációja az IFLA névterében

Az RDA RDF-re ültetésének folyamatával párhuzamosan az FR-család szemantikus webes reprezentációját, hiteles „lefordítását” az intelligensebb világháló nyelvére, 2007 körül az IFLA külön erre a célra megalakult csoportja vállalta. A kezdeti lépést a Dél-Afrikában (Durban) megrendezett könyvtári világkongresszuson (World Library and Information Congress, 2007) tették meg az FRBR revíziós csoport névtér programjának bejelentésével. A program meghirdetését nem kis erőfeszítést igénylő érdemi egyeztető, összehasonlító munka követte, amely még napjainkban is folyik az IFLA nemzetközi szakmai közösségén belül.38 A cikkünk elején közölt hír ennek az egyeztető folyamatnak az eredményét harangozza be. Az IFLA FR-névterek függetlenek a konkrét alkalmazásoktól, szigorúan a kiinduló modellekre korlátozódnak, kevésbé részletesek, mint a rájuk alapozó pragmatikus társítások, például az RDA.

Dunsire részletesebben is bemutatja az FR névterek struktúrájának logikáját és felhívja a figyelmet egyes problémákra.39 Az FR osztályok és tulajdonságok címkéi a modellekben található kifejezésekkel egyeznek meg, ez megkönnyíti a névterek dokumentációját. Amint már utaltunk rá, a modellek entitásai az RDF osztályok, az entitások attribútumai pedig a tulajdonságok. Minden tulajdonság, amely FR attribútumokra vezethető vissza, a hozzá tartozó entitás, azaz osztály (domain) érvényességi körébe esik. Például a FRAD esetében a használat dátuma tulajdonság érvényességi köre a név osztály. Az értéktartomány (range) olyan osztály, amelynek tagja a hármas tárgya. Az FR névterek azonban általánosabb szemantikai síkon mozognak, s az attribútumok konkrét értékeinek reprezentálásával már nem foglalkoznak (például mint amilyenek „A mű célzott közönsége” állításnál a célzott közönség típusaiként megadható értékek: gyermek, ifjúsági, felnőtt, tudományos stb.). Az FR névtereket felhasználó alkalmazások saját céljaikra bővíthetik az elemkészletet és az értéklistát, ez tetten érhető az RDA névtereinél is, ahol több sajátos, az adott katalogizálási gyakorlatban honos ellenőrzött szótár értéklistája is megtalálható.

Az egyes FR modellek között is van különbség, Dunsire erre a testület entitást hozza fel példának: a testületnek az FRBR definíciója szerint nem szükségképpen kell hogy legyen neve (az általánosító definícióban ugyanis csak annyi szerepel, hogy „a testület egyének és/vagy intézmények szervezete vagy csoportja”), a FRAD szerint viszont a testületnek van neve.40 Az RDF osztályoknak a kétféle névtérben ezt a szemantikai különbséget is tartalmaznia kell, a FRAD névtér ezért nem használja fel az FRBRER testület osztályát, hanem saját definíciója szerint hoz létre egy másikat. Ez a finomhangolás viszont megjelenik a webontológiában is, ahol a FRAD árnyaltabb, kötöttebb értelmezése alosztályként jelenik meg („frad:C1003 rdfs:subClassOf frbrer:C1006” vagy „frad:Corporate Body is sub-class of frbrer: Corporate Body”). S az is előfordul, hogy ugyanazon FRBR tulajdonságra a FRAD más címkét használ.41

A Riva-hírben is említett, a három testvér-modell összehangolására tett erőfeszítések célja, hogy a redundanciákat felfedjék, az egybeeső elemeket, attribútumokat és kapcsolatokat pedig egymáshoz kössék. A figyelem két fő területre összpontosul: a tárgyi entitások és a cím/név entitások/attribútumok ábrázolására. A főbb problémák közül csak néhányat említünk meg: az RDF-ben a FRSAD-ba foglalt téma osztálya redundánsnak bizonyult; a három modell szempontjai pedig különböznek a címmel és a névvel kapcsolatban. Az FRBR-ben a név például a személy attribútuma (property), a FRAD-ban önálló entitás (class). (2., 3. ábra) A FRSAD modellje „az egyik mű témája a másiknak” ábrázolására a has a subject (témája van) kapcsolatot használja. Az RDF-ben ez tulajdonság, amelynek érvényességi köre (domain) a , értéktartománya (range) a téma, ám ez további kuszaságot eredményez, amikor az RDF szerkezetben a témát URI-val megnevezett név osztályként (nomen) vesszük szemügyre.42 Az RDF-szempontú analízisek az FR modellek összehangolásánál kétségkívül sokat segítenek.

2. ábra
FRBRER, a Személy neve elem RDF reprezentációja, IFLA névtér,
URI: http://iflastandards.info/ns/fr/frbr/frbrer/P3039 (Forrás: OMR)

Dunsire az FR modellek RDF reprezentálásától azt reméli, hogy az állítások atomi egységei révén a bibliográfiai formátumok és sémák egymással összevethetőkké és átjárhatókká válnak. Az atomisztikus metaadat-személet a bibliográfiai rekordok előállításának paradigmáját változtatja meg. A jövő katalogizálói az egyes metaadat-állításokra összpontosítva az elszigetelt adatbázisok gyarapítása helyett közreműködők lehetnek a szemantikus web hatalmas RDF gráfja építésében, kontextusának gazdagításában.43

3. ábra
A FRAD Név elemének RDF reprezentációja, IFLA névtér, URI: http://iflastandards.info/ns/fr/frad/C1006
(Forrás: OMR)

Hol tart Magyarország?44

Nemzeti könyvtárunk a szemantikus weben való megjelenésben az elsők között mondhat magáénak jelentős eredményeket.45 Horváth Ádám, az OSZK volt informatikai igazgatója több hazai és külföldi konferencián is beszámolt azokról a fejlesztésekről, amelyek az utóbbi két-három évben a könyvtári katalógusadatok „felszabadításának” érdekében történtek. Az Országos Széchényi Könyvtár a szemantikus weben című wiki dokumentációjában olvashatjuk, hogy a svéd LIBRIS gyakorlatát követve 2010 áprilisában „[a]z Országos Széchényi Könyvtár (OSZK) elérhetővé tette a törzsgyűjteményi olvasói katalógusának, valamint Digitális Könyvtárának teljes tartalmát és az ezekhez kapcsolódó besorolási adatokat Linked Open Data (LOD) formában.

Az alábbi névtereket használtuk fel:

  • RDFDC a bibliográfiai adatok számára,
  • FOAF a név besorolásokhoz és
  • SKOS a tárgyszavakhoz és a földrajzi nevekhez.

Az RDFDC, FOAF és SKOS állításaink (sta­te­ments) kapcsolódnak egymáshoz. Az egységesített névalakokat összepárosítottuk a DBpedia név állományával, és az egyező nevek URI változatait owl:sameAs állításokkal kötöttük össze.

A HTML link auto-discovery technológia is támogatott.”46

A megvalósítás az állandó linkszolgáltatáson (CoolURI technológia) alapul, továbbá minden forrás elérhető RDF és HTML formátumban is. Az ehhez használt nevezékek, egy-egy példával:

A dokumentum erőforrás megnevezése (a bibliográfiai leírás FRBR hierarchia szerinti megjelenési forma szintje, a példában az URI-k Lengyel Péter Macskakő c., első kiadásban 1988-ban napvilágot látott „detektív regény”-ét [sic] takarják):
http://nektar.oszk.hu/hu/manifestation/62 9391

A személynév entitás mint erőforrás megnevezése (Szabó Lőrinc reprezentánsa)

http://nektar.oszk.hu/resource/auth/26

4. ábra
Személy FOAF leírása az OSZK adatállományában, DBpedia és VIAF kapcsolódással (html nézet)

A tárgyi besorolási erőforrás megnevezése (a bábjáték deszkriptor reprezentánsa)
http://nektar.oszk.hu/resource/auth/bábjáték (6., 7. ábra)

5. ábra
Személy FOAF leírása a VIAF-ban, ekvivalencia kapcsolattal
a magyar és a német adatállomány felé (RDF/XML nézet)


6. ábra
SKOS-ra konvertált Köztaurusz-tárgyszó az
OSZK adatállományában (html nézet)

Ehhez hozzáadhatjuk még azt is, hogy a személynevek nemcsak a legtöbb kapcsolt adatot tartalmazó DBpediával, hanem a könyvtári adatokból építkező VIAF (Virtual International Authroty File) állományával is társulhatnak, a szerzők nevei az ’owl:sameAs’ állítással kapcsolódnak össze a külső adattárak szerzői neveivel.47 (8. ábra) A DBpedia a Wikipedia strukturált adataiból építkezik és rendezi újra az adatokat kategorizáltan, adatbázis szemlélettel, kapcsolt adat-technikával. A VIAF virtuális tulajdonnév-állomány, a világ legjelentősebb könyvtári adatbázisainak besorolási rekordjait egyesíti. Benne minden egyes név RDF állítások formájában is le van írva, a magyar szerzőknél link mutat az OSZK FOAF leírásaira – s viszont, az OSZK a VIAF „rekordra” mutat. (4–5. ábra) A fejlesztés kiterjedt a DCAM új használati szabályzatának alkalmazására is: ez bevezeti például azt, hogy a ’dc:creator’ után literál állhat, a ’dcterms:creator’ után pedig URI. Az OSZK már ezt a szabályt is érvényesíti az RDF állításaiban.

7. ábra
SKOS-ra konvertált Köztaurusz tárgyszó az OSZK adatállományában
(RDF/XML nézet)

Például:

<dcterms:creator rdf:resource=″http://nektar.oszk.hu/resource/auth/33589″/>

<dc:creator>Jókai Mór (1825-1904)</dc:cr eator>

Az OSZK az Euroepana szemantikus adatkezelési projektjeibe is bekapcsolódott. Az Europeana Connect program keretében az OSZK SKOS formátumú Köztaurusza is része lett az Europeana kisérleti szemantikus rétegének, valamint az Europeana Linked Data is felhasználta az OSZK adatait. 48 A szemantikus web-technológiára alapozva, folyamatban van a törzsgyűjteményi katalógus FRBR entitások szerinti megjelenítésének fejlesztése, valamint a rekordstruktúra RDA adatelem-készlettel való megfeleltetése.

Lépések történtek az összetett dokumentumok (csoportok, aggregátumok) kezelésének szemantikus webes megoldására is az OAI-ORE technológiával (Open Archive Initiative – Object Reuse and Exchange). Összetett dokumentum például egy képet, hangot, szöveget tartalmazó dokumentum, a digitális képgyűjtemény, a sok számból és cikkből álló folyóirat, a több oldalból álló, hiperlinkkel összekapcsolt html forrás, a közösségi oldal, a több formátumban feltöltött cikkeket tartalmazó tudományos cikkadatbázis borítólapja egy műhöz. Az ORE modelljének is megvan a sajátos szótára, amivel RDF állításokat lehet tenni a strukturált dokumentumok leírásához. A szótár megadja, hogy a leírás mely csoportra vonatkozik (’ore:describes’); a csoportnak mik a tagjai (’ore:aggregates’); leírja a tagok tulajdonságait és kapcsolatait, valamint azokat a metaadatokat, amelyek magára a forrástérképre vonatkoznak.49 Ebben a modellben az URI az összetett forrásról szóló forrástérképet képviseli a weben, tehát magának a forrástérképnek is URI azonosítója van. Az OSZK-ban ez a fejlesztés a Digitális Könyvtárat vonná be a web szövetével.

A kapcsolt adatok fejlesztéseinek többsége különösebb projekt nélkül, az apróbb, azonos irányba tartó mozzanatokat felismerve és összegezve, a hiányzó kisebb elemekkel, illetve megfelelő számítástechnikai háttérrel kiegészítve vált innovatív erejű szolgáltatási tőkévé. A programok mindegyike a szemantikus web szövetébe ülteti át a hazai nemzeti könyvtári adatokat. Jelentős lépés ez afelé, hogy a nemzeti könyvtár állandó műhelye legyen a fejlesztéseknek, hozzájárulva ahhoz az általános törekvéshez is, hogy a könyvtárak megőrizzék évezredes társadalmi szerepüket; a szemantikus weben való megjelenésükkel pedig bizonyítani tudják létjogosultságukat és alkalmazkodóképességüket a megváltozott világban.

8. ábra
A kapcsolt adatok felhő diagram egy részlete, csillaggal jelöltem az OSZK pozícióját
“NSZL Catalog”, Forrás: Cyganiak – Jentzsch)

Újabb hírek a világból

A legújabb hírek között böngészve érdemes kiemelnünk a SCATNews hírlevél 2012-es júniusi számát, amelyben Gordon Dunsire és Pat Riva tudósít a katalogizálási névtér-fejleményekről. Felsorolásszerűen ezek a következők:

  • telepítették az ISBD és az FR család névtereinek hivatkozás-feloldóját;
  • a Cataloging and Classification Quarterly folyóiratban a közeljövőben összesen hat cikket közölnek az FR- modellekről, a kapcsolt adatokról és a szemantikus webről;
  • 2012 folyamán várható az FRBRoo IFLA névtérben való közzététele a FRAD és FRSAD elemekkel bővítve és hivatkozás-feloldó szolgáltatással;
  • az ISBD névtéren is dolgoznak, elkészült és megvitatás alatt áll a 0. adatcsoport körébe tartozó tartalom és média típusa szókészlet valamint az RDA tartalom és hordozó típusa szókészletének megfeleltetése;
  • foglalkoznak a MARC 21 névterének kialakításával és megfeleltetésével a többi, már kifejlesztett névtérrel;
  • figyelemmel kísérik a Library of Congress kapcsolt adatokon alapuló új keretrendszerének projektjét (Bibliographic Framework Transition Initiative, BibFrame), amelynek várhatóan az IFLA névterekhez és bibliográfiai szabványokhoz is sok köze lesz;
  • az FRBR revíziójával megbízott IFLA munkacsoportok folytatják a három modell aprólékos összevetését, s elkészült az FR névterek összekapcsolása az ISBD névtérrel.50

A nyílt bibliográfiai adatok közzététele és felhasználása egyre több helyen megkezdődött, s kialakulóban vannak az adatok közzétételére és felhasználására vonatkozó jogi rendelkezések, engedélyek, nyilatkozatok formái. A külföldi gyakorlatban többféle közkincs deklarációval találkozhatunk már, többek között ilyen a Public Domain (PD), a Public Domain Dedication and Licence (PDDL), a Creative Commons Zero Waiver (CC0) vagy az Open Data Commons Attribution License (ODC-BY), ez utóbbi alatt állnak az OCLC kezelésében álló VIAF adatok is.51

Írásom időpontjában több jelentős könyvtár tett már meghatározó lépéseket azért, hogy bibliográfiai adatai hozzáférhetők legyenek a szemantikus weben, nyílt kapcsolt adatokként. Ezek sorában említhetjük a Library of Congress, a British Library, a Europeana Library projektum fejlesztéseit, valamint a svéd, a magyar, a német, a spanyol, a francia fejleményeket. 2012 nyarán az OCLC hírleveleiben is megjelenik a téma: a világ legnagyobb könyvtári bibliográfiaiadat-szolgáltatója kísérleti célokra, (az összesen 275 millióból) 1,2 millió rekordhoz kapcsolódó 80 millió tripletet tett nyilvánosan elérhetővé. Kísérletek folynak a Dewey tizedes osztályozási rendszer kapcsolt adatformátumra való átültetésére, folyamatban van a tárgyszavak kezelésére szolgáló FAST (Faceted Application of Subject Terminology) valamint a VIAF szolgáltatás hasonló közzététele.52 A könyvtári információk keresőgépek számára hasznosítható reprezentálása ezzel jelentős hatással lehet a keresési eredményekre, kezelésükre, átcsoportosíthatóságukra, az egyes elemek más-más szolgáltatási forrásba való beágyazására. A bibliográfiai információk kapcsolt adatokkal történő közzétételét választó intézmények sora várhatóan gyorsan gyarapszik tovább.

Az FR névterek jelentôsége (összefoglaló)

A Funkcionális követelmények modellek (FRBR, FRAD, FRSAD) névtereinek RDF nyelvű közzététele jelentős lépés a szemantikus web megvalósulása felé, amely egyben a könyvtáros világszövetség szervezeti elkötelezettségét is kifejezi a nyílt bibliográfiai adatok és a webes mesterséges intelligencia fejlesztése iránt. A zárt könyvtári és más gyűjteményi rendszerekben felhalmozódott strukturális adatok konvertálása a web nyelvére közelebb viheti a gyűjteményi kincseket a felhasználóhoz, az általános keresőrendszereknek pedig intelligensebb közreműködést, kifinomultabb lehetőségeket teremt meg. A koncepció más, mint az eddigi rekord-kapcsolt modell: az adatok finomszemcsés alakzatokban kapcsolódnak össze szemantikai síkokon, webes technológiával. A hangsúly a jelentéssel teli metainformációkon van és nem a kész rekordokon. Az adat-szintű kisebb elemek közvetlen összekapcsolásával és változatos újrarendezésével rugalmasabb alkalmazások valósulhatnak meg: az adatok kölcsönös felhasználása vagy a külső forrás bevonása a szolgáltatás építésébe, kontextusának gazdagítására, és vice versa, a szolgáltatás információinak belefonódása a külső forrás szövetébe.

Ami mindebből a leglényegesebb a hagyományos könyvtári katalógusok és a katalogizálás számára: az RDF leírásokat és a velük együtt használt névtereket elsősorban a számítógépek tudják hasznosítani. Az adatok számítógépes kommunikációs hálózatba való bekerülésének előfeltétele viszont a bibliográfiai adatok rögzítése, ami emberi munka eredménye. Mi változik hát most? Változik az eszköz, a technológia: a gyűjteményi anyag leírását nem elegendő csupán az ember számára érthető módon megtenni, hanem a gépi feldolgozást is szem előtt tartva kell azokat preparálni és összekapcsolhatóvá tenni. Az ember mellett hangsúlyosan szükséges figyelembe venni a gépi aktort, a globális számítógépes világot és a webet mint infrastruktúrát, amely aktív szerepet játszik az ember számára közvetített információk feldolgozásában, tálalásában és hasznosításában.

A bibliográfiai adatmodell-család névterei a Funkcionális követelmények modellek személete szerint teszik a könyvtári adatokat cselekvőképessé a szemantikus web áramvonalaiban. Az eljárás gyakorlati haszna többféle: javíthatja a keresés menetét és eredményét; más forrásoknál is hasznosulhatnak a bibliográfiai adatok; a könyvtári metaadatokat felhasználva kreatívabb, dinamikusabb, gazdagabb szolgáltatásokat és alkalmazásokat hívhat életre; s nem utolsósorban, a metainformációk minden szintjére kiterjedve, megújíthatja és hatékonyabbá teheti a katalogizálást. Erősebben fogalmazva: paradigmaváltást hozhat a katalogizálásban, az adatok felkutatásában, felhasználásában és rendszerezésében.

Köszönetnyilvánítás

A cikk megírásához nyújtott segítségéért, a pontosításokért és kiegészítésekért, köszönettel tartozom Horváth Ádámnak, az OSZK volt informatikai igazgatójának. Az esetleges hiányosságokért természetesen csak engem terhel a felelősség.

Irodalom

(A cikk internetes hivatkozásainak és az irodalomjegyzékben szereplő online források meglétének legutóbbi ellenőrzése 2013. január 16.)

Bánki Zsolt István: Múzeumok az Europeanaban – az ATHENA. = Tudományos és Műszaki Tájékoztatás, 57. évf. 9. sz. (2010), 381–388. p. Online verzió: http://tmt.omikk.bme.hu/show_news.html?id=5367&issue_id=519

Berners-Lee, Tim: Linked Data. 2006, last change: 2009/06/18. http://www.w3.org/DesignIssues/LinkedData.html

Coyle, Karen: RDA Vocabularies for a twenty-first-century data environment. = Library Technology Reports, 46/2 February/March (2010). 39 p. Ebsco.

Cyganiak, Richard – Jentzsch, Anja: Linking Open Data cloud diagram. 2011-09-19.  http://lod-cloud.net/

DCMI Metadata Terms, 2012-06-14. Dublin Core Metaadat Initiative. http://dublincore.org/documents/dcmi-terms/

DUDÁS Anikó: Forrásleírás és hozzáférés: Az új angol-amerikai katalogizálási szabályzat (RDA) és kritikája. = Könyvtári Figyelő, 58. évf. 4. sz. (2012), 727–750. p.

Dunsire, Gordon (a): Representing the FR family in the Semantic Web. = Cataloging and Classification Quarterly, Vol. 50, Iss. 5–7 (2012), 724–741. p.

Dunsire, Gordon (b): Update on cataloguing namespaces. = SCATNews, no. 37, June 2012, p. [14–15.] http://www.ifla.org/files/cataloguing/scatn/scat-news-37.pdf

Dunsire, Gordon – Willer, Mirna: Standard library metadata models and structures for the Semantic Web. = Library Hi Tech News Vol. 28, iss. 3 (2011), 1–12. p. Emerald. http://dx.doi.org/10.1108/07419051111145118

Europeana Linked Open Data. Honlap http://pro.europeana.eu/web/lod/

[FRBROO] FRBR object-oriented definition and mapping to FRBRER (version 1.0.1). International Working Group on FRBR and CIDOC CRM Harmonisation supported by Delos NoE. Editors Chryssoula Bekiari, Martin Doerr, Patrick Le Boeuf. January 2010. http://www.cidoc-crm.org/docs/frbr_oo/frbr_docs/FRBRoo_V1.0.1.pdf

Haslhofer, Bernhard – Isaac, Antoine: data.europeana.eu : the Europeana linked open data pilot. In: Proceedings of International Conference on Dublin Core and Metadata Applications. The Hague, 2011., 94–104. p. http://dcpapers.dublincore.org/index.php/pubs/article/view/3625

Herman Iván: Szemantikus Web : egy rövid bevezetés. Budapest, 2006. március 18. http://www.w3.org/2006/Talks/0318-Budapest-IH/cikk.html

Horváth Ádám: Digitális objektumok strukturális metaadatainak megadása az OAI-ORE protokoll segítségével. Networkshop, Debrecen, 2010. április 7–9. Videotorium http://videotorium.hu/en/recordings/details/744,Digitalis_objektumok_strukturalis_metaadatainak_megadasa_az_OAI-ORE_protokoll_segitsegevel

Horváth Ádám: Linked data at the National Széchényi Library : road to the publication. SWIB10 : Semantic Web in Bibliotheken, Cologne, 29–30 November, 2010. Videofelvétel http://swib.org/swib10/programm_29-november.html

Horváth Ádám: Open Linked Data és a könyvtárak. Networkshop, Kaposvár, 2011. április 27–29. Videotorium http://videotorium.hu/hu/recordings/details/2854,Open_Linked_Data_es_a_konyvtarak

Howarth, Lynne C.: FRBR and linked data : connecting FRBR and linked data. = Cataloging and Classification Quarterly, vol. 50 iss. 5–7 (2012), 763–776. p.

Kett, Jürgen – Beyer, Sarah – Manecke, Mathias – Jahns, Yvonne – Svensson, Lars G.: The German National Bibliography as linked open data : applications and opportunities. In: 78th IFLA General Conference and Assembly, Helsinki, 2012 http://conference.ifla.org/sites/default/files/files/papers/wlic2012/215-kett-en.pdf

Library of Congress Linked Data Service. Authorities and Vocabularies. Webhely http://id.loc.gov/

LUKÁCSY Gergely: A szemantikus világháló és az RDF elképzelés. In: SZEREDI Péter — LUKÁCSY Gergely – BENKŐ Tamás: A szemantikus világháló elmélete és gyakorlata. Budapest, Typotex, 2005. 61–128. p.

Open Metadata Registry. Webhely http://metadataregistry.org/

ORE Specification – Abstract Data Model. Open Archives Initiative Object Reuse and Exchange, 17 October 2008. Editors Carl Lagoze [et al.]. http://www.openarchives.org/ore/1.0/datamodel

Az RDF bevezető tankönyve. W3C Ajánlás, 2004. február 10. Ford. Pataki Ernő. W3C Magyar Iroda, 2005. http://www.w3c.hu/forditasok/RDF/REC-rdf-primer-20040210.html

Riva, Patricia (a): IFLA Functional Requirements namespaces published. = SCATNews, no. 37, June 2012, [13–14.] p. http://www.ifla.org/files/cataloguing/scatn/scat-news-37.pdf

Riva, Patricia (b): Report from the FRBR Review Group mid-year meeting. SCATNews, no. 37, June (2012), [15–16.] p. http://www.ifla.org/files/cataloguing/scatn/scat-news-37.pdf

Riva, Patricia – Oliver, Chris: Evaluation of RDA as an implementation of FRBR and FRAD. = Cataloging and Classification Quarterly, vol. 50 iss. 5–7 (2012), 564–586. p.

The Singapore Framework for Dublin Core Application Profiles. Creator Mikael Nilsson, Thomas Baker, Pete Johnston. 2008-01-14. http://dublincore.org/documents/singapore-framework/

Szemantikus web. Az Országos Széchényi Könyvtár a szemantikus weben. Wiki. http://nektar.oszk.hu/wiki/Szemantikus_web

Tóth Máté: Könyvtárak a szemantikus web világában. = Könyvtári Figyelő, 56. évf. 3. sz. (2010), 413–438. p. Online verzió: http://ki.oszk.hu/kf/2010/10/konyvtarak-a-szemantikus-web-vilagaban/

Jegyzetek

1.   Az eredeti szövegkörnyezet (kurziválás az eredeti szerint): „[…] our services must not only be on the Web, but need to be of the Web.” Coyle, p. 6.

2.   A hír több levelezőlista archívumából és blogról elérhető, megjelent a SCATNews hírlevélben is, l. Riva (a). A közleményt saját fordításomban közlöm, a zárójelekben az eredeti szöveget néhány helyen kiegészítettem a rövidítések feloldásával, illetve feltüntetem az eredeti terminust is.

3.   A szemantikus keresőmotorok gyűjteményét l. a W3 konzorcium honlapjáról: http://www.w3.org/wiki/Task Forces/CommunityProjects/LinkingOpenData/SemanticWebSearch Engines.

4.   Vö. Berners-Lee

5.   A szemantikus világháló elképzelésről és technológiájáról részletesebben  l. LUKÁCSY fejezetét.

6.   Coyle, p. 6.

7.   Herman

8.   Uo., a szövegrészlet jegyzetanyagához tartozó szakirodalmi hivatkozásokat mellőztem. A szövegrészletben a rövidítések a szemantikus web irányzatát támogató technológia-családra vonatkoznak, feloldásuk: URL: Uniform Resource Locator (egységes erőforrás-helymeghatározó, az erőforrást hely szerint azonosítja), URN: Uniform Resource Name (egységes erőforrás-név, az erőforrást név szerint azonosítja; az állandó, mindig rendelkezésre álló forrásokra használják), SPARQL: Protocol and RDF Query Language (RDF lekérdező nyelv), RDFS: RDF Schema (RDF séma), OWL: Web Ontology Language (webontológia nyelv), SKOS: Simple Knowledge Organization System (egyszerű tudásrendező rendszer), RIF: Rule Interchange Format (szabálykicserélési formátum).

9.   Az RDF bevezető tankönyve. 2. Kijelentések megfogalmazása erőforrásokról c. bekezdés

10. Vö. Dunsire (a), p. 726., 734–735.

11. Az RDF bevezető tankönyve. 2.2 Az RDF modell c. bekezdés

12. Uo.

13. Uo.

14. Az RDF bevezető tankönyve. A. függelék: További részletek az URI-ről (az Egységes Erőforrás-azonosítóról)

15. Coyle, p. 13.

16. Coyle, p. 15.

17. Nagyvonalakban követem Coyle felsorolását (vö. Coyle, 15–17.), azonban kibővítettem a magyar és egyéb más vonatkozásokkal. L. még hozzá Tóth, p. 425.

18. Az LC kapcsoltadat-szolgáltatás egy sor adatféleségre kiterjed: tulajdonnevek, LC osztályozási jelzetek, formai/műfaji deszkriptorok stb. L.: Library of Congress Linked Data Service. Authorities and Vocabularies http://id.loc.gov/

19. L. bővebben Tóth, p. 424–425 és az általa hivatkozott irodalmat.

20. L. hozzá részletesebben Berners-Lee írását.

21. DCMI Metadata Terms

22. The Singapore Framework for Dublin Core Application Profiles

23. L. hozzá FRBROO, különösen. 1.2 Differences between FRBRER and FRBROO, p. 13-18 és 2.6. Class Declaration, p. 36–54.

24. Coyle, 19., valamint Bánki, p. 385.

25. Dunsire (a), p. 725.

26. Howarth, p. 764.

27. Howarth, p. 772.

28. Coyle, p. 26.

29. Coyle, p. 10.

30. Részletesebben l. hozzá DUDÁS RDA-ról közölt összefoglaló cikkét.

31. Vö. Riva – Oliver, p. 564–565. A két szerző részletesen összeveti az FRBR és FRAD modelleket az RDA rekonstruálható FR-szemléletével.

32. COYLE, p. 6., 27.

33. Coyle, p. 28., 19.

34. Vö. Coyle, p. 27–28.

35. Vö. Coyle, p. 28.

36. Coyle, p. 30.

37. Coyle, p. 31.

38. Az FR modellek névtér-fejlesztéséről, a modellek RDF-re való átültetéséről és a folyamatban lévő projektekről bővebben l. Dunsire – Willer cikkét.

39. DunsirE (a)

40. Vö. FRBR 3.1.2 vs. FRAD 3.4.

41. DunsirE (a), p. 735–736.

42. DunsirE (a), p. 738–739.

43. DunsirE (a), p. 740.

44. Ezt a szakaszt főként Horváth Ádám konferenciaelőadásai és elektronikus levelezésben adott kiegészítő információi, valamint a Szemantikus web. Az Országos Széchényi Könyvtár a szemantikus weben c. wiki anyaga alapján állítottam össze.

45. A könyvtári adatok kapcsolt adatokként való közzétételéről rövid áttekintést ad Haslhofer – Isaac, p. 95–97. A kísérletezők élén amerikai (LC, OCLC), francia és svéd kezdeményezések állnak 2008–2009 körül alkalmazásra kerülő eredményekkel. Európában a svéd fejlesztést követve, 2010-ben az OSZK és a Deutsche Nationalbibliothek is közzétette (illetve elkezdte közzétenni) név- és tárgyszóállományát. A német fejlesztésekről bővebben l. Kett [et al.].

46. Szemantikus web. Az Országos Széchényi Könyvtár a szemantikus weben [wiki]

47. Az adatállományok összekapcsolásának vizualizálásával jól át lehet tekinteni a kapcsolatok sűrűségét, vö. Cyganiak– Jentzsch diagramját a kapcsoltadat-szolgáltatások feltérképezéséről. Az ábra a 2011. szeptember 19-ei állapotot tükrözi, 295 adatállomány egymáshoz kapcsolódását veszi figyelembe.

48. L. hozzá az OSZK szemantikus adatainak felhasználásáról szóló híradást és leírást az Europeana Linked Open Data weboldalról, továbbá l. még Haslhofer – Isaac, p. 97.

49. A modellről bővebben l. ORE Specification – Abstract Data Model.

50. Vö. Dunsire (b) és Riva (b)

51. OCLC, News releases, 6 August 2012: OCLC recommends Open Data Commons Attribution License (ODC-BY) for WorldCat data http://www.oclc.org/news/releases/2012/201248.htm

52. OCLC, News releases, 14 August 2012: OCLC provides downloadable linked data file for the 1 million most widely held works in WorldCat http://www.oclc.org/news/releases/2012/201252.htm

Beérkezett: 2012. július 26.

A bejegyzés kategóriája: 2013. 1. szám
Kiemelt szavak: , , , , .
Közvetlen link.

MINDEN VÉLEMÉNY SZÁMÍT!