A hálózat vonzásában

A „linked data” szétfeszíti a könyvtári katalógusok kereteit

Bevezetés
Az információk hálózati elérésének kiterjesztése az utóbbi évek új technológiáinak, fejlett alkalmazási platformjainak hátterével új típusú adatkezelést generált a leírási sémák megújuló, szemantikai jellegű fejlődésével. A változások olyan jelentős új tendenciákat mutatnak a könyvtári átalakulás éveinek útkeresései után (vagy közben), hogy a korábbi módszerek felülvizsgálata elengedhetetlenné válik. A „merre megyünk?” kérdésre folyamatosan keressük válaszainkat. Az új utakon indulók több éves kooperatív elméleti és gyakorlati munkásságának eredményeit látva sürgetővé válik, hogy megértsük, elsajátítsuk, átgondoljuk a webtechnológiát jobban magába olvasztó könyvtári adatkezelés alapjait, és felkészüljünk átvételükre, alkalmazásukra. Vagy azért, mert a hálózati illeszkedés miatt elkerülhetetlen, vagy azért, mert használatukkal sokkal jobb eredményeket kapunk a korábbiaknál. A kétezres évek elején a szemantikus webirányzat megjelenését követően* gyorsan elvesztettük kezdeti reményünket a tömeges bevezetés lehetőségéről. Az utóbbi öt-hét évben viszont a globális rendszerek környezetében gyors léptekkel megindult a hálózati és szemantikus technológiák alkalmazásának fejlődése, amelyek közül könyvtári vonatkozásban a linked data** és az RDF (Resource Description Framework),*** valamint a hozzájuk társuló egyéb szemantikai eszközök és technológiák a legjelentősebbek.
Írásomban áttekintem a linked data és a szemantikus web jelentőségét a könyvtári hálózati információk kezelésének gyakorlatában, a tudás- és információszervezési eszközök felkészítésében. Az információ hálózati és globális jellege miatt az „open access” (nyílt hozzáférés) irányzat szellemében minden információs szolgáltatás minőségének legfontosabb alapköve a felismerhető, azonosítható, visszafejthető adat, adatforrás, adatkapcsolat, amelyekre szolgáltatásokat építhetünk.
A látható eredmények új távlatokat nyitnak, de továbbra is izgalmas kérdés, hogy az elterjedés szintje, a mindennapi alkalmazás erőforrás háttere, az adathalmaz sémák kezelésének tömeges készsége mikorra várható, illetve kialakulnak-e olyan globális adatközpontok, amelyekhez csak csatlakozni kell? A könyvtári adatkezelés jelenlegi fejlődési irányainak bemutatását elsősorban az OCLC tevékenységének hátterével közelítem meg*, amelyben számos közvetlenül megjelenő, gyakorlati eredmény figyelhető meg, elsősorban a 2012-ben bejelentett új fejlődési iránynak köszönhetően. Szeretném felhívni a figyelmet a jelentős elméleti szakírók közül a témához fűződő hazai könyvtári környezetből Horváth Ádám és Dudás Anikó munkásságára, amelyekből sok hasznos információt merítettem.1,2

„Hálózatiság” – a „web of data” és a „linked data”

A linked data kezelése szétfeszíti a leírás alapegységének tekintett rekordszintet, helyette a besorolási, ún. mikroadatok válnak azonosíthatóan és újra felhasználható módon a leírás alapegységévé, egyúttal az új információkezelési irányzat, a web of data (adatok webje) lényegévé. A linked data és vele kapcsolatban az egyéb szemantikus webtechnológiák használatával a strukturált könyvtári adatokat összekapcsolhatjuk a weben lévő információforrásokkal az adott technológia és szabványosítás szintjén, amely mindkét oldalról növeli a kereshetőség eredményeit, és az adatgazdálkodást új dimenzióba helyezi. A linked data elnevezés Tim Berners-Lee-től3 származik, és azt a publikálási és hálózati kapcsolati stílust jelöli, amely a web születésétől kezdve a dokumentumok kapcsolataira (documentum of web), napjainkban pedig az adatok „világhálózatára” jellemző.
A hálózaton a webtechnológiának köszönhetően az objektumok jellemzőit kapcsolataikkal is azonosítjuk és gazdagítjuk, amely a bibliográfiai leíráshoz képest sokkal tágabb és folyamatosan bővülő információs tartalmat jelent. A feltárható vagy megismerhető tartalmakat nem célszerű kihagyni a könyvtári tájékoztatói, feltárási munkánkból (pl. egy-egy műhöz tartozó tévéadás, hanglemez, színházi feldolgozás, stb.), csak meg kell teremteni a legkényelmesebb, leggyorsabb, legpontosabb feltételrendszert ehhez, mert nem elhanyagolható, hány lépésből, hány adatforrás megnyitásával kínáljuk a megoldást. A szemantikus web alkalmazása során a műveknek mint entitásoknak adatokkal történő azonosítása, hivatkozása, visszafejtése bibliográfiai és adatszinten (is) lehetséges. A törekvés nem új keletű, az alapelv visszavezethető az FRBR (Functional Requirement for Bibliographical Resource) szabványcsalád leírási sémára, amelyben a műalkotáshoz, entitáshoz különféle módon kapcsolódnak a kifejezési forma (manifesztátum, a megjelenés formája, módja, helye, stb.) és a mű egyéb jellemzői. A műalkotás mindig egyedi, kapcsolatrendszere viszont egyre szélesebb és kiterjedtebb, beleértve az átdolgozásokat vagy például a digitalizálást is, és előfordulnak kampányszerű, a régi módszerekkel kezelhetetlen információk. Nem lehet kellően informatív a feltárás vagy tájékoztatás, ha ezt a gazdag kapcsolatrendszert nem tudja visszafejthetően ábrázolni a használó számára, függetlenül a tájékozódás kiinduló pontjától. A linked data alkalmazásával ezt az igényt szolgáljuk ki: a weben a különböző források szerteágazó adatait összekapcsoljuk, a jellemzőket szabványosan azonosítjuk meglévő vagy újonnan alkotott azonosítókkal. Az adatokat és a jellemzőket olyan egységes elnevezésekkel látjuk el, amelyek könnyen értelmezhetővé teszik őket a keresésnél az emberi és gépi használat során. Az adatok, adatcsoportok, információforrások, authority indexek stb. megnevezéseihez ezért az általánosan használt, elterjedt szótárak fogalmi készletének és az ontológiáknak alkalmazása ajánlott, amelyek az általános adathalmazcsoportok egységes, közérthető elnevezéséhez (felismeréséhez, kereséséhez, adaptációjához stb.) a legszélesebb használói rétegek és rendszerek számára is megfelelő támpontot adnak (pl. a Library of Congress tárgyszórendszere, a Köztaurusz, az OCLC Web DEWEY és a Schema.org rendszere, a BiblioGraph.net, a Getty tezaurusz stb.).

1. ábra
A Schema.org mű/kreatív alkotás vonatkozó részlete, valamint a nyílt webadatok elérésének
sémája linked data eszközökkel.4

Az 1. ábra jobboldali képén jól látható az OCLC általános fogalmi adathalmazát jelképező gráf (person, place, organization, object stb.), amely adathalmazcsoportok a Wikipédia indextételeiben, a DBPedia fogalom csoportjaiban stb. is kereshetők.
A jelölőnyelvek és szótárak felkészítése egy régóta szükséges nemzetközi kooperációt is életre hívott az adatok, adatforrások, szerzők (és egyéb authority adatok) egységesítésének során, amely az információk hálózatiságából és globális jellegéből eredően természetes fejlődési követelmény. Az adatszintű hálózati kapcsolatokkal dinamizáljuk a leírási és értelmezési feladatot, ugyanis a világ sokféleségét, a változékonyságot nemcsak terjedelmében, hanem módozataiban is dinamikusan tükrözik a viszonylag állandó adatok exponenciálisan növekvő kapcsolatai. Egy új jelenség vagy tulajdonság születése, illetve felismertetése időveszteség nélkül is követhető, ha létező leírási elemeket, azonosítókat kapcsolunk össze. Az információs tartalom nyitottan, bővíthetően, átértelmezhetően, specializálható módon jeleníthető meg, amely különösen fontos az online tájékoztatásban, a „just in time” igények kielégítésében.
A változások környezetében mindig a felkészülés, az átvétel, a felzárkózás, a módszerek transzformálása, az ellenállás és a bizonytalanság leküzdése, az elméleti és gyakorlati feladatok, az erőforrások átcsoportosításának stratégiai tervezése válik kulcskérdéssé. A hálózatiság és az információk globális természete következtében a nemzetközi együttműködéshez közös fejlesztési platformok is készülnek a globális rendszerek környezetében például a könyvtár – a szolgáltató –, a külső partner (vagy akár a használók) részére. Az OCLC linked data fejlesztéseiben a WorldCat világkatalógus (www.worldcat.org) szolgál a szemantikus felkészülés alaprendszerévé két milliárdot meghaladó rekordmennyiségével, amelyhez nemzetközi kooperációval gyűjtik a rekordokat, az azonosított, authority indextételeket, és a linked data és egyéb szemantikai fejlesztés tapasztalatait, eredményeit. A közös fejlesztési platform a WorldShare Managements System (https://www.oclc.org/worldshare-management-services), amelynek felépítése a mérnöki rendszerek infrastrukturális alaposságával készült. Az OCLC minden rendszernél biztosítja a webes technológiára alapozott munkafelületeket (pl. az OLIB IKR rendszer esetében is.). Az új típusú adatkezelés csak a szabályos, korábbi leírási elvek gyakorlatára épülhet, de új képességeket, új munkaköröket is igényel. Látható, hogy az adatspecialistának is nevezett könyvtárosok kialakítják a globális adatkezelés virtuális, szakértői és tudásmenedzsment szervezeteit (a sok példa közül a legújabb a 2015-ben alakult MAG: Metadata Advisory Group).5 Mindezek ellenére még mindig adósai vagyunk a minőségi információszolgáltatás könyvtári megalapozásának elismertetésével az általános hálózati tudás- és információszervezés, valamint a szemantikus web fejlesztésének folyamataiban.

Az információ globális és hálózati jellege a könyvtárban

A webtechnológiák használatánál a globálissá és hálózativá vált információ a végtelen kapcsolatok lehetőségét kínálja, amely alapvető módon hatott a használói szokásokra és a könyvtári szolgáltatásokra. A hálózaton tárolt információkat hálózati módszerekkel lehet leginkább „behálózni”, feltárni, felismerhetővé, kereshetővé tenni. A technológia alkalmazásakor alapszinten két rendkívül fontos célt emelhetünk ki a könyvtár és a használó oldaláról:
a használók új igényeinek megfelelő szolgáltatás, és az ezt megalapozó leírási és adatkezelési gyakorlat megújítása, a webtechnológiai adottságok beépítése a könyvtári adatkezelésbe,
a minőségi könyvtári szemlélet és gyakorlat visszahatása a webtechnológiára és a keresésre.
Az információs vagyon feltérképezésén alapuló minőségi keresés elősegítése, a könyvtári értékhozzáadás bekapcsolása a mindennapos információhasználatba – olyan kétoldalú követelmény, amely a könyvtár tevékenységének, új szerepeinek és társadalmi rangjának elismertetéséhez nélkülözhetetlen.
„Az ember internet nélkül olyan, mintha kívül esne a mátrixon” – ez egy konferencián elhangzott és többször idézett mondat, mely nagyon igaznak hat még az állampolgári jogok gyakorlása szempontjából is. Fel kell tennünk a kérdést, ha a kutatók, tanulók és más állampolgárok az információkat sokféle formában elérhetik a weben, miért tartják a művelődés, szórakozás, a tanulás és az intellektuális élet központi, nyilvános, megújító helyének a könyvtárat? A válaszokhoz jó néhány éve próbáljuk a könyvtár szerepét újrafogalmazni. Számomra a könyvtár ma az a közösségi hely, ahol az új és terjeszkedő információs technológiák egy használó-központú, gazdag és intelligens szolgáltatási környezetben kombinálhatók a tradicionális tudásforrásokkal. Ahhoz, hogy a könyvtárat az intellektuális közösség színhelyének dinamikus forrásaként használjuk, folyamatosan meg kell találnunk a tanulás, oktatás, szórakozás, kutatás támogatásának új útjait, amelyek illeszkednek korunk informatikai, kulturális, oktatási, kutatási stratégiáihoz és a szolgáltatási szektor eszközeihez is.6

A használói szemlélet uralma

A hálózati információk használata, kezelése, az új használói szokások, a mobiltechnológia, a sebesség mint értékmérő stb. jelenségeiben 2006-tól láthatunk teljesen új irányzatokat, amelyek az informatika és a telekommunikáció konvergenciájával és a szemantikus web fejlődésével függnek össze. Sok tanulmány szerzője elemzi, értékeli a változásokat, köztük a szemantikus web lehetőségét, az új generációk használati szokásait, a katalógusok fejlődését és egyben válságát és új szemléletű transzformációját.7 2012 óta jelentős módosulásokat észlelhettünk a metaadatok kezelése és azok publikálásra, keresésre való felkészítése terén, amelyek előzményeiben a használói szokások teljes megváltozását értékelő kutatások állnak. A kutatók a könyvtárakra nézve meglepő változásokra hívták fel a figyelmet a látható okok feltárásával, amelyeknek lényege, hogy a bezárkózás és várakozás helyett ki kell költözni a használók hálózati gyülekezőhelyeire.

A használók nem ott, nem úgy, és nem azt …
Az információáradat gigantikus növekedése nem csak a hálózati elérhetőség követelménye miatt vált nyomasztó feladattá azok számára, akik az információk rendszerezését érzik hivatásuknak. A hálózatiság fejlődő webes eszközrendszereinek folyamatos és dinamikus követése is komoly problémákat okoz a megváltozott körülmények és az erőforrások csökkenése miatt. A divergens kommunikációs környezet, a médiahasználati szokások megváltozása, az új médiaeszközök megjelenése, a közösségi háló, az elektronikus játékokon felnövekvő fiatalok eszközfüggősége, hozzáértése, követelései, a mobil (ún. „sétáló”) információ hangsúlyos szerepe miatt új típusú információk születtek, amelyek előállítása, szerzősége, értéke, terjesztésének gyakorlata, megjelenítési feltételei teljesen megváltoztak, nem illeszthetőek a korábbi gyakorlatokkal. Nehéz dönteni arról, hogy az információk rendezése során milyen új típusú közleményekre, médiaeszközökre kell figyelnie a könyvtárnak. A tartalomszolgáltatásban erősen megalapozott szolgáltatási szemlélet és szakértelem szükséges, amely gyakran kimaradt a tervezésből az üzleti tartalomszolgáltatóknál. Néhány év alatt bizonyossá vált, hogy a könyvtárak nélkül sem a digitalizálás, sem a tartalomszolgáltatás nem működhet mindennapos szervezettséggel – ennek utólagos felismerése lassítja és drágává teszi, akár meg is hiúsíthatja a szolgáltatásokat. A szerepfelfogási útkeresések időszakában a kutatásokban példákkal bizonyították, hogy a használók nem ott, nem úgy, és nem azt keresik, amelyre évtizedes gyakorlatunk alapján felkészültünk. Értékes szolgáltatások szűntek meg vagy szorultak háttérbe. A fiatal korosztály saját igényei visszahatottak a könyvtári rendszerekre (konzumeráció, Web2.0), amelyre a gyors technológiai akceleráció lehetőséget és eszközöket biztosított. Olyan igények is felmerültek a könyvtárakban, amelyeket a korábbi módszereinkkel szinte lehetetlennek látszott teljesíteni a magunknak felállított normák szerint.

Merre megyünk?
A túlterhelés a már-már teljesíthetetlen feladatokkal, a rendszer egyensúlyának, kereteinek felbomlása, a korábbi módszerek megkérdőjelezése, az OPAC válsága stb., a „merre megyünk?” kérdésének feszegetése ismert válsághelyzet a rendszerek változás előtti állapotában. Az internet, a web- és Google-technológia fejlődése látszólag elcsábította a használóinkat, ugyanakkor észrevétlen maradt az a könyvtári munka, amellyel az interneten való eligazodás és információelérés épp a könyvtári szaktevékenység hátterével vált minőségi szinten lehetővé (online katalógusok, tezauruszok, elektronikus és digitális könyvtárak, Google Book, Google Scholar, stb.).

A könyvtári értékszemlélet átmentése
A könyvtárak az átlaghasználó számára rejtve maradnak az internetes útvonalakon („fekete lyuk” szindróma8) és a használók sokasága nem veszi igénybe tudatosan azokat az értékválasztó szolgáltatásokat, amelyekkel a könyvtárosok többletet nyújtanak az információk tömegének kezeléséhez: az értékalapú szelekciót, az értelmezést, a rendszerbe foglalást, az állandó és minőségre törekvő mindennapos rendelkezésre állást. A néhány évig tartó szerepkeresési zavar után jelentős erőkifejtést kell tenni a használók nemzedékeinek visszahódításért.9 Az OCLC a jelenség kezelésére a könyvtári workflow* teljes megváltoztatását javasolja: a rendszereinkben alkalmaznunk kell a könyvtárhoz való visszatérés webes technikáit, pl. a linked data kapcsolatrendszereivel, a használó „mozgásának” tanulmányozására építő új workflow tervezésével, globális rendszerek és technikák közvetlen könyvtári beépítésével. Ahhoz, hogy a használók a könyvtár oldalain találják meg kedvenc eszközeiket, forrásaikat, közösségi és kommunikációs színtereiket, kétoldalú interoperabilitás, vagyis a rendszerszintű együttműködési készség informatikai biztosítása szükséges.
A tapasztalatoknak ez a része azt sugallja, hogy munkánk és eszközeink legmélyét is célszerű transzformálni az új feladatokhoz, amely azonban soha nem jelenti az alapvető eszközök és módszerek elvetését. A fejlődés során meghaladjuk az előzményeket, de nem építkezhetünk légüres térben vagy alapok nélkül.

A mai problémákat nem tudjuk megoldani régi módszereinkkel
A gyakran idézett einsteini gondolat, mely szerint a mai problémáinkat nem tudjuk megoldani azokkal a módszerekkel, amelyekkel azokat létrehoztuk, napjaink helyzetére és változásaira is jellemző. Válsághelyzetben is szerencsésebb a megoldást keresni a megtorpanás, elutasítás, a régihez való ragaszkodás helyett. A kétezres évek elején még azt gondoltuk, hogy haladunk a szemantikus web felé10, és Tim Berners-Lee szemantikus web víziója megoldást hoz a gépi értelmezés lehetőségével az információáradat kezelésére. A gépi értelmezésre képes adatfelkészítéshez azonban az értő és megfelelő kapacitással is rendelkező tömeges munkatársi gárda még nem alakult ki. Bár a W3C által kidolgozott szabványok és ajánlások gyakran már könyvtári szakértők közreműködésével készülnek (pl. Schema Bib Extend Community Group), de még nem látjuk, hogy napi gyakorlatban mikor jelennek meg, ha nem is rutin szinten, de legalább az erre kinevezett könyvtári szakemberek rendszeres használatában az alkalmazások?

A katalógusok válsága vagy reneszánsza?

A MARC rendszerek egyszerre nyújtanak túl sok és túl kevés információt, a használók sokkal többet találnak a Wikipédiában, a Wikidataban és más webes tájékoztató forrásokban. Az adat önálló közlése nem adna többlet információt a MARC rekordokénál, a kibővítésre viszont egyre több forráslehetőség kínálkozik, amelyeket a nemzeti könyvtárak együttműködésben fejlesztenek (Wikidata, DBPedia, VIAF, ISNI stb.). Az adatot leginkább kapcsolatai jellemzik, és a kapcsolati háló növekedése gyakorlatilag korlátlan, amely a szemantikus web fontos jellemzője. A linked data növekedését a hálózati ábrák jól illusztrálják, látható, hogy a könyvtári mikroadatok a kapcsolataik révén átcsúsznak a big data** kategóriába. Az adatok és információk szervezett összekapcsolása nélkül a használónak kell az utat bejárni egyenként, sok forrás alapján vagy a rendszerekhez kialakított közös keresőkre alapozva, amelyek egyidejűleg képesek strukturált és szöveges adatok keresésére, fogalmi szótárak hálójának generálására.11 Ezért kedvelik a Wikipédia-szerű megoldásokat, amelyekben a kapcsolatok rendelkezésre állnak. A kérdés az, hogy milyen szintig kell (lehet) a kapcsolati hálót megalkotni? Hogyan írjuk le adatainkat úgy, hogy a weben lévő adatok, információk és a könyvtári adatok kapcsolatát szervezettebbé és visszafejthetővé tegyük?

„A katalógusadat az érdeklődés reneszánszát éli…”

A hálózati adatkezelés nyílt, kooperatív rendszerekben valósul meg, a könyvtár, a tartalomszolgáltató partner és a kereskedelmi szolgáltatók (pl. Google) oldaláról is, gyakran közös platformon.
A hálózati információhasználat és a különféle eszközök rohamos terjedése és visszahatása megkívánja a korábbi folyamatokhoz alkalmazott eszközeink elemzését és szükség szerinti meghaladását. A bevezetőben már említettük, a használók egy része nem a könyvtárban kezdi a keresést, nem szeretik a könyvtári katalógusokat, sőt néhány külföldi könyvtár is eljutott az OPAC megszüntetésének szándékáig. Ennek ellenére számomra úgy tűnik, hogy a jelenlegi linked data fejlesztések könyvtári szakmai alapja a jól struktúrált könyvtári besorolási adat és indextétel.
Kérdések sokasága bizonyítja, hogy a korábbi katalógus felfogásunktól tovább kell lépnünk, és kezelni kell a válságot, amely viszont egyáltalán nem vonatkoztatható a könyvtárak adatfeltáró munkájára, sőt Lorcan Dempsey, az OCLC kutatója13 szerint a katalógusadat az érdeklődés reneszánszát éli – az informatika és a szemantikus technológia, valamint az egyes szakterületek oldaláról is (biológia, orvostudomány stb.). A katalógusadatok megbízhatóak, ezért beáramlásuk más rendszerekbe és szolgáltatásokba kívánatos és célszerű. Ha az információ hálózativá vált, és az információhoz társuló adatok is hálózati formában jelenhetnek meg, akkor jogos az a felvetés, hogy a rendezettséget elősegítő módszereknek is változniuk kell.

2. ábra
Globális adathálózati együttműködés és platform működési elve az OCLC-nél

Mi lesz a leírás alapegysége?
Rekord szintről az adatszintre
A szemantikus web fejlődését támogató linked data esetében a leírás alapegysége adatszintű, és az adatokra mint önálló entitások leírásaira tekintünk. Az entitások azonosítása, megjelölése, megnevezése és kapcsolataik létesítése általánosan érvényes fogalmi szótárak alkalmazásával történik, amelyeket felkészítenek a szemantikus webtechnológia befogadásához. „A bibliográfiai számbavétel és adatkezelés az új technológia fényében más dimenziókba kerül” (ld. Dudás). Az adatra alapozott feltárásnál az adatkapcsolatok gráf alapúak, ahol a gráf csúcsait a dolgok megnevezései alkotják, az élek a megnevezett dolgok közötti kapcsolatot, tulajdonságot, állítást jelölik. A szerkezet alkalmas gépi olvasásra szolgáló struktúrák létrehozására. A kapcsolatok beépítésével számos weboldalt fűzhetünk azonosított adatunkhoz. A linked data alkalmazások szabványai, leíró sémái és a megnevezésekhez alkalmazott szótárai segítségével az adatkapcsolatok minősítettek és specializáltak lesznek. A 3. ábra a Wikidata* kezelésének lehetőségét ábrázolja, melynek fejlesztésében három európai nemzeti könyvtár és az OCLC vettek részt:

3. ábra
A Wikidata építésének magyarázatos űrlapja* és az Ady Endrére vonatkozó multimédia adatok

A Wikidata szabad felhasználású tudásbázis, mely gépi olvasásra is alkalmas adatokat tartalmaz, és az OCLC mellett három európai nemzeti könyvtár is részt vesz a fejlesztésben, egységesítésben és minősítésben.
A Wikidata kollaboratív, többnyelvű, másodlagos adattár, strukturált adatokat tartalmaz a Wikipedia, Wikimedia Commons, és más Wikimedia projektek támogatásával a szócikkekhez tartozó adatok egységesítésével.

A növekvő adatkapcsolati rendszerekben például a Kovács József féle szerzőtípusnál (zeneszerző, közgazdász, fizikus, stb.) az azonosításához kapcsolatai révén kapunk egyedi tartalmakat (szervezet, idő, hely stb.).
Vegyük példának István királyt, akinek kapcsolatai történeti, családi vonatkozásúak is lehetnek, de például a WorldCat világkatalógusban számos múzeumi, művészeti emlékhely, intézmény, múzeumi sorozat, Erkel Ferenc István király c. operája, ennek előadása, időpontja, helyszíne, vagy akár az István, a király c. rockopera is látható a világ minden tájáról származó dokumentum-leírásokban, amelyekhez teljesen más időpontok, helyszínek, események stb. módosítják az információk tartalmát a linked data adathalmazoknál.

A szemantikus web jelentősége a digitális könyvtárakban
A digitális könyvtár nyitása a szemantikus eszközökhöz annyira magától értetődő, hogy nehéz érveket találni a nélkülözhetetlenségére. A hálózati információkezelés nem képzelhető el a kapcsolatok hálója nélkül, amely természetes módon külső rendszerekhez vezető kapcsolatokat is jelent. A digitális könyvtárnál a bibliográfiai adatok az azonosításhoz nélkülözhetetlenek, de a tartalommal kapcsolatban nagyon kevés információt hordoznak. Mivel az egységes vagy tökéletes bibliográfiai rekordkészítésnek ideái megdőltek, más utakat kellett a rendezettség és feltárás globális fejlesztéséhez keresni: a lineáris, alárendeléses struktúráknál a dinamikus gráftechnológia jobb eredményt, dinamikusabb változáskövetést ígér. „A könyvtári adatok a szemantikus web szabványára ültetve részei lehetnek a Tim Berners-Lee által elképzelt óriás webgráfnak.” (Ld. Dudás)
A linked data leírási koncepció értékének néhány fokmérője:

tisztított, normalizált adatok,
gép által értelmezhető szemantika,
komplex adatlekérdezés előre épített indexek nélkül,
adatkiáramlás az eredeti tulajdonostól más használók számára,
aktív vagy dinamikára képes adatok (kapcsolatok létesítésével),
webszindikáció (a források egyezményes megosztása nyílt online környezetben).14

Linked data – a mozgékony és használathoz vezérelt virtuális adathálózat

Bár a Google és a többi globális keresőszolgáltatás bizonyos szinten, a megszokotthoz képest rendkívüli módon kitágítja lehetőségeinket a kereshetőség szempontjából, az eredmény teljessége és pontossága mégsem mondható kielégítőnek. A 2012. évi fejlesztések előtt különösen jellemző volt a keresések testre szabásának hiánya. Az egyablakos ún. „front end” keresési eszközöket indokolatlanul idealizálták, mondván, sokkal egyszerűbb, mint egy könyvtári OPAC használata, azonban a keresési eredményekben jól látszott a pontatlanság hatása. Mindez indokolta a szemantikai jelleg erősítését a kereskedelmi keresőmotoroknál is a 2010–2012-es években (ld. Google, Hakia, Textwise, Bing, stb.).

Kulcsadatok és adatmodellek
A jó kereséshez már az adatok megnevezésénél meg kell teremteni az egyértelmű felismerés lehetőségét olyan szótárak alapján, amelyek egymással és más külső rendszerekkel is képesek az együttműködésre (pl. Libray of Congress Sucject Headings, Schema.org, WebDewey, Köztaurusz stb.). Az együttműködés érdekében 2010 és 2012 között jelentős kutatások és fejlesztések születtek minden érintett oldalon a szemantikai adottságok fejlesztése érdekében.
A leírás alapegységeként kezelt és azonosított adatok a hozzájuk kapcsolható források hálózatával az információk kapcsolati dinamikájának visszatükrözésére is képesek. Az open linked data technológia alapján az adatok világméretű összekapcsolásával megnő az egységesség jelentősége, amely új megvilágításba helyezi az adatgazdálkodás munkafolyamatainak lépéseit. Az adatvagyon a webtechnológia és a szemantikus web különböző leírási sémáinak használatával részévé válik egy világméretű együttműködésnek, és más dimenzióba helyeződik, jelentősebbé válik az adatgazdák szerepe, megnő a redundancia és az újrafeldolgozás elkerülésének és a tervezőmunkának a követelménye. A források leírására használt RDF leíró nyelv alkalmazása az egyes forrástulajdonosoknál igényli az adatmodellek előzetes tervezését az adathalmaz osztályok meghatározásával. Az adathalmaz-osztályoknál általános és közérthető fogalmak használatára törekednek, amelyek adaptációja, fordítása esetén a félreértelmezés csökkenthető. Az adathalmaz-osztályok kialakításánál épp ezért nagy az átfedés, de az intézmények jellege miatt vannak eltérések is (pl. Library of Congress, OCLC, egyetemek, kutatóintézetek, múzeumok, archívumok stb.), viszont az objektumokra, művekre, jelenségekre, tulajdonságokra néhány adathalmaz megnevezés általánosnak mondható (akár Ranganathan rendszere előhívásaként is): hely, időpont, esemény, stb.
Az adatmodell készítés főbb lépései:
az adatmodell osztályainak meghatározása (pl. személy, mű, hely, szervezet, egyetemnél: kurzus, stb.);
az adatok azonosításához szükséges URI* tervezés;
a létező ontológiák, adatszótárak körének meghatározása, amelyeket az adatmodell tervezésben az osztályok és tulajdonságok meghatározására használni fogunk;
az adatmodellekben használt névtér prefixek meghatározása, amely az adatmodell osztályainak URI-jeiből, illetve a használt ontológiák URI-jeiből áll.
Az adatmodell halmazok meghatározásánál a fejlesztők modellezték a használati szokásokat, a gyakori keresőkérdéseket, ennek nyomán egyeztették a követelményeket és a fogalmi és formális adatmodelleket. Az osztályok kialakításakor meghatározták az osztályok URI elnevezését és URI felépítését, a kapcsolódó (alá-fölérendelt, vagy ekvivalens) csoportokat. Módszertani ajánlások javasolják, hogy használjuk az owl:sameAs formulát a kapcsolatok létrehozására más adathalmazokkal, illetve az rdfs: label, a foaf:description használatát a metaadatok olvasásához.
Az open linked data és a hozzá kapcsolódó jelölő és leíró nyelvek fejlődésével a szemantikus webtechnológia elterjedése és könyvtári alkalmazása ma már reálisabbnak látszik a World Wide Web Consortium (W3C) munkacsoportjainak támogatásával. Kérdés, mi történik a MARC leírási szabványokkal és rekordokkal? Jelenleg a párhuzamos alkalmazás jellemző az OCLC-nél is: a MARC meghatározott mezői fogódzót és alapot nyújtanak a linked data feltárásokra. A MARC kezelésében szerzett felkészültség és gyakorlat rendkívül fontos tényező az adatok szakszerű kezeléséhez, amely nem nélkülözhető az adatokra épülő szolgáltatásokban.

A linked data működési sémája egyszerűen
A weben a forrásokról szóló információk ábrázolására, a kapcsolatok létesítésére szolgáló RDF leírónyelv (a W3C által szabványosítva) adatcsoportjai három részből (triplet) álló kijelentésekből tevődnek össze.15
Az RDF sémával ábrázolt hálózati adatkapcsolati gráf csomópontjaival és éleivel modellezzük a leírt adatokat. A gráfban szereplő minden kijelentést ALANY – ÁLLÍTMÁNY – TÁRGY hármasban (triplet) írunk le, ezért mikroadatoknak is szokták nevezni, amelyek – ahogyan korábban említettük – a hálózati kapcsolatok létesítése során „big data” méretűvé növekedhetnek.
Egyszerű példa a triplet felépítésre:

A tulajdonságok az entitásokat jellemzik, összefűzve jeleníthetők meg az egy dologra vonatkozó jellemzők (írta, illusztrálta, megzenésítette, filmre vitte stb.). Minden osztálynak és tulajdonságnak saját URI azonosítója van, amelyeket a böngészők keresni tudnak, és amelyekkel az adatok az információkhoz és egymáshoz kapcsolódnak. Az alany és állítmány helyén mindig egy feloldható http URI áll, a tárgy pedig vagy egy feloldható http URI, vagy egy szöveges leírás, string. Az RDF segítségével két vagy több adatforrás könnyen összeköthető (ld. a Micimackót Karinthy Frigyes fordította, aki írója a Tanár úr kérem alkotásnak, amelynek illusztrátora … stb.). Az RDF hármasokat három attribútumú relációs adatbázisban tárolják, amelyben a három attribútum rendre alany–állítmány–tárgy konstrukciót alkot (nem a hagyományos nyelvtani értelemben), ezért az RDF adatbázisokat triple store-nak is nevezik. Az adat- és információhalmaz terjedelme és tartalma a felismert kapcsolatok mélységétől és pontosságától függ, ezért a műveltség, a használói szokások ismerete és a tájékoztatási tapasztalat jó hatással van a végeredményre.

Mit hozhatnak a könyvtárak a szemantikus web közösségének?
Adatok nélkül nem alakítható ki a szemantikus webszolgáltatás, sőt a tesztelés sem. Hiába van meg a technológia, a keretrendszer, a jelölőnyelvek, mindezt fel kell tölteni minőségi, ellenőrzött adatokkal. Gazdag adattulajdonosokra van szükség, akik hivatásszerűen foglalkoznak az adatok előállításával, értékelésével, egységesítésével és szolgáltatásával. A könyvtárak (és más, a kulturális örökségvédelemmel hivatásszerűen foglalkozó intézmények), valamint a nyilvános adatokat termelő kutatóintézetek rendkívül gazdag adattulajdonosok. Mint minden jelentős előrelépésnél, a linked data fejlesztéseknél is szükség volt a válság kezelésénél néhány szerencsés körülményre:

A szemantikus web működéséhez az adatokat létre kell hozni, a kapcsolatokat fel kell tárni: műveltség, széles látókör és professzionális intézményi háttér szükséges (pl. könyvtár).
A könyvtárak szeretnék ismertebbé tenni tevékenységüket.
Néhány nagy könyvtári és könyvtárszakmai szervezet fejlődni akart, és képes volt a stratégiai kooperációra (Library of Congress, British Library, OCLC, Europeana, IFLA, JISC stb.).
A technológia vagy annak feltételrendszere készen állt.
A használók a webtechnológiát választották, az internethasználat életformává vált, innovatív módon visszahatva az adatgazda intézményekre, az áttervezés folyamataira.
A könyvtárak szeretnék visszahódítani olvasóikat, a fennmaradáshoz nagyobb társadalmi támogatásra van szükségük, amelyhez a rendszerekben is meg kell tervezni az útvonalakat.

A könyvtáraknak törekedniük kell a szemantikus webtechnológia fejlesztéseiben való részvételre, a szakma megfelelő képviseletére a tipikusín könyvtári szakfeladatokban – amelyhez több szereplős, több intézményből alakuló, egységes képviselet szükséges. „A linked data tervezés és generálás megköveteli a szótárak és a modellek változását, és ehhez a könyvtárak közössége a lehető legtöbbet szeretné hozzáadni.”16

Az OCLC linked data fejlesztései

Az OCLC linked data koncepciójának kiemelt célja17,18, hogy a weben lévő azonosított adatoktól a használó visszajusson a könyvtári forrásokhoz, és megszűnjön a könyvtárak „láthatatlansága”, és ezáltal az értékorientált tevékenységük eljuthasson a használókhoz. A fejlesztések 2006 körül indultak nagyobb léptekkel. A fejlesztések alapja jelenleg a WorldCat, az OCLC világszinten is legnagyobb könyvtári rendszere, amely több mint kétmilliárd rekorddal képviseli a világ könyvtárainak rekordállományát és authority adatait, és az adatok más rendszerekhez vezető kapcsolatait (VIAF, ID Network, ISNI, Wikidata, Wikipédia, DBPedia stb.) Az új típusú hálózati és kooperatív workflow keretrendszerüknek köszönhetően a WorldCat oldalakról közvetlen elérést biztosítanak egyéb belső és külső szolgáltatásokhoz (közeli könyvtárak, másolat rendelés, vélemény és recenzió írás, Facebook, mobil rendszerek, Google Book, Amazon, Elsevier, stb.), és jelentősen nőtt a webforrásoktól a könyvtárakhoz vezető „klikkelések” száma.

A kezdetek – Tim Berners-Lee
Tim Berners-Lee, a világháló feltalálója, jelenleg a W3C igazgatója a szemantikus web 2001-es megfogalmazását követően több cikkben és előadásban ismertette javaslatait a szemantikus web és a linked data működésével kapcsolatban. 2006-ban és 2009-ben közérthető irányelvekben foglalta össze a szemantikus web és a linked data működési alapelveit:
1. Használj URI-t a dolgok/adatok azonosítására!
2. Az URI feloldható URI http legyen, hogy az azonosított adathoz tartalmat fűzhessünk, és visszafejthessük az információ eredetét.
3. Az URI mögötti tartalom szabványokra épüljön (RDF leírási séma).
4. Az adatokhoz létesíts más adathalmazokra mutató kapcsolatokat a weben lévő információk hálózatának és elérhetőségének fejlesztése érdekében!

Könyvtári előzmények
A könyvtárak közel ötven éve rendelkeznek géppel is olvasható bibliográfiai adatokkal a könyvtári gyűjteményekben. Tim Berners-Lee 2006-os instrukcióit követően, az információk hálózati és globális kezelésének követelményéhez kapcsolódva rohamosan fejlődött a linked data technológia a könyvtárakban, különösen a 2010-es évek után.

2011-ben a British Library bejelentette a British National Bibliography linked data változatának publikálását RDF leírási séma alapján.
2010-ben a Deutsche National Bibliothek először az authority adatok linked data változatát valósította meg, majd 2012-ben a bibliográfiai adatokra is kiterjesztette ezt a szolgáltatását.
2012-ben a Library of Congress bejelentette a bibliográfiai adatok linked data formában való megjelenítését, amelynek során a Bibliographic Framework Initiative projekt részeként a MARC21 formátumok alapján készítették el a linked data modellt.
Az IFLA 2012. évi konferenciája az FR, a funkcionális konceptuális modellek és követelmények köré csoportosította a leírással kapcsolatos új könyvtári irányelveket, a korábban kifejlesztett FRBR leírási sémához és a kapcsolódó egyéb követelményekhez igazodó ajánlásokkal. Ezeket követték az RDF, RDA leírási sémák: a weben létező objektum/entitás leírására, fogalmi modellben megjeleníthető, matematikai gráfokkal szemléletesen is ábrázolható kapcsolataik feltárására. (V.ö. Dudás).
2010-től az OSZK-ban is voltak kezdeményezések a linked data technológia adaptálásában, és a hazai múzeumi könyvtárakban az utóbbi években jelentős előrelépés történt, főként az ALIADA projekt környezetében, amely Horváth Ádám nevéhez fűződik. A megnevezések egységességéhez és szabályosságához sorra születtek azok a szótár adaptációk (létező, ismert információkereső-nyelvi szótárak alapján), amelyeket a leírási sémákhoz alakítottak a kooperatív munkabizottságok. A folyamat konvergens volt a keresőmotorok szemantikai fejlesztésével kapcsolatos együttműködésekkel, amelyet már említettünk.

Az OCLC szemantikai fordulata 2012-ben
Az OCLC linked data fejlesztései 2011–2012-ben jelentős előrelépést hoztak, majd 2013–2015-ben az LC-vel (ld. BIBFRAME és a Schema.org) végzett kutatások, leírási séma-egyeztetések újabb fejlődési szakaszt mutatnak, amely jelenleg is tart.17,18 Az OCLC először a kétezres évek elejétől a Dewey Decimal Classification (DDC), a VIAF és később a FAST* rendszereiben valósította meg a linked data feltárást. A nagy lépést 2010–2011-ben a WorldCat linked data szolgáltatás-fejlesztés jelentette, amelynek nyomán a bibliográfiai metaadatok linked data formájában is megjelennek a korábbi formájú leírások, változatos megjelenítési formátumokkal (Turtle, Triple, JSON stb.). 2010-ben bejelentették a FOAF**‒ a személyek közötti kapcsolatok ábrázolására szolgáló modell VIAF-ban történő alkalmazását. A VIAF mint linked data eszköz nagy lehetőséget nyújtott az authority adatok és címek, valamint a könyvtári adatok weben történő linkeléséhez. Ha ma a Wikipédia oldalait keressük, az oldalak alján több esetben láthatunk az oldalhoz tartozó VIAF és egyéb, nagy nemzetközi könyvtári rendszerekhez tartozó azonosítókat, amelyekről egy kattintással jutunk el az eredeti linked data adatsorhoz. Az adatmodell halmazok és a tulajdonságok megnevezéséhez az OCLC a Schema.org jelölőnyelvet használja, amely a szemantikai fejlesztéseik nyomán és a Bib Extend W3C Community Group támogatásának eredményeként az adatmodellezés bázisává vált. Az OCLC általános adathalmaz osztályai: emberek, művek, helyek, események, szervezetek, fogalmak.

4. ábra
Az OCLC RDF adathalmaz csoport gráf és a Schema.org Person/személy*** adathalmaz leírási séma¹⁹

A Schema.org szótár a teljes WorldCat könyvtári adategyüttes keresését biztosítja a keresőmotorok és más rendszerek számára, és lehetővé teszi a könyvtári adatok és a webforrások közötti kapcsolat létesítését. A fejlesztési projekt nem statikus program, folyamatosan változik a webközösség visszajelzései alapján és az LC Bibframe alkotói csapatával folytatott együttműködés, a tesztelések és elemzések nyomán. A kezdeti fejlesztésnél az OCLC kooperációban dolgozott a Google, a Bing, a Yahoo és a Yandex (orosz keresőmotor) fejlesztőivel, és az alapszókészletet a webről származó adatok és keresések aratásával, elemzésével és tesztelésével állították össze. A W3C javasolja a Schema.org jelölőnyelv alkalmazását egyéb külső szektorokban is, pl. az e-kereskedelmi és hírszolgáltatás alkalmazásaiban. Ebben az együttműködésben az OCLC a könyvtári területet képviseli.

5. ábra
A kooperációban fejlesztett Schema.org leíró séma²⁰

A fejlesztésben a British Library, a Bibliothèque Nationale de France, a Deutsche Nationalbibliothek, a National Library of Sweden és további könyvtárak is részt vettek. Az adatok betöltését Apache Hadoop* szoftver segítségével gyorsították hetekről néhány percre. Alapszabványok: URI, HTML5, RDF, Microdata, ISO 8601. Kapcsolódó szabványok: RDFa, Microformat, OWL, N-Triples, Turtle, JSON-LD, CSV. Az újabb leírásokat folyamatosan kapcsolják a Schema.org szótárral az adatmodell halmazok gráf hierarchiája alapján.
A 2012-ben bevezetett és azóta folyamatosan fejlesztett szolgáltatás jelentősége, hogy a technológia sok könyvtár milliós metaadatai alapján olyan platformot szolgáltat, amely lehetővé teszi a használatát a nagy kereskedelmi kereső motorok indexeihez. A Schema.org bevezetése a keresőmotorok és egyéb webböngészők számára egy alapontológiát is jelenthet a könyvtári adatok direkt eléréséhez, és segítségével normalizálhatják a weboldalak jelölését.
A Schema.org szótár kiterjesztései elérhetők a BiblioGraph oldalakon: http://BiblioGraph.net. A BiblioGraph tartalmazza a fogalmakat, amelyeket a könyvtári használatban professzionális forrásleírásra lehet alkalmazni. A BiblioGraph, amelyet szakmai körökben könyvtári tudásgráfnak is szokás nevezni, a Schema Bib Extend Community Group koncepciója alapján készült Richard Wallis (OCLC kutató és evangelista**) közreműködésével és a W3C támogatásával. Közösségi forrásként szolgál, fejlesztésében számítanak együttműködőkre.
Az OCLC linked data modelje hasonló az LC Bibframe szemantikus rendszeréhez, különösen az entitások általános szintű definíciója terén. A hasonlóság a fejlesztések konvergenciáját mutatja, a részletekben azonban van eltérés. A közös kutatások érdekes mozzanata a közös és eltérő tapasztalatok és a tesztelés megosztása. Az OCLC linked data tételei az Open Data Commons* licenc egyszerű jelzéseivel kerülnek publikálásra, vagyis szabályozott a több célú nyílt használat. (Például jelzik, ha csak tanulási, oktatási célra használható az információ, vagy ha egy digitális könyv használata nem engedélyezett és egy kattintással eljuttatnak bennünket az adat- és információgazda oldalaira.)
A következő példában adatazonosító típusokat láthatunk Ady Endrénél. A linkekre kattintva bővebb adatokat hívhatunk elő, amelyekről további kapcsolatok szerint haladhatunk.

creator http://schema.org/creator
http://id.loc.gov/authorities/names/n80126280
http://experiment.worldcat.org/entity/work/da ta/5053028#Person/ady_endre_1877_1919
http://viaf.org/viaf/56604836
http://experiment.worldcat.org/entity/work/da ta/5053028#Person/ady_endre

6. ábra
Szemléletes példa Tolsztoj: Háború és béke c. regényéről

Az OCLC linked data alkalmazásai
Az OCLC legfontosabb linked data technológiát alkalmazó rendszerei és kooperációs megoldásai a WorldCat rendszeren kívül:

VIAF egységesített besorolási adatok nemzetközi virtuális adatbázisa,
VIAF Identity Network authority adatok összegezése grafikusan is,
FAST az OCLC és a Library of Congress együttműködésében, az LC Subject Headings alapján készült tárgyszórendszer,

Schema.org – a Bing, a Google, a Yahoo és a Yandex együttműködésével létrehozott, az interneten szereplő információk strukturálására alkalmas egységes jelölőnyelv szótár,
WEB DEWEY – az ismert könyvtári szak- és tárgyszórendszer netes változata.

Kooperációban fejlődő rendszerek

A Wikidata – a Wikipédia, WorldCat és VIAF kapcsolatának kialakítása együttműködésben az adatminőség javítására, az adatok egységesítésére, azonosítására. A Nemzetközi Szabványos Névazonosító (International Standard (author) Number Identification, ISNI) az ISO 27729/2012 szabványnak megfelelő kódszámot adja a szerzőkhöz, számos más adattal együtt, és nemzetközi kooperációval készül 2012 óta.

Egyéb fontosabb alkalmazott rendszerek

A SPARQL (SPARQL Protocol and RDF Query Language) az RDF lekérdező nyelve, melynek segítségével lekérdezéseket indíthatunk különféle adatbázisokban. A SPARQL a W3C RDF Data Access Working Group (DAWG) csoportja által elfogadott nyílt szoftver szabvány.

Simple Knowledge Organization System (SKOS)

A SKOS tezauruszok és egyéb strukturált és ellenőrzött szótárak megjelenítésére szolgál, része a szemantikus web szabványcsaládnak. A Web Ontology Language (OWL) a világháló ontológiáinak definiálására és példányosítására szolgál. Az XML RDF és az RDF Schema szabványokhoz viszonyítva megkönnyíti a webes tartalmak értelmezését a gépek számára, oly módon, hogy kiegészítő szókincset tartalmaz formális jelentéstannal együtt.

Gyakorlati példa: Erkel Ferenc: István király
Ha például az „István király” keresésével indulunk a Wikipédiában, akkor a leírás alján, a nemzetközi katalógusok alatt megtaláljuk néhány nagykönyvtár azonosított authority adatainak közvetlen elérését, ez esetben a következőket : VIAF: 100194456; LCCN: 50081475 ; ISNI: 0000 0001 1031 7034;GND:11861777X; LIBRIS: 266785.
A VIAF authority rendszer adatainak közvetlen elérését választva a http://viaf.org/viaf/100194456/ link megnyitásával megtaláljuk a névalakokat különböző nyelveken, a könyvtárakhoz tartozó példányoknak megfelelő gráfot, és egy linkről eljutunk a VIAF Identity network forráshoz, amely összesített adatokat ad a WorldCat adatbázisban meglévő, István királlyal kapcsolatos tételekről, összesen 226 műről hét nyelven, és közli (szokásosan) a tétellel kapcsolatos publikációs gyakoriság ábráját a Worldcat rendszerben reprezentált kiadványokkal kapcsolatban. A Wikidata alkalmazásban az István király személyével kapcsolatos történelmi adatokat, adatkapcsolatokat látjuk sajátos, egyedi összetételben.

7. ábra
VIAF Identity Network István király adathalmaza, amely a Wikiépédia István király oldaláról érhető el

A VIAF rendszerben az egyes könyvtárak névalak-adatai látszódnak a 7. ábra bal oldalán, a tételekre kattintva megnyílik adott könyvtár névhez tartozó adatsora. A grafikus ábra a tételekkel rendelkező könyvtárak klasztere, amely nem összevonja az azonos tételeket, hanem hivatkozik ezekre. Innen eljuthatunk a Library of Congress linked data formájában megadott István király adatsorához és az alternatív adatformátumokhoz:
Stephen I., King of Hungary, 975?– 1038

URIs http://id.loc.gov/authorities/names/n50081475
Library of Congress Name Authority File, stb.
Names Collection – Authorized Headings
LC Names Collection – General Collection
http://viaf.org/viaf/sourceID/LC%7Cn+5008 1475#skos:Concept
stb.

Alternatív formátumok

RDF/XML (MADS and SKOS)
N-Triples (MADS and SKOS)
JSON (MADS/RDF and SKOS/RDF)
MADS – RDF/XML, stb.

Az OCLC legújabb eredményei
Az OCLC a linked data technológiát a fejlesztés néhány éve alatt több rendszerében már megvalósította, és 2015 tavaszán 197 millió tétel feldolgozását jelentette be szemantikus web technológiai alapon a WorldCat világkatalógusban22. Az OCLC közös kutatások, kooperációk során (a VIAF, az FRBR módszerek, a WorldCat, Schema.org, FAST, ISNI stb.) demonstrálta, hogyan lehet az entitásokról információt rendszerezni a linked data technológiával, és a könyvtári rekordok komponensei, mint gazdag, hálózati kapcsolt adatok forrásai ‒ hogyan válhatnak a globális adatelérés alapjaivá a weben.

8. ábra
A ISNI és a VIAF szinkronizációjának és az együttműködés szervezetének OCLC ábrája23

2013 óta a hálózati kapcsolt bibliográfiai hátterű adatok elérhetők a WorldCat-ban, a FAST és a VIAF10 verzió authority fájljai definiálásra kerültek a Schema.org alapvető fogalmai alapján a legáltalánosabb adathalmazokhoz, amelyek gráf szerkezetben teszik lehetővé a dinamikus kapcsolatok létesítését más adatokkal.

Néhány jelentôsebb linked data alapelv rövid összefoglalása

Információforrások meghatározása és osztályozása (resources): a webarchitektúra terminológiában minden tételt forrásnak hívunk. A webadatok publikálásához elsőként azonosítani kell saját rendszerünkben azoknak a tételeknek (dolgoknak, entitásoknak és azok megnevezésének) körét, amelyek tulajdonságait és rokonságait le akarjuk írni az adatokban. Alapvetően két forrástípusról beszélhetünk: információforrásról és nem információforrásról (other resources). A két típus megkülönböztetése fontos a linked data kontextusban. Minden forrás, amely hagyományos webdokumentumokban jelenik meg (dokumentumok, képek stb.) az információforrások közé tartozik, de sok egyéb, megosztásra szánt adat nem (emberek, helyek, időpontok, események, fogalmak, koncepciók stb.).

RDF adatmodell: a linked data technológia alkalmazásakor a források leírására használják, egyszerű szerkezetű gráf, néhány csomóponttal, amelyek más gráfokhoz kapcsolódhatnak a webarchitektúrának megfelelő felépítéssel. Az RDF forrásleíró nyelv hármas szerkezetéről (alany–állítmány–tárgy) korábban már volt szó. Az alany (pl. műalkotás, könyv, opera, hanglemez, színdarab stb., vagyis forrás) URI azonosítóval van jelölve. A tárgy egyszerű szövegkonstans, amely lehet betűsor, szám vagy dátum vagy URI azonosító egy másik forrásról, amely valamely módon kapcsolódik az alanyhoz, pl. egy authority fájl. Az állítmány vagy tulajdonság azt jelöli, hogy milyen típusú rokonság áll az alany és a tárgy között, vagyis hogy ez egy név vagy születési dátum vagy valaki, akit ismer, akivel kapcsolatban van a személy. Az állítmány szintén egy URI, amely egy meghatározott (adott körben általánosan erre a célra szolgáló) szótár alapján készült és az információforrások megnevezésére is szolgál. Az RDF szolgáltatja a közös adat absztrakciót és szintaxist a web számára, az RDF Vocabulary (RDFS) és az OWL együtt adja a közös adatmodell (séma) leíró nyelvet a webadatok számára. A SPARQL lekérdező nyelv és protokoll az adatok és a web szabványos interakcióihoz nyújt segítséget.

Webes forrásazonosítás URI-val: elengedhetetlen a kapcsolatok kétoldalúságának, az információforrások „visszafejtésének” biztosításához. A linked data technológiában erre a célra használt http URI azonosító szabályozása a W3C TAG munkabizottsága támogatásával készült (más hasonló azonosító sémák, pl. az URN és DOI helyett). A http URI használata mint forrásmegnevezés és azonosítás két okból is előnyös: a) egyszerű megoldást kínál egyedi elnevezésekhez minden központi szolgáltatás nélkül, b) ezen felül nemcsak névként szolgál, hanem az információforrás elérését és értelmezését is biztosítja a weben a különböző elnevezésekhez meghatározott leírási sémák alapján.* Az URI az információforrásról és a nem információforrásról nem azonos módon küld hivatkozást a domain szerver számára a http válaszkód alkalmazásával. Ha két URI referál ugyanarra a nem információs forrásra, azt URI aliases-nek nevezzük. A könyvtárosok számára ez elég ijesztőnek tűnhet. A felismert azonosságok kezelésére a „nem információforrások” esetében egy linket alkalmaznak (owl:sameAs) az URI alias jelölésére. Az URI visszahivatkozások, visszafejtések a kapcsolt források távoli linkjeiként jelennek meg, amelyek további URI formulákra mutathatnak. Ha a gráfokban kicseréljük a csomókat (nodes), a gráf azonnal változik, sőt létrejöhet összetett gráfszerkezet is. Az URI elemek közötti közlekedés hálószerűen teszi „ bejárhatóvá” egy adat kapcsolati környezetét, és mutatja, hogy egy individuális (azonosított és visszafejthető) forrás hogyan kapcsolódik másokhoz a webadatok környezetében.

Példák URI prefixekre

cc:     http://creativecommons.org/ns#
dbp:     http://dbpedia.org/property/
dbp-owl:     http://dbpedia.org/ontology/
dbr:     http://dbpedia.org/resource/
dc:     http://purl.org/dc/terms/
ex:     http://example.org/
foaf:     http://xmlns.com/foaf/0.1/
owl:     http://www.w3.org/2002/07/owl#

A reprezentáció kérdése: az információforrások a megjelenítést követően válnak elérhető forrássá. A megjelenítés meghatározott formában történik a weben, (pl. HTML, RDF/HTML, JPEG stb.). A „reprezentáció” megjelölést általában az információk géppel olvasható formában történő megjelenítésére használják.

Mely szótárakat célszerű a linked data kontextusokban használnunk? Ahhoz, hogy a dolgokra azonos elnevezéseket használjunk, az emberek és gépek számára is azonosítható fogalmak álljanak rendelkezésre, jól ismert szótárakat alkalmaznak. A linked data fejlesztések előkészületei során a munkabizottságok a szótárak és elnevezések tárgyában nem túl magas szinten strukturált megjelölés halmazokat javasoltak, és egyben olyanokat, amelyek használata globális szintű. A fogalmi megnevezések általános elfogadása megkönnyíti az adaptációt, fordítást és alkalmazást.

Néhány ismert és használt linked data szótár alkalmazás: Friend-of-a-Friend (FOAF) – szótár emberek és emberi kapcsolatok leírására; Dublin Core (DC) – általános metaadat tulajdonságok leírására szolgáló kód és tárgyszórendszer; Semantically-Interlinked Online Communities (SIOC) – szótár az online közösségek reprezentálásához; Description of a Project (DOAP) – projektek leírására szolgáló szótár; Simple Knowledge Organization System (SKOS) – szótár alacsony szinten strukturált tudás-reprezentációk számára, Review Vocabulary – szótár tartalmi kivonatok megjelenítéséhez; Creative Commons (CC) – licenc típusok leírásának szótára stb.

Adatspecialisták virtuális hálózata

Az OCLC 2015-ös EMEA firenzei konferenciája24 a linked data technológiának és a katalogizálás újratervezésének kiemelt szerepet szentelt, és a Metadata Advisory Group (MAG) szekcióban sok vezető könyvtáros fogalmazott meg irányelveket a metaadat funkciójának innovációjával kapcsolatban. A könyvtárak a jó metaadatok előállításában kiemelt feladatot látnak el, amely hasznos a szemantikus web fejlesztői közösségben. A tervezett, célzott, szelektált szolgáltatások hátterében precíz „aprómunka” szükséges (adatok, ellenőrzés, értékelés, tárolás, hozzáférés, prezerválás, jogvédelem, biztonság), amelyekhez olyan szakintézmények háttere a legalkalmasabb, ahol gyakorlati munka is folyik, és ahol a használói visszajelzések is felismerhetők. Az értékelt adatok kezelését célszerű intézményi adatvagyononként, intellektuális objektumként kezelni, amelyhez más típusú adatmenedzsment eljárások szükségesek a korábbinál. Az erőt az újraelőállítás megszüntetése adhatja. Az adatkapcsolati hálók, a webes átjárhatóság kérdéseinek biztosítása a könyvtárak és más intézménytípusok együttműködését igénylik (informatika, W3C, kereskedelmi webes alkalmazások stb.), ugyanis a nyílt elérés elve csak az adatok intelligens szervezésének közösségi biztosításával valósulhat meg. A minőségi szolgáltatáshoz jól szervezett, hálózati, digitális, értékelt és értéknövelt adatok szükségesek, amely a korábban inkább háttérben lévő leírási feladatokat rektorfénybe hozta, és az adatmodellezés műveleteihez más típusú könyvtári készségek is szükségesnek látszanak esetleg új munkakörök keretében (data manager, data scientist, data creator stb.).

Az adatspecialisták közös tudása nem intézményhez kötődik – ezért intézményközi adatlaborok, speciális és virtuális adatszerkesztői hálózatok létrehozására lenne szükség több könyvtár képviselőinek részvételével. Rugalmas, nyitott, kutató és önképző, virtuális adatspecialista közösségi háttérrel könnyebben lehetne váltani az adatszintű leírások rendszeréhez, a szemantikus eszközök kialakításához. A közösség érdeke a felesleges hierarchia, a merev szerepkijelölés elkerülése, az értékes minták keresése, az adatgazdálkodási szemlélet országos megteremtése és stratégiai kezelése, az értékelések és döntések szervezett kommunikációja és dokumentációja. Fontos kérdésnek tartom az együttműködés országos elvét a megvalósításban, a konszenzus alapú megállapodások hátterével nyújtott, egyezményes, egyenrangú, sokszínű és nem uniformizált szolgáltatások érdekében.

Jegyzetek
Az elektronikus források megtekintése: 2015.október 14.
1.    HORVÁTH Ádám: Könyvtári és múzeumi adatok automatikus publikálása a szemantikus weben: az ALIADA projekt ismertetése (http://videotorium.hu/hu/recordings/details/8409, Konyvtari_es_muzeumi_adatok_automatikus_publikalasa_a_szemantikus_weben_-_az_ALIADA_projekt_ismertetese)*
2.    DUDÁS Anikó: A bibliográfiai információk és a szemantikus web. [Recenzió. Kézirat.] ; WILLER, Mirna – DUNSIRE, Gordon: Bibliographic information organization in the semantic web. Oxford, Cambridge, New Delhi, Chandos Publishing, 2013. (Chandos information professional series)** ; DUDÁS Anikó: Nemcsak weben lenni, hanem webből lenni = Könyvtári Figyelő, 59. évf. 2013. 1. sz. 45–64. p. (http://ki.oszk.hu/kf/2013/04/nemcsak-weben-lenni-hanem-webbol-lenni-a-funkcionalis-kovetelmenyek-fr-metaadatmodell-csalad-nevterei-es-a-szemantikus-web) [2015. 09. 04.]
3.    BERNERS-LEE, Tim: Linked Data—Design issues (http://www.w3.org/ DesignIssues/LinkedData.html); (http://www.scientificamerican.com/article.cfm?id=the-semantic-web ) ; BERNERS-LEE, Tim [et al.]: Exploring and analyzing linked data on the semantic web. In: Proceedings of the 3rd international semantic web user interaction workshop, 2006. (http://swui.semanticweb.org/swui06/papers/Berners-Lee/Berners-Lee.pdf) ; BERNERS-LEE. Tim: Linked data, 2006. (http://www.w3.org/DesignIssues/LinkedData.html); BIZER, Christian – HEATH, Tom; BERNERS-LEE, Tim (2009):Linked Data—The story so far = International Journal on Semantic Web and Information Systems, 5. vol. 2009. 3. no. 1–22. p. (doi:10.4018/jswis.2009081901. ISSN 1552-6283)
   (http://www.w3.org/People/Berners-Lee/Publications).
4.    Az 1. ábra forrásai. http://www.oclc.org/data.en.html; https://www.oclc.org/content/dam/oclc/events/2015/EMEARC-2015/BREAKOUT-N.pdf [WALLIS, Richard prezentációjából]
5.    MAG: Metadata Advisory Group. Az OCLC EMEA 2015. évi konferenciáján önálló szekcióban ismertették alapelveiket (https://www.oclc.org/content/dam/oclc/events/2015/EMEARC-2015/BREAKOUT-N.pdf), ld. itt: WALLIS, Richard: Metadata Advisory Group: Making Library Collection discoverable on the web. [Prezentáció]
6.    FREEMAN, Geoffray: The library as place: changes in learning patterns: Collections, technology, and use (http://www.clir.org/pubs/reports/pub129/pub129.pdf)
7.    Perceptions of libraries, 2010 : Context and Community [OCLC kutatás] (https://www.oclc.org/reports/2010perceptions.en.html) ; Seeking synchronicity: evaluating virtual reference services from user, non-user, and librarian perspectives. Funded by IMLS, Rutgers University, and OCLC, Online Computer Library Center (2008) (http://www.oclc.org/research/projects/synchronicity/default.htm);
   CONNAWAY, Lynn Silipigni [et. al.]: Sense-making and synchronicity: information-seeking behaviors of millennials and baby boomers = Libri, 58. vol. 2. no (June), 123–135. p. (www.oclc.org/research/publications/archive/2008/connaway-libri.pdf.) ; SWEENEY, Richard. 2006. Millennial behaviors and demographics (https://certi.mst.edu/…/Article-Millennial-Behaviors.pdf)
8.    WEINBERGER, David: Reinventing invention [Prezentáció az OCLC 2015. évi EMEA konferenciáján.] (https://www.oclc.org/content/dam/oclc/events/2015/EMEARC-2015/Breakout-I.pdf)
9.    HORVÁTH Zoltánné: Könyvtári portálok – a webhasználók visszahódítása = Tudományos és Műszaki Tájékoztatás, 52. évf. 2005. 9. sz. (http://tmt.omikk.bme.hu/show_news.html?id=4046&issue_id=465 )
10.    HORVÁTH Zoltánné: Taxonómia – az egyezményes nyelvek szerepe és rokonságai – útközben a szemantikus webhez = Tudományos és Műszaki Tájékoztatás, 53. évf. 2006. 5. sz. http://tmt.omikk.bme.hu/show_news.html?id =4410&issue_id=472
11.    ADVISE – automata információbróker – könyvtári közös kereső, amely szöveges és strukturált adatokból egyidejű keresést végez, és tématérkép generáláshoz fogalmi hálókat generál (http://www.t-systems.hu/static/internet/download/Advise_prospektus_1_uj.pdf)
12.    A 2. ábra: https://www.oclc.org/content/dam/oclc/events/2015/EMEARC-2015/BREAKOUT-N.pdf OCLC EMEA 2015. évi konferenciájának MAG: Metadata AdvisorGroup szekcióinak előadása.
13.    DEMPSEY, Lorcan: Thirteen ways of looking at libraries. Discovery, and the catalog. Scale, workflow, attention = 2012. Dec. EDUCAUSA Review Online (http://www.educause.edu/ero/article/thirteen-ways-looking-libraries-discovery-and-catalog-scale-workflow-attention), (http://www.oclc.org/research/news/2012/12-14.html)
14.    Web syndication: Things you should know about. (https://net.educause.edu/ir/ library/pdf/ELI7107.pdf)
15.    FLEINER Rita – MICSIK András: Linked Open Data az egyetemen = Informatika a felsőoktatásban 2014. Konferencia, Debrecen, 2014. augusztus 27–29. = (http://eprints.sztaki.hu/8018/)
16.    TEETS, Michael – GOLDNER, Matthew: Libraries’ role in curating and exposing big data (http://www.mdpi.com/1999-5903/5/3/429/htm)
17.    GODBY, Carol Jean – DENENBERG, Ray: Common ground. Exploring compatibilities between the linked data models of the Library of Congress and OCLC (http://www.oclc.org/content/dam/research/publications/2015/oclcresearch-loc-linked-data-2015.pdf)
18.    GODBY, Carol Jean [et al.]: The relationship between BIBFRAME and OCLC’s linked-data model of bibliographic description (http://www.oclc.org/content/dam /research/publications/ library/2013/2013-05.pdf)
19.    A 4. ábra: az OCLC RDF adathalmaz csoport gráfja és a Schema.org Person/személy adathalmazhoz tartozó leírási sémája. (https://www.oclc.org/content/dam/oclc/events/2015/EMEARC-2015/Breakout-I.pdf), http://www.mdpi.com/1999-5903/5/3/429/htm) ; (http://schema.org/docs/gs.html#schemaorg_types; http://schema.org/docs/full.html) A különböző formátumokban az alábbi oldalon találunk leírásmintákat:
   http://experiment.worldcat.org/entity/work/data/5053028
20.    5. ábra: L’ECLUSE, Dénelise: WorldShare platform and Management Services [2013. prezentáció] (https://www.oclc.org/events/2013/ifla2013.en.html)
21.    6. ábra: WEINBERGER, David: Reinventing invention [Prezentáció] (https://www.oclc.org/content/dam/oclc/events/2015/EMEARC-2015/Breakout-I.pdf)
22.    197 millió OCLC Announces 197 Million Open Bibliographic Work Descriptions (http://www.oclc.org/data.en.html)
23.    8 ábra: GATENBY, Janifer: VIAF and ISNI synchronization. (2014) (https://www.oclc.org/content/dam/oclc/events/2014/VIAF-Council/ifla/isni-synchronisation.pdf ) ; DAWSON, Laura: The International Standard Name Identifier (ISNI): A Close Look (http://www.slideshare.net/bisg/the-international-standard-name-identifier-isni-a-close-look-with-laura-daw son)
24.    The art of invention. Culture, technology and user engagement in the digital age.OCLC EMEA Regional Conference, 2015 (https://www.oclc.org/en-europe/events/2015/EMEARC2015.html)
További források
25.    WALLIS, Richard: Forming consensus on schema.org for libraries and more. (http://dataliberate.com/2012/12/forming-consensus-on-schema-org-for-libraries-and-more)
26.    OCLC adds Linked Data to WorldCat.org.(https://www.oclc.org/news/releases/2012/201238.en.html)
27.    Library of Congress. 2012. Bibliographic framework as a web of data. Linked data model and supporting services. Washington, DC: Library of Congress (http://www.loc.gov/bibframe/pdf/marcld-report-11-21-2012.pdf)
28.    DEMPSAY, Lorcan: Libraries and the informational future. ographic framework as a web of data. Linked data model and supporting services. Washington, DC: Library of Congress (http://www.loc.gov/bibframe/pdf/marcld-report-11-21-2012.pdf)
   Some notes (http://www.oclc.org/content/dam/campaign-landing-pages/en/linked-data/dempsey-informationalfutures.pdf)
29.    OCLC Research Activities and IFLA’s Functional Requirements for Bibliographic Records. (2015) (http://www.oclc.org/research/activities/frbr.html?urlm=159763.)
30.    HAUSENBLACH, Michael: Linked data. A prcactical introduction [Prezentáció]. (http://www.slideshare.net/mediasemanticweb/linked-data-michael-hausenblas-2009-03-05)
31.    BIZAR, Chris – CYGANIAK, Richard – HEATH, Tom: How to publish linked data othe web (http://sites.wiwiss.fu-berlin.de/suhl/bizer/pub/LinkedDataTutorial/20070727), későbbi: (http://sites.wiwiss.fu-berlin.de/suhl/bizer/pub/LinkedDataTutorial)
32.   College students’ perceptions of libraries and information resources: A report to the OCLC membership. (2006) (http://www.oclc.org/reports/pdfs/studentperceptions.pdf )
33.    TURTLE: Terese: RDF triple language (http://www.w3.org/TR/2012/WD-turtle-20120710)
34.    Sören, Aurel et al.: DBPedia. a nucleus for a web of open data (http://158.130.69.163/~ives/research/dbpedia.pdf)
35.    Success strategies for electronic content discovery and access: A cross-industry white paper. (2014).(http://www.oclc.org/content/dam/oclc/reports/data-quality/215233-SuccessStrategies.pdf)
36.    FONS, Ted – PENKA, Jeff – WALLIS, Richard: OCLC’s linked data initiative. Using schema.org to make library data relevant on web (http://www.niso.org/publications/isq/2012/v24no2-3/fons/)
37.    ENIS, Matt: OCLC works toward linked data environment | ALA Midwinter 2015 (http://lj.libraryjournal.com/2015/02/technology/oclc-works-toward-linked-data-environment-ala-midwinter-2015)
38. BREEDING, Marshall: Linked data: The next big wave or another tech fad?(2013) http://www.infotoday.com/cilmag/apr13/Breeding–Linked-Data–The%20Next-Big-Wave-or-Another-Tech-Fad.shtml ; What is linked data? (http://www.w3.org/standards/semanticweb/data)
Beérkezett: 2015.szeptember 4.