Osztályozási rendszerek a világhálón

Kategória: 1999/ 6

1. Bevezető

A World Wide Web (WWW, röviden Web) és vele az általánosan hozzáférhető és felhasználóbarát felületek megjelenését követően viharos gyorsasággal születtek meg és fejlődtek hatalmas rendszerekké a különféle keresőszolgáltatások, mint például az AltaVista, HotBot, InfoSeek, Magellan, Excite, Yahoo!, Magyarországon pedig az AltaVizsla, Heuréka, Hudir. Ezekre a rendszerekre szemantikai szempontból nemcsak a hagyományos on-line adatbázisokhoz képest könnyebb kezelhetőség, hanem az asszociatív gondolkodással jobban összhangban álló keresési struktúrák is jellemzők.

A Web keresőszolgáltatásaiban alkalmazott információkereső nyelvek/osztályozási rendszerek a felhasználó szempontjából fontos jellemzői a következők

  • kizárólag természetes nyelven alapulnak;
  • rendkívül rugalmasan használhatók;
  • rendkívül változatos típusú információk kereshetők egyazon információkereső nyelvvel/osztályozási rendszerrel (a dokumentumleírásoktól kezdve a testületi információkon, menetrendeken, telefonszámokon, statisztikai adatokon, utazási információkon át a magánjellegű tényadatokig).

Könyvtáros szempontból figyelemre méltó és nem valami köztudott, hogy a hálón belül ugyanúgy megjelent az a két alaptípus, amely a könyvtári világban hagyományos: az egyedi szavakat alkalmazó “nyelv”, ill. a hierarchikus struktúrákba szervezett osztályozási rendszer.

Az előbbiek túlnyomórészt automatikus indexeléssel feltárt indexszavas (szabad szövegszavas) információkereső nyelvek. Az ilyen keresőnyelvet használó szolgáltatások (Hot Bot, InfoSeec, Heuréka stb.) leszedői általában kötött szótár nélkül válogatják ki a szövegszavakat. Ritkán előfordulnak közöttük már olyanok is, melyekben kötött szótárat, néhányukban (pl. AltaVizsla, Kolibri) tezauruszt is használnak. Ez utóbbi szolgáltatások információtételeinek relevanciája általában lényegesen nagyobb.

Az utóbbiak hierarchikus osztályozási rendszerek (melyeket a Yahoo!, Hudir stb. keresőszolgáltatásokban alkalmaznak). Az osztályozási rendszert és a benne többnyire intellektuálisan feltárt információtételek (html-rekordok, tényadatok) együttesét szokták nevezni Internet katalógusnak. Bennük a hierarchikusan strukturált osztályok szerint rendeződnek a tételek.

Ugyanaz a keresőszolgáltatás sokszor mindkét rendező rendszerrel szolgáltat (pl. AltaVista, Lycos, Magellán, Hudir).

A pontos márkanév a felkiáltójelet is tartalmazza (Yahoo!), melyet a jobb olvashatóság kedvéért elhagytunk.

Az alábbiakban a Web keresőszolgáltatásaiban alkalmazott osztályozási rendszerek néhány jellemzőjét fogjuk áttekinteni.

2. Az internetkatalógusok osztályozási rendszerei

A Web keresőszolgáltatásaiban alkalmazott osztályozási rendszereket a Yahoo példáján mutatjuk be, mely a jelenleg ismert katalógusok között egyike a leggazdagabb választékot kínáló szolgáltatásoknak. Belépőlapja (portálja) az 1. ábrán látható.

 

1. ábra. A Yahoo! internetkatalógus belépőlapjának részlete,
melyen az osztályozási rendszer legfelső szintje látható

Ezeknek az osztályozási rendszereknek az osztályait, függetlenül azok szintjétől, a szolgáltatók általában “kategóriáknak” nevezik. Ez és sok más elnevezésbeli eltérés a hagyományostól feltehetően éppen abból ered, hogy a készítőkben nem is tudatosult: olyan rendező rendszert terveztek és használnak, melybe besorolják, osztályozzák az információtételeket. Innen nézve nem a rendszer logikai. (kategoriális), hanem besoroló, “tartalmazó” szerepéről van szó, azaz dolgok (html-rekordok) osztályairól (nem pedig html-rekordok “kategóriáiról”).

A szisztematikus rendezés hiánya

A tervezők hagyományoktól való érintetlensége abban is megmutatkozik, hogy az egyes szinteken az ilyen típusú rendszerek többségében az osztályokat nem szisztematikusan, hanem betűrendben jelenítik meg. Indokaik kétségtelenül nyomósak:: a lehető legkevesebb szellemi erőfeszítést szeretnének okozni a végfelhasználónak. A legfelső szinten még nem annyira feltűnő, hogy a hierarchikus rendszer adott szintjén össze nem tartozó osztályok kerülnek egymás mellé, mert ezen a szinten minden keresőszolgáltatásban a lehető leggyorsabb áttekintésre törekszenek: egy pillantással lehessen fölmérni, hogy a rendszer lényegében mit és hol tartalmaz. Az alsóbb szinteken azonban szokatlan találkozások adódnak. A Science (Tudomány) második szintjének több mind 60 osztálya például így kezdődik: Acoustics (Akusztika), Agriculture (Mezőgazdaság), Alternative (Alternatív technikák), Amateur science (Amatőrök által művelt szakterületek), Antropologhy and Archeology (Embertan és régészet), Artificial Life (Mesterséges élet) stb.

A hierarchikus rendszer nem különösen “mély”: alig 3-4 szintet tartalmaz. Ezért jelenik meg a második és a harmadik szinten olykor nagyon sok osztály. A szerkesztők valószínűleg nem mernek a már széles körben megismert főszerkezeten változtatni; ilyen változtatás nélkül azonban nem oldható már meg, hogy az egyes szinteken az osztályok számát csökkentsék. Az egész emlékeztet a termeszek hangyaboly-építményeire: a fejlődés szerves és nagyon gyakorlatias, mindig kizárólag a lehetőségekhez igazodik, sohasem elvekhez. Kétségtelen, hogy az elvek alkalmazásának vannak praktikus határai. De az is igaz, hogy a prakticitás túlfeszítéséből is adódnak határok. Van, amikor már nincs megtévesztőbb, mint a realitás.

A polihierarchikus szerkezet

Az eddig megjelent átfogó Internet katalógusok egyetemes célú osztályozási rendszereit nem jellemzi a felosztási szempontok következetessége. Érezhető, hogy kereskedelmi szempontok érvényesülnek az osztályok fölvételében: az a felfogás, hogy “mi van azon a szakterületen eladható információ”. Csak feltételezzük, hogy a keresőszolgáltatások gépei által feldolgozott információtételek mennyiségének növekedésével a rendszerek finomszerkezete tartalmilag fokozatosan koherensebbé válik. Ugyanakkor az alkotók szakmai érintetlenségének előnyei is vannak: friss szemmel vágtak neki a világ rendező célú felosztásának, s ez hosszabb távon nem maradhat következmények nélkül a hagyományos könyvtári és dokumentációs osztályozásra sem.

Különösen hasznos megoldások születtek az ilyen osztályozási rendszerek hierarchialáncai között. Ennek alapja, hogy a hypertext a kereszthivatkozások eszményi rendszere, és ezt hasznosítják a hierarchikus szerkezeten belül is. Itt is létrehoznak keresztirányú összefüggéseket. Ez abban nyilvánul meg, hogy egy-egy osztály egyszerre több magasabb szintű osztály alárendeltje is lehet, az osztályozási rendszerek tehát – szemben a hagyományos egyetemes könyvtári rendszerekkel – polihierarchikusak. Ez olykor rendkívül bonyolult, néha már lehetetlennek tűnő struktúrákat eredményez, de a felhasználót nagyon jól szolgálja, mert az ismétlődések következtében a hierarchikus rendszer redundáns.

A 2. ábrán azt láthatjuk, hogy például a Motorcycles (Motorkerékpárok) hány különféle hierarchialáncon belül jelenik meg. Mindig van egy “gazdaosztály” (“szülőosztály”), melyhez a polihierarchikusan alárendelt alosztály kapcsolódik (a többi előfordulást a megjelenítésben a @ jellel jelölik).

2. ábra. A Motorkerékpárok (Motorcycles) polihierarchikus előfordulása a Yahoo!
osztályozási rendszerében

A helyzet azonban ennél bonyolultabb. A szerkesztők friss szemléletét minden jel szerint nyelvészeti szempontok sem kötik gúzsba: nem sokat foglalkoznak például a homonimák megkülönböztetésével. Gyakori, hogy ugyanazzal a névvel nem ugyanazt az osztályt jelölik, hanem másikat, amelynek vagy nem ugyanaz a terjedelme (nem azonosak a hozzá besorolt információtételek), vagy nem ugyanaz a felosztása (nem azonosak az alatta megjelenő alosztályok). Például a Motorkerékpárok osztályai között van olyan, amelynek sokkal részletesebb a felosztása, mint a többinek. A “Recreation – Automotive – Motorcycles” és a “Recreation – Hobbies – Models – Motorcycles” láncban a Motorkerékpárok osztálya sokkal több alosztályt tartalmaz, és ezek elemzése alapján e két osztály-előfordulást a következőképpen kellene megkülönböztetni a többi, ugyanilyen nevű osztálytól: “Motorkerékpárok (a szabadidő és a barkácsolás szempontjából)”. A szerkesztők nyilván abból indulnak ki, hogy maga a hierarchialánc is definiálja a jelentést. Hozzá kell azonban tenni, hogy “adott esetben”. Más esetekben ugyanis eltérő hierarchialáncokban ugyanaz az osztály szerepel (pl. Motorkerékpárként), azaz az eltérő hierarchialánc nem definiál eltérően.

A struktúrák gazdagsága

Hogy ezeknek az osztályozási rendszereknek a rejtett szerkezeti bonyolultságát jobban lássuk, a 3. ábrán a Yahoo! osztályozási rendszerének egy részletét kiemeltük, és címkézett irányított gráffal ábrázolva mutatjuk meg.

 

3. ábra. A Yahoo! polihierarchikus osztályozási rendszeréek részlete címkézett, irányított gráf formájában

 Az előbbiekben tárgyalt Motorkerékpárok osztály összefüggéseit a jobb elkülöníthetőség kedvéért nem félkövéren jelenítettük meg.

A gráf alapján a következők ismerhetők fel.

  • Az Agricultural enginering (Agrotechnika) egyrészt az Agriculture (Mezőgazdaság), másrészt – @ jelöléssel – az Engineering (Mérnöki tudományok/Technika) alosztálya.
  • Az Aerospace engineering (Repüléstechnika) az Engineering és a Companies (Cégek), továbbá Aviation and auronautic (Légügy/Repüléstan) néven a Science (Természettudomány) alosztálya, mely utóbbinak ugyanakkor tranzitív alárendeltje.
    Az, hogy ugyanazt az osztályt más néven a tranzitív fölérendelt alá rendeljék, hajmeresztő a hagyományos osztályozási rendszerek ismerőjének (olyan ez, mintha a Kutyát egyrészt alárendelik a Háziállatnak, ugyanakkor Eb néven az Állatnak, melynek ugyanakkor a Háziállat a közvetlen alárendeltje). A piaci viszonyok terén iskolázott rendszertervező viszont abból indulhatott ki, hogy a Természettudományok felől nézve jobban fest az általánosabban megfogalmazott osztálymegnevezés (Légügy…), nem pedig a Repüléstechnika, amely viszont a Technika felől nézve adekvátabb osztálynév.
    Azt is észre kell venni, hogy az Aerospace engineering az Engineering alá rendelve valójában olyan osztályt képvisel, amely a repüléstechnikára vonatkozó információk tételeit tartalmazza, a Companies alá rendelve pedig azt, amely a repüléstechnikával foglalkozó cégek információit tartalmazza. Ennek a példának az esetében nincs a Yahoo!-ban különbség a két osztály terjedelme (információtételei) között.
  • Az Engineering esetében azonban van. Ebből ugyanis két osztályt találunk, de ez a két osztály nem ugyanaz: a Cégeknek alárendelt osztály ugyanis – melyet dőlt betűvel jelenítettünk meg – csak a műszaki tevékenységeket végző cégek információtételeit tartalmazza, a Természettudományoknak alárendelt Engineering ezzel szemben minden, a technikára és a műszaki tudományokra vonatkozó információtétel osztályozására való. – A dőlt betűvel megjelenített Engineering alárendeltje az Agricultural (Mező- gazdasági) [így, jelzősen], mely az agrotechnikai cégek információtételeit tartalmazza. Ugyanennek az osztálynak az Agrotechnika alárendeltségében viszont Companies (Cégek) a neve. Ha belegondolunk, ez egész logikus: az Agrotechnika felől nézve cégekről, a műszaki cégek felől nézve meg “mezőgazdaságiról”, azaz Agrotechnikai (cégekről) van szó. – Talán a legmerészebb húzás, amikor ugyanazt az osztályt alárendelik egy másiknak, ugyanakkor fölérendelik neki. Ez a helyzet az Aerospace (= Aerospace companies@) és az Aviation között. De ha meggondoljuk, hogy ezekben az osztályozási rendszerekben egyáltalán nincs pontosan meghatározva, hogy mit is értünk tulajdonképpen azon a reláción, amely az egyes osztályokat összekapcsolja, ez a megoldás korántsem olyan hajmeresztő, mint ahogy logikai szempontból látszik. Eddig ugyanis abból indultunk ki, hogy az Internet katalógusok osztályozási rendszerei hierarchikusak, és alapvetően csak alá-fölérendeltségi kapcsolatok vannak. Valójában azonban olyan rendező rend- szerekről van szó, melyekben nincs egyértelműen definiálva a kapcsolat: lehet hierarchikus (az esetek többségében), de van, amikor egyszerűen csak annyit jelent, hogy “lásd még”. Az Aerospace és az Aviation között valójában az utóbbi összefüggésről lehet szó, és ez logikailag teljesen megengedett. Más lapra tartozik, hogy ezekben az osztályozási rendszerekben a mindenkori, definiálatlan relációt csak az jelöli, hogy “az egyik következik a másik után”. Ha a tezauruszszabvány szerint pontosan jelölnénk a tárgyalt esetet, a 4. ábrán látható szócikkeket kapnánk:

 

4. ábra. Yahoo összefüggések szabványos tezauruszcikk formában

Az osztályok típusai

A Yahoo! belépőoldalát vizsgálva többféle osztálytípus különíthető el. Könyvtárszervezési szempontból azt mondanánk, hogy ahány osztálytípus, annyiféle gyűjtőkári forrástípus.

Szakterületek, tudományok, tevékenységi körök

Arts&Humanities (Művészet és társadalomtudomány)

Bussines&Economy (Kereskedelem és gazdaság)

Computers&Internet (Számítástechnika & Internet)

Education (Oktatás-művelődés) Stb.
Ezek az osztályok felelnek meg a dokumentumok hagyományos osztályozási rendszereiben alkalmazott osztályoknak, de itt is lépten-nyomon érheti az embert meglepetés: valamelyik szakterületen belül felbukkanhat apróhirdetéseket tartalmazó osztály vagy tényadatokat tartalmazó osztály stb.

Kereskedelmi jellegű osztályok:

Shopping (Bevásárlás)

Travel Agent (Utazási irodák)

Classified (Apróhirdetések, üzleti)

Personals (Apróhirdetések, személyi)
Ezek elsősorban arra valók, hogy az adás-vételt támogassák. Az osztályok erősen válogatott, csak a rendelésfeladás szempontjából szóba jöhető szakterületek. Ezeken belül a besorolt információtételekből kiindulva megrendelhetők árucikkek, utazáshoz jegyek, elérhetők a hirdetések feladói.

Adattárak, címek, helyek osztályai

Yellow Pages (Szakmai telefonkönyv)

People Search (Drótpostacím és személykeresés)

Maps (Térképek)
Ezekben az osztályokban cégek, személyek adatait tartalmazó információtételek találhatók, a térképek esetében pedig helyek azonosíthatók vizuálisan.

Hírek, tényadatok

Today`s news (Aktuális hírek)

Stock Quotes (Tőzsdehírek)

Sports (Sporthírek)

Weather (Időjárás-jelentés)

TV (Tévéműsor)
Ezekben az osztályokban tényadatok szerepelnek.

Segítségek, gondűzők

Calendar (Naptár, események)

Games (Játékok)

Pager (Letöltő)

My Yahoo (Testre szabott Yahoo!)

Yhooligans (Kapcsolatok)

E-mail (Drótposta bejelentkezés)
Ezekben az osztályokban a mindennapokban hasznos eszközök találhatók meg játékok. Valójában nem is tekinthetők osztályoknak, hanem speciális szolgáltatások belépőpontjainak.

Külön említést érdemel a Yahoo esetében, hogy már nagyon sok nyelven elérhető (a World Yahoo osztály alatt találhatók meg az egyes nyelvi változatok, melyek nem pontos másolatai az angolnak, hanem az adott ország körülményeihez alkalmazkodó variációk (van már kínai nyelvű változat is).

Az elérhetőség nyelvi meghatározása mellett a regionális finomítás is lehetséges (Yahoo Get Local).

3. Összegezés

Összefoglalva azt mondhatjuk, hogy ezekben az osztályozási rendszerekben számos rendkívül rugalmasan alkalmazott megoldásra bukkanunk, ezek jelentős része a Web körülményei között akkor is beválik, ha logikailag ellentmondásos, de előfordulnak a rendszer koherenciáját gyengítő megoldások is, melyek a későbbi fejlődés során bonyodalmakat okozhatnak. Például akkor, ha a hierarchikus összefüggések mentén automatikus találatbővítést vagy -szűkítést kellene megvalósítani. Egy ilyen esetben nem kerülhető meg az összefüggések ellentmondásmentes megvalósítása. A Web osztályozási rendszereinek fejlődésében jelentős tartalékok vannak, és előbb-utóbb megtermékenyítő hatásuk lesz a hagyományos osztályozási rendszerekre.

Címkék