37. évfolyam, 1991. 2. szám
Archívum

Az információkeresés nyelvtudományi vonatkozásai

Rónai Tamás

BLAIR, David C.
Language and representation in information retrieval / D. C. Blair. - Amsterdam [etc.] : Elsevier, 1990. -XIV, 335 p.

David C. Blair , a University of Michigan (Ann Arbor) professzorának ez a műve nem pusztán összefoglalása eddigi szisztematikus kutatásainak, hanem igen sok információt, ismeretanyagot is nyújt, és éppen ezért rendkívül nehéz helyzetbe hozza azt, aki mások számára röviden szeretné összefoglalni a benne foglaltakat.

Ennek a nagyszabású vállalkozásnak intellektuális hátterét szembetűnően jelzi, hogy könyvének mind a hét fejezetét Wittgenstein idézettel kezdi. Ha a művet végigolvassuk, akkor kiderül, hogy a gondosan válogatott idézetek Blair központi témájához szervesen illeszkednek. A szerzőt az igen nagy méretű, teljes szöveges dokumentumbázisok szabadszöveges keresése foglalkoztatja, azaz a dokumentumok (eredeti) természetes nyelvű szövegéből hogyan lehet a számítógép segítségével olyan dokumentum reprezentációkat előállítani, amelyek az adott dokumentum(ok)ra jellemzők. Blair tehát az automatizált szövegelemzésben alkalmazható szemantikai és szintaktikai eljárásokat vizsgálja, és azt kutatja, hogy a nyelvi módszerek miként használhatók fel az információkeresés javítására. Mindehhez a kiindulási pontot Ludwig Wittgenstein (1889-1951) eszméje adja, nevezetesen az, hogy minden nyelvi kijelentés egy-egy tényjelekkel történő kifejezés, amelyben a szavak rendje az objektumok ténybelileg fennálló rendjét ábrázolja.

Blair az információkeresés problémáit átfogóan vizsgálja, azért is, hogy munkahipotézisét igazolja, miszerint az információkeresés új útját a dokumentumok elérése mellett, az azokban foglalt tényekhez (adatokhoz) való hozzáférés jelenti. Ezért is vizsgálja az első fejezetben az információkeresést általában, és felhívja a figyelmet az adatkeresés (data retrieval) és a dokumentumkeresés (document retrieval) közötti különbségekre. Háttérismertetésként az információkereső rendszerek tizenkét formális modelljét vázolja fel, hogy az olvasót elvezesse a második fejezetből a harmadikba, ahol az információkereső rendszerek értékelési szempontjait tárgyalja, a teljesség ( recall ) és a pontosság ( precision ) mértékpárra alapozva.

Művének legterjedelmesebb része a negyedik fejezet, amely az információkeresés nyelvtudományi vonatkozásait vizsgálja. Nem véletlenül, hiszen munkájának központi témáját ezen a helyen fejti ki. (A fejezet címe is erre utal: Language and representation: the central problem of information retrieval.) Részletesen és igen kritikusan ismerteti Saussure , Pierce, Eco, Chomsky, Lakoff, Katz és Fodor elméleteit. Mindezek alapján az alábbi következtetésre jut: az információkeresés szempontjából nem az a lényeges, hogy egy adott kifejezés mit jelent vagy mit jelöl, hanem az, hogy mire és miként használják. Az invertált fájlokon alapuló információkereső rendszerekben az indexfájl tartalmazza a dokumentumok visszanyeréséhez szükséges kifejezéseket. Ezzel szemben a szabadszöveges információkereső rendszerek megengedik, hogy a kereső a számítógépes adathordozón tárolt dokumentumok, illetve szurrogátumok természetes nyelvű szövegében előforduló kifejezéseket (szövegszavakat) felhasználja kérdésének megfogalmazásához. Az ilyen keresések során lényeges, hogy az információkereső rendszer engedje meg az egymásmellettiségi műveleteket (kettő vagy több szó meghatározott sorrend szerinti megtalálását) és a kifejezés-gyakorisági jellemzők alkalmazását.

Az ötödik fejezet a relevancia-visszacsatolás problémáival foglalkozik, amely az információkereső rendszerek értékelésének kérdésköréhez is kapcsolódik, amelyet már a harmadik fejezetben is érintett. Ezen a helyen a relevancia megítélését a használó felől közelíti meg, és új mérési módszerekre tesz javaslatot.

Az ötödik és hatodik fejezetekben az új kutatási irányok felvázolására vállalkozik. A záró hetedik fejezet az eredmények összefoglalását adja.

Befejezésül egy szubjektív megjegyzés: az információkeresés új útjait, jövőjét megjósolni merész vállalkozás; abban azonban egyetérthetünk Blair professzorral, hogy az információkeresésben a nyelvészeti módszerek alkalmazására irányuló erőfeszítések nem hiábavalók.

Országos Széchényi Könyvtár
Észrevételek (2000/04/12)