Výhody a úskalí základních typů indexace

Definice indexace

Indexace (též indexování) v relačních databázových systémech znamená „automatické vybrání všech hodnot předem určených položek (…) z databázové tabulky a jejich setřídění do indexového souboru“.[1] V textových databázích při indexaci vybíráme jen slova nebo výrazy, podle kterých lze záznam vyhledat, nikoliv celé hodnoty textových položek. Česká terminologická databáze knihovnictví a informační vědy definuje pojem indexace jako „proces vyjádření obsahu dokumentu pomocí prvků selekčního jazyka, obvykle s cílem umožnit zpětné vyhledávání“. S touto definicí se takřka shoduje i Petr Strossa, který vysvětluje termín indexace jako proces, během kterého dochází k „přiřazení selekčních obrazů dokumentům nebo dotazům“.[1]

Rozdělení indexace

Indexace se rozlišuje podle použitých metod na pojmovou a slovní indexaci. Podle použitých postupů se indexace dělí na intelektuální, automatickou a poloautomatickou.[2]

Automatická indexace

Od 90. let minulého století se stále častěji setkáváme s automatickou indexací. Jde o proces, při kterém se využívá umělá inteligence neboli počítačové programy, aby rozpoznali v textu relevantní pojmy, které charakterizují dokument. Indexaci, kterou provádí odborný pracovník (tzv. indexátor), předčí v mnohém – zejména je levnější a rychlejší. Přestože se vývoj programů pro automatickou indexaci pohybuje rychle vpřed, vývojáři se stále potýkají s řadou problémů.

Lingvistické problémy automatické indexace lze rozdělit do těchto oblastí:[1]

1) významnost jednotlivých slov pro charakterizaci obsahu celého textu

Snad každý text obsahuje slova, která pro indexaci nemají význam. Bývají to slova pro text důležitá z gramatického hlediska, nikoli lexikálního – tedy předložky, spojky, členy, zájmena, modální slovesa. V těchto případech se aplikují tzv. negativní slovníky (též slovníky zakázaných slov, stop-slovníky). Využijí se i tehdy, pokud text obsahuje nadměrné množství slov, třebaže s tématem úzce souvisejí (např. pro oblast zdravotnictví by to mohlo být slovo zdraví).

2) tvarosloví přirozeného jazyka

Z hlediska tvarosloví (morfologie) jazyka bývají problémem při indexaci především slovanské jazyky, které oproti např. angličtině jsou plné skloňování a časování. Proti morfologické bohatosti jazyka je vhodné lemmatizačně ošetřit text. Vytvoří se tzv. lemmata, což jsou abstraktní lexikální jednotky, která zastupují množinu slov, která se k lemmatu vztahují. V konkrétních případech jde často o situace, kdy se rozhodne, že za lemma bude považován 1. pád jednotného čísla podstatného jména nebo kořen slova (např. pod lemma let spadají slova lety, letadla, letící, ale pozor na slovo století, to už má odlišný význam!).

3) otázky synonymie a homonymie výrazů přirozeného jazyka

Pokud jsou v textu vztahy mezi slovy založené na úplném nebo částečném překrytí významu, pak lze tento problém vyřešit indexací pomocí tezaurů. Ty bývají terminologicky zaměřené na danou odbornou oblast. V tezauru se rozlišují dva termíny: deskriptor a nedeskriptor. Deskriptor je zástupce ekvivalentní třídy a existuje pro něj jeden až libovolné množství nedeskriptorů. Mezi deskriptory se pak vymezují vztahy nadřazenosti, podřazenosti, ekvivalence a asociace.

4) číslice a znaky v textu

Při indexaci je také otázkou, jak se vypořádat v textu s číslicemi a symboly jako jsou interpunkce, spojovníky a jiné. Může se rozhodnout, že na ně během indexace nebude brán ohled – v takovém případě o tom ale musí ten, kdo zadává vyhledávací dotaz, vědět. Rozhodnutí každopádně vychází z povahy textu, např. historici potřebují indexovat číslice (letopočty), právníci požadují indexovat číslice v paragrafech zákonů a v biologii má význam indexovat číslice například v názvech vitamínů. V textech z oblasti počítačové vědy se indexují např. i tečky a podtržítka, která mají důležitou úlohu v názvech programů apod. (např. command.com)

Intelektuální indexace

Problémům, se kterými se indexátoři setkávají při automatické indexaci, se lze do jisté míry vyhnout využitím intelektuální indexace. Proces je to sice časově i finančně náročnější a zvládne se většinou zpracovat mnohem menší množství textu, za to ale z hlediska kvality jde přesnější formu indexace. Největší výhodou odborníka indexátora je, že dovede text interpretovat v kontextu, a tím dokáže předejít lingvistickým problémům, s kterými se potýkáme při automatické indexaci.[3]

Odkazy

Reference

  1. 1,0 1,1 1,2 STROSSA, Petr. Vybrané kapitoly z počítačového zpracování přirozeného jazyka. Opava: Slezská univerzita, 1999. ISBN 8072480413.
  2. BALÍKOVÁ, Marie. Indexace. In: KTD: Česká terminologická databáze knihovnictví a informační vědy (TDKIV) [online]. Praha : Národní knihovna ČR, 2003- [cit. 2016-05-25]. Dostupné z:http://aleph.nkp.cz/F/?func=direct&doc_number=000001549&local_base=KTD.
  3. BLAŽEK, Jakub. 2008. Srovnání automatické a intelektuální indexace. Inflow: information journal [online]. 1(4) [cit. 2016-05-25]. Dostupné z: http://www.inflow.cz/srovnani-automaticke-intelektualni-indexace

Použitá literatura

  • BRATKOVÁ, Eva. Digitální knihovny ve vědě a technice: Poznámky z přednášky. ZS 2015/2016. UISK, FF, UK.
  • KOVÁŘ, Blahoslav. 1981. Věcné pořádání informací a selekční jazyky. Praha: Ústředí vědeckých, technických a ekonomických informací. Učební texty UVTEI.
  • KOVÁŘ, Blahoslav. 1982. Věcné pořádání informací a selekční jazyky. Praha: Ústředí vědeckých, technických a ekonomických informací. Učební texty UVTEI.
  • SCHWARZ, Josef. 2008. Současný stav a trendy automatické indexace dokumentů. Ikaros [online]. 7(3) [cit. 2016-05-27]. Dostupné z: http://ikaros.cz/soucasny-stav-a-trendy-automaticke-indexace-dokumentu

Související články