Analýza vybraných trendů ve věcném pořádání a vyhledávání informací

Trendy v oblasti věcného pořádání a vyhledávání informací jsou spjaty s rozvojem počítačové technologie. Aplikace automatizovaných nástrojů k pořádání informací umožňují ulehčit náročnou intelektuální činnost spojenou s tvorbou, údržbou a využíváním systémů organizace znalostí. Sémantické zpracování dat zase může zpřesnit vyhledávání na webu.

Obsah

1 Pořádání informací a znalostí
- 1.1 Automatická indexace
2 Vyhledávání informací
- 2.1 Sémantický web
  - 2.1.1 Ontologie
3 Zdroje

Pořádání informací a znalostí

Trendy v této oblasti jsou ovlivněny masovým rozšířením elektronických dokumentů a v celkovém pronikání technologií internetu do každodenní práce s informačními zdroji.

Velký nárůst nestrukturovaných informací na webu vyvolal potřebu popisovat dokumenty s využitím systémů organizace znalostí. Do rešeršních systémů jsou integrované prvky k organizaci informací, které fungují na principu počítačové lingvistiky a statistickém zpracování textu, ale stále ještě také závisí na intelektuální činnosti informačního pracovníka. Některé nové metody jsou koncepčně příbuzné se starými. Příkladem jsou různé tezaury a klasifikace, používané k třídění znalostí v systémech obsahující informační zdroje. K vyhledávání jsou poté využívány nástroje a pomůcky jako jsou booleovské nebo proximitní operátory, filtry, fasety, vyhledávání v určitém poli apod. Pro efektivní fungování těchto nástrojů je nejprve nutné každý dokument zpracovat pomocí obsahové analýzy.

Při zhušťování textu se používají metody statistické (využívají frekvencí výskytu lexikálních jednotek), syntaktické (porovnání struktury textu se slovníkem vzorových syntaktických struktur) a metody sémantické (výběrem z hlediska obsahu podstatných informací^[1].

Proces vyjádření obsahu dokumentu pomocí prvků selekčního jazyka nazýváme indexací^[2]. Indexace je časově i intelektuálně náročný proces, který provádí většinou pracovník s odbornou kvalifikací – indexátor. V současné době můžeme využít metodu indexace, která tento náročný proces ulehčí – automatickou indexaci.

Automatická indexace

Automatická indexace je realizována pomocí automatických postupů v počítačovém programu^[3]. Umožňuje odstranit subjektivní faktory intelektuální indexace a také podstatně snížit časovou náročnost indexačního procesu. Na druhou stranu, metody, které celý proces indexace zjednodušují, ve srovnání s intelektuální indexací snižují kvalitu výsledků. Proto jsou technologie automatické indexace většinou implementovány jako hybridní systémy, ve kterých se uplatňuje automatická indexace jako automatizovaná podpora intelektuální činnosti indexátora. Základní princip takových hybridních systémů spočívá v tom, že pomocí automatizované indexace je připraven seznam výrazů, které jsou potenciálními kandidáty pro výběr indexačních termínů. Tento výběr v závěrečné fázi indexace provádí indexátor^[4].

Vyhledávání informací

Rozvíjejí se techniky zpracování informací, a to dvěma zásadními směry. Prvním jsou přístupy statistického zpracování dat. Druhým přístupem jsou techniky spojené s využíváním ontologií, které jsou aplikovány do prostředí internetu. Statistické metody se nezajímají o význam informace. Oproti tomu sémantické techniky se především orientují na přímé využití sémantické znalosti vnořené do formátů pro zpracování strojem. Sémantické technologie se snaží v podstatě aplikovat znalosti o lidské sémantice na strojově zpracovatelnou oblast. Tento směr souvisí s oblastí nazývanou sémantický web.^[5]

Sémantický web

Podrobnější informace naleznete v článku sémantický web

Sémantický web představuje reprezentaci dat na WWW. Všechny informace se definují takovým způsobem, aby jim porozuměli nejen lidé, ale i stroje. Počítač je schopen tyto data automaticky zpracovávat.^[6] Sémantický web je založen na technologii Resource Description Framework (RDF), která integruje aplikace pro syntaktický zápis v XML a identifikátory URI pro pojmenovávání^[7]. Standardizovanou syntaxí pro RDF je XML. Každá vlastnost použitá v RDF/XML dokumentu musí patřit do nějakého jmenného prostoru a každý jmenný prostor musí mít vlastní jednoznačný identifikátor ve formě URI. Jmenné prostory napomáhají čitelnosti dokumentu a jsou uvedeny vždy na jeho začátku uzavřené do rdf:RDF.^[6]

Související informace naleznete také v článku RDF

Vyhledávač nemá k dispozici pouze samotný text, který vidí čtenář, ale i další informace, podle kterých může zvážit obsah uváděného zdroje ^[8].

Ontologie

Podrobnější informace naleznete v článku Ontologie

Ke zvýšení přesnosti webových vyhledávačů mohou být využity ontologie. Ty porovnávají dotaz s indexovanými termíny metadatového popisu dokumentu. S pomocí ontologie je možné zachytit věcnou podstatu znalostí, a tím zabezpečit jejich konzistenci a usnadnit jejich vyhledání. Pokročilejší funkce ontologií lze aplikovat k propojení informací na stránce do struktur souvisejících znalostí a odvozovacích pravidel.^[9]

Ontologie jako formalizované reprezentace znalostí, určené k jejich sdílení a znovupoužití, jsou součástí tvorby sémantického webu. Web opírající se o sémantické značkovací jazyky a ontologie bude mnohem snáze prohledávatelný.

Zdroje

Reference

↑ BALÍKOVÁ, Marie. Problematika věcného pořádání informací a jejich zpřístupnění. Národní knihovna. 2001, 12(3), s. 175-186. ISSN 0862-7487. Dostupné také z: http://full.nkp.cz/nkkr/NKKR0103/0103175.html
↑ BALÍKOVÁ, Marie. Indexace. Praha: Národní knihovna ČR, 2003-. Dostupné také z: http://aleph.nkp.cz/F/?func=direct&doc_number=000001549&local_base=KTD
↑ BALÍKOVÁ, Marie. Automatická indexace. Praha: Národní knihovna ČR, 2003-. Dostupné také z: http://aleph.nkp.cz/F/?func=direct&doc_number=000001507&local_base=KTD
↑ SCHWARZ, Josef. Současný stav a trendy automatické indexace dokumentů. Ikaros. 2003, 7(3). ISSN 1212-5075. Dostupné také z: http://ikaros.cz/soucasny-stav-a-trendy-automaticke-indexace-dokumentu
↑ ŠLERKA, Josef. Dáme práci. Ikaros. 2014, 18(5). ISSN 1212-5075. Dostupné také z: http://ikaros.cz/projekt-dame-praci
↑ ^6,0 ^6,1 MOTEJLKOVÁ, Anna. Sémantický web. Ikaros. 2011, 15(9). ISSN 1212-5075. Dostupné také z: http://ikaros.cz/semanticky-web
↑ MATULÍK, Petr a PITNER, Tomáš. Sémantický web a jeho technologie. Zpravodaj ÚVT MU. 2004, 14(3), s. 15-17. ISSN 1212-0901. Dostupné také z: http://webserver.ics.muni.cz/bulletin/articles/296.html
↑ MICHAL, Černý. Sémantický web – jak dál?. Ikaros. 2009, 13(5). ISSN 1212-5075. Dostupné také z: http://ikaros.cz/semanticky-web-–-jak-dal
↑ SVÁTEK, Vojtěch. Ontologie a WWW. Praha: Vysoká škola ekonomická, 2002. Dostupné také z: https://www.researchgate.net/profile/Vojtch_Svatek/publication/228890592_Ontologie_a_WWW/links/02e7e51a526192e71b000000.pdf

Literatura

BOLDIŠ, Petr. Pořádání informací a znalostí na internetu: analýza a trendy. Praha: Univerzita Karlova v Praze, Filozofická fakulta, Ústav informačních studií a knihovnictví, 2008.
KUČEROVÁ, Helena. Co analyzujeme při obsahové analýze dokumentů? K pojmu aboutness v organizaci znalostí. Knihovna [online]. 2014, 25(1), s. 36-54. Dostupné také z: http://oldknihovna.nkp.cz/pdf/1401/141036.pdf

Související články

Tradiční systémy pořádání informací a znalostí - vlastnosti a možnosti jejich využití
Modely, principy a nástroje vyhledávání na webu a jeho trendy
Automatická indexace
Sémantický web

Klíčová slova

věcné pořádání informací a znalostí, automatická indexace, sémantický web, ontologie

[1] BALÍKOVÁ, Marie. Problematika věcného pořádání informací a jejich zpřístupnění. Národní knihovna. 2001, 12(3), s. 175-186. ISSN 0862-7487. Dostupné také z: http://full.nkp.cz/nkkr/NKKR0103/0103175.html

[2] BALÍKOVÁ, Marie. Indexace. Praha: Národní knihovna ČR, 2003-. Dostupné také z: http://aleph.nkp.cz/F/?func=direct&doc_number=000001549&local_base=KTD

[3] BALÍKOVÁ, Marie. Automatická indexace. Praha: Národní knihovna ČR, 2003-. Dostupné také z: http://aleph.nkp.cz/F/?func=direct&doc_number=000001507&local_base=KTD

[4] SCHWARZ, Josef. Současný stav a trendy automatické indexace dokumentů. Ikaros. 2003, 7(3). ISSN 1212-5075. Dostupné také z: http://ikaros.cz/soucasny-stav-a-trendy-automaticke-indexace-dokumentu

[5] ŠLERKA, Josef. Dáme práci. Ikaros. 2014, 18(5). ISSN 1212-5075. Dostupné také z: http://ikaros.cz/projekt-dame-praci

[anna-6] 6,0 ^6,1 MOTEJLKOVÁ, Anna. Sémantický web. Ikaros. 2011, 15(9). ISSN 1212-5075. Dostupné také z: http://ikaros.cz/semanticky-web

[7] MATULÍK, Petr a PITNER, Tomáš. Sémantický web a jeho technologie. Zpravodaj ÚVT MU. 2004, 14(3), s. 15-17. ISSN 1212-0901. Dostupné také z: http://webserver.ics.muni.cz/bulletin/articles/296.html

[8] MICHAL, Černý. Sémantický web – jak dál?. Ikaros. 2009, 13(5). ISSN 1212-5075. Dostupné také z: http://ikaros.cz/semanticky-web-–-jak-dal

[9] SVÁTEK, Vojtěch. Ontologie a WWW. Praha: Vysoká škola ekonomická, 2002. Dostupné také z: https://www.researchgate.net/profile/Vojtch_Svatek/publication/228890592_Ontologie_a_WWW/links/02e7e51a526192e71b000000.pdf

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]