Vyhledávače, vyhledávací nástroje

Obsah

1 Vyhledávače (search engines)
2 Robot
3 Index
4 Vyhledávací stroj
- 4.1 Efektivita vyhledávání informací
5 Odkazy

Vyhledávače (search engines)

umožňují vyhledávání informací na internetu. Uživatel vyjadřuje svoji informační potřebu zadáním klíčových slov (keywords) ve vyhledávači. Úplný vyhledávací požadavek se nazývá dotaz (query) a je složen z klíčových slov a operátorů.^[1]

Pracují ve 3 základních krocích:

robot (crawler, spider) prochází web a nalézá www dokumenty,
nalezené dokumenty procházejí skrze hypertextové odkazy v nich obsažené procesem indexování,
vyhledávací stroj při zadání dotazu prochází index a vyhledává relevantní dokumenty, které zařazuje na seznam nalezených dokumentů (hitů).^[2]

Robot

prochází webové stránky, analyzuje jejich obsah a řadí je do databáze (indexu). Pracuje podle předem stanovených algoritmů:

Vyhledávání do hloubky: začíná prohledávat jen jeden dokument (příp. jen malé množství dokumentů), z něhož se zaznamená text. Každý z URL odkazů uvedených v tomto textu je zařazen na začátek seznamu dosud nenavštívených míst, přičemž navštívené odkazy jsou ignorovány. Postup se poté opakuje s první položkou seznamu a pokračuje dále ke každému vnořenému odkazu. Když je dokument takto zpracován, vyřadí se ze seznamu.
Vyhledávání do šířky: stejný princip jako při vyhledávání do hloubky, avšak dosud nenavštívené odkazy se zařazují na konec seznamu. Nejprve je tedy zpracováván výchozí dokument, poté odkazy první úrovně atd.
Náhodné vyhledávání: robot si náhodně vybírá jednu položku ze seznamu dokumentů, načte ji a nalezené, dosud nenavštívené, odkazy přidá do seznamu. Když je dokument zpracován, robot ho označí, a tudíž nedochází k duplicitě při procházení dokumentů (např. Lycos).
Souběžné vyhledávání: pro zvýšení rychlosti procházení dokumentů robot používá simultánní přístup k více dokumentům nebo spolupracuje s dalšími roboty současně (např. AltaVista).

Problémy robotů:

Nekonečná rekurze – špatně naprogramovaný robot se může dostat do nekonečného sledu po sobě jdoucích požadavků.
Zahlcení – při extrémní rychlosti robota může dojít k zahlcení serveru.
Přístup k nevhodným adresám – např. výstupy generované CGI skripty a další programové výstupy, soukromé a interní materiály.
Odmítnutí robota – správce serveru může vymezit prostor, jehož obsah nebude roboty zpracováván, např. vytvořením souboru robots.txt v kořeni adresářové struktury dokumentů.^[1]

Každý vyhledávač používá vlastního robota se specifickými vlastnostmi, např. GoogleBot (Google), SeznamBot (Seznam), Slurp (Yahoo) apod.^[3]

Index

je způsob organizace údajů, které jsou shromážděny robotem, a umožňují tak rychlé a efektivní vyhledávání. Jedná se o seznam klíčových slov, v němž je ke každému z nich připojen seznam www dokumentů, kde se konkrétní klíčová slova vyskytují.^[1] Během indexování dochází k úpravám klíčových slov jako je:

sjednocování velikosti písmen,
vyloučení stop slov (předložky, spojky apod.),
stemming (nalezení slovního kmene) nebo
lemmatizace (vytvoření základního tvaru slova).

Děje se tak kvůli zmenšení velikosti indexu a úspoře při jeho fyzickém uložení a kvůli vyšší úspěšnosti při vyhledávání.^[3]

Vyhledávací stroj

je uživatelským rozhraním, kde uživatel zadává svůj dotaz. Ten je vyhodnocen indexem (nejčastěji booleovským či vektorovým modelem), pomocí něhož jsou uživateli nabídnuty nalezené odkazy.^[1]

Pro kvalitní vyhledávač je nezbytný dobrý algoritmus pro výpočet ranku webových stránek, který určuje parametr relevance výsledků vyhledávání, např. PageRank (Google), S-Rank (Seznam) a další.^[3]

Efektivita vyhledávání informací

se měří pomocí přesnosti a úplnosti. Přesnost vyjadřuje podíl skutečně relevantních dokumentů v celkovém výsledku vyhledávání. Úplnost vyjadřuje podíl počtu relevantních nalezených dokumentů k počtu všech relevantních dokumentů. V ideálním případě by výsledky vyhledávání byly co nejpřesnější a zároveň co nejúplnější. V praxi to ovšem není možné, protože obě charakteristiky jsou nepřímo úměrné.^[4] Klíčová je při hledání informací dále jejich aktuálnost a věrohodnost.^[2]

Odkazy

Reference

↑ ^1,0 ^1,1 ^1,2 ^1,3 SKLENÁK, Vilém. Data, informace, znalosti a Internet. Vyd. 1. V Praze: C.H. Beck, 2001, xvii, 507 s. C. H. Beck pro praxi. ISBN 80-717-9409-0.
↑ ^2,0 ^2,1 GÁLA, Libor, Jan POUR a Zuzana ŠEDIVÁ. Podniková informatika. 2., přeprac. a aktualiz. vyd. Praha: Grada, 2009, 496 s. Expert (Grada). ISBN 978-80-247-2615-1.
↑ ^3,0 ^3,1 ^3,2 SOUČEK, Martin. Informační věda [online]. [cit. 2014-09-14]. Dostupné z: http://www.informacniveda.cz/article.do?articleId=1130.
↑ PAPÍK, Richard. Rešeršní strategie a rešeršní služby I. Duha [online]. 2013, roč. 27, č. 4 [cit. 2014-09-13]. Dostupné z: http://duha.mzk.cz/clanky/resersni-strategie-resersni-sluzby-i. ISSN 1804-4255.

Související články

Klíčová slova

vyhledávání informací, robot, vyhledávače

[Sklen.C3.A1k-1] 1,0 ^1,1 ^1,2 ^1,3 SKLENÁK, Vilém. Data, informace, znalosti a Internet. Vyd. 1. V Praze: C.H. Beck, 2001, xvii, 507 s. C. H. Beck pro praxi. ISBN 80-717-9409-0.

[G.C3.A1la-2] 2,0 ^2,1 GÁLA, Libor, Jan POUR a Zuzana ŠEDIVÁ. Podniková informatika. 2., přeprac. a aktualiz. vyd. Praha: Grada, 2009, 496 s. Expert (Grada). ISBN 978-80-247-2615-1.

[Soucek-3] 3,0 ^3,1 ^3,2 SOUČEK, Martin. Informační věda [online]. [cit. 2014-09-14]. Dostupné z: http://www.informacniveda.cz/article.do?articleId=1130.

[4] PAPÍK, Richard. Rešeršní strategie a rešeršní služby I. Duha [online]. 2013, roč. 27, č. 4 [cit. 2014-09-13]. Dostupné z: http://duha.mzk.cz/clanky/resersni-strategie-resersni-sluzby-i. ISSN 1804-4255.

[1]

[2]

[3]

[4]