Vyhledávače, vyhledávací nástroje
Obsah
Vyhledávače (search engines)
umožňují vyhledávání informací na internetu. Uživatel vyjadřuje svoji informační potřebu zadáním klíčových slov (keywords) ve vyhledávači. Úplný vyhledávací požadavek se nazývá dotaz (query) a je složen z klíčových slov a operátorů.[1]
Pracují ve 3 základních krocích:
- robot (crawler, spider) prochází web a nalézá www dokumenty,
- nalezené dokumenty procházejí skrze hypertextové odkazy v nich obsažené procesem indexování,
- vyhledávací stroj při zadání dotazu prochází index a vyhledává relevantní dokumenty, které zařazuje na seznam nalezených dokumentů (hitů).[2]
Robot
prochází webové stránky, analyzuje jejich obsah a řadí je do databáze (indexu). Pracuje podle předem stanovených algoritmů:
- Vyhledávání do hloubky: začíná prohledávat jen jeden dokument (příp. jen malé množství dokumentů), z něhož se zaznamená text. Každý z URL odkazů uvedených v tomto textu je zařazen na začátek seznamu dosud nenavštívených míst, přičemž navštívené odkazy jsou ignorovány. Postup se poté opakuje s první položkou seznamu a pokračuje dále ke každému vnořenému odkazu. Když je dokument takto zpracován, vyřadí se ze seznamu.
- Vyhledávání do šířky: stejný princip jako při vyhledávání do hloubky, avšak dosud nenavštívené odkazy se zařazují na konec seznamu. Nejprve je tedy zpracováván výchozí dokument, poté odkazy první úrovně atd.
- Náhodné vyhledávání: robot si náhodně vybírá jednu položku ze seznamu dokumentů, načte ji a nalezené, dosud nenavštívené, odkazy přidá do seznamu. Když je dokument zpracován, robot ho označí, a tudíž nedochází k duplicitě při procházení dokumentů (např. Lycos).
- Souběžné vyhledávání: pro zvýšení rychlosti procházení dokumentů robot používá simultánní přístup k více dokumentům nebo spolupracuje s dalšími roboty současně (např. AltaVista).
Problémy robotů:
- Nekonečná rekurze – špatně naprogramovaný robot se může dostat do nekonečného sledu po sobě jdoucích požadavků.
- Zahlcení – při extrémní rychlosti robota může dojít k zahlcení serveru.
- Přístup k nevhodným adresám – např. výstupy generované CGI skripty a další programové výstupy, soukromé a interní materiály.
- Odmítnutí robota – správce serveru může vymezit prostor, jehož obsah nebude roboty zpracováván, např. vytvořením souboru robots.txt v kořeni adresářové struktury dokumentů.[1]
Každý vyhledávač používá vlastního robota se specifickými vlastnostmi, např. GoogleBot (Google), SeznamBot (Seznam), Slurp (Yahoo) apod.[3]
Index
je způsob organizace údajů, které jsou shromážděny robotem, a umožňují tak rychlé a efektivní vyhledávání. Jedná se o seznam klíčových slov, v němž je ke každému z nich připojen seznam www dokumentů, kde se konkrétní klíčová slova vyskytují.[1] Během indexování dochází k úpravám klíčových slov jako je:
- sjednocování velikosti písmen,
- vyloučení stop slov (předložky, spojky apod.),
- stemming (nalezení slovního kmene) nebo
- lemmatizace (vytvoření základního tvaru slova).
Děje se tak kvůli zmenšení velikosti indexu a úspoře při jeho fyzickém uložení a kvůli vyšší úspěšnosti při vyhledávání.[3]
Vyhledávací stroj
je uživatelským rozhraním, kde uživatel zadává svůj dotaz. Ten je vyhodnocen indexem (nejčastěji booleovským či vektorovým modelem), pomocí něhož jsou uživateli nabídnuty nalezené odkazy.[1]
Pro kvalitní vyhledávač je nezbytný dobrý algoritmus pro výpočet ranku webových stránek, který určuje parametr relevance výsledků vyhledávání, např. PageRank (Google), S-Rank (Seznam) a další.[3]
Efektivita vyhledávání informací
se měří pomocí přesnosti a úplnosti. Přesnost vyjadřuje podíl skutečně relevantních dokumentů v celkovém výsledku vyhledávání. Úplnost vyjadřuje podíl počtu relevantních nalezených dokumentů k počtu všech relevantních dokumentů. V ideálním případě by výsledky vyhledávání byly co nejpřesnější a zároveň co nejúplnější. V praxi to ovšem není možné, protože obě charakteristiky jsou nepřímo úměrné.[4] Klíčová je při hledání informací dále jejich aktuálnost a věrohodnost.[2]
Odkazy
Reference
- ↑ 1,0 1,1 1,2 1,3 SKLENÁK, Vilém. Data, informace, znalosti a Internet. Vyd. 1. V Praze: C.H. Beck, 2001, xvii, 507 s. C. H. Beck pro praxi. ISBN 80-717-9409-0.
- ↑ 2,0 2,1 GÁLA, Libor, Jan POUR a Zuzana ŠEDIVÁ. Podniková informatika. 2., přeprac. a aktualiz. vyd. Praha: Grada, 2009, 496 s. Expert (Grada). ISBN 978-80-247-2615-1.
- ↑ 3,0 3,1 3,2 SOUČEK, Martin. Informační věda [online]. [cit. 2014-09-14]. Dostupné z: http://www.informacniveda.cz/article.do?articleId=1130.
- ↑ PAPÍK, Richard. Rešeršní strategie a rešeršní služby I. Duha [online]. 2013, roč. 27, č. 4 [cit. 2014-09-13]. Dostupné z: http://duha.mzk.cz/clanky/resersni-strategie-resersni-sluzby-i. ISSN 1804-4255.
Související články
- Modely, principy a nástroje vyhledávání na webu a jeho trendy
- Počítačová síť - internet, včetně www
- OPAC
Klíčová slova
vyhledávání informací, robot, vyhledávače