Vyhledávače, vyhledávací nástroje

Vyhledávače (search engines)

umožňují vyhledávání informací na internetu. Uživatel vyjadřuje svoji informační potřebu zadáním klíčových slov (keywords) ve vyhledávači. Úplný vyhledávací požadavek se nazývá dotaz (query) a je složen z klíčových slov a operátorů.[1]

Pracují ve 3 základních krocích:

  1. robot (crawler, spider) prochází web a nalézá www dokumenty,
  2. nalezené dokumenty procházejí skrze hypertextové odkazy v nich obsažené procesem indexování,
  3. vyhledávací stroj při zadání dotazu prochází index a vyhledává relevantní dokumenty, které zařazuje na seznam nalezených dokumentů (hitů).[2]

Robot

prochází webové stránky, analyzuje jejich obsah a řadí je do databáze (indexu). Pracuje podle předem stanovených algoritmů:

  1. Vyhledávání do hloubky: začíná prohledávat jen jeden dokument (příp. jen malé množství dokumentů), z něhož se zaznamená text. Každý z URL odkazů uvedených v tomto textu je zařazen na začátek seznamu dosud nenavštívených míst, přičemž navštívené odkazy jsou ignorovány. Postup se poté opakuje s první položkou seznamu a pokračuje dále ke každému vnořenému odkazu. Když je dokument takto zpracován, vyřadí se ze seznamu.
  2. Vyhledávání do šířky: stejný princip jako při vyhledávání do hloubky, avšak dosud nenavštívené odkazy se zařazují na konec seznamu. Nejprve je tedy zpracováván výchozí dokument, poté odkazy první úrovně atd.
  3. Náhodné vyhledávání: robot si náhodně vybírá jednu položku ze seznamu dokumentů, načte ji a nalezené, dosud nenavštívené, odkazy přidá do seznamu. Když je dokument zpracován, robot ho označí, a tudíž nedochází k duplicitě při procházení dokumentů (např. Lycos).
  4. Souběžné vyhledávání: pro zvýšení rychlosti procházení dokumentů robot používá simultánní přístup k více dokumentům nebo spolupracuje s dalšími roboty současně (např. AltaVista).

Problémy robotů:

  1. Nekonečná rekurze – špatně naprogramovaný robot se může dostat do nekonečného sledu po sobě jdoucích požadavků.
  2. Zahlcení – při extrémní rychlosti robota může dojít k zahlcení serveru.
  3. Přístup k nevhodným adresám – např. výstupy generované CGI skripty a další programové výstupy, soukromé a interní materiály.
  4. Odmítnutí robota – správce serveru může vymezit prostor, jehož obsah nebude roboty zpracováván, např. vytvořením souboru robots.txt v kořeni adresářové struktury dokumentů.[1]

Každý vyhledávač používá vlastního robota se specifickými vlastnostmi, např. GoogleBot (Google), SeznamBot (Seznam), Slurp (Yahoo) apod.[3]

Index

je způsob organizace údajů, které jsou shromážděny robotem, a umožňují tak rychlé a efektivní vyhledávání. Jedná se o seznam klíčových slov, v němž je ke každému z nich připojen seznam www dokumentů, kde se konkrétní klíčová slova vyskytují.[1] Během indexování dochází k úpravám klíčových slov jako je:

  • sjednocování velikosti písmen,
  • vyloučení stop slov (předložky, spojky apod.),
  • stemming (nalezení slovního kmene) nebo
  • lemmatizace (vytvoření základního tvaru slova).

Děje se tak kvůli zmenšení velikosti indexu a úspoře při jeho fyzickém uložení a kvůli vyšší úspěšnosti při vyhledávání.[3]

Vyhledávací stroj

je uživatelským rozhraním, kde uživatel zadává svůj dotaz. Ten je vyhodnocen indexem (nejčastěji booleovským či vektorovým modelem), pomocí něhož jsou uživateli nabídnuty nalezené odkazy.[1]

Pro kvalitní vyhledávač je nezbytný dobrý algoritmus pro výpočet ranku webových stránek, který určuje parametr relevance výsledků vyhledávání, např. PageRank (Google), S-Rank (Seznam) a další.[3]

Efektivita vyhledávání informací

se měří pomocí přesnosti a úplnosti. Přesnost vyjadřuje podíl skutečně relevantních dokumentů v celkovém výsledku vyhledávání. Úplnost vyjadřuje podíl počtu relevantních nalezených dokumentů k počtu všech relevantních dokumentů. V ideálním případě by výsledky vyhledávání byly co nejpřesnější a zároveň co nejúplnější. V praxi to ovšem není možné, protože obě charakteristiky jsou nepřímo úměrné.[4] Klíčová je při hledání informací dále jejich aktuálnost a věrohodnost.[2]

Odkazy

Reference

  1. 1,0 1,1 1,2 1,3 SKLENÁK, Vilém. Data, informace, znalosti a Internet. Vyd. 1. V Praze: C.H. Beck, 2001, xvii, 507 s. C. H. Beck pro praxi. ISBN 80-717-9409-0.
  2. 2,0 2,1 GÁLA, Libor, Jan POUR a Zuzana ŠEDIVÁ. Podniková informatika. 2., přeprac. a aktualiz. vyd. Praha: Grada, 2009, 496 s. Expert (Grada). ISBN 978-80-247-2615-1.
  3. 3,0 3,1 3,2 SOUČEK, Martin. Informační věda [online]. [cit. 2014-09-14]. Dostupné z: http://www.informacniveda.cz/article.do?articleId=1130.
  4. PAPÍK, Richard. Rešeršní strategie a rešeršní služby I. Duha [online]. 2013, roč. 27, č. 4 [cit. 2014-09-13]. Dostupné z: http://duha.mzk.cz/clanky/resersni-strategie-resersni-sluzby-i. ISSN 1804-4255.

Související články

Klíčová slova

vyhledávání informací, robot, vyhledávače