Vyhledávače, vyhledávací nástroje: Porovnání verzí

Aktuální verze z 4. 4. 2017, 12:38

Obsah

1 Vyhledávače (search engines)
2 Robot
3 Index
4 Vyhledávací stroj
- 4.1 Efektivita vyhledávání informací
5 Odkazy

Vyhledávače (search engines)

umožňují vyhledávání informací na internetu. Uživatel vyjadřuje svoji informační potřebu zadáním klíčových slov (keywords) ve vyhledávači. Úplný vyhledávací požadavek se nazývá dotaz (query) a je složen z klíčových slov a operátorů.^[1]

Pracují ve 3 základních krocích:

robot (crawler, spider) prochází web a nalézá www dokumenty,
nalezené dokumenty procházejí skrze hypertextové odkazy v nich obsažené procesem indexování,
vyhledávací stroj při zadání dotazu prochází index a vyhledává relevantní dokumenty, které zařazuje na seznam nalezených dokumentů (hitů).^[2]

Robot

prochází webové stránky, analyzuje jejich obsah a řadí je do databáze (indexu). Pracuje podle předem stanovených algoritmů:

Vyhledávání do hloubky: začíná prohledávat jen jeden dokument (příp. jen malé množství dokumentů), z něhož se zaznamená text. Každý z URL odkazů uvedených v tomto textu je zařazen na začátek seznamu dosud nenavštívených míst, přičemž navštívené odkazy jsou ignorovány. Postup se poté opakuje s první položkou seznamu a pokračuje dále ke každému vnořenému odkazu. Když je dokument takto zpracován, vyřadí se ze seznamu.
Vyhledávání do šířky: stejný princip jako při vyhledávání do hloubky, avšak dosud nenavštívené odkazy se zařazují na konec seznamu. Nejprve je tedy zpracováván výchozí dokument, poté odkazy první úrovně atd.
Náhodné vyhledávání: robot si náhodně vybírá jednu položku ze seznamu dokumentů, načte ji a nalezené, dosud nenavštívené, odkazy přidá do seznamu. Když je dokument zpracován, robot ho označí, a tudíž nedochází k duplicitě při procházení dokumentů (např. Lycos).
Souběžné vyhledávání: pro zvýšení rychlosti procházení dokumentů robot používá simultánní přístup k více dokumentům nebo spolupracuje s dalšími roboty současně (např. AltaVista).

Problémy robotů:

Nekonečná rekurze – špatně naprogramovaný robot se může dostat do nekonečného sledu po sobě jdoucích požadavků.
Zahlcení – při extrémní rychlosti robota může dojít k zahlcení serveru.
Přístup k nevhodným adresám – např. výstupy generované CGI skripty a další programové výstupy, soukromé a interní materiály.
Odmítnutí robota – správce serveru může vymezit prostor, jehož obsah nebude roboty zpracováván, např. vytvořením souboru robots.txt v kořeni adresářové struktury dokumentů.^[1]

Každý vyhledávač používá vlastního robota se specifickými vlastnostmi, např. GoogleBot (Google), SeznamBot (Seznam), Slurp (Yahoo) apod.^[3]

Index

je způsob organizace údajů, které jsou shromážděny robotem, a umožňují tak rychlé a efektivní vyhledávání. Jedná se o seznam klíčových slov, v němž je ke každému z nich připojen seznam www dokumentů, kde se konkrétní klíčová slova vyskytují.^[1] Během indexování dochází k úpravám klíčových slov jako je:

sjednocování velikosti písmen,
vyloučení stop slov (předložky, spojky apod.),
stemming (nalezení slovního kmene) nebo
lemmatizace (vytvoření základního tvaru slova).

Děje se tak kvůli zmenšení velikosti indexu a úspoře při jeho fyzickém uložení a kvůli vyšší úspěšnosti při vyhledávání.^[3]

Vyhledávací stroj

je uživatelským rozhraním, kde uživatel zadává svůj dotaz. Ten je vyhodnocen indexem (nejčastěji booleovským či vektorovým modelem), pomocí něhož jsou uživateli nabídnuty nalezené odkazy.^[1]

Pro kvalitní vyhledávač je nezbytný dobrý algoritmus pro výpočet ranku webových stránek, který určuje parametr relevance výsledků vyhledávání, např. PageRank (Google), S-Rank (Seznam) a další.^[3]

Efektivita vyhledávání informací

se měří pomocí přesnosti a úplnosti. Přesnost vyjadřuje podíl skutečně relevantních dokumentů v celkovém výsledku vyhledávání. Úplnost vyjadřuje podíl počtu relevantních nalezených dokumentů k počtu všech relevantních dokumentů. V ideálním případě by výsledky vyhledávání byly co nejpřesnější a zároveň co nejúplnější. V praxi to ovšem není možné, protože obě charakteristiky jsou nepřímo úměrné.^[4] Klíčová je při hledání informací dále jejich aktuálnost a věrohodnost.^[2]

Odkazy

Reference

↑ ^1,0 ^1,1 ^1,2 ^1,3 SKLENÁK, Vilém. Data, informace, znalosti a Internet. Vyd. 1. V Praze: C.H. Beck, 2001, xvii, 507 s. C. H. Beck pro praxi. ISBN 80-717-9409-0.
↑ ^2,0 ^2,1 GÁLA, Libor, Jan POUR a Zuzana ŠEDIVÁ. Podniková informatika. 2., přeprac. a aktualiz. vyd. Praha: Grada, 2009, 496 s. Expert (Grada). ISBN 978-80-247-2615-1.
↑ ^3,0 ^3,1 ^3,2 SOUČEK, Martin. Informační věda [online]. [cit. 2014-09-14]. Dostupné z: http://www.informacniveda.cz/article.do?articleId=1130.
↑ PAPÍK, Richard. Rešeršní strategie a rešeršní služby I. Duha [online]. 2013, roč. 27, č. 4 [cit. 2014-09-13]. Dostupné z: http://duha.mzk.cz/clanky/resersni-strategie-resersni-sluzby-i. ISSN 1804-4255.

Související články

Klíčová slova

vyhledávání informací, robot, vyhledávače

[Sklen.C3.A1k-1] 1,0 ^1,1 ^1,2 ^1,3 SKLENÁK, Vilém. Data, informace, znalosti a Internet. Vyd. 1. V Praze: C.H. Beck, 2001, xvii, 507 s. C. H. Beck pro praxi. ISBN 80-717-9409-0.

[G.C3.A1la-2] 2,0 ^2,1 GÁLA, Libor, Jan POUR a Zuzana ŠEDIVÁ. Podniková informatika. 2., přeprac. a aktualiz. vyd. Praha: Grada, 2009, 496 s. Expert (Grada). ISBN 978-80-247-2615-1.

[Soucek-3] 3,0 ^3,1 ^3,2 SOUČEK, Martin. Informační věda [online]. [cit. 2014-09-14]. Dostupné z: http://www.informacniveda.cz/article.do?articleId=1130.

[4] PAPÍK, Richard. Rešeršní strategie a rešeršní služby I. Duha [online]. 2013, roč. 27, č. 4 [cit. 2014-09-13]. Dostupné z: http://duha.mzk.cz/clanky/resersni-strategie-resersni-sluzby-i. ISSN 1804-4255.

[1]

[2]

[3]

[4]

@@ Řádek 1: / Řádek 1: @@
 ==== Vyhledávače (search engines) ====
-umožňují vyhledávání informací na internetu. Uživatel vyjadřuje svoji [[Informační potřeba|informační potřebu]] zadáním [[Klíčová slova|klíčových slov]] (keywords) ve vyhledávači. Úplný vyhledávací požadavek se nazývá dotaz (query) a je složen z klíčových slov a [[Operátory|operátorů]].<ref name="Sklenák">SKLENÁK, Vilém. Data, informace, znalosti a Internet. Vyd. 1. V Praze: C.H. Beck, 2001, xvii, 507 s. C. H. Beck pro praxi. ISBN 80-717-9409-0.</ref>
+umožňují vyhledávání [[informace|informací]] na [[internet|internetu]]. Uživatel vyjadřuje svoji [[Informační potřeba|informační potřebu]] zadáním [[Klíčová slova|klíčových slov]] (keywords) ve vyhledávači. Úplný vyhledávací požadavek se nazývá dotaz (query) a je složen z klíčových slov a [[Operátory|operátorů]].<ref name="Sklenák">SKLENÁK, Vilém. Data, informace, znalosti a Internet. Vyd. 1. V Praze: C.H. Beck, 2001, xvii, 507 s. C. H. Beck pro praxi. ISBN 80-717-9409-0.</ref>
 '''Pracují ve 3 základních krocích:'''
-#	robot (crawler, spider) prochází web a nalézá www dokumenty,
+#	robot (crawler, spider) prochází web a nalézá [[Www|www]] [[dokument|dokumenty]],
 #	nalezené dokumenty procházejí skrze [[hypertextový odkaz|hypertextové odkazy]] v nich obsažené procesem indexování,
 #	vyhledávací stroj při zadání dotazu prochází index a vyhledává relevantní dokumenty, které zařazuje na seznam nalezených dokumentů (hitů).<ref name="Gála">GÁLA, Libor, Jan POUR a Zuzana ŠEDIVÁ. Podniková informatika. 2., přeprac. a aktualiz. vyd. Praha: Grada, 2009, 496 s. Expert (Grada). ISBN 978-80-247-2615-1.</ref>
-===Robot===
+==Robot==
 prochází webové stránky, analyzuje jejich obsah a řadí je do databáze (indexu). Pracuje podle předem stanovených algoritmů:
 #	'''''Vyhledávání do hloubky:''''' začíná prohledávat jen jeden dokument (příp. jen malé množství dokumentů), z něhož se zaznamená text. Každý z URL odkazů uvedených v tomto textu je zařazen na začátek seznamu dosud nenavštívených míst, přičemž navštívené odkazy jsou ignorovány. Postup se poté opakuje s první položkou seznamu a pokračuje dále ke každému vnořenému odkazu. Když je dokument takto zpracován, vyřadí se ze seznamu.
@@ Řádek 22: / Řádek 22: @@
 Každý vyhledávač používá vlastního robota se specifickými vlastnostmi, např. GoogleBot (Google), SeznamBot (Seznam), Slurp (Yahoo) apod.<ref name="Soucek" />
-===Index===
+==Index==
 je způsob organizace údajů, které jsou shromážděny [[Robot|robotem]], a umožňují tak rychlé a efektivní vyhledávání. Jedná se o seznam klíčových slov, v němž je ke každému z nich připojen seznam www dokumentů, kde se konkrétní klíčová slova vyskytují.<ref name="Sklenák" />
-Během indexování dochází k úpravám klíčových slov jako je sjednocování velikosti písmen, vyloučení stop slov (předložky, spojky apod.), stemming (nalezení slovního kmene) nebo lemmatizace (vytvoření základního tvaru slova). Děje se tak kvůli zmenšení velikosti indexu a úspoře při jeho fyzickém uložení a kvůli vyšší úspěšnosti při vyhledávání.<ref name="Soucek">SOUČEK, Martin. Informační věda [online]. [cit. 2014-09-14]. Dostupné z: http://www.informacniveda.cz/article.do?articleId=1130.</ref>
+Během indexování dochází k úpravám klíčových slov jako je:
+* sjednocování velikosti písmen,
+* vyloučení stop slov (předložky, spojky apod.),
+* stemming (nalezení slovního kmene) nebo
+* lemmatizace (vytvoření základního tvaru slova).
+Děje se tak kvůli zmenšení velikosti indexu a úspoře při jeho fyzickém uložení a kvůli vyšší úspěšnosti při vyhledávání.<ref name="Soucek">SOUČEK, Martin. Informační věda [online]. [cit. 2014-09-14]. Dostupné z: http://www.informacniveda.cz/article.do?articleId=1130.</ref>
-===Vyhledávací stroj===
+==Vyhledávací stroj==
 je uživatelským rozhraním, kde uživatel zadává svůj dotaz. Ten je vyhodnocen indexem (nejčastěji booleovským či vektorovým modelem), pomocí něhož jsou uživateli nabídnuty nalezené odkazy.<ref name="Sklenák" />
@@ Řádek 32: / Řádek 37: @@
 ==== Efektivita [[Vyhledávání informací|vyhledávání informací]] ====
-se měří pomocí přesnosti a úplnosti. Přesnost vyjadřuje podíl skutečně relevantních dokumentů v celkovém výsledku vyhledávání. Úplnost vyjadřuje podíl počtu relevantních nalezených dokumentů k počtu všech relevantních dokumentů. V ideálním případě by výsledky vyhledávání byly co nejpřesnější a zároveň co nejúplnější. V praxi to ovšem není možné, protože obě charakteristiky jsou nepřímo úměrné.<ref>PAPÍK, Richard. Rešeršní strategie a rešeršní služby I. Duha [online]. 2013, roč. 27, č. 4 [cit. 2014-09-13]. Dostupný z WWW: <http://duha.mzk.cz/clanky/resersni-strategie-resersni-sluzby-i>. ISSN 1804-4255.</ref> Klíčová je při hledání informací dále jejich aktuálnost a věrohodnost. <ref name="Gála" />
+se měří pomocí přesnosti a úplnosti. '''Přesnost''' vyjadřuje podíl skutečně relevantních dokumentů v celkovém výsledku vyhledávání. '''Úplnost''' vyjadřuje podíl počtu relevantních nalezených dokumentů k počtu všech relevantních dokumentů. V ideálním případě by výsledky vyhledávání byly co nejpřesnější a zároveň co nejúplnější. V praxi to ovšem není možné, protože obě charakteristiky jsou nepřímo úměrné.<ref>PAPÍK, Richard. Rešeršní strategie a rešeršní služby I. Duha [online]. 2013, roč. 27, č. 4 [cit. 2014-09-13]. Dostupné z: http://duha.mzk.cz/clanky/resersni-strategie-resersni-sluzby-i. ISSN 1804-4255.</ref> Klíčová je při hledání informací dále jejich aktuálnost a věrohodnost.<ref name="Gála" />
 == Odkazy ==
@@ Řádek 39: / Řádek 44: @@
 <references />
-=== Související články: ===
+=== Související články ===
 * [http://wikisofia.cz/index.php/Modely,_principy_a_n%C3%A1stroje_vyhled%C3%A1v%C3%A1n%C3%AD_na_webu_a_jeho_trendy Modely, principy a nástroje vyhledávání na webu a jeho trendy]
 * [http://wikisofia.cz/index.php/Po%C4%8D%C3%ADta%C4%8Dov%C3%A1_s%C3%AD%C5%A5_-_internet,_v%C4%8Detn%C4%9B_www Počítačová síť - internet, včetně www]
 * [http://wikisofia.cz/index.php/OPAC OPAC]
+=== Klíčová slova ===
+vyhledávání informací, robot, vyhledávače
 [[Kategorie:Informační studia a knihovnictví]]
+[[Kategorie:Informační technologie, knihovnické technologie]]
+[[Kategorie:Články k ověření učitelem Souček M]]