Data: Porovnání verzí

Verze z 30. 5. 2018, 21:45

Data

Obsah

1 Definice
2 Charakteristika
3 Data / informace / znalost
4 Typologie
5 Ukládání dat
6 Metadata
7 Big data
8 Data mining

Definice

Podle TDKIV jsou data: „Reprezentace informací vhodně formalizovaná pro komunikaci, interpretaci a zpracování lidmi a automaty. Data mohou být reprezentována libovolnými řetězci znaků (čísel, příkazů, vět) uloženými na informačním nosiči. Data nemají zpravidla význam sama o sobě, ale teprve jsou-li pochopena, interpretována, komunikována a využita člověkem nebo počítačem, stávají se smysluplnými informacemi.“ ^[1]

Slovo „data“ pochází z latinského slova „datum“ (čili „něco daného“), které je odvozené ze slova „dare“ (čili „dát“). Pokud se věnujeme informační vědě, používá se slovo data pro již zmíněný libovolný řetězec znaků, ale také zvuků, obrazů nebo jiných smyslových vjemů. Jejich podmínkou však zůstává, že musí být v takové podobě, aby mohly být zpracovány počítačem.^[2]

Charakteristika

Data představují obvykle něco, co se dá v praxi získat experimentem, měřením, pozorováním nebo šetřením.
Objektivně zobrazují stavy nebo vlastnosti objektů nebo probíhající procesy v prostředí kolem nás, nezávisle na našem vědomí.
Základem dat jsou znaky, což mohou být zejména číslice, písmena a symboly (tečky,čárky, noty apod.).
V širším pojetí se pojmu data používá pro numerické (dnes především), textové,obrazové a zvukové údaje, aniž posuzujeme, co znamenají pro příjemce. především o jejich vyjádření a uložení pro perspektivní zpracování;
Data můžeme považovat za jednoduché reprezentační nástroje faktů s jednorozměrným, jedinečným významem.

Data / informace / znalost

Pokud k datům přidáme kontext, stávají se z nich informace.^[2]

Pro informace existuje mnoho definic podle toho, ve kterém oboru se právě nacházíme.Chybná citace: Otvírací značka <ref> je chybná nebo má špatný název V rámci informační vědy existují např. definice Marcii J. Batesové:

„Informace = vzor organizace hmoty nebo energie.
Informace = Některé vzory organizace hmoty nebo energie, jimž živé bytosti dodaly smysl.“^[3]

Znalost pak můžeme definovat jako informace a/nebo data, která člověk / počítač umí použít. Předpokladem pro použití je jejich pochopení a porozumění kontextu.^[3]

Vztahy mezi informací, znalostí a daty se zabývá publikace Organizace znalostí: Klíčová témata, kde autorka dochází k následujícím rovnicím:

„znalost = informace + použitelnost

informace = znalost + sdělitelnost

informace = data + smysl

data = odraz + sdělitelnost + zpracovatelnost“^[3]

Typologie

- z hlediska práce s daty:^[2]

Strukturovaná – data, která jsou mezi sebou rozlišená. Existují zde tzv. elementy dat. Například se jedná o organizaci pomocí relačních databázových systémů. Zde se používá hierarchie elementů od pole k záznamu, relaci až k databázi. V takto strukturovaných datech se lépe vyhledává a také se s nimi dále snáze pracuje (MARC / XML).
Částečně strukturovaná – (HTML)
Nestrukturovaná – data, která nejsou mezi sebou rozlišená, tzv. „tok bytů“ (prostý text) a lze v se v nich orientovat pouze pomocí plnotextového vyhledávání.

- z hlediska oboru:

Vědecká
Geografická
Statistická

Ukládání dat

Takto různě strukturovaná data se pak v informačních systémech ukládají do souborů, se kterými pak systém pracuje jako s celky. Soubor je pak organizován jako „posloupnost záznamů, které jsou ukládány do diskových bloků.“ Rozlišujeme různé typy organizace souboru: ^[4]

Pro data ukládaná v sekvenčních souborech je důležité jejich pořadí – sekvence. Vyhledávač prochází při vyhledávání celou jednu řadu záznamů, dokud nenalezne ten správný, což způsobuje jeho pomalost. Další nevýhodou by mohla být nutnost časté a pravidelné údržby. Data, která přesáhnou maximální velikost uspořádané „řady“ se na čas uchovávají do části souboru, kterou můžeme nazvat „oblastí přetečení“. Je tedy nutné data reorganizovat.
V index-sekvenčních souborech je také důležité pořadí záznamů v řadě. Data jsou zde uspořádaná podle primárního klíče, který má navíc strukturu řídkého indexu. (Řídký index neobsahuje všechny hodnoty klíče, pouze např. každou n-tou hodnotu.) Díky indexu dochází k rychlejšímu vyhledávání, nicméně se v něm musí opravit také změny provedené v sekvenční části souboru.
Indexový soubor pracuje s hustým indexem (ve kterém se nacházejí všechny hodnoty klíče), díky čemuž nemusí být jeho sekvenční soubor uspořádán. Kvůli použití indexů dochází k ušetření místa a tím pádem i k zrychlení vyhledávání.
Soubory s přímým přístupem pracují s hodnotami primárního klíče, které pomocí hašovacích algoritmů slouží k identifikaci místa záznamu na disku. Přímý přístup k souborům zaručuje nejrychlejší vyhledávání, protože se nemusí procházet ani sekvenční seznamy ani index. ^[4]

↑ JONÁK, Zdeněk. Data. In: KTD: Česká terminologická databáze knihovnictví a informační vědy (TDKIV) [online]. Praha : Národní knihovna ČR, 2003- [cit. 2018-05-30]. Dostupné z: http://aleph.nkp.cz/F/?func=direct&doc_number=000000442&local_base=KTD.
↑ ^2,0 ^2,1 ^2,2 SKLENÁK, Vilém. Data, informace, znalosti a Internet. Praha: C.H. Beck, 2001. C.H. Beck pro praxi. ISBN 8071794090.
↑ ^3,0 ^3,1 ^3,2 KUČEROVÁ, Helena. Organizace znalostí: klíčová témata. Praha: Univerzita Karlova, nakladatelství Karolinum, 2017. ISBN 9788024635873.
↑ ^4,0 ^4,1 POKORNÝ, Jan. Současné možnosti integrace informačních zdrojů. Praha, 2008. Rigorózní práce. Univerzita Karlova, Filozofická fakulta, Ústav informačních studií a knihovnictví. Vedoucí práce Vlasák, Rudolf.
↑ ^5,0 ^5,1 BORGMAN, Christine L. Big data, little data, no data: scholarship in the networked world. Cambridge, Massachusetts: The MIT Press, 2015. ISBN 9780262028561.
↑ BAWDEN, David a Lyn ROBINSON. Úvod do informační vědy. Doubravník: Flow, 2017. ISBN 9788088123101.

[1] JONÁK, Zdeněk. Data. In: KTD: Česká terminologická databáze knihovnictví a informační vědy (TDKIV) [online]. Praha : Národní knihovna ČR, 2003- [cit. 2018-05-30]. Dostupné z: http://aleph.nkp.cz/F/?func=direct&doc_number=000000442&local_base=KTD.

[sklenak-2] 2,0 ^2,1 ^2,2 SKLENÁK, Vilém. Data, informace, znalosti a Internet. Praha: C.H. Beck, 2001. C.H. Beck pro praxi. ISBN 8071794090.

[kucerova-3] 3,0 ^3,1 ^3,2 KUČEROVÁ, Helena. Organizace znalostí: klíčová témata. Praha: Univerzita Karlova, nakladatelství Karolinum, 2017. ISBN 9788024635873.

[pokorny-4] 4,0 ^4,1 POKORNÝ, Jan. Současné možnosti integrace informačních zdrojů. Praha, 2008. Rigorózní práce. Univerzita Karlova, Filozofická fakulta, Ústav informačních studií a knihovnictví. Vedoucí práce Vlasák, Rudolf.

[borgman-5] 5,0 ^5,1 BORGMAN, Christine L. Big data, little data, no data: scholarship in the networked world. Cambridge, Massachusetts: The MIT Press, 2015. ISBN 9780262028561.

[6] BAWDEN, David a Lyn ROBINSON. Úvod do informační vědy. Doubravník: Flow, 2017. ISBN 9788088123101.

[1]

[2]

[3]

[4]

[5]

[6]

@@ Řádek 1: / Řádek 1: @@
-'''Data''' jsou základní jednotkou informačního procesu. Popisují nějaký jev nebo vlastnost objektu. Po zpracování se data stávají [[informace|informací]].
+'''Data'''
-== Charakteristika ==
+=== Definice ===
+Podle TDKIV jsou '''data''': „Reprezentace informací vhodně formalizovaná pro komunikaci, interpretaci a zpracování lidmi a automaty. Data mohou být reprezentována libovolnými řetězci znaků (čísel, příkazů, vět) uloženými na informačním nosiči. Data nemají zpravidla význam sama o sobě, ale teprve jsou-li pochopena, interpretována, komunikována a využita člověkem nebo počítačem, stávají se smysluplnými informacemi.“ <ref>JONÁK, Zdeněk. Data. In: KTD: Česká terminologická databáze knihovnictví a informační vědy (TDKIV) [online]. Praha : Národní knihovna ČR, 2003- [cit. 2018-05-30]. Dostupné z: http://aleph.nkp.cz/F/?func=direct&doc_number=000000442&local_base=KTD.</ref>
+Slovo „data“ pochází z latinského slova „datum“ (čili „něco daného“), které je odvozené ze slova „dare“ (čili „dát“). Pokud se věnujeme informační vědě, používá se slovo ''data'' pro již zmíněný libovolný řetězec znaků, ale také zvuků, obrazů nebo jiných smyslových vjemů. Jejich podmínkou však zůstává, že musí být v takové podobě, aby mohly být zpracovány počítačem.<ref name="sklenak">SKLENÁK, Vilém. Data, informace, znalosti a Internet. Praha: C.H. Beck, 2001. C.H. Beck pro praxi. ISBN 8071794090.</ref>
+=== Charakteristika ===
 * Data představují obvykle něco, co se dá v praxi získat experimentem, měřením, pozorováním nebo šetřením.
 * Objektivně zobrazují stavy nebo vlastnosti objektů nebo probíhající procesy v prostředí kolem nás, nezávisle na našem vědomí.
@@ Řádek 6: / Řádek 11: @@
 * V širším pojetí se pojmu data používá pro numerické (dnes především), textové,obrazové a zvukové údaje, aniž posuzujeme, co znamenají pro příjemce. především o jejich vyjádření a uložení pro perspektivní zpracování;
 * Data můžeme považovat za jednoduché reprezentační nástroje faktů s jednorozměrným, jedinečným významem.
-== Typy dat ==
+=== Data / informace / znalost ===
+Pokud k '''datům''' přidáme kontext, stávají se z nich '''[[informace]]'''.<ref name="sklenak" />
+* Pro '''informace''' existuje mnoho definic podle toho, ve kterém oboru se právě nacházíme.<ref name"sklenak" /> V rámci informační vědy existují např. definice Marcii J. Batesové:
+:* „Informace = vzor organizace hmoty nebo energie.
+:* Informace = Některé vzory organizace hmoty nebo energie, jimž živé bytosti dodaly smysl.“<ref name="kucerova">KUČEROVÁ, Helena. Organizace znalostí: klíčová témata. Praha: Univerzita Karlova, nakladatelství Karolinum, 2017. ISBN 9788024635873.</ref>
+'''Znalost''' pak můžeme definovat jako informace a/nebo data, která člověk / počítač umí použít. Předpokladem pro použití je jejich pochopení a porozumění kontextu.<ref name="kucerova" />
+Vztahy mezi informací, znalostí a daty se zabývá publikace ''Organizace znalostí: Klíčová témata'', kde autorka dochází k následujícím rovnicím:
+: „'''znalost''' = informace + použitelnost
+: '''informace''' = znalost + sdělitelnost
+: '''informace''' = data + smysl
+: '''data''' = odraz + sdělitelnost + zpracovatelnost“<ref name="kucerova" />
+=== Typologie ===
+- z hlediska práce s daty:<ref name="sklenak" />
+* '''Strukturovaná''' – data, která jsou mezi sebou rozlišená. Existují zde tzv. ''elementy dat''. Například se jedná o organizaci pomocí relačních [[Databáze|databázových systémů]]. Zde se používá hierarchie elementů od pole k záznamu, relaci až k databázi. V takto strukturovaných datech se lépe vyhledává a také se s nimi dále snáze pracuje (MARC / [[Principy značkovacích jazyků a příklady použití jazyka HTML a XML|XML]]).
+* '''Částečně strukturovaná''' – ([[Principy značkovacích jazyků a příklady použití jazyka HTML a XML|HTML]])
+* '''Nestrukturovaná''' – data, která nejsou mezi sebou rozlišená, tzv. „tok bytů“ (prostý text) a lze v se v nich orientovat pouze pomocí plnotextového vyhledávání.
+- z hlediska oboru:
 * Vědecká
 * Geografická
 * Statistická
-== Data - informace - znalosti ==
+=== Ukládání dat ===
+Takto různě strukturovaná data se pak v informačních systémech ukládají do '''souborů''', se kterými pak systém pracuje jako s celky. Soubor je pak organizován jako „posloupnost záznamů, které jsou ukládány do diskových bloků.“ Rozlišujeme různé typy organizace souboru: <ref name="pokorny">POKORNÝ, Jan. Současné možnosti integrace informačních zdrojů. Praha, 2008. Rigorózní práce. Univerzita Karlova, Filozofická fakulta, Ústav informačních studií a knihovnictví. Vedoucí práce Vlasák, Rudolf.</ref>
+* Pro data ukládaná v '''sekvenčních souborech''' je důležité jejich pořadí – sekvence. Vyhledávač prochází při vyhledávání celou jednu řadu záznamů, dokud nenalezne ten správný, což způsobuje jeho pomalost. Další nevýhodou by mohla být nutnost časté a pravidelné údržby. Data, která přesáhnou maximální velikost uspořádané „řady“ se na čas uchovávají do části souboru, kterou můžeme nazvat „oblastí přetečení“. Je tedy nutné data reorganizovat.
+* V '''index-sekvenčních souborech''' je také důležité pořadí záznamů v řadě. Data jsou zde uspořádaná podle primárního klíče, který má navíc strukturu řídkého indexu. ('''Řídký index''' neobsahuje všechny hodnoty klíče, pouze např. každou n-tou hodnotu.) Díky indexu dochází k rychlejšímu vyhledávání, nicméně se v něm musí opravit také změny provedené v sekvenční části souboru.
+* '''Indexový soubor''' pracuje s '''hustým indexem''' (ve kterém se nacházejí všechny hodnoty klíče), díky čemuž nemusí být jeho sekvenční soubor uspořádán. Kvůli použití indexů dochází k ušetření místa a tím pádem i k zrychlení vyhledávání.
+* '''Soubory s přímým přístupem''' pracují s hodnotami primárního klíče, které pomocí hašovacích algoritmů slouží k identifikaci místa záznamu na disku. Přímý přístup k souborům zaručuje nejrychlejší vyhledávání, protože se nemusí procházet ani sekvenční seznamy ani index. <ref name="pokorny" />
+=== [[Metadata]] ===
+Zjednodušeně „data o datech“.<ref name="borgman">BORGMAN, Christine L. Big data, little data, no data: scholarship in the networked world. Cambridge, Massachusetts: The MIT Press, 2015. ISBN 9780262028561.</ref>
+=== [[Big data]] ===
+„Velká data“ jsou data v takovém množství, že je velmi složité a obtížné s nimi pracovat. Data, která neustále přibývají.<ref name="borgman" />
+=== [[Metody dobývání znalostí z databází (data mining)|Data mining]] ===
+Reprezentace velkých množství dat je řešeno vizualizací, tedy zobrazením většinou jen těch důležitých a základních údajů vytažených z celého datového souboru (často pomocí grafiky), čemuž se věnuje '''data mining'''.<ref>BAWDEN, David a Lyn ROBINSON. Úvod do informační vědy. Doubravník: Flow, 2017. ISBN 9788088123101.</ref>
 [[Kategorie:Hesla ke zpracování UISK]]