Data

Definice

Podle TDKIV jsou data: „Reprezentace informací vhodně formalizovaná pro komunikaci, interpretaci a zpracování lidmi a automaty. Data mohou být reprezentována libovolnými řetězci znaků (čísel, příkazů, vět) uloženými na informačním nosiči. Data nemají zpravidla význam sama o sobě, ale teprve jsou-li pochopena, interpretována, komunikována a využita člověkem nebo počítačem, stávají se smysluplnými informacemi.“ [1]

Slovo „data“ pochází z latinského slova „datum“ (čili „něco daného“), které je odvozené ze slova „dare“ (čili „dát“). Pokud se věnujeme informační vědě, používá se slovo data pro již zmíněný libovolný řetězec znaků, ale také zvuků, obrazů nebo jiných smyslových vjemů. Jejich podmínkou však zůstává, že musí být v takové podobě, aby mohly být zpracovány počítačem.[2]

Charakteristika

  • Data představují obvykle něco, co se dá v praxi získat experimentem, měřením, pozorováním nebo šetřením.
  • Objektivně zobrazují stavy nebo vlastnosti objektů nebo probíhající procesy v prostředí kolem nás, nezávisle na našem vědomí.
  • Základem dat jsou znaky, což mohou být zejména číslice, písmena a symboly (tečky,čárky, noty apod.).
  • V širším pojetí se pojmu data používá pro numerické (dnes především), textové,obrazové a zvukové údaje, aniž posuzujeme, co znamenají pro příjemce. především o jejich vyjádření a uložení pro perspektivní zpracování;
  • Data můžeme považovat za jednoduché reprezentační nástroje faktů s jednorozměrným, jedinečným významem.

Data / informace / znalost

Pokud k datům přidáme kontext, stávají se z nich informace.[2]

  • Pro informace existuje mnoho definic podle toho, ve kterém oboru se právě nacházíme.Chybná citace: Otvírací značka <ref> je chybná nebo má špatný název V rámci informační vědy existují např. definice Marcii J. Batesové:
  • „Informace = vzor organizace hmoty nebo energie.
  • Informace = Některé vzory organizace hmoty nebo energie, jimž živé bytosti dodaly smysl.“[3]

Znalost pak můžeme definovat jako informace a/nebo data, která člověk / počítač umí použít. Předpokladem pro použití je jejich pochopení a porozumění kontextu.[3]

Vztahy mezi informací, znalostí a daty se zabývá publikace Organizace znalostí: Klíčová témata, kde autorka dochází k následujícím rovnicím:

znalost = informace + použitelnost
informace = znalost + sdělitelnost
informace = data + smysl
data = odraz + sdělitelnost + zpracovatelnost“[3]

Typologie

- z hlediska práce s daty:[2]

  • Strukturovaná – data, která jsou mezi sebou rozlišená. Existují zde tzv. elementy dat. Například se jedná o organizaci pomocí relačních databázových systémů. Zde se používá hierarchie elementů od pole k záznamu, relaci až k databázi. V takto strukturovaných datech se lépe vyhledává a také se s nimi dále snáze pracuje (MARC / XML).
  • Částečně strukturovaná – (HTML)
  • Nestrukturovaná – data, která nejsou mezi sebou rozlišená, tzv. „tok bytů“ (prostý text) a lze v se v nich orientovat pouze pomocí plnotextového vyhledávání.

- z hlediska oboru:

  • Vědecká
  • Geografická
  • Statistická

Ukládání dat

Takto různě strukturovaná data se pak v informačních systémech ukládají do souborů, se kterými pak systém pracuje jako s celky. Soubor je pak organizován jako „posloupnost záznamů, které jsou ukládány do diskových bloků.“ Rozlišujeme různé typy organizace souboru: [4]

  • Pro data ukládaná v sekvenčních souborech je důležité jejich pořadí – sekvence. Vyhledávač prochází při vyhledávání celou jednu řadu záznamů, dokud nenalezne ten správný, což způsobuje jeho pomalost. Další nevýhodou by mohla být nutnost časté a pravidelné údržby. Data, která přesáhnou maximální velikost uspořádané „řady“ se na čas uchovávají do části souboru, kterou můžeme nazvat „oblastí přetečení“. Je tedy nutné data reorganizovat.
  • V index-sekvenčních souborech je také důležité pořadí záznamů v řadě. Data jsou zde uspořádaná podle primárního klíče, který má navíc strukturu řídkého indexu. (Řídký index neobsahuje všechny hodnoty klíče, pouze např. každou n-tou hodnotu.) Díky indexu dochází k rychlejšímu vyhledávání, nicméně se v něm musí opravit také změny provedené v sekvenční části souboru.
  • Indexový soubor pracuje s hustým indexem (ve kterém se nacházejí všechny hodnoty klíče), díky čemuž nemusí být jeho sekvenční soubor uspořádán. Kvůli použití indexů dochází k ušetření místa a tím pádem i k zrychlení vyhledávání.
  • Soubory s přímým přístupem pracují s hodnotami primárního klíče, které pomocí hašovacích algoritmů slouží k identifikaci místa záznamu na disku. Přímý přístup k souborům zaručuje nejrychlejší vyhledávání, protože se nemusí procházet ani sekvenční seznamy ani index. [4]

Metadata

Zjednodušeně „data o datech“.[5]

Big data

„Velká data“ jsou data v takovém množství, že je velmi složité a obtížné s nimi pracovat. Data, která neustále přibývají.[5]

Data mining

Reprezentace velkých množství dat je řešeno vizualizací, tedy zobrazením většinou jen těch důležitých a základních údajů vytažených z celého datového souboru (často pomocí grafiky), čemuž se věnuje data mining.[6]

  1. JONÁK, Zdeněk. Data. In: KTD: Česká terminologická databáze knihovnictví a informační vědy (TDKIV) [online]. Praha : Národní knihovna ČR, 2003- [cit. 2018-05-30]. Dostupné z: http://aleph.nkp.cz/F/?func=direct&doc_number=000000442&local_base=KTD.
  2. 2,0 2,1 2,2 SKLENÁK, Vilém. Data, informace, znalosti a Internet. Praha: C.H. Beck, 2001. C.H. Beck pro praxi. ISBN 8071794090.
  3. 3,0 3,1 3,2 KUČEROVÁ, Helena. Organizace znalostí: klíčová témata. Praha: Univerzita Karlova, nakladatelství Karolinum, 2017. ISBN 9788024635873.
  4. 4,0 4,1 POKORNÝ, Jan. Současné možnosti integrace informačních zdrojů. Praha, 2008. Rigorózní práce. Univerzita Karlova, Filozofická fakulta, Ústav informačních studií a knihovnictví. Vedoucí práce Vlasák, Rudolf.
  5. 5,0 5,1 BORGMAN, Christine L. Big data, little data, no data: scholarship in the networked world. Cambridge, Massachusetts: The MIT Press, 2015. ISBN 9780262028561.
  6. BAWDEN, David a Lyn ROBINSON. Úvod do informační vědy. Doubravník: Flow, 2017. ISBN 9788088123101.