Big data: Porovnání verzí

m (Doladění hesla)
Řádek 1: Řádek 1:
  
 
'''Big data''' pojem, nejčastěji vyskytující se v oblasti Informačních technologií (ICT), který označuje takové množství dat, které není možné v reálném čase zpracovat na běžně dostupném hardwarovém a softwarovém vybavení.   
 
'''Big data''' pojem, nejčastěji vyskytující se v oblasti Informačních technologií (ICT), který označuje takové množství dat, které není možné v reálném čase zpracovat na běžně dostupném hardwarovém a softwarovém vybavení.   
 
 
  
 
== Rozdělení  ==
 
== Rozdělení  ==

Verze z 26. 11. 2015, 18:19

Big data pojem, nejčastěji vyskytující se v oblasti Informačních technologií (ICT), který označuje takové množství dat, které není možné v reálném čase zpracovat na běžně dostupném hardwarovém a softwarovém vybavení.

Rozdělení

Big Data se definují několika dimenzemi:

  • První dimenzí je objem (volume).

To jsou data, co se nepohybují, ale narůstají obrovským tempem. Bylo již zmíněno v úvodu práce, že tempo růstu objemu dat je rychlejší každým rokem, a do roku 2020 bude ze současných 8000 exabajtů až 35000 exabajtů dat na světě.

  • Druhou dimenzí je rychlost (velocity).

Míněna je rychlost dat a jejich pohybu, vytváření, hromadění a zpracování. Streamovaná data s milisekundovou odezvou, real-time komunikační odezvy a informace.

  • Třetí dimenze je typ (variety).

Data v mnoha různých formách. Strukturovaná, nestrukturovaná, textová a multimediální.

  • Čtvrtá dimenze je věrohodnost (veracity).

Tuto dimenzi přidala společnost IBM pro lepší a přesnější definování Big Data. Nejistá data jsou z důvodů nekonzistence, věrohodnosti či neúplnosti. Při analyzování veškerých dat kolem nás musíme s určitou mírou nevěrohodnosti počítat. V některých zdrojích je jako čtvrtá dimenze uváděna hodnota (value), ve smyslu hodnoty pro podnik a lepší byznys modely. [1]

Firma SAS, která se správou velkoobjemových dat zabývá, přidává ještě další složku a tou je:

  • Pátá dimenze - složitost (complexity).

Dnešní data pocházejí z mnoha zdrojů. Provázání, porovnání, sloučení, vyčištění a transformace dat ve všech systémech je stále náročnějším úkolem. Je velmi důležité spojit a korelovat vztahy, hierarchii a početné vazby mezi daty, jinak nad svými daty rychle ztratíte kontrolu.[2]

Uchovávání

Big data se uchovávají v tzv. Datových skladech (anglicky Data Warehouse), toto slovní spojení použil poprvé William H. Inmon[3]

Podle TDKIV[4] je datový sklad vnímán jako Databáze optimalizovaná pro dotazy, analýzy dat a tvorbu sestav. Vytváří se přenosem, transformací a často též agregací primárních dat z provozních systémů a z externích zdrojů a jejich integrováním do jednotné datové základny. Struktura datového skladu je založena zpravidla na dvou typech objektů - tabulkách faktů a tabulkách dimenzí (např. čas, místo), z nichž lze vytvářet vícerozměrné objekty (kostky). Uložená data lze využívat prostřednictvím dotazování, reportingu, OLAP (on-line analytické zpracování), dolování dat, vizualizace dat.[5]

Zdroje

  1. MACEK, Jáchym Praha. Big Data, jejich skladování a možnosti využití. Praha, 2014.
  2. What Is Big Data? | SAS [online]. [cit. 2015-11-9]. Dostupné z: http://www.sas.com/cs_cz/insights/big-data/what-is-big-data.html
  3. INMON, William H a Chuck KELLEY. Rdb/VMS, developing the data warehouse. Boston: QED Pub. Group, c1993, xxiv, 225 p.
  4. Česká terminologická databáze knihovnictví a informační vědy
  5. KUČEROVÁ, Helena. Datový sklad. In: KTD: Česká terminologická databáze knihovnictví a informační vědy (TDKIV) [online]. Praha : Národní knihovna ČR, 2003- [cit. 2015-11-25]. Dostupné z: http://aleph.nkp.cz/F/?func=direct&doc_number=000000389&local_base=KTD.

Externí odkazy

Klíčová slova

Big data, Datový sklad, Data Warehouse, Databáze