Deskriptivní statistika: Porovnání verzí

 
Řádek 6: Řádek 6:
 
* tabulky a grafy – pokud místo dovoluje, měl by být obrázek pochopitelný i bez čtení textu → popisný komentář (případně „viz text“)
 
* tabulky a grafy – pokud místo dovoluje, měl by být obrázek pochopitelný i bez čtení textu → popisný komentář (případně „viz text“)
 
* vysvětlit zkratky a kódy
 
* vysvětlit zkratky a kódy
 
  
 
== Histogram a číslicový dendrogram ==
 
== Histogram a číslicový dendrogram ==
Řádek 16: Řádek 15:
 
* osy y – počet prvků, u nichž je daná míra zjištěna
 
* osy y – počet prvků, u nichž je daná míra zjištěna
 
* např. skóre poslechového testu je v rozmezí 20-30 bodů → osa x / skóre 21 dosáhli 2 lidi, skóre 21 3 lidi atd. → osa y
 
* např. skóre poslechového testu je v rozmezí 20-30 bodů → osa x / skóre 21 dosáhli 2 lidi, skóre 21 3 lidi atd. → osa y
 
  
 
=== Číslicový dendrogram ===
 
=== Číslicový dendrogram ===
Řádek 22: Řádek 20:
 
* tzv. ''stem-and-leaf method''
 
* tzv. ''stem-and-leaf method''
 
* zachovává možnost shluknutí hodnot do pásem + možnost zpětného odečtení původních hodnot (když bychom u histogramu slučovali hodnoty třeba 140-149, 150-151 atd., ne-můžeme je už zpět rozdělit)
 
* zachovává možnost shluknutí hodnot do pásem + možnost zpětného odečtení původních hodnot (když bychom u histogramu slučovali hodnoty třeba 140-149, 150-151 atd., ne-můžeme je už zpět rozdělit)
 
 
* ukázka:
 
* ukázka:
  
Řádek 31: Řádek 28:
 
* před čárou jsou desítky, tedy 14x, 15x, 16x
 
* před čárou jsou desítky, tedy 14x, 15x, 16x
 
* vpravo jsou pak hodnoty x → v prvním řádku máme čtyři hodnoty, a sice 140, 140, 142 a 143
 
* vpravo jsou pak hodnoty x → v prvním řádku máme čtyři hodnoty, a sice 140, 140, 142 a 143
 
  
 
== Souborné míry ==
 
== Souborné míry ==
Řádek 38: Řádek 34:
 
* → jen 2 údaje pro celou velkou sadu
 
* → jen 2 údaje pro celou velkou sadu
 
* = souborné míry
 
* = souborné míry
 
  
 
=== Ukazatele střední hodnoty ===
 
=== Ukazatele střední hodnoty ===
Řádek 56: Řádek 51:
 
* u sudého počtu vzorků je to průměr těch dvou prostředních
 
* u sudého počtu vzorků je to průměr těch dvou prostředních
 
* není příliš ovlivněn extrémy
 
* není příliš ovlivněn extrémy
* poloha mediánu vzhledem k aritmetickému průměru pomáhá indikovat '''sešikmení rozdělení hodnot'''
+
* poloha [[Medián|mediánu]] vzhledem k aritmetickému průměru pomáhá indikovat '''sešikmení rozdělení hodnot'''
 
 
  
 
==== Modus ====
 
==== Modus ====
Řádek 64: Řádek 58:
 
* využití, když jsou úrovně spíše kategorické než číselné
 
* využití, když jsou úrovně spíše kategorické než číselné
 
* forenzní fonetika – když jsou shodné nějaké běžné rysy, je to míň náhoda, než když jsou shodné nějaké méně frekventované
 
* forenzní fonetika – když jsou shodné nějaké běžné rysy, je to míň náhoda, než když jsou shodné nějaké méně frekventované
 
  
 
=== Ukazatele variability ===
 
=== Ukazatele variability ===
  
 
* '''reziduum''' – soubor odchylek od průměru
 
* '''reziduum''' – soubor odchylek od průměru
 
  
 
==== Průměrná odchylka ====
 
==== Průměrná odchylka ====
  
 
* aritmetický průměr všech odchylek (bez ohledu na směr odchylky – jinak by to byla nula)
 
* aritmetický průměr všech odchylek (bez ohledu na směr odchylky – jinak by to byla nula)
 
 
  
 
==== Variační rozpětí ====
 
==== Variační rozpětí ====
Řádek 82: Řádek 72:
 
* lepší než číslem je specifikovat ho krajními body
 
* lepší než číslem je specifikovat ho krajními body
 
* většinou se používá tam, co medián
 
* většinou se používá tam, co medián
 
  
 
==== Percentilové rozpětí ====
 
==== Percentilové rozpětí ====
Řádek 89: Řádek 78:
 
* do x. a od y. percentilu se ignoruje (např. 5–95, 10–90, 15–85)
 
* do x. a od y. percentilu se ignoruje (např. 5–95, 10–90, 15–85)
 
* '''mezikvartilové rozpětí''' – od 25. do 75. percentilu
 
* '''mezikvartilové rozpětí''' – od 25. do 75. percentilu
 
  
 
==== Rozptyl ====
 
==== Rozptyl ====
Řádek 95: Řádek 83:
 
* '''pro základní soubor''': součet druhých mocnin odchylek od průměru, dělený počtem datových bodů
 
* '''pro základní soubor''': součet druhých mocnin odchylek od průměru, dělený počtem datových bodů
 
* '''pro výběrový soubor''': dělí se tzv. '''stupni volnosti''', tj. počtem datových bodů zmenšeným o 1 (→ lepší odhad rozptylu v populaci na základě vzorku)
 
* '''pro výběrový soubor''': dělí se tzv. '''stupni volnosti''', tj. počtem datových bodů zmenšeným o 1 (→ lepší odhad rozptylu v populaci na základě vzorku)
 
  
 
==== Směrodatná odchylka ====
 
==== Směrodatná odchylka ====
Řádek 104: Řádek 91:
 
* oproti prům. odchylce standardní chování v dalších analýzách (→ standard deviation)
 
* oproti prům. odchylce standardní chování v dalších analýzách (→ standard deviation)
 
* vhodná při „normálně“ rozdělených datech
 
* vhodná při „normálně“ rozdělených datech
 
  
 
==== Variační koeficient ====
 
==== Variační koeficient ====
Řádek 111: Řádek 97:
 
* v % vyjadřuje poměr směrodatné odchylky a průměru
 
* v % vyjadřuje poměr směrodatné odchylky a průměru
 
* umožňuje porovnání parametrů u promluv v různých tempech
 
* umožňuje porovnání parametrů u promluv v různých tempech
 
  
 
== Stabilizace deskriptivních charakteristik F0 v souvislém textu ==
 
== Stabilizace deskriptivních charakteristik F0 v souvislém textu ==
Řádek 118: Řádek 103:
 
* mám jeden vzorek → přidám druhý → výsledky se dost změní → přidám další → změní se méně → ... → stabilizovaný vzorek už se téměř nemění
 
* mám jeden vzorek → přidám druhý → výsledky se dost změní → přidám další → změní se méně → ... → stabilizovaný vzorek už se téměř nemění
  
 +
== Odkazy ==
  
 +
=== Reference ===
  
== Reference ==
 
 
<references />
 
<references />
 +
 +
=== Použitá literatura ===
 +
 
* Volín, J. (2007): Statistické metody ve fonetickém výzkumu. Praha: Epocha.
 
* Volín, J. (2007): Statistické metody ve fonetickém výzkumu. Praha: Epocha.
 
* Meloun, M. - Militký, J. (2001): Kompendium statistického zpracování dat. Praha: Academia. (vybrané části)  
 
* Meloun, M. - Militký, J. (2001): Kompendium statistického zpracování dat. Praha: Academia. (vybrané části)  
Řádek 128: Řádek 117:
 
* Lamser, V. - Růžička, L. (1970): Základy statistiky pro sociology. Praha: Svoboda.
 
* Lamser, V. - Růžička, L. (1970): Základy statistiky pro sociology. Praha: Svoboda.
  
 +
Zpět na rozcestník: [[Statistické_metody_ve_fonetickém_výzkumu|Statistické metody ve fonetickém výzkumu]] | [[Portál:Fonetika|Fonetika]]
  
Zpět na rozcestník: [[Statistické_metody_ve_fonetickém_výzkumu|Statistické metody ve fonetickém výzkumu]] | [[Portál:Fonetika|Fonetika]]
+
[[Kategorie: Fonetika|*]]
 +
[[Kategorie: Statistika|*]]

Aktuální verze z 20. 1. 2015, 00:42

Statistická deskripce ve fonetické literatuře

  • kompromis mezi úplností a přehledností informací
  • je třeba vždy uvádět hodnotu n (i do všech tabulek)
  • normalizace údajů – umožňuje snadnější porovnávání s jinými údaji (např. převod na %)
  • tabulky a grafy – pokud místo dovoluje, měl by být obrázek pochopitelný i bez čtení textu → popisný komentář (případně „viz text“)
  • vysvětlit zkratky a kódy

Histogram a číslicový dendrogram

Histogram

  • varianta sloupcového grafu
  • osa x – míra sledované vlastnosti
  • osy y – počet prvků, u nichž je daná míra zjištěna
  • např. skóre poslechového testu je v rozmezí 20-30 bodů → osa x / skóre 21 dosáhli 2 lidi, skóre 21 3 lidi atd. → osa y

Číslicový dendrogram

  • tzv. stem-and-leaf method
  • zachovává možnost shluknutí hodnot do pásem + možnost zpětného odečtení původních hodnot (když bychom u histogramu slučovali hodnoty třeba 140-149, 150-151 atd., ne-můžeme je už zpět rozdělit)
  • ukázka:
14 | 0 0 2 3
15 | 0 1 5 8 8 9
16 | 3 3 6
  • před čárou jsou desítky, tedy 14x, 15x, 16x
  • vpravo jsou pak hodnoty x → v prvním řádku máme čtyři hodnoty, a sice 140, 140, 142 a 143

Souborné míry

  • soubor dat je možné popsat ukazatelem střední hodnoty + variabilitou
  • → jen 2 údaje pro celou velkou sadu
  • = souborné míry

Ukazatele střední hodnoty

Aritmetický průměr

  • podíl součtu všech členů,
  • je ovlivňován extrémními případy → možné zkreslení
  • výsledkem může být nereálná hodnota (např. 4,53 slabiky)
  • součet všech odchylek se rovná nule
  • součet druhých mocnin odchylek od průměru je nižší než součet odchylek od jiného čísla


Medián

  • prostřední hodnota ve vzestupně nebo sestupně uspořádané řadě celé sady hodnot
  • u sudého počtu vzorků je to průměr těch dvou prostředních
  • není příliš ovlivněn extrémy
  • poloha mediánu vzhledem k aritmetickému průměru pomáhá indikovat sešikmení rozdělení hodnot

Modus

  • nejčastěji se vyskytující hodnota
  • využití, když jsou úrovně spíše kategorické než číselné
  • forenzní fonetika – když jsou shodné nějaké běžné rysy, je to míň náhoda, než když jsou shodné nějaké méně frekventované

Ukazatele variability

  • reziduum – soubor odchylek od průměru

Průměrná odchylka

  • aritmetický průměr všech odchylek (bez ohledu na směr odchylky – jinak by to byla nula)

Variační rozpětí

  • rozdíl mezi max. a min. hodnotou v souboru
  • lepší než číslem je specifikovat ho krajními body
  • většinou se používá tam, co medián

Percentilové rozpětí

  • hodnota percentilu = kolik % případů má nižší hodnotu
  • do x. a od y. percentilu se ignoruje (např. 5–95, 10–90, 15–85)
  • mezikvartilové rozpětí – od 25. do 75. percentilu

Rozptyl

  • pro základní soubor: součet druhých mocnin odchylek od průměru, dělený počtem datových bodů
  • pro výběrový soubor: dělí se tzv. stupni volnosti, tj. počtem datových bodů zmenšeným o 1 (→ lepší odhad rozptylu v populaci na základě vzorku)

Směrodatná odchylka

  • odmocnina z rozptylu
  • je intuitivnější, vychází v normálních jednotkách, ne na druhou
  • liší se výpočet pro základní a výběrový soubor (viz Excel: funkce SMODCH × SMODCH.VYBER)
  • oproti prům. odchylce standardní chování v dalších analýzách (→ standard deviation)
  • vhodná při „normálně“ rozdělených datech

Variační koeficient

  • normalizuje směrodatnou odchylku vůči průměru (Cvar = 100s / )
  • v % vyjadřuje poměr směrodatné odchylky a průměru
  • umožňuje porovnání parametrů u promluv v různých tempech

Stabilizace deskriptivních charakteristik F0 v souvislém textu

  • pro prozodii nelze používat Hz, ale ST (půltóny / semitones)
  • mám jeden vzorek → přidám druhý → výsledky se dost změní → přidám další → změní se méně → ... → stabilizovaný vzorek už se téměř nemění

Odkazy

Reference


Použitá literatura

  • Volín, J. (2007): Statistické metody ve fonetickém výzkumu. Praha: Epocha.
  • Meloun, M. - Militký, J. (2001): Kompendium statistického zpracování dat. Praha: Academia. (vybrané části)
  • Robson, C. (1973): Experiment, design and statistics in psychology. Harmondsworth: Penguin Books Ltd.
  • Urdan, T. C. (2001): Statistics in plain English. London: Lawrence Erlbaum Associates.
  • Lamser, V. - Růžička, L. (1970): Základy statistiky pro sociology. Praha: Svoboda.

Zpět na rozcestník: Statistické metody ve fonetickém výzkumu | Fonetika