Deskriptivní statistika: Porovnání verzí
Řádek 6: | Řádek 6: | ||
* tabulky a grafy – pokud místo dovoluje, měl by být obrázek pochopitelný i bez čtení textu → popisný komentář (případně „viz text“) | * tabulky a grafy – pokud místo dovoluje, měl by být obrázek pochopitelný i bez čtení textu → popisný komentář (případně „viz text“) | ||
* vysvětlit zkratky a kódy | * vysvětlit zkratky a kódy | ||
− | |||
== Histogram a číslicový dendrogram == | == Histogram a číslicový dendrogram == | ||
Řádek 16: | Řádek 15: | ||
* osy y – počet prvků, u nichž je daná míra zjištěna | * osy y – počet prvků, u nichž je daná míra zjištěna | ||
* např. skóre poslechového testu je v rozmezí 20-30 bodů → osa x / skóre 21 dosáhli 2 lidi, skóre 21 3 lidi atd. → osa y | * např. skóre poslechového testu je v rozmezí 20-30 bodů → osa x / skóre 21 dosáhli 2 lidi, skóre 21 3 lidi atd. → osa y | ||
− | |||
=== Číslicový dendrogram === | === Číslicový dendrogram === | ||
Řádek 22: | Řádek 20: | ||
* tzv. ''stem-and-leaf method'' | * tzv. ''stem-and-leaf method'' | ||
* zachovává možnost shluknutí hodnot do pásem + možnost zpětného odečtení původních hodnot (když bychom u histogramu slučovali hodnoty třeba 140-149, 150-151 atd., ne-můžeme je už zpět rozdělit) | * zachovává možnost shluknutí hodnot do pásem + možnost zpětného odečtení původních hodnot (když bychom u histogramu slučovali hodnoty třeba 140-149, 150-151 atd., ne-můžeme je už zpět rozdělit) | ||
− | |||
* ukázka: | * ukázka: | ||
Řádek 31: | Řádek 28: | ||
* před čárou jsou desítky, tedy 14x, 15x, 16x | * před čárou jsou desítky, tedy 14x, 15x, 16x | ||
* vpravo jsou pak hodnoty x → v prvním řádku máme čtyři hodnoty, a sice 140, 140, 142 a 143 | * vpravo jsou pak hodnoty x → v prvním řádku máme čtyři hodnoty, a sice 140, 140, 142 a 143 | ||
− | |||
== Souborné míry == | == Souborné míry == | ||
Řádek 38: | Řádek 34: | ||
* → jen 2 údaje pro celou velkou sadu | * → jen 2 údaje pro celou velkou sadu | ||
* = souborné míry | * = souborné míry | ||
− | |||
=== Ukazatele střední hodnoty === | === Ukazatele střední hodnoty === | ||
Řádek 56: | Řádek 51: | ||
* u sudého počtu vzorků je to průměr těch dvou prostředních | * u sudého počtu vzorků je to průměr těch dvou prostředních | ||
* není příliš ovlivněn extrémy | * není příliš ovlivněn extrémy | ||
− | * poloha mediánu vzhledem k aritmetickému průměru pomáhá indikovat '''sešikmení rozdělení hodnot''' | + | * poloha [[Medián|mediánu]] vzhledem k aritmetickému průměru pomáhá indikovat '''sešikmení rozdělení hodnot''' |
− | |||
==== Modus ==== | ==== Modus ==== | ||
Řádek 64: | Řádek 58: | ||
* využití, když jsou úrovně spíše kategorické než číselné | * využití, když jsou úrovně spíše kategorické než číselné | ||
* forenzní fonetika – když jsou shodné nějaké běžné rysy, je to míň náhoda, než když jsou shodné nějaké méně frekventované | * forenzní fonetika – když jsou shodné nějaké běžné rysy, je to míň náhoda, než když jsou shodné nějaké méně frekventované | ||
− | |||
=== Ukazatele variability === | === Ukazatele variability === | ||
* '''reziduum''' – soubor odchylek od průměru | * '''reziduum''' – soubor odchylek od průměru | ||
− | |||
==== Průměrná odchylka ==== | ==== Průměrná odchylka ==== | ||
* aritmetický průměr všech odchylek (bez ohledu na směr odchylky – jinak by to byla nula) | * aritmetický průměr všech odchylek (bez ohledu na směr odchylky – jinak by to byla nula) | ||
− | |||
− | |||
==== Variační rozpětí ==== | ==== Variační rozpětí ==== | ||
Řádek 82: | Řádek 72: | ||
* lepší než číslem je specifikovat ho krajními body | * lepší než číslem je specifikovat ho krajními body | ||
* většinou se používá tam, co medián | * většinou se používá tam, co medián | ||
− | |||
==== Percentilové rozpětí ==== | ==== Percentilové rozpětí ==== | ||
Řádek 89: | Řádek 78: | ||
* do x. a od y. percentilu se ignoruje (např. 5–95, 10–90, 15–85) | * do x. a od y. percentilu se ignoruje (např. 5–95, 10–90, 15–85) | ||
* '''mezikvartilové rozpětí''' – od 25. do 75. percentilu | * '''mezikvartilové rozpětí''' – od 25. do 75. percentilu | ||
− | |||
==== Rozptyl ==== | ==== Rozptyl ==== | ||
Řádek 95: | Řádek 83: | ||
* '''pro základní soubor''': součet druhých mocnin odchylek od průměru, dělený počtem datových bodů | * '''pro základní soubor''': součet druhých mocnin odchylek od průměru, dělený počtem datových bodů | ||
* '''pro výběrový soubor''': dělí se tzv. '''stupni volnosti''', tj. počtem datových bodů zmenšeným o 1 (→ lepší odhad rozptylu v populaci na základě vzorku) | * '''pro výběrový soubor''': dělí se tzv. '''stupni volnosti''', tj. počtem datových bodů zmenšeným o 1 (→ lepší odhad rozptylu v populaci na základě vzorku) | ||
− | |||
==== Směrodatná odchylka ==== | ==== Směrodatná odchylka ==== | ||
Řádek 104: | Řádek 91: | ||
* oproti prům. odchylce standardní chování v dalších analýzách (→ standard deviation) | * oproti prům. odchylce standardní chování v dalších analýzách (→ standard deviation) | ||
* vhodná při „normálně“ rozdělených datech | * vhodná při „normálně“ rozdělených datech | ||
− | |||
==== Variační koeficient ==== | ==== Variační koeficient ==== | ||
Řádek 111: | Řádek 97: | ||
* v % vyjadřuje poměr směrodatné odchylky a průměru | * v % vyjadřuje poměr směrodatné odchylky a průměru | ||
* umožňuje porovnání parametrů u promluv v různých tempech | * umožňuje porovnání parametrů u promluv v různých tempech | ||
− | |||
== Stabilizace deskriptivních charakteristik F0 v souvislém textu == | == Stabilizace deskriptivních charakteristik F0 v souvislém textu == | ||
Řádek 118: | Řádek 103: | ||
* mám jeden vzorek → přidám druhý → výsledky se dost změní → přidám další → změní se méně → ... → stabilizovaný vzorek už se téměř nemění | * mám jeden vzorek → přidám druhý → výsledky se dost změní → přidám další → změní se méně → ... → stabilizovaný vzorek už se téměř nemění | ||
+ | == Odkazy == | ||
+ | === Reference === | ||
− | |||
<references /> | <references /> | ||
+ | |||
+ | === Použitá literatura === | ||
+ | |||
* Volín, J. (2007): Statistické metody ve fonetickém výzkumu. Praha: Epocha. | * Volín, J. (2007): Statistické metody ve fonetickém výzkumu. Praha: Epocha. | ||
* Meloun, M. - Militký, J. (2001): Kompendium statistického zpracování dat. Praha: Academia. (vybrané části) | * Meloun, M. - Militký, J. (2001): Kompendium statistického zpracování dat. Praha: Academia. (vybrané části) | ||
Řádek 128: | Řádek 117: | ||
* Lamser, V. - Růžička, L. (1970): Základy statistiky pro sociology. Praha: Svoboda. | * Lamser, V. - Růžička, L. (1970): Základy statistiky pro sociology. Praha: Svoboda. | ||
+ | Zpět na rozcestník: [[Statistické_metody_ve_fonetickém_výzkumu|Statistické metody ve fonetickém výzkumu]] | [[Portál:Fonetika|Fonetika]] | ||
− | + | [[Kategorie: Fonetika|*]] | |
+ | [[Kategorie: Statistika|*]] |
Aktuální verze z 20. 1. 2015, 00:42
Obsah
Statistická deskripce ve fonetické literatuře
- kompromis mezi úplností a přehledností informací
- je třeba vždy uvádět hodnotu n (i do všech tabulek)
- normalizace údajů – umožňuje snadnější porovnávání s jinými údaji (např. převod na %)
- tabulky a grafy – pokud místo dovoluje, měl by být obrázek pochopitelný i bez čtení textu → popisný komentář (případně „viz text“)
- vysvětlit zkratky a kódy
Histogram a číslicový dendrogram
Histogram
- varianta sloupcového grafu
- osa x – míra sledované vlastnosti
- osy y – počet prvků, u nichž je daná míra zjištěna
- např. skóre poslechového testu je v rozmezí 20-30 bodů → osa x / skóre 21 dosáhli 2 lidi, skóre 21 3 lidi atd. → osa y
Číslicový dendrogram
- tzv. stem-and-leaf method
- zachovává možnost shluknutí hodnot do pásem + možnost zpětného odečtení původních hodnot (když bychom u histogramu slučovali hodnoty třeba 140-149, 150-151 atd., ne-můžeme je už zpět rozdělit)
- ukázka:
- 14 | 0 0 2 3
- 15 | 0 1 5 8 8 9
- 16 | 3 3 6
- před čárou jsou desítky, tedy 14x, 15x, 16x
- vpravo jsou pak hodnoty x → v prvním řádku máme čtyři hodnoty, a sice 140, 140, 142 a 143
Souborné míry
- soubor dat je možné popsat ukazatelem střední hodnoty + variabilitou
- → jen 2 údaje pro celou velkou sadu
- = souborné míry
Ukazatele střední hodnoty
Aritmetický průměr
- podíl součtu všech členů, x̅
- je ovlivňován extrémními případy → možné zkreslení
- výsledkem může být nereálná hodnota (např. 4,53 slabiky)
- součet všech odchylek se rovná nule
- součet druhých mocnin odchylek od průměru je nižší než součet odchylek od jiného čísla
Medián
- prostřední hodnota ve vzestupně nebo sestupně uspořádané řadě celé sady hodnot
- u sudého počtu vzorků je to průměr těch dvou prostředních
- není příliš ovlivněn extrémy
- poloha mediánu vzhledem k aritmetickému průměru pomáhá indikovat sešikmení rozdělení hodnot
Modus
- nejčastěji se vyskytující hodnota
- využití, když jsou úrovně spíše kategorické než číselné
- forenzní fonetika – když jsou shodné nějaké běžné rysy, je to míň náhoda, než když jsou shodné nějaké méně frekventované
Ukazatele variability
- reziduum – soubor odchylek od průměru
Průměrná odchylka
- aritmetický průměr všech odchylek (bez ohledu na směr odchylky – jinak by to byla nula)
Variační rozpětí
- rozdíl mezi max. a min. hodnotou v souboru
- lepší než číslem je specifikovat ho krajními body
- většinou se používá tam, co medián
Percentilové rozpětí
- hodnota percentilu = kolik % případů má nižší hodnotu
- do x. a od y. percentilu se ignoruje (např. 5–95, 10–90, 15–85)
- mezikvartilové rozpětí – od 25. do 75. percentilu
Rozptyl
- pro základní soubor: součet druhých mocnin odchylek od průměru, dělený počtem datových bodů
- pro výběrový soubor: dělí se tzv. stupni volnosti, tj. počtem datových bodů zmenšeným o 1 (→ lepší odhad rozptylu v populaci na základě vzorku)
Směrodatná odchylka
- odmocnina z rozptylu
- je intuitivnější, vychází v normálních jednotkách, ne na druhou
- liší se výpočet pro základní a výběrový soubor (viz Excel: funkce SMODCH × SMODCH.VYBER)
- oproti prům. odchylce standardní chování v dalších analýzách (→ standard deviation)
- vhodná při „normálně“ rozdělených datech
Variační koeficient
- normalizuje směrodatnou odchylku vůči průměru (Cvar = 100s / x̅)
- v % vyjadřuje poměr směrodatné odchylky a průměru
- umožňuje porovnání parametrů u promluv v různých tempech
Stabilizace deskriptivních charakteristik F0 v souvislém textu
- pro prozodii nelze používat Hz, ale ST (půltóny / semitones)
- mám jeden vzorek → přidám druhý → výsledky se dost změní → přidám další → změní se méně → ... → stabilizovaný vzorek už se téměř nemění
Odkazy
Reference
Použitá literatura
- Volín, J. (2007): Statistické metody ve fonetickém výzkumu. Praha: Epocha.
- Meloun, M. - Militký, J. (2001): Kompendium statistického zpracování dat. Praha: Academia. (vybrané části)
- Robson, C. (1973): Experiment, design and statistics in psychology. Harmondsworth: Penguin Books Ltd.
- Urdan, T. C. (2001): Statistics in plain English. London: Lawrence Erlbaum Associates.
- Lamser, V. - Růžička, L. (1970): Základy statistiky pro sociology. Praha: Svoboda.
Zpět na rozcestník: Statistické metody ve fonetickém výzkumu | Fonetika