Deskriptivní statistika: Porovnání verzí
(Nejsou zobrazeny 2 mezilehlé verze od jednoho dalšího uživatele.) | |||
Řádek 6: | Řádek 6: | ||
* tabulky a grafy – pokud místo dovoluje, měl by být obrázek pochopitelný i bez čtení textu → popisný komentář (případně „viz text“) | * tabulky a grafy – pokud místo dovoluje, měl by být obrázek pochopitelný i bez čtení textu → popisný komentář (případně „viz text“) | ||
* vysvětlit zkratky a kódy | * vysvětlit zkratky a kódy | ||
− | |||
== Histogram a číslicový dendrogram == | == Histogram a číslicový dendrogram == | ||
Řádek 16: | Řádek 15: | ||
* osy y – počet prvků, u nichž je daná míra zjištěna | * osy y – počet prvků, u nichž je daná míra zjištěna | ||
* např. skóre poslechového testu je v rozmezí 20-30 bodů → osa x / skóre 21 dosáhli 2 lidi, skóre 21 3 lidi atd. → osa y | * např. skóre poslechového testu je v rozmezí 20-30 bodů → osa x / skóre 21 dosáhli 2 lidi, skóre 21 3 lidi atd. → osa y | ||
− | |||
=== Číslicový dendrogram === | === Číslicový dendrogram === | ||
Řádek 22: | Řádek 20: | ||
* tzv. ''stem-and-leaf method'' | * tzv. ''stem-and-leaf method'' | ||
* zachovává možnost shluknutí hodnot do pásem + možnost zpětného odečtení původních hodnot (když bychom u histogramu slučovali hodnoty třeba 140-149, 150-151 atd., ne-můžeme je už zpět rozdělit) | * zachovává možnost shluknutí hodnot do pásem + možnost zpětného odečtení původních hodnot (když bychom u histogramu slučovali hodnoty třeba 140-149, 150-151 atd., ne-můžeme je už zpět rozdělit) | ||
+ | * ukázka: | ||
+ | |||
+ | : 14 | 0 0 2 3 | ||
+ | : 15 | 0 1 5 8 8 9 | ||
+ | : 16 | 3 3 6 | ||
+ | |||
+ | * před čárou jsou desítky, tedy 14x, 15x, 16x | ||
+ | * vpravo jsou pak hodnoty x → v prvním řádku máme čtyři hodnoty, a sice 140, 140, 142 a 143 | ||
+ | |||
+ | == Souborné míry == | ||
+ | |||
+ | * soubor dat je možné popsat '''ukazatelem střední hodnoty''' + '''variabilitou''' | ||
+ | * → jen 2 údaje pro celou velkou sadu | ||
+ | * = souborné míry | ||
+ | |||
+ | === Ukazatele střední hodnoty === | ||
+ | |||
+ | ==== Aritmetický průměr ==== | ||
+ | |||
+ | * podíl součtu všech členů, ''x̅'' | ||
+ | * je ovlivňován extrémními případy → možné zkreslení | ||
+ | * výsledkem může být nereálná hodnota (např. 4,53 slabiky) | ||
+ | * součet všech odchylek se rovná nule | ||
+ | * součet druhých mocnin odchylek od průměru je nižší než součet odchylek od jiného čísla | ||
+ | |||
+ | |||
+ | ==== Medián ==== | ||
+ | |||
+ | * '''prostřední hodnota''' ve vzestupně nebo sestupně uspořádané řadě celé sady hodnot | ||
+ | * u sudého počtu vzorků je to průměr těch dvou prostředních | ||
+ | * není příliš ovlivněn extrémy | ||
+ | * poloha [[Medián|mediánu]] vzhledem k aritmetickému průměru pomáhá indikovat '''sešikmení rozdělení hodnot''' | ||
+ | |||
+ | ==== Modus ==== | ||
+ | |||
+ | * '''nejčastěji se vyskytující hodnota''' | ||
+ | * využití, když jsou úrovně spíše kategorické než číselné | ||
+ | * forenzní fonetika – když jsou shodné nějaké běžné rysy, je to míň náhoda, než když jsou shodné nějaké méně frekventované | ||
− | * | + | === Ukazatele variability === |
+ | |||
+ | * '''reziduum''' – soubor odchylek od průměru | ||
+ | |||
+ | ==== Průměrná odchylka ==== | ||
+ | |||
+ | * aritmetický průměr všech odchylek (bez ohledu na směr odchylky – jinak by to byla nula) | ||
+ | |||
+ | ==== Variační rozpětí ==== | ||
+ | |||
+ | * rozdíl mezi max. a min. hodnotou v souboru | ||
+ | * lepší než číslem je specifikovat ho krajními body | ||
+ | * většinou se používá tam, co medián | ||
+ | |||
+ | ==== Percentilové rozpětí ==== | ||
+ | |||
+ | * hodnota percentilu = kolik % případů má nižší hodnotu | ||
+ | * do x. a od y. percentilu se ignoruje (např. 5–95, 10–90, 15–85) | ||
+ | * '''mezikvartilové rozpětí''' – od 25. do 75. percentilu | ||
+ | |||
+ | ==== Rozptyl ==== | ||
+ | |||
+ | * '''pro základní soubor''': součet druhých mocnin odchylek od průměru, dělený počtem datových bodů | ||
+ | * '''pro výběrový soubor''': dělí se tzv. '''stupni volnosti''', tj. počtem datových bodů zmenšeným o 1 (→ lepší odhad rozptylu v populaci na základě vzorku) | ||
+ | |||
+ | ==== Směrodatná odchylka ==== | ||
+ | |||
+ | * '''odmocnina z rozptylu''' | ||
+ | * je intuitivnější, vychází v normálních jednotkách, ne na druhou | ||
+ | * liší se výpočet pro základní a výběrový soubor (viz Excel: funkce SMODCH × SMODCH.VYBER) | ||
+ | * oproti prům. odchylce standardní chování v dalších analýzách (→ standard deviation) | ||
+ | * vhodná při „normálně“ rozdělených datech | ||
− | + | ==== Variační koeficient ==== | |
− | |||
− | |||
+ | * normalizuje směrodatnou odchylku vůči průměru (Cvar = 100s / ''x̅'') | ||
+ | * v % vyjadřuje poměr směrodatné odchylky a průměru | ||
+ | * umožňuje porovnání parametrů u promluv v různých tempech | ||
+ | == Stabilizace deskriptivních charakteristik F0 v souvislém textu == | ||
+ | * pro prozodii nelze používat Hz, ale ST (půltóny / semitones) | ||
+ | * mám jeden vzorek → přidám druhý → výsledky se dost změní → přidám další → změní se méně → ... → stabilizovaný vzorek už se téměř nemění | ||
+ | == Odkazy == | ||
+ | === Reference === | ||
− | |||
<references /> | <references /> | ||
+ | |||
+ | === Použitá literatura === | ||
+ | |||
* Volín, J. (2007): Statistické metody ve fonetickém výzkumu. Praha: Epocha. | * Volín, J. (2007): Statistické metody ve fonetickém výzkumu. Praha: Epocha. | ||
* Meloun, M. - Militký, J. (2001): Kompendium statistického zpracování dat. Praha: Academia. (vybrané části) | * Meloun, M. - Militký, J. (2001): Kompendium statistického zpracování dat. Praha: Academia. (vybrané části) | ||
Řádek 42: | Řádek 117: | ||
* Lamser, V. - Růžička, L. (1970): Základy statistiky pro sociology. Praha: Svoboda. | * Lamser, V. - Růžička, L. (1970): Základy statistiky pro sociology. Praha: Svoboda. | ||
+ | Zpět na rozcestník: [[Statistické_metody_ve_fonetickém_výzkumu|Statistické metody ve fonetickém výzkumu]] | [[Portál:Fonetika|Fonetika]] | ||
− | + | [[Kategorie: Fonetika|*]] | |
+ | [[Kategorie: Statistika|*]] |
Aktuální verze z 20. 1. 2015, 00:42
Obsah
Statistická deskripce ve fonetické literatuře
- kompromis mezi úplností a přehledností informací
- je třeba vždy uvádět hodnotu n (i do všech tabulek)
- normalizace údajů – umožňuje snadnější porovnávání s jinými údaji (např. převod na %)
- tabulky a grafy – pokud místo dovoluje, měl by být obrázek pochopitelný i bez čtení textu → popisný komentář (případně „viz text“)
- vysvětlit zkratky a kódy
Histogram a číslicový dendrogram
Histogram
- varianta sloupcového grafu
- osa x – míra sledované vlastnosti
- osy y – počet prvků, u nichž je daná míra zjištěna
- např. skóre poslechového testu je v rozmezí 20-30 bodů → osa x / skóre 21 dosáhli 2 lidi, skóre 21 3 lidi atd. → osa y
Číslicový dendrogram
- tzv. stem-and-leaf method
- zachovává možnost shluknutí hodnot do pásem + možnost zpětného odečtení původních hodnot (když bychom u histogramu slučovali hodnoty třeba 140-149, 150-151 atd., ne-můžeme je už zpět rozdělit)
- ukázka:
- 14 | 0 0 2 3
- 15 | 0 1 5 8 8 9
- 16 | 3 3 6
- před čárou jsou desítky, tedy 14x, 15x, 16x
- vpravo jsou pak hodnoty x → v prvním řádku máme čtyři hodnoty, a sice 140, 140, 142 a 143
Souborné míry
- soubor dat je možné popsat ukazatelem střední hodnoty + variabilitou
- → jen 2 údaje pro celou velkou sadu
- = souborné míry
Ukazatele střední hodnoty
Aritmetický průměr
- podíl součtu všech členů, x̅
- je ovlivňován extrémními případy → možné zkreslení
- výsledkem může být nereálná hodnota (např. 4,53 slabiky)
- součet všech odchylek se rovná nule
- součet druhých mocnin odchylek od průměru je nižší než součet odchylek od jiného čísla
Medián
- prostřední hodnota ve vzestupně nebo sestupně uspořádané řadě celé sady hodnot
- u sudého počtu vzorků je to průměr těch dvou prostředních
- není příliš ovlivněn extrémy
- poloha mediánu vzhledem k aritmetickému průměru pomáhá indikovat sešikmení rozdělení hodnot
Modus
- nejčastěji se vyskytující hodnota
- využití, když jsou úrovně spíše kategorické než číselné
- forenzní fonetika – když jsou shodné nějaké běžné rysy, je to míň náhoda, než když jsou shodné nějaké méně frekventované
Ukazatele variability
- reziduum – soubor odchylek od průměru
Průměrná odchylka
- aritmetický průměr všech odchylek (bez ohledu na směr odchylky – jinak by to byla nula)
Variační rozpětí
- rozdíl mezi max. a min. hodnotou v souboru
- lepší než číslem je specifikovat ho krajními body
- většinou se používá tam, co medián
Percentilové rozpětí
- hodnota percentilu = kolik % případů má nižší hodnotu
- do x. a od y. percentilu se ignoruje (např. 5–95, 10–90, 15–85)
- mezikvartilové rozpětí – od 25. do 75. percentilu
Rozptyl
- pro základní soubor: součet druhých mocnin odchylek od průměru, dělený počtem datových bodů
- pro výběrový soubor: dělí se tzv. stupni volnosti, tj. počtem datových bodů zmenšeným o 1 (→ lepší odhad rozptylu v populaci na základě vzorku)
Směrodatná odchylka
- odmocnina z rozptylu
- je intuitivnější, vychází v normálních jednotkách, ne na druhou
- liší se výpočet pro základní a výběrový soubor (viz Excel: funkce SMODCH × SMODCH.VYBER)
- oproti prům. odchylce standardní chování v dalších analýzách (→ standard deviation)
- vhodná při „normálně“ rozdělených datech
Variační koeficient
- normalizuje směrodatnou odchylku vůči průměru (Cvar = 100s / x̅)
- v % vyjadřuje poměr směrodatné odchylky a průměru
- umožňuje porovnání parametrů u promluv v různých tempech
Stabilizace deskriptivních charakteristik F0 v souvislém textu
- pro prozodii nelze používat Hz, ale ST (půltóny / semitones)
- mám jeden vzorek → přidám druhý → výsledky se dost změní → přidám další → změní se méně → ... → stabilizovaný vzorek už se téměř nemění
Odkazy
Reference
Použitá literatura
- Volín, J. (2007): Statistické metody ve fonetickém výzkumu. Praha: Epocha.
- Meloun, M. - Militký, J. (2001): Kompendium statistického zpracování dat. Praha: Academia. (vybrané části)
- Robson, C. (1973): Experiment, design and statistics in psychology. Harmondsworth: Penguin Books Ltd.
- Urdan, T. C. (2001): Statistics in plain English. London: Lawrence Erlbaum Associates.
- Lamser, V. - Růžička, L. (1970): Základy statistiky pro sociology. Praha: Svoboda.
Zpět na rozcestník: Statistické metody ve fonetickém výzkumu | Fonetika