Deskriptivní statistika
Verze z 6. 9. 2014, 17:28, kterou vytvořil Dita Lazárková (lazarkovadita@gmail.com) (diskuse | příspěvky)
Obsah
Statistická deskripce ve fonetické literatuře
- kompromis mezi úplností a přehledností informací
- je třeba vždy uvádět hodnotu n (i do všech tabulek)
- normalizace údajů – umožňuje snadnější porovnávání s jinými údaji (např. převod na %)
- tabulky a grafy – pokud místo dovoluje, měl by být obrázek pochopitelný i bez čtení textu → popisný komentář (případně „viz text“)
- vysvětlit zkratky a kódy
Histogram a číslicový dendrogram
Histogram
- varianta sloupcového grafu
- osa x – míra sledované vlastnosti
- osy y – počet prvků, u nichž je daná míra zjištěna
- např. skóre poslechového testu je v rozmezí 20-30 bodů → osa x / skóre 21 dosáhli 2 lidi, skóre 21 3 lidi atd. → osa y
Číslicový dendrogram
- tzv. stem-and-leaf method
- zachovává možnost shluknutí hodnot do pásem + možnost zpětného odečtení původních hodnot (když bychom u histogramu slučovali hodnoty třeba 140-149, 150-151 atd., ne-můžeme je už zpět rozdělit)
- ukázka:
14 | 0 0 2 3
15 | 0 1 5 8 8 9
16 | 3 3 6
- před čárou jsou desítky, tedy 14x, 15x, 16x
- vpravo jsou pak hodnoty x → v prvním řádku máme čtyři hodnoty, a sice 140, 140, 142 a 143
Souborné míry
- soubor dat je možné popsat ukazatelem střední hodnoty + variabilitou
- → jen 2 údaje pro celou velkou sadu
- = souborné míry
Ukazatele střední hodnoty
Aritmetický průměr
- podíl součtu všech členů, x̅
- je ovlivňován extrémními případy → možné zkreslení
- výsledkem může být nereálná hodnota (např. 4,53 slabiky)
- součet všech odchylek se rovná nule
- součet druhých mocnin odchylek od průměru je nižší než součet odchylek od jiného čísla
Medián
- prostřední hodnota ve vzestupně nebo sestupně uspořádané řadě celé sady hodnot
- u sudého počtu vzorků je to průměr těch dvou prostředních
- není příliš ovlivněn extrémy
- poloha mediánu vzhledem k aritmetickému průměru pomáhá indikovat sešikmení rozdělení hodnot
Modus
- nejčastěji se vyskytující hodnota
- využití, když jsou úrovně spíše kategorické než číselné
- forenzní fonetika – když jsou shodné nějaké běžné rysy, je to míň náhoda, než když jsou shodné nějaké méně frekventované
Ukazatele variability
- reziduum – soubor odchylek od průměru
Průměrná odchylka
- aritmetický průměr všech odchylek (bez ohledu na směr odchylky – jinak by to byla nula)
Variační rozpětí
- rozdíl mezi max. a min. hodnotou v souboru
- lepší než číslem je specifikovat ho krajními body
- většinou se používá tam, co medián
Percentilové rozpětí
- hodnota percentilu = kolik % případů má nižší hodnotu
- do x. a od y. percentilu se ignoruje (např. 5–95, 10–90, 15–85)
- mezikvartilové rozpětí – od 25. do 75. percentilu
Rozptyl
- pro základní soubor: součet druhých mocnin odchylek od průměru, dělený počtem datových bodů
- pro výběrový soubor: dělí se tzv. stupni volnosti, tj. počtem datových bodů zmenšeným o 1 (→ lepší odhad rozptylu v populaci na základě vzorku)
Směrodatná odchylka
- odmocnina z rozptylu
- je intuitivnější, vychází v normálních jednotkách, ne na druhou
- liší se výpočet pro základní a výběrový soubor (viz Excel: funkce SMODCH × SMODCH.VYBER)
- oproti prům. odchylce standardní chování v dalších analýzách (→ standard deviation)
- vhodná při „normálně“ rozdělených datech
Variační koeficient
- normalizuje směrodatnou odchylku vůči průměru (Cvar = 100s / x̅)
- v % vyjadřuje poměr směrodatné odchylky a průměru
- umožňuje porovnání parametrů u promluv v různých tempech
Stabilizace deskriptivních charakteristik F0 v souvislém textu
- pro prozodii nelze používat Hz, ale ST (půltóny / semitones)
- mám jeden vzorek → přidám druhý → výsledky se dost změní → přidám další → změní se méně → ... → stabilizovaný vzorek už se téměř nemění
Reference
- Volín, J. (2007): Statistické metody ve fonetickém výzkumu. Praha: Epocha.
- Meloun, M. - Militký, J. (2001): Kompendium statistického zpracování dat. Praha: Academia. (vybrané části)
- Robson, C. (1973): Experiment, design and statistics in psychology. Harmondsworth: Penguin Books Ltd.
- Urdan, T. C. (2001): Statistics in plain English. London: Lawrence Erlbaum Associates.
- Lamser, V. - Růžička, L. (1970): Základy statistiky pro sociology. Praha: Svoboda.
Zpět na rozcestník: Statistické metody ve fonetickém výzkumu | Fonetika