Deskriptivní statistika: Porovnání verzí

Verze z 6. 9. 2014, 18:29

Obsah

1 Statistická deskripce ve fonetické literatuře
2 Histogram a číslicový dendrogram
- 2.1 Histogram
- 2.2 Číslicový dendrogram
3 Souborné míry
- 3.1 Ukazatele střední hodnoty
- 3.2 Ukazatele variability
4 Stabilizace deskriptivních charakteristik F0 v souvislém textu
5 Reference

Statistická deskripce ve fonetické literatuře

kompromis mezi úplností a přehledností informací
je třeba vždy uvádět hodnotu n (i do všech tabulek)
normalizace údajů – umožňuje snadnější porovnávání s jinými údaji (např. převod na %)
tabulky a grafy – pokud místo dovoluje, měl by být obrázek pochopitelný i bez čtení textu → popisný komentář (případně „viz text“)
vysvětlit zkratky a kódy

Histogram a číslicový dendrogram

Histogram

varianta sloupcového grafu
osa x – míra sledované vlastnosti
osy y – počet prvků, u nichž je daná míra zjištěna
např. skóre poslechového testu je v rozmezí 20-30 bodů → osa x / skóre 21 dosáhli 2 lidi, skóre 21 3 lidi atd. → osa y

Číslicový dendrogram

tzv. stem-and-leaf method
zachovává možnost shluknutí hodnot do pásem + možnost zpětného odečtení původních hodnot (když bychom u histogramu slučovali hodnoty třeba 140-149, 150-151 atd., ne-můžeme je už zpět rozdělit)

ukázka:

14 | 0 0 2 3

15 | 0 1 5 8 8 9

16 | 3 3 6

před čárou jsou desítky, tedy 14x, 15x, 16x
vpravo jsou pak hodnoty x → v prvním řádku máme čtyři hodnoty, a sice 140, 140, 142 a 143

Souborné míry

soubor dat je možné popsat ukazatelem střední hodnoty + variabilitou
→ jen 2 údaje pro celou velkou sadu
= souborné míry

Ukazatele střední hodnoty

Aritmetický průměr

podíl součtu všech členů, x̅
je ovlivňován extrémními případy → možné zkreslení
výsledkem může být nereálná hodnota (např. 4,53 slabiky)
součet všech odchylek se rovná nule
součet druhých mocnin odchylek od průměru je nižší než součet odchylek od jiného čísla

Medián

prostřední hodnota ve vzestupně nebo sestupně uspořádané řadě celé sady hodnot
u sudého počtu vzorků je to průměr těch dvou prostředních
není příliš ovlivněn extrémy
poloha mediánu vzhledem k aritmetickému průměru pomáhá indikovat sešikmení rozdělení hodnot

Modus

nejčastěji se vyskytující hodnota
využití, když jsou úrovně spíše kategorické než číselné
forenzní fonetika – když jsou shodné nějaké běžné rysy, je to míň náhoda, než když jsou shodné nějaké méně frekventované

Ukazatele variability

reziduum – soubor odchylek od průměru

Průměrná odchylka

aritmetický průměr všech odchylek (bez ohledu na směr odchylky – jinak by to byla nula)

Variační rozpětí

rozdíl mezi max. a min. hodnotou v souboru
lepší než číslem je specifikovat ho krajními body
většinou se používá tam, co medián

Percentilové rozpětí

hodnota percentilu = kolik % případů má nižší hodnotu
do x. a od y. percentilu se ignoruje (např. 5–95, 10–90, 15–85)
mezikvartilové rozpětí – od 25. do 75. percentilu

Rozptyl

pro základní soubor: součet druhých mocnin odchylek od průměru, dělený počtem datových bodů
pro výběrový soubor: dělí se tzv. stupni volnosti, tj. počtem datových bodů zmenšeným o 1 (→ lepší odhad rozptylu v populaci na základě vzorku)

Směrodatná odchylka

odmocnina z rozptylu
je intuitivnější, vychází v normálních jednotkách, ne na druhou
liší se výpočet pro základní a výběrový soubor (viz Excel: funkce SMODCH × SMODCH.VYBER)
oproti prům. odchylce standardní chování v dalších analýzách (→ standard deviation)
vhodná při „normálně“ rozdělených datech

Variační koeficient

normalizuje směrodatnou odchylku vůči průměru (Cvar = 100s / x̅)
v % vyjadřuje poměr směrodatné odchylky a průměru
umožňuje porovnání parametrů u promluv v různých tempech

Stabilizace deskriptivních charakteristik F0 v souvislém textu

pro prozodii nelze používat Hz, ale ST (půltóny / semitones)
mám jeden vzorek → přidám druhý → výsledky se dost změní → přidám další → změní se méně → ... → stabilizovaný vzorek už se téměř nemění

Reference

Volín, J. (2007): Statistické metody ve fonetickém výzkumu. Praha: Epocha.
Meloun, M. - Militký, J. (2001): Kompendium statistického zpracování dat. Praha: Academia. (vybrané části)
Robson, C. (1973): Experiment, design and statistics in psychology. Harmondsworth: Penguin Books Ltd.
Urdan, T. C. (2001): Statistics in plain English. London: Lawrence Erlbaum Associates.
Lamser, V. - Růžička, L. (1970): Základy statistiky pro sociology. Praha: Svoboda.

Zpět na rozcestník: Statistické metody ve fonetickém výzkumu | Fonetika

Citováno z „https://wikisofia.cz/w/index.php?title=Deskriptivní_statistika&oldid=5912“