Deskriptivní statistika: Porovnání verzí

Aktuální verze z 20. 1. 2015, 01:42

Statistická deskripce ve fonetické literatuře

kompromis mezi úplností a přehledností informací
je třeba vždy uvádět hodnotu n (i do všech tabulek)
normalizace údajů – umožňuje snadnější porovnávání s jinými údaji (např. převod na %)
tabulky a grafy – pokud místo dovoluje, měl by být obrázek pochopitelný i bez čtení textu → popisný komentář (případně „viz text“)
vysvětlit zkratky a kódy

Histogram a číslicový dendrogram

Histogram

varianta sloupcového grafu
osa x – míra sledované vlastnosti
osy y – počet prvků, u nichž je daná míra zjištěna
např. skóre poslechového testu je v rozmezí 20-30 bodů → osa x / skóre 21 dosáhli 2 lidi, skóre 21 3 lidi atd. → osa y

Číslicový dendrogram

tzv. stem-and-leaf method
zachovává možnost shluknutí hodnot do pásem + možnost zpětného odečtení původních hodnot (když bychom u histogramu slučovali hodnoty třeba 140-149, 150-151 atd., ne-můžeme je už zpět rozdělit)
ukázka:

14 | 0 0 2 3

15 | 0 1 5 8 8 9

16 | 3 3 6

před čárou jsou desítky, tedy 14x, 15x, 16x
vpravo jsou pak hodnoty x → v prvním řádku máme čtyři hodnoty, a sice 140, 140, 142 a 143

Souborné míry

soubor dat je možné popsat ukazatelem střední hodnoty + variabilitou
→ jen 2 údaje pro celou velkou sadu
= souborné míry

Ukazatele střední hodnoty

Aritmetický průměr

podíl součtu všech členů, x̅
je ovlivňován extrémními případy → možné zkreslení
výsledkem může být nereálná hodnota (např. 4,53 slabiky)
součet všech odchylek se rovná nule
součet druhých mocnin odchylek od průměru je nižší než součet odchylek od jiného čísla

Medián

prostřední hodnota ve vzestupně nebo sestupně uspořádané řadě celé sady hodnot
u sudého počtu vzorků je to průměr těch dvou prostředních
není příliš ovlivněn extrémy
poloha mediánu vzhledem k aritmetickému průměru pomáhá indikovat sešikmení rozdělení hodnot

Modus

nejčastěji se vyskytující hodnota
využití, když jsou úrovně spíše kategorické než číselné
forenzní fonetika – když jsou shodné nějaké běžné rysy, je to míň náhoda, než když jsou shodné nějaké méně frekventované

Ukazatele variability

reziduum – soubor odchylek od průměru

Průměrná odchylka

aritmetický průměr všech odchylek (bez ohledu na směr odchylky – jinak by to byla nula)

Variační rozpětí

rozdíl mezi max. a min. hodnotou v souboru
lepší než číslem je specifikovat ho krajními body
většinou se používá tam, co medián

Percentilové rozpětí

hodnota percentilu = kolik % případů má nižší hodnotu
do x. a od y. percentilu se ignoruje (např. 5–95, 10–90, 15–85)
mezikvartilové rozpětí – od 25. do 75. percentilu

Rozptyl

pro základní soubor: součet druhých mocnin odchylek od průměru, dělený počtem datových bodů
pro výběrový soubor: dělí se tzv. stupni volnosti, tj. počtem datových bodů zmenšeným o 1 (→ lepší odhad rozptylu v populaci na základě vzorku)

Směrodatná odchylka

odmocnina z rozptylu
je intuitivnější, vychází v normálních jednotkách, ne na druhou
liší se výpočet pro základní a výběrový soubor (viz Excel: funkce SMODCH × SMODCH.VYBER)
oproti prům. odchylce standardní chování v dalších analýzách (→ standard deviation)
vhodná při „normálně“ rozdělených datech

Variační koeficient

normalizuje směrodatnou odchylku vůči průměru (Cvar = 100s / x̅)
v % vyjadřuje poměr směrodatné odchylky a průměru
umožňuje porovnání parametrů u promluv v různých tempech

Stabilizace deskriptivních charakteristik F0 v souvislém textu

pro prozodii nelze používat Hz, ale ST (půltóny / semitones)
mám jeden vzorek → přidám druhý → výsledky se dost změní → přidám další → změní se méně → ... → stabilizovaný vzorek už se téměř nemění

Odkazy

Reference

Použitá literatura

Volín, J. (2007): Statistické metody ve fonetickém výzkumu. Praha: Epocha.
Meloun, M. - Militký, J. (2001): Kompendium statistického zpracování dat. Praha: Academia. (vybrané části)
Robson, C. (1973): Experiment, design and statistics in psychology. Harmondsworth: Penguin Books Ltd.
Urdan, T. C. (2001): Statistics in plain English. London: Lawrence Erlbaum Associates.
Lamser, V. - Růžička, L. (1970): Základy statistiky pro sociology. Praha: Svoboda.

Zpět na rozcestník: Statistické metody ve fonetickém výzkumu | Fonetika

@@ Řádek 6: / Řádek 6: @@
 * tabulky a grafy – pokud místo dovoluje, měl by být obrázek pochopitelný i bez čtení textu → popisný komentář (případně „viz text“)
 * vysvětlit zkratky a kódy
 == Histogram a číslicový dendrogram ==
@@ Řádek 16: / Řádek 15: @@
 * osy y – počet prvků, u nichž je daná míra zjištěna
 * např. skóre poslechového testu je v rozmezí 20-30 bodů → osa x / skóre 21 dosáhli 2 lidi, skóre 21 3 lidi atd. → osa y
 === Číslicový dendrogram ===
@@ Řádek 22: / Řádek 20: @@
 * tzv. ''stem-and-leaf method''
 * zachovává možnost shluknutí hodnot do pásem + možnost zpětného odečtení původních hodnot (když bychom u histogramu slučovali hodnoty třeba 140-149, 150-151 atd., ne-můžeme je už zpět rozdělit)
 * ukázka:
@@ Řádek 31: / Řádek 28: @@
 * před čárou jsou desítky, tedy 14x, 15x, 16x
 * vpravo jsou pak hodnoty x → v prvním řádku máme čtyři hodnoty, a sice 140, 140, 142 a 143
 == Souborné míry ==
@@ Řádek 38: / Řádek 34: @@
 * → jen 2 údaje pro celou velkou sadu
 * = souborné míry
 === Ukazatele střední hodnoty ===
@@ Řádek 56: / Řádek 51: @@
 * u sudého počtu vzorků je to průměr těch dvou prostředních
 * není příliš ovlivněn extrémy
-* poloha mediánu vzhledem k aritmetickému průměru pomáhá indikovat '''sešikmení rozdělení hodnot'''
+* poloha [[Medián|mediánu]] vzhledem k aritmetickému průměru pomáhá indikovat '''sešikmení rozdělení hodnot'''
 ==== Modus ====
@@ Řádek 64: / Řádek 58: @@
 * využití, když jsou úrovně spíše kategorické než číselné
 * forenzní fonetika – když jsou shodné nějaké běžné rysy, je to míň náhoda, než když jsou shodné nějaké méně frekventované
 === Ukazatele variability ===
 * '''reziduum''' – soubor odchylek od průměru
 ==== Průměrná odchylka ====
 * aritmetický průměr všech odchylek (bez ohledu na směr odchylky – jinak by to byla nula)
 ==== Variační rozpětí ====
@@ Řádek 82: / Řádek 72: @@
 * lepší než číslem je specifikovat ho krajními body
 * většinou se používá tam, co medián
 ==== Percentilové rozpětí ====
@@ Řádek 89: / Řádek 78: @@
 * do x. a od y. percentilu se ignoruje (např. 5–95, 10–90, 15–85)
 * '''mezikvartilové rozpětí''' – od 25. do 75. percentilu
 ==== Rozptyl ====
@@ Řádek 95: / Řádek 83: @@
 * '''pro základní soubor''': součet druhých mocnin odchylek od průměru, dělený počtem datových bodů
 * '''pro výběrový soubor''': dělí se tzv. '''stupni volnosti''', tj. počtem datových bodů zmenšeným o 1 (→ lepší odhad rozptylu v populaci na základě vzorku)
 ==== Směrodatná odchylka ====
@@ Řádek 104: / Řádek 91: @@
 * oproti prům. odchylce standardní chování v dalších analýzách (→ standard deviation)
 * vhodná při „normálně“ rozdělených datech
 ==== Variační koeficient ====
@@ Řádek 111: / Řádek 97: @@
 * v % vyjadřuje poměr směrodatné odchylky a průměru
 * umožňuje porovnání parametrů u promluv v různých tempech
 == Stabilizace deskriptivních charakteristik F0 v souvislém textu ==
@@ Řádek 118: / Řádek 103: @@
 * mám jeden vzorek → přidám druhý → výsledky se dost změní → přidám další → změní se méně → ... → stabilizovaný vzorek už se téměř nemění
+== Odkazy ==
+=== Reference ===
-== Reference ==
 <references />
+=== Použitá literatura ===
 * Volín, J. (2007): Statistické metody ve fonetickém výzkumu. Praha: Epocha.
 * Meloun, M. - Militký, J. (2001): Kompendium statistického zpracování dat. Praha: Academia. (vybrané části)
@@ Řádek 128: / Řádek 117: @@
 * Lamser, V. - Růžička, L. (1970): Základy statistiky pro sociology. Praha: Svoboda.
+Zpět na rozcestník: [[Statistické_metody_ve_fonetickém_výzkumu|Statistické metody ve fonetickém výzkumu]] | [[Portál:Fonetika|Fonetika]]
-Zpět na rozcestník: [[Statistické_metody_ve_fonetickém_výzkumu|Statistické metody ve fonetickém výzkumu]] | [[Portál:Fonetika|Fonetika]]
+[[Kategorie: Fonetika|*]]
+[[Kategorie: Statistika|*]]

Deskriptivní statistika: Porovnání verzí

Aktuální verze z 20. 1. 2015, 01:42

Obsah

Statistická deskripce ve fonetické literatuře

Histogram a číslicový dendrogram

Histogram

Číslicový dendrogram

Souborné míry

Ukazatele střední hodnoty

Aritmetický průměr

Medián

Modus

Ukazatele variability

Průměrná odchylka

Variační rozpětí

Percentilové rozpětí

Rozptyl

Směrodatná odchylka

Variační koeficient

Stabilizace deskriptivních charakteristik F0 v souvislém textu

Odkazy

Reference

Použitá literatura