Statistická deskripce ve fonetické literatuře

  • kompromis mezi úplností a přehledností informací
  • je třeba vždy uvádět hodnotu n (i do všech tabulek)
  • normalizace údajů – umožňuje snadnější porovnávání s jinými údaji (např. převod na %)
  • tabulky a grafy – pokud místo dovoluje, měl by být obrázek pochopitelný i bez čtení textu → popisný komentář (případně „viz text“)
  • vysvětlit zkratky a kódy


Histogram a číslicový dendrogram

Histogram

  • varianta sloupcového grafu
  • osa x – míra sledované vlastnosti
  • osy y – počet prvků, u nichž je daná míra zjištěna
  • např. skóre poslechového testu je v rozmezí 20-30 bodů → osa x / skóre 21 dosáhli 2 lidi, skóre 21 3 lidi atd. → osa y


Číslicový dendrogram

  • tzv. stem-and-leaf method
  • zachovává možnost shluknutí hodnot do pásem + možnost zpětného odečtení původních hodnot (když bychom u histogramu slučovali hodnoty třeba 140-149, 150-151 atd., ne-můžeme je už zpět rozdělit)
  • ukázka:

14 | 0 0 2 3
15 | 0 1 5 8 8 9
16 | 3 3 6

  • před čárou jsou desítky, tedy 14x, 15x, 16x
  • vpravo jsou pak hodnoty x → v prvním řádku máme čtyři hodnoty, a sice 140, 140, 142 a 143


Souborné míry

  • soubor dat je možné popsat ukazatelem střední hodnoty + variabilitou
  • → jen 2 údaje pro celou velkou sadu
  • = souborné míry


Ukazatele střední hodnoty

Aritmetický průměr

  • podíl součtu všech členů,
  • je ovlivňován extrémními případy → možné zkreslení
  • výsledkem může být nereálná hodnota (např. 4,53 slabiky)
  • součet všech odchylek se rovná nule
  • součet druhých mocnin odchylek od průměru je nižší než součet odchylek od jiného čísla


Medián

  • prostřední hodnota ve vzestupně nebo sestupně uspořádané řadě celé sady hodnot
  • u sudého počtu vzorků je to průměr těch dvou prostředních
  • není příliš ovlivněn extrémy
  • poloha mediánu vzhledem k aritmetickému průměru pomáhá indikovat sešikmení rozdělení hodnot


Modus

  • nejčastěji se vyskytující hodnota
  • využití, když jsou úrovně spíše kategorické než číselné
  • forenzní fonetika – když jsou shodné nějaké běžné rysy, je to míň náhoda, než když jsou shodné nějaké méně frekventované


Ukazatele variability

  • reziduum – soubor odchylek od průměru


Průměrná odchylka

  • aritmetický průměr všech odchylek (bez ohledu na směr odchylky – jinak by to byla nula)


Variační rozpětí

  • rozdíl mezi max. a min. hodnotou v souboru
  • lepší než číslem je specifikovat ho krajními body
  • většinou se používá tam, co medián


Percentilové rozpětí

  • hodnota percentilu = kolik % případů má nižší hodnotu
  • do x. a od y. percentilu se ignoruje (např. 5–95, 10–90, 15–85)
  • mezikvartilové rozpětí – od 25. do 75. percentilu


Rozptyl

  • pro základní soubor: součet druhých mocnin odchylek od průměru, dělený počtem datových bodů
  • pro výběrový soubor: dělí se tzv. stupni volnosti, tj. počtem datových bodů zmenšeným o 1 (→ lepší odhad rozptylu v populaci na základě vzorku)


Směrodatná odchylka

  • odmocnina z rozptylu
  • je intuitivnější, vychází v normálních jednotkách, ne na druhou
  • liší se výpočet pro základní a výběrový soubor (viz Excel: funkce SMODCH × SMODCH.VYBER)
  • oproti prům. odchylce standardní chování v dalších analýzách (→ standard deviation)
  • vhodná při „normálně“ rozdělených datech


Variační koeficient

  • normalizuje směrodatnou odchylku vůči průměru (Cvar = 100s / )
  • v % vyjadřuje poměr směrodatné odchylky a průměru
  • umožňuje porovnání parametrů u promluv v různých tempech


Stabilizace deskriptivních charakteristik F0 v souvislém textu

  • pro prozodii nelze používat Hz, ale ST (půltóny / semitones)
  • mám jeden vzorek → přidám druhý → výsledky se dost změní → přidám další → změní se méně → ... → stabilizovaný vzorek už se téměř nemění


Reference

  • Volín, J. (2007): Statistické metody ve fonetickém výzkumu. Praha: Epocha.
  • Meloun, M. - Militký, J. (2001): Kompendium statistického zpracování dat. Praha: Academia. (vybrané části)
  • Robson, C. (1973): Experiment, design and statistics in psychology. Harmondsworth: Penguin Books Ltd.
  • Urdan, T. C. (2001): Statistics in plain English. London: Lawrence Erlbaum Associates.
  • Lamser, V. - Růžička, L. (1970): Základy statistiky pro sociology. Praha: Svoboda.


Zpět na rozcestník: Statistické metody ve fonetickém výzkumu | Fonetika