Metody popisování polohy: Porovnání verzí

 
(Nejsou zobrazeny 3 mezilehlé verze od stejného uživatele.)
Řádek 53: Řádek 53:
 
===Prodlužující se délka života===
 
===Prodlužující se délka života===
  
V letech 1950-1959 průměrný věk při úmrtí v Československu byl zhruba 66 let (ponechme nyní stranou rozdíl mezi muži a ženami). Mezi lety 2000-2009 tento věk byl vyšší, necelých 73 let <ref> <i>Human Mortality Database.</i> University of California, Berkeley (USA), and Max Planck Institute for Demographic Research (Germany). Available at www.mortality.org or www.humanmortality.de (data downloaded on 28 November 2016).</ref>.  
+
V letech 1960-1969 průměrný věk při úmrtí v Československu byl zhruba 66 let (ponechme nyní stranou rozdíl mezi muži a ženami). Mezi lety 2000-2009 tento věk byl vyšší, necelých 73 let <ref> <i>Human Mortality Database.</i> University of California, Berkeley (USA), and Max Planck Institute for Demographic Research (Germany). Available at www.mortality.org or www.humanmortality.de (data downloaded on 28 November 2016).</ref>.  
  
Je tedy pravda, že průměrný 66 letý člověk v padesátých letech "měl na kahánku", zatímco v nynějších dobách je v podobné pozici člověk o 7 let starší?
+
Je tedy pravda, že průměrný 66 letý člověk v šedesátých letech "měl na kahánku", zatímco v nynějších dobách je v podobné pozici člověk o 7 let starší?
Je pravda, že se délka života lidí prodloužila mezi padesátými léty a počátku tisíciletí zvýšila o 7 let? A pokud ano, co to znamená?
+
Je pravda, že se délka života lidí prodloužila mezi šedesátými léty a počátku tisíciletí zvýšila o 7 let? A pokud ano, co to znamená?
  
 
''Tip:'' Uvažujte chvíli, co víte o úmrtnosti v dřívějších dobách. Jakým způsobem popisuje průměr data? Co vše může kromě změny polohy rozložení pohnout s průměrem?
 
''Tip:'' Uvažujte chvíli, co víte o úmrtnosti v dřívějších dobách. Jakým způsobem popisuje průměr data? Co vše může kromě změny polohy rozložení pohnout s průměrem?
 +
 +
''Tip 2:'' Pokud Vám byl předchozí tip úplně k ničemu, zkuste se zamyslet nad tím, zda úmrtnost dětí při/po porodu zůstala během těchto let stejná.
  
 
==Řešení==
 
==Řešení==
Řádek 66: Řádek 68:
 
V případě symetrického rozložení jsou všechny míry centrální tendence stejné.
 
V případě symetrického rozložení jsou všechny míry centrální tendence stejné.
  
V případě nesymetrického rozložení se tyto míry rozcházejí. Nejlehčí je na obrázku určit modus, rozlišit medián a průměr už je trochu složitější, ale zvládneme to. Modus značí nejčastější hodnotu, logicky je to tedy hodnota s nejvyšší hustotou pravděpodobnosti (je nejvíc vlevo). Medián dělí rozdělení na dvě půlky. Z pouhého koukání na graf je ale poněkud obtížné odhadnout, která z čar půlí rozdělení na dvě půlky. Musíme proto uvažovat o jiném způsobu, jak od sebe medián a průměr rozlišit.
+
V případě nesymetrického rozložení se tyto míry rozcházejí. Nejlehčí je na obrázku určit modus, rozlišit medián a průměr už je trochu složitější, ale zvládneme to. Modus značí nejčastější hodnotu, logicky je to tedy hodnota s nejvyšší hustotou pravděpodobnosti. Medián dělí rozdělení na dvě půlky. Z pouhého koukání na graf je ale poněkud obtížné odhadnout, která z čar půlí rozdělení na dvě půlky. Musíme proto uvažovat o jiném způsobu, jak od sebe medián a průměr rozlišit.
  
 
Představte si následující příklad. Máme deset hodnot, jejichž rozložení vypadá jako v grafu nalevo:
 
Představte si následující příklad. Máme deset hodnot, jejichž rozložení vypadá jako v grafu nalevo:
Řádek 85: Řádek 87:
 
===Prodlužující se délka života===
 
===Prodlužující se délka života===
  
[[File:umrti_1950_2000.png|400px]]
+
Na předchozí otázky se dá odpovědět ano i ne. V šedesátých letech lidé opravdu umírali v průměru o sedm let dříve. Problém zde nastává, když si uvědomíme, jak podstatnou roli ve výpočtu průměru hraje porodní úmrtnost. Hle graf (zelená linka ukazuje počet úmrtí pro různé věky v šedesátých letech, žlutá to samé pro léta 2000-2009):
 +
 
 +
[[File:umrti_1960_2000.png|400px]]
 +
 
 +
Všimněte si, jak pro věk 0 let linka poskočí. Pro šedesátá léta ovšem vyskočí mnohem výše, než pro nultá léta. V šedesátých letech téměř 3 % ze všech úmrtí byla úmrtím novorozenců či kojenců (pravděpodobně však valná část při porodu), zatímco dnes je toto číslo menší než 0.5 %. Tento fakt způsobuje, že průměr pro šedesátá léta je "stažen" odlehlými hodnotami trošku dolů, více, než bychom čekali. Když spočítáme průměrný věk při úmrtí bez skupiny lidí umírající ve věku 0 let, dostaneme zlehka jiný obraz: průměr pro šedesátá léta se zvětší o dva roky, tzn 68 let, pro nultá léta se zvýší pouze o pár desetin, a zůstává přibližně na 73 letech.
 +
 
 +
Takže ano, lidé dnes opravdu umírají později než dříve, ovšem praktický rozdíl není 7 let, jak by se zdálo při letmém zkoumání. Z toho plyne jedno zásadní poučení: '''při počítání statistik přemýšlejte o tom, co počítáte, a co to vlastně znamená.''' Je velmi lehké se oklamat a někdy to může mít horší dopady, než že odhadnete průměrný věk při úmrtí o pouhé dva roky.
 +
 
 +
Ná závěr si uveďme ještě malý detail. Průměrný věk při úmrtí v padesátých letech činil dokonce pouze 61 let. Pokud se ovšem podíváte na data, zjistíte, že je to kvůli velmi vysoké časné úmrtnosti (cca 7.2 % úmrtí tvořily úmrtí dětí do jednoho roku života). Zbytek distribuce je ovšem téměř totožný, jako v šedesátých letech. '''Pokud možno, snažte se na svá data také dívat (tedy dělat smysluplné grafy) a ne slepě věřit ukazatelům, které vám vyplivne statistický program. Někdy Vám to ušetří spoustu času a naskytne nové nápady či hypotézy.'''
  
 
==Reference==
 
==Reference==
 
<references/>
 
<references/>

Aktuální verze z 28. 11. 2016, 22:53

Popisování míry polohy

Upozornění: Tato stránka je poněkud školometská, protože pojednává o základních metodách, které prostě musíme umět a nejsou ničím zábavné. Pokud má laskavý čtenáŕ více času a zvídavosti, nechť se nechá přesměrovat na perfektní vida Khanovy školy, kde mu vše bude vysvětleno zábavněji, než zde :)


Míry polohy slouží k popsání tzv. centrální tendence dané proměnné. Velmi často jde o první ukazatel, který nás zajímá, chceme-li si udělat představu o tom, jak data vypadají. Míry polohy nám dokáží odpovědět na otázky jako: "Jak byli zhruba účastníci studie staří?", nebo "Jaká byla nejčastější známka studentů psychologie ze statistiky?". Jaký statistický ukazatel máme zvolit nám často napoví typ proměnné. Ve specifických případech ovšem volíme ukazatel jiný (příklady jsou uvedeny u konkrétních ukazatelů). [1]

Modus

Modus (angl. mode, značí se ) je nejjednodušším ukazatelem míry polohy. Odpovídá na otázku, jaká hodnota je v souboru nejčastější. Je jediným ukazatelem, který je uplatnitelný pro nominální proměnné (jako je pohlaví, barva očí nebo fakulty na universitě). Můžeme ho ovšem použít i pro data ordinální (známka ze statistiky) a v některých případech i pro kardinální proměnné. Pokud má proměnná více hodnot s nejvyšší četností, uvádíme všechny.

S modem je zpravidla dobré uvést i relativní četnost (frekvenci) nebo percentuální zastoupení. Často se ani modus explicitně neuvádí a místo toho se uvedou pouze relativní četnosti (čtenář či posluchač podle nich snadno vidí, která z hodnot byla nejčastější). To platí především pro takové proměnné, které nemají mnoho různých hodnot. Tak můžeme často číst například: "Ve vzorku bylo 70 % žen (140/200)", nebo "Respondenti byli studenti filosofických (25 %), lékařských (45 %) a právnických (30 %) fakult". Modus nabývá na důležitosti, pokud možných hodnot bylo hodně a nejčastější z nich "válcuje ostatní". Pokud jsme se studentů ptali, jaká byla jejich oblíbená kniha v dospívání, přičemž velká část (20 %) se shodne na "Harry Potter", a zbytek se rozdrobí mezi všechny ostatní tituly (kolem 1 % každá), pak se dá uvažovat o tom, že modus je dobrým popisem centrální tendence. Kdyby ale všechny tituly měly přibližně stejně (kolem 1 %) a "Harry Potter" měl 1,1 %, tradičně vzato je to stále modus, ovšem jeho vypovídající hodnota není tak velká. Z tohoto důvodu je vždy potřeba přemýšlet o tom, co nám vlastně modus říká v konkrétní situaci.

Medián

Medián (angl. median, značí se ) je přesně to, co jeho název napovídá - prostředek hodnot. Je specifickým případem percentilu (50%). Pro zjištění mediánu nejdříve hodnoty seřadíme od největší po největší a hodnota, která leží přesně ve středu, je mediánem. V případě sudého počtu hodnot je medián vypočítán jako aritmetický průměr dvou středních hodnot.

př. Známky ze statistiky byly následující: 1,1,1,1,1,1,2,2,2,3,3. Jedenáct známek, čili prostřední známka znamená medián. V tomto případě jde o známku 1. Jak najít prostřední hodnotu? Jednoduchý postup je vydělit celkový počet hodnot dvěma a přičíst 0,5 (11/2=5,5, po přičtení dostaneme 6 - medián je tedy šestá hodnota v pořadí).

př 2. Co kdyby byly známky jiné? Co třeba: 1,1,1,1,1,1,2,2,2,2,3,3. Počet známek (12) vydělíme dvěma - výsledek 6. Přičteme 0,5, a zjistíme, že medián leží někde mezi šestou a sedmou hodnotou. Vypočteme aritmetický průměr těchto dvou hodnot - v tomto případě (1+2)/2 = 1,5. Medián známek je tedy 1,5.

Všimněte si, že zatímco v prvním příkladě medián je též modus, v druhém případě se tyto ukazatele trochu rozcházejí - modus je stále 1, ovšem medián vzrostl na 1,5.

Jak je patrno z příkladů a definice mediánu, abychom mohli medián vypočítat, potřebujeme takovou proměnnou, kde se hodnoty dají seřadit od nejmenší po největší, čili minimálně ordinální. Někdy se ovšem stává, že ani pro ordinální proměnné není medián příliš užitečný. Např. pokud máme sudý počet lidí v souboru a medián padne přesně mezi lidi, kteří mají ukončené střední vzdělání a ty, kteří mají vysokou školu, jak máme spočítat medián (průměr střední a vysoké školy)? Naštěstí v takových případech můžeme prostě napsat, že polovina účastníků má nejvyšší dosažené vzdělání maximálně střední školu. Ale ani to není tak úplně zajímavé. V případech, jako je tento, bychom se tak pravděpodobně spokojili s údajem o relativním zastoupení jednotlivých stupňů vzdělání.

Velkou výhodou mediánu je ovšem jeho tzv. robustnost. Ta spočívá v tom, že jeho hodnota není ovlivněna odlehlými hodnotami (které jsou spíše výjimky) a v některých případech tak dokáže popsat centrální tendenci mnohem lépe, než průměr. Medián se tak často používá v případech, kdy kvantitativní proměnná má silné zešikmení, či extrémní hodnoty na jedné nebo druhé straně rozložení. Po vysvětlení průměru následují příklady.

Průměr (aritmetický)

Pravděpodobně nejčastěji se ovšem setkáme s aritmetickým průměrem (angl. mean nebo average, značí se ). Ten má zajímavé vlastnosti, které jsou někdy výhodou a někdy prokletím. Co vlastně průměr říká? Je to číslo, které má pro dané hodnoty nejmenší rozptyl. Naštěstí ovšem nemusíme rozptyl počítat, a stačí nám výpočet, který je většině lidí povědomý. Stačí pouze sečíst všechny hodnoty a vydělit je jejich počtem (následuje matematický zápis tohoto postupu):

př. výška basketbalistů v týmu je (v cm) 201, 195, 180, 185, 193. Průměr pak spočítáme takto:

Průměr se používá především na kvantitativní data, ovšem ve výjimečných případech se dá použít na proměnnou ordinální (např. školní známka).

Jednou z vlastností průměru je jeho senzitivita vůči odlehlým hodnotám. V souboru hodnot, kde se vyskytne nějaká extrémní hodnota, tak může zkreslovat. Typickým příkladem je např. průměrný plat. Hodně lidí je na tom většinou podobně , pár lidí se má o trochu lépe či hůře, a pak je tu mála skupina lidí, kteří vydělávají mnohonásobně víc, než ostatní. Těchto pár procent lidí může s průměrem platů zcela zásadně hnout, i když realita je pro většinu zbylých lidí jiná. Pro takový případ se často spokojíme s mediánem, který odlehlou hodnotou není tak zasažen. Další způsob může být tzv. trimmed mean, kde zkrátka ignorujeme určité procento nejzazších hodnot na obou stranách. K dispozici je ovšem spousta dalších metod (spadajících pod takzvané robustní metody, protože odolávají určitým deviacím dat od našich očekávání), ty zde uvedeny nebudou. Pro zvídavého čtenáře ovšem doporučuji mohykána v oblasti robustních metod, Randa Wilcoxe. [2]

Obecně platí, že pokud je rozložení dat symetrické, pak . Pokud se tyto ukazatele výrazně liší, může to být ukazatel toho, že je potřeba data prozkoumat víc zblízka.

Zkouška nanečisto

Zadání

Nyní si ukážeme na několika příkladech jakým způsobem se míry polohy chovají. V této sekci si můžete vyzkoušet zodpovědět na otázky sami, v další sekci se můžete podívat na řešení.

Míry polohy a tvar rozložení

Prumer, median, modus.png

Dokážete říct, která z čar na grafu představuje modus, medián a průměr? Který z ukazatelů je v příkladech vhodný jako ukazatel centrální tendence?

Prodlužující se délka života

V letech 1960-1969 průměrný věk při úmrtí v Československu byl zhruba 66 let (ponechme nyní stranou rozdíl mezi muži a ženami). Mezi lety 2000-2009 tento věk byl vyšší, necelých 73 let [3].

Je tedy pravda, že průměrný 66 letý člověk v šedesátých letech "měl na kahánku", zatímco v nynějších dobách je v podobné pozici člověk o 7 let starší? Je pravda, že se délka života lidí prodloužila mezi šedesátými léty a počátku tisíciletí zvýšila o 7 let? A pokud ano, co to znamená?

Tip: Uvažujte chvíli, co víte o úmrtnosti v dřívějších dobách. Jakým způsobem popisuje průměr data? Co vše může kromě změny polohy rozložení pohnout s průměrem?

Tip 2: Pokud Vám byl předchozí tip úplně k ničemu, zkuste se zamyslet nad tím, zda úmrtnost dětí při/po porodu zůstala během těchto let stejná.

Řešení

Míry polohy a tvar rozložení

V případě symetrického rozložení jsou všechny míry centrální tendence stejné.

V případě nesymetrického rozložení se tyto míry rozcházejí. Nejlehčí je na obrázku určit modus, rozlišit medián a průměr už je trochu složitější, ale zvládneme to. Modus značí nejčastější hodnotu, logicky je to tedy hodnota s nejvyšší hustotou pravděpodobnosti. Medián dělí rozdělení na dvě půlky. Z pouhého koukání na graf je ale poněkud obtížné odhadnout, která z čar půlí rozdělení na dvě půlky. Musíme proto uvažovat o jiném způsobu, jak od sebe medián a průměr rozlišit.

Představte si následující příklad. Máme deset hodnot, jejichž rozložení vypadá jako v grafu nalevo: Posun prumer.png

Když spočítáme medián, vyjde nám 3, průměr vychází 2.9. Nyní si ale představte, že jedna hodnota nejvíc napravo (5) je ve skutečnosti 10 (zobrazeno na pravém grafu). Změní se nějak medián? Ne, zůstává stejný (je ovlivněn ne samotnými hodnotami, ale pořadím hodnot, čili posunem extrémní hodnoty se nezmění). Průměr naopak stoupne na 3.4.

Takový jednoduchý příklad nám může analogicky pomoci vyřešit předešlé zadání. Průměr je "přitahován" odlehlými hodnotami, tudíž v zešikmeném rozložení bude blíže prodlouženému konci rozložení. Můžete si pamatovat jednoduchou poučku:

  • Při levém (negativním) zešikmení je průměr stahován doleva (směrem k negativním číslům) od mediánu a medián doleva od modu
  • Při pravém (pozitivním) zešikmení je průměr stahován doprava (směrem k pozitivním číslům) od mediánu a medián doprava od modu

Graficky můžete vidět zde (modus šedý, medián modrý, průměr červený)

Rule of thumb.png

Upozornění. Ve statistice zpravidla nic není jednoduché a poučka č.1 je "poučky nefungují". Ani tuto poučku neberte jako vždy platnou, často se stává, že neplatí [4]. Stále ovšem pomáhá k tomu, abychom si uvědomili, jak míry centrální tendence fungují a jak jsou ovlivněné odlehlými hodnotami (a abychom si byli schopni zapamatovat, co vlastně je levé či pozitivní zešikmení :)).

Prodlužující se délka života

Na předchozí otázky se dá odpovědět ano i ne. V šedesátých letech lidé opravdu umírali v průměru o sedm let dříve. Problém zde nastává, když si uvědomíme, jak podstatnou roli ve výpočtu průměru hraje porodní úmrtnost. Hle graf (zelená linka ukazuje počet úmrtí pro různé věky v šedesátých letech, žlutá to samé pro léta 2000-2009):

Umrti 1960 2000.png

Všimněte si, jak pro věk 0 let linka poskočí. Pro šedesátá léta ovšem vyskočí mnohem výše, než pro nultá léta. V šedesátých letech téměř 3 % ze všech úmrtí byla úmrtím novorozenců či kojenců (pravděpodobně však valná část při porodu), zatímco dnes je toto číslo menší než 0.5 %. Tento fakt způsobuje, že průměr pro šedesátá léta je "stažen" odlehlými hodnotami trošku dolů, více, než bychom čekali. Když spočítáme průměrný věk při úmrtí bez skupiny lidí umírající ve věku 0 let, dostaneme zlehka jiný obraz: průměr pro šedesátá léta se zvětší o dva roky, tzn 68 let, pro nultá léta se zvýší pouze o pár desetin, a zůstává přibližně na 73 letech.

Takže ano, lidé dnes opravdu umírají později než dříve, ovšem praktický rozdíl není 7 let, jak by se zdálo při letmém zkoumání. Z toho plyne jedno zásadní poučení: při počítání statistik přemýšlejte o tom, co počítáte, a co to vlastně znamená. Je velmi lehké se oklamat a někdy to může mít horší dopady, než že odhadnete průměrný věk při úmrtí o pouhé dva roky.

Ná závěr si uveďme ještě malý detail. Průměrný věk při úmrtí v padesátých letech činil dokonce pouze 61 let. Pokud se ovšem podíváte na data, zjistíte, že je to kvůli velmi vysoké časné úmrtnosti (cca 7.2 % úmrtí tvořily úmrtí dětí do jednoho roku života). Zbytek distribuce je ovšem téměř totožný, jako v šedesátých letech. Pokud možno, snažte se na svá data také dívat (tedy dělat smysluplné grafy) a ne slepě věřit ukazatelům, které vám vyplivne statistický program. Někdy Vám to ušetří spoustu času a naskytne nové nápady či hypotézy.

Reference

  1. Hendl, J.(2012). Přehled statistických metod: Analýza a metaanalýza dat. Praha: Portál
  2. Wilcox, R. (2012). Introduction to Robust Estimation and Hypothesis Testing (3rd ed.). Academic Press.
  3. Human Mortality Database. University of California, Berkeley (USA), and Max Planck Institute for Demographic Research (Germany). Available at www.mortality.org or www.humanmortality.de (data downloaded on 28 November 2016).
  4. von Hippel, P. (2005). Mean, Median, and Skew: Correcting a Textbook Rule. Journal of Statistics Education 13(2) ww2.amstat.org/publications/jse/v13n2/vonhippel.html