Typy proměnných: Porovnání verzí
(Není zobrazeno 9 mezilehlých verzí od stejného uživatele.) | |||
Řádek 1: | Řádek 1: | ||
== Typy proměnných == | == Typy proměnných == | ||
+ | {{Pracuje se}} | ||
Ve statistice rozlišujeme několik druhů proměnných (angl. ''variables'') podle hodnot, které nabývají. Tyto typy jsou určeny především tím, jaké matematické operace můžeme s hodnotami proměnné provádět. Kategorizací proměnných existují více, my se především zaměříme na nejčastěji používanou kategorizací, se kterou přišel Americký psycholog S. S. Stevens<ref>Stevens. S. S. (1946). On the Theory of Scales of Measurement. ''Science 103''(2684), 677-680.</ref>. Obecně se často o povaze proměnných a jejich měření vedou spory <ref>Maul, A., Irribarra, D.T., & Wilson, M. (2016). On the philosophical foundations of psychological measurement. ''Measurement 79'', 311-320.</ref> a i Stevensova typologie se dočkala kritiky <ref>Velleman, P. F., & Wilkinson, L. (1993). Nominal, ordinal, interval, and ratio typologies are misleading. ''The American Statistician, 47''(1), 65-72.</ref>. Přesto se na tuto typologii podíváme, poněvadž i přes filosofické a zcela pragmatické obtíže s kategorizací proměnných nám umožňuje rychleji se dorozuívat o povaze dat, či nám poskytne informace o tom, jaké analýzy či operace jsou s těmito daty možné. | Ve statistice rozlišujeme několik druhů proměnných (angl. ''variables'') podle hodnot, které nabývají. Tyto typy jsou určeny především tím, jaké matematické operace můžeme s hodnotami proměnné provádět. Kategorizací proměnných existují více, my se především zaměříme na nejčastěji používanou kategorizací, se kterou přišel Americký psycholog S. S. Stevens<ref>Stevens. S. S. (1946). On the Theory of Scales of Measurement. ''Science 103''(2684), 677-680.</ref>. Obecně se často o povaze proměnných a jejich měření vedou spory <ref>Maul, A., Irribarra, D.T., & Wilson, M. (2016). On the philosophical foundations of psychological measurement. ''Measurement 79'', 311-320.</ref> a i Stevensova typologie se dočkala kritiky <ref>Velleman, P. F., & Wilkinson, L. (1993). Nominal, ordinal, interval, and ratio typologies are misleading. ''The American Statistician, 47''(1), 65-72.</ref>. Přesto se na tuto typologii podíváme, poněvadž i přes filosofické a zcela pragmatické obtíže s kategorizací proměnných nám umožňuje rychleji se dorozuívat o povaze dat, či nám poskytne informace o tom, jaké analýzy či operace jsou s těmito daty možné. | ||
Řádek 50: | Řádek 51: | ||
=== 1) Nominální proměnné === | === 1) Nominální proměnné === | ||
+ | |||
+ | Tyto proměnné jsou takové, k nimž nemůžeme přiřadit nějakou kvantitu. Název je odvozen od latinského ''nomen'' (jméno) - což vystihuje podstatu hodnot těchto proměnných, jelikož jsou pouhými názvy, označeními objektů. Jejími hodnotami jsou tedy dvě nebo více označení, které nemají řazení (nemůžeme říci, že jedno je více či méně, větší či menší, apod.). Někdy se nominální proměnné označují jako kategorické proměnné - protože označují různé kategorie. | ||
+ | |||
+ | U nominálních proměnných tak můžete říci, zda daná jednotka patří do určité kategorie, či ne. Příkladem by mohly být například názvy knih. Kolik knih je v knihovně s názvem "Jméno růže"?. Velmi často se ve výzkumném kontextu setkáváme s nominální proměnnou, kterou tvoří různé experimentální skupiny. | ||
+ | |||
+ | Někdy dochází též ke komplikacím s kategoriemi, a to když zjistíme, že naše konstrukty kategorií neodpovídají úplně "realitě". Příkladem může být například často používaná proměnná ''Pohlaví'', kde se často zjistí, že kategorie "Muži" a "Ženy" nestačí a přidáváme tak alespoň kategorii "Jiné". Názornějším příkladem může být například ''Barva'', která bývá často uváděna jako příklad nominální proměnné. Problém nastává, když si uvědomíme, že barvy nejsou inherentně kategorické (v našem vnímání jedna přechází plynule v druhou), což není překvapením, jelikož barva je pouze interpretací percepce frekvence elektromagnetického vlnění (která pochopitelně není kategorická). To samozřejmě nevylučuje, že má smysl zkoumat povahu kategorií barev, jakým způsobem jsou tvořeny, zda jsou interindividuálně či dokonce kulturně univerzální, a podobně - naopak to je často úkolem právě psychologie. Je nicméně mít neustále na zřeteli, co tu vlastně "kategorizujeme". | ||
+ | |||
+ | ==== Dělení podle počtu kategorií ==== | ||
+ | |||
+ | Aby toho nebylo málo, někdy se v literatuře setkáte s označením nominální (kategorické) proměnné jako s ''faktorovou'' proměnnou (factor variable), a to zvláště v kontextu návrhu designu či specifických analytických technik (např. ANOVA - Analýzou variance). Právě s tímto označením se také často spojují tzv. úrovně (levels), které jsou jenom jiným označením počtu kategorií. Tak se můžete setkat s faktorem o třech úrovních (factor with three levels), což neznamená nic víc, než kategorickou proměnnou se třemi kategoriemi. Proč je něco takového důležité? Jednou z velice důležitých typů proměnných je faktor o dvou úrovních, tedy binární proměnná (v angličtině binary, někdy nazývaná také jako dummy či boolean variable). Je to tzv. logická proměnná, nabývající dvou hodnot - 1 a 0, resp. TRUE nebo FALSE. Ve statistice má zvláštní postavení, protože se díky ní dají přestrukturovat některá data tak, že se s nimi dají vyloženě dělat psí kusy. Klasickým využitím binární proměnné je, když z nominální proměnné o více kategoriích uděláme více binárních proměnných. Díky tomu můžeme například kategorické proměnné použít v lineární regresi a zjistit efekty jednotlivých kategorií. | ||
+ | |||
+ | Příklad restrukturalizace dat z jedné víceúrovňové nominální proměnné na více binárních proměnných: | ||
+ | |||
+ | {| class="wikitable" border="1" | ||
+ | |- | ||
+ | ! Původní kódování | ||
+ | ! colspan=4 | Nové kódování | ||
+ | |- | ||
+ | ! Název knihy | ||
+ | ! Jméno růže | ||
+ | ! Harry Potter a Ohnivý pohár | ||
+ | ! Poetika II | ||
+ | ! O původu nerovnosti mezi lidmi | ||
+ | |- | ||
+ | | Jméno růže | ||
+ | | 1 | ||
+ | | 0 | ||
+ | | 0 | ||
+ | | 0 | ||
+ | |- | ||
+ | | Harry Potter a Ohnivý pohár | ||
+ | | 0 | ||
+ | | 1 | ||
+ | | 0 | ||
+ | | 0 | ||
+ | |- | ||
+ | | Poetika II | ||
+ | | 0 | ||
+ | | 0 | ||
+ | | 1 | ||
+ | | 0 | ||
+ | |- | ||
+ | | Jméno růže | ||
+ | | 1 | ||
+ | | 0 | ||
+ | | 0 | ||
+ | | 0 | ||
+ | |- | ||
+ | | Jméno růže | ||
+ | | 1 | ||
+ | | 0 | ||
+ | | 0 | ||
+ | | 0 | ||
+ | |- | ||
+ | | Harry Potter a Ohnivý pohár | ||
+ | | 0 | ||
+ | | 1 | ||
+ | | 0 | ||
+ | | 0 | ||
+ | |} | ||
+ | |||
+ | Když si tabulku prohlédnete pozorně, zjistíte, že oba způsoby kódování nesou stejnou informaci. Můžete tak přecházet mezi jedním a druhým způsobem zápisu do druhého a zase nazpátek. Oba zápisy mají různé výhody (první například to, že je kompaktní, druhý se hodí do analýz). Stačí si tak jen pamatovat, co znamená binární proměnná, a že nominální proměnné s více kategoriemi se dají reprezentovat jako více binárních proměnných. | ||
+ | |||
=== 2) Ordinální proměnné === | === 2) Ordinální proměnné === | ||
+ | |||
+ | Ordinální proměnné jsou odvozené od slovíčka ''ordo'' (řada či řád) a jsou to tedy takové proměnné, které můžeme podle nějakého klíče seřadit. Kromě operace, zda jednotka danou hodnotou oplývá či ne, tak můžeme hodnoty mezi sebou porovnávat. Klasickým případem je například úroveň vzdělání (základní < středoškolské < vysokoškolské). Podstatným omezením ordinálních proměnných je ale fakt, že rozdíly mezi jednotlivými úrovněmi nemohou být posuzovány jako stejné. Nemůžeme tak například říci, že rozdíl mezi prvním a třetím umístěným je větší, než rozdíl mezi třetím a čtvrtým (může to být pravda, ale nemusí). Díky řazení hodnot tak můžeme spočítat například medián. | ||
+ | |||
+ | V psychologii se často setkáváme s tzv. likertovými škálami, které se užívají v psychometrii. I u likertových škál nemůžeme říci, zda je rozdíl mezi "naprosto nesouhlasím" a "spíše nesouhlasím" stejný, jako rozdíl mezi "spíše nesouhlasím" a "ani nesouhlasím, ani souhlasím". Čistě ze statistického hlediska tak nemá smysl počítat ani průměr. Přesto se často u likertových škál průměr počítá. Zde právě přichází problém se samotnou kategorizací proměnných, jelikož někdy přecházíme z jedné kategorie do druhé a porušujeme "pravidla" těchto kategorizací. Na samotném konci si tak vždy klademe otázku, zda nám porušení nějakého "pravidla" pomůže zodpovědět správnou otázku, a zda můžeme dostat správnou odpověď. U likertových škál se toho často zase tak mnoho neděje, pokud použijeme medoty porovnávání průměru místo porovnávání ordinálních škál <ref name="Norman">Norman, G.(2010).Likert scales, levels of measurement and the "laws" of statistics. ''Advances in Health Sciences Education''.</ref> Přesto bychom si vždy měli být vědomi, kdy překračujeme pravidla statistiky a zda jde o vážné porušování pravidel, které nám nemůže dát smysluplnou odpověď, či zda, pokud budeme obezřetní, se dokážeme vysmýknout ze spárů statistického pekla a zvítězit se správnou odpovědí v ruce. | ||
+ | |||
=== 3) Intervalové proměnné === | === 3) Intervalové proměnné === | ||
=== 4) Poměrové proměnné === | === 4) Poměrové proměnné === |
Aktuální verze z 15. 1. 2017, 12:46
Obsah
Typy proměnných
Na této stránce se právě pracuje. Prosím needitujte tuto stránku, dokud na ní zůstává tato šablona. Předejdete tak editačnímu konfliktu. Jestliže uběhla od poslední editace doba alespoň dvou dnů, neváhejte tuto šablonu odstranit. |
Ve statistice rozlišujeme několik druhů proměnných (angl. variables) podle hodnot, které nabývají. Tyto typy jsou určeny především tím, jaké matematické operace můžeme s hodnotami proměnné provádět. Kategorizací proměnných existují více, my se především zaměříme na nejčastěji používanou kategorizací, se kterou přišel Americký psycholog S. S. Stevens[1]. Obecně se často o povaze proměnných a jejich měření vedou spory [2] a i Stevensova typologie se dočkala kritiky [3]. Přesto se na tuto typologii podíváme, poněvadž i přes filosofické a zcela pragmatické obtíže s kategorizací proměnných nám umožňuje rychleji se dorozuívat o povaze dat, či nám poskytne informace o tom, jaké analýzy či operace jsou s těmito daty možné.
Co je to vlastně proměnná? Proměnou se, zjednodušeně řečeno, myslí nějaký znak, který může nabývat různých hodnot. Může to být například barva vlasů, vzdělání, výška, inteligence či úroveň čtenářských dovedností, zkrátka vše, k čemu můžeme přiřknout (změřit, pozorovat, odhnadnout, apod.) různé hodnoty.
Jedním ze základů dělení typů proměnných bývá, jaké matematické operace s nimi můžeme provádět. Uveďme si nejprve souhrnnou tabulku třídění typů proměnných s příklady, které snad dají naznat, jakým způsobem můžeme proměnné třídit.
Kvalitativní | Kvantitativní | |||
---|---|---|---|---|
Kategorické | Ordinální | Kardinální | ||
Stevensova typologie | Nominální | Ordinální | Intervalová | Poměrová |
Matematické operace | ||||
Statistiky | Frekvence, Modus | Medián, percentily | Průměr, směrodatná odchylka | Koeficient variace |
Příklady | Město bydliště, Vystudovaný obor | Dosažené vzdělání, Hodnocení na likertově škále | Hodiny, IQ skór, Stupně Celsia | Věk, Stupně Kelvina |
Další dělení | dichotomické vs. polytomické | spojité vs. nespojité |
Nyní si shrneme podrobnosti o jednotlivých typech proměnných. Zároveň však zdůrazněme, že dobrý souhrn podává i například kniha Psychometrika[4], trochu jiné dělení pak poskytuje Hendl[5].
1) Nominální proměnné
Tyto proměnné jsou takové, k nimž nemůžeme přiřadit nějakou kvantitu. Název je odvozen od latinského nomen (jméno) - což vystihuje podstatu hodnot těchto proměnných, jelikož jsou pouhými názvy, označeními objektů. Jejími hodnotami jsou tedy dvě nebo více označení, které nemají řazení (nemůžeme říci, že jedno je více či méně, větší či menší, apod.). Někdy se nominální proměnné označují jako kategorické proměnné - protože označují různé kategorie.
U nominálních proměnných tak můžete říci, zda daná jednotka patří do určité kategorie, či ne. Příkladem by mohly být například názvy knih. Kolik knih je v knihovně s názvem "Jméno růže"?. Velmi často se ve výzkumném kontextu setkáváme s nominální proměnnou, kterou tvoří různé experimentální skupiny.
Někdy dochází též ke komplikacím s kategoriemi, a to když zjistíme, že naše konstrukty kategorií neodpovídají úplně "realitě". Příkladem může být například často používaná proměnná Pohlaví, kde se často zjistí, že kategorie "Muži" a "Ženy" nestačí a přidáváme tak alespoň kategorii "Jiné". Názornějším příkladem může být například Barva, která bývá často uváděna jako příklad nominální proměnné. Problém nastává, když si uvědomíme, že barvy nejsou inherentně kategorické (v našem vnímání jedna přechází plynule v druhou), což není překvapením, jelikož barva je pouze interpretací percepce frekvence elektromagnetického vlnění (která pochopitelně není kategorická). To samozřejmě nevylučuje, že má smysl zkoumat povahu kategorií barev, jakým způsobem jsou tvořeny, zda jsou interindividuálně či dokonce kulturně univerzální, a podobně - naopak to je často úkolem právě psychologie. Je nicméně mít neustále na zřeteli, co tu vlastně "kategorizujeme".
Dělení podle počtu kategorií
Aby toho nebylo málo, někdy se v literatuře setkáte s označením nominální (kategorické) proměnné jako s faktorovou proměnnou (factor variable), a to zvláště v kontextu návrhu designu či specifických analytických technik (např. ANOVA - Analýzou variance). Právě s tímto označením se také často spojují tzv. úrovně (levels), které jsou jenom jiným označením počtu kategorií. Tak se můžete setkat s faktorem o třech úrovních (factor with three levels), což neznamená nic víc, než kategorickou proměnnou se třemi kategoriemi. Proč je něco takového důležité? Jednou z velice důležitých typů proměnných je faktor o dvou úrovních, tedy binární proměnná (v angličtině binary, někdy nazývaná také jako dummy či boolean variable). Je to tzv. logická proměnná, nabývající dvou hodnot - 1 a 0, resp. TRUE nebo FALSE. Ve statistice má zvláštní postavení, protože se díky ní dají přestrukturovat některá data tak, že se s nimi dají vyloženě dělat psí kusy. Klasickým využitím binární proměnné je, když z nominální proměnné o více kategoriích uděláme více binárních proměnných. Díky tomu můžeme například kategorické proměnné použít v lineární regresi a zjistit efekty jednotlivých kategorií.
Příklad restrukturalizace dat z jedné víceúrovňové nominální proměnné na více binárních proměnných:
Původní kódování | Nové kódování | |||
---|---|---|---|---|
Název knihy | Jméno růže | Harry Potter a Ohnivý pohár | Poetika II | O původu nerovnosti mezi lidmi |
Jméno růže | 1 | 0 | 0 | 0 |
Harry Potter a Ohnivý pohár | 0 | 1 | 0 | 0 |
Poetika II | 0 | 0 | 1 | 0 |
Jméno růže | 1 | 0 | 0 | 0 |
Jméno růže | 1 | 0 | 0 | 0 |
Harry Potter a Ohnivý pohár | 0 | 1 | 0 | 0 |
Když si tabulku prohlédnete pozorně, zjistíte, že oba způsoby kódování nesou stejnou informaci. Můžete tak přecházet mezi jedním a druhým způsobem zápisu do druhého a zase nazpátek. Oba zápisy mají různé výhody (první například to, že je kompaktní, druhý se hodí do analýz). Stačí si tak jen pamatovat, co znamená binární proměnná, a že nominální proměnné s více kategoriemi se dají reprezentovat jako více binárních proměnných.
2) Ordinální proměnné
Ordinální proměnné jsou odvozené od slovíčka ordo (řada či řád) a jsou to tedy takové proměnné, které můžeme podle nějakého klíče seřadit. Kromě operace, zda jednotka danou hodnotou oplývá či ne, tak můžeme hodnoty mezi sebou porovnávat. Klasickým případem je například úroveň vzdělání (základní < středoškolské < vysokoškolské). Podstatným omezením ordinálních proměnných je ale fakt, že rozdíly mezi jednotlivými úrovněmi nemohou být posuzovány jako stejné. Nemůžeme tak například říci, že rozdíl mezi prvním a třetím umístěným je větší, než rozdíl mezi třetím a čtvrtým (může to být pravda, ale nemusí). Díky řazení hodnot tak můžeme spočítat například medián.
V psychologii se často setkáváme s tzv. likertovými škálami, které se užívají v psychometrii. I u likertových škál nemůžeme říci, zda je rozdíl mezi "naprosto nesouhlasím" a "spíše nesouhlasím" stejný, jako rozdíl mezi "spíše nesouhlasím" a "ani nesouhlasím, ani souhlasím". Čistě ze statistického hlediska tak nemá smysl počítat ani průměr. Přesto se často u likertových škál průměr počítá. Zde právě přichází problém se samotnou kategorizací proměnných, jelikož někdy přecházíme z jedné kategorie do druhé a porušujeme "pravidla" těchto kategorizací. Na samotném konci si tak vždy klademe otázku, zda nám porušení nějakého "pravidla" pomůže zodpovědět správnou otázku, a zda můžeme dostat správnou odpověď. U likertových škál se toho často zase tak mnoho neděje, pokud použijeme medoty porovnávání průměru místo porovnávání ordinálních škál [6] Přesto bychom si vždy měli být vědomi, kdy překračujeme pravidla statistiky a zda jde o vážné porušování pravidel, které nám nemůže dát smysluplnou odpověď, či zda, pokud budeme obezřetní, se dokážeme vysmýknout ze spárů statistického pekla a zvítězit se správnou odpovědí v ruce.
3) Intervalové proměnné
4) Poměrové proměnné
Další důležité pojmy
- ↑ Stevens. S. S. (1946). On the Theory of Scales of Measurement. Science 103(2684), 677-680.
- ↑ Maul, A., Irribarra, D.T., & Wilson, M. (2016). On the philosophical foundations of psychological measurement. Measurement 79, 311-320.
- ↑ Velleman, P. F., & Wilkinson, L. (1993). Nominal, ordinal, interval, and ratio typologies are misleading. The American Statistician, 47(1), 65-72.
- ↑ Urbánek, T. Denlerová, D., & Širůček, J. (2011). Psychometrika: Měření v psychologii (1st ed.). Praha: Portál.
- ↑ Hendl, J.(2012). Přehled statistických metod: Analýza a metaanalýza dat. Praha: Portál
- ↑ Norman, G.(2010).Likert scales, levels of measurement and the "laws" of statistics. Advances in Health Sciences Education.