Typy proměnných: Porovnání verzí

 
(Není zobrazeno 7 mezilehlých verzí od stejného uživatele.)
Řádek 54: Řádek 54:
 
Tyto proměnné jsou takové, k nimž nemůžeme přiřadit nějakou kvantitu. Název je odvozen od latinského ''nomen'' (jméno) - což vystihuje podstatu hodnot těchto proměnných, jelikož jsou pouhými názvy, označeními objektů. Jejími hodnotami jsou tedy dvě nebo více označení, které nemají řazení (nemůžeme říci, že jedno je více či méně, větší či menší, apod.). Někdy se nominální proměnné označují jako kategorické proměnné - protože označují různé kategorie.
 
Tyto proměnné jsou takové, k nimž nemůžeme přiřadit nějakou kvantitu. Název je odvozen od latinského ''nomen'' (jméno) - což vystihuje podstatu hodnot těchto proměnných, jelikož jsou pouhými názvy, označeními objektů. Jejími hodnotami jsou tedy dvě nebo více označení, které nemají řazení (nemůžeme říci, že jedno je více či méně, větší či menší, apod.). Někdy se nominální proměnné označují jako kategorické proměnné - protože označují různé kategorie.
  
U nominálních proměnných tak můžete říci, zda daná jednotka patří do určité kategorie, či ne.
+
U nominálních proměnných tak můžete říci, zda daná jednotka patří do určité kategorie, či ne. Příkladem by mohly být například názvy knih. Kolik knih je v knihovně s názvem "Jméno růže"?. Velmi často se ve výzkumném kontextu setkáváme s nominální proměnnou, kterou tvoří různé experimentální skupiny.
 +
 
 +
Někdy dochází též ke komplikacím s kategoriemi, a to když zjistíme, že naše konstrukty kategorií neodpovídají úplně "realitě". Příkladem může být například často používaná proměnná ''Pohlaví'', kde se často zjistí, že kategorie "Muži" a "Ženy" nestačí a přidáváme tak alespoň kategorii "Jiné". Názornějším příkladem může být například ''Barva'', která bývá často uváděna jako příklad nominální proměnné. Problém nastává, když si uvědomíme, že barvy nejsou inherentně kategorické (v našem vnímání jedna přechází plynule v druhou), což není překvapením, jelikož barva je pouze interpretací percepce frekvence elektromagnetického vlnění (která pochopitelně není kategorická). To samozřejmě nevylučuje, že má smysl zkoumat povahu kategorií barev, jakým způsobem jsou tvořeny, zda jsou interindividuálně či dokonce kulturně univerzální, a podobně - naopak to je často úkolem právě psychologie. Je nicméně mít neustále na zřeteli, co tu vlastně "kategorizujeme".
 +
 
 +
==== Dělení podle počtu kategorií ====
 +
 
 +
Aby toho nebylo málo, někdy se v literatuře setkáte s označením nominální (kategorické) proměnné jako s ''faktorovou'' proměnnou (factor variable), a to zvláště v kontextu návrhu designu či specifických analytických technik (např. ANOVA - Analýzou variance). Právě s tímto označením se také často spojují tzv. úrovně (levels), které jsou jenom jiným označením počtu kategorií. Tak se můžete setkat s faktorem o třech úrovních (factor with three levels), což neznamená nic víc, než kategorickou proměnnou se třemi kategoriemi. Proč je něco takového důležité? Jednou z velice důležitých typů proměnných je faktor o dvou úrovních, tedy binární proměnná (v angličtině binary, někdy nazývaná také jako dummy či boolean variable). Je to tzv. logická proměnná, nabývající dvou hodnot - 1 a 0, resp. TRUE nebo FALSE. Ve statistice má zvláštní postavení, protože se díky ní dají přestrukturovat některá data tak, že se s nimi dají vyloženě dělat psí kusy. Klasickým využitím binární proměnné je, když z nominální proměnné o více kategoriích uděláme více binárních proměnných. Díky tomu můžeme například kategorické proměnné použít v lineární regresi a zjistit efekty jednotlivých kategorií.
 +
 
 +
Příklad restrukturalizace dat z jedné víceúrovňové nominální proměnné na více binárních proměnných:
 +
 
 +
{| class="wikitable" border="1"
 +
|-
 +
! Původní kódování
 +
! colspan=4 | Nové kódování
 +
|-
 +
! Název knihy
 +
! Jméno růže
 +
! Harry Potter a Ohnivý pohár
 +
! Poetika II
 +
! O původu nerovnosti mezi lidmi
 +
|-
 +
| Jméno růže
 +
| 1
 +
| 0
 +
| 0
 +
| 0
 +
|-
 +
| Harry Potter a Ohnivý pohár
 +
| 0
 +
| 1
 +
| 0
 +
| 0
 +
|-
 +
| Poetika II
 +
| 0
 +
| 0
 +
| 1
 +
| 0
 +
|-
 +
| Jméno růže
 +
| 1
 +
| 0
 +
| 0
 +
| 0
 +
|-
 +
| Jméno růže
 +
| 1
 +
| 0
 +
| 0
 +
| 0
 +
|-
 +
| Harry Potter a Ohnivý pohár
 +
| 0
 +
| 1
 +
| 0
 +
| 0
 +
|}
 +
 
 +
Když si tabulku prohlédnete pozorně, zjistíte, že oba způsoby kódování nesou stejnou informaci. Můžete tak přecházet mezi jedním a druhým způsobem zápisu do druhého a zase nazpátek. Oba zápisy mají různé výhody (první například to, že je kompaktní, druhý se hodí do analýz). Stačí si tak jen pamatovat, co znamená binární proměnná, a že nominální proměnné s více kategoriemi se dají reprezentovat jako více binárních proměnných.
  
 
=== 2) Ordinální proměnné ===
 
=== 2) Ordinální proměnné ===
 +
 +
Ordinální proměnné jsou odvozené od slovíčka ''ordo'' (řada či řád) a jsou to tedy takové proměnné, které můžeme podle nějakého klíče seřadit. Kromě operace, zda jednotka danou hodnotou oplývá či ne, tak můžeme hodnoty mezi sebou porovnávat. Klasickým případem je například úroveň vzdělání (základní < středoškolské < vysokoškolské). Podstatným omezením ordinálních proměnných je ale fakt, že rozdíly mezi jednotlivými úrovněmi nemohou být posuzovány jako stejné. Nemůžeme tak například říci, že rozdíl mezi prvním a třetím umístěným je větší, než rozdíl mezi třetím a čtvrtým (může to být pravda, ale nemusí). Díky řazení hodnot tak můžeme spočítat například medián.
 +
 +
V psychologii se často setkáváme s tzv. likertovými škálami, které se užívají v psychometrii. I u likertových škál nemůžeme říci, zda je rozdíl mezi "naprosto nesouhlasím" a "spíše nesouhlasím" stejný, jako rozdíl mezi "spíše nesouhlasím" a "ani nesouhlasím, ani souhlasím". Čistě ze statistického hlediska tak nemá smysl počítat ani průměr. Přesto se často u likertových škál průměr počítá. Zde právě přichází problém se samotnou kategorizací proměnných, jelikož někdy přecházíme z jedné kategorie do druhé a porušujeme "pravidla" těchto kategorizací. Na samotném konci si tak vždy klademe otázku, zda nám porušení nějakého "pravidla" pomůže zodpovědět správnou otázku, a zda můžeme dostat správnou odpověď. U likertových škál se toho často zase tak mnoho neděje, pokud použijeme medoty porovnávání průměru místo porovnávání ordinálních škál <ref name="Norman">Norman, G.(2010).Likert scales, levels of measurement and the "laws" of statistics. ''Advances in Health Sciences Education''.</ref> Přesto bychom si vždy měli být vědomi, kdy překračujeme pravidla statistiky a zda jde o vážné porušování pravidel, které nám nemůže dát smysluplnou odpověď, či zda, pokud budeme obezřetní, se dokážeme vysmýknout ze spárů statistického pekla a zvítězit se správnou odpovědí v ruce.
 +
 
=== 3) Intervalové proměnné ===
 
=== 3) Intervalové proměnné ===
 
=== 4) Poměrové proměnné ===
 
=== 4) Poměrové proměnné ===

Aktuální verze z 15. 1. 2017, 12:46

Typy proměnných

Stránka ve výstavbě
Inkwell icon - Noun Project 2512.svg Na této stránce se právě pracuje. Prosím needitujte tuto stránku, dokud na ní zůstává tato šablona. Předejdete tak editačnímu konfliktu. Jestliže uběhla od poslední editace doba alespoň dvou dnů, neváhejte tuto šablonu odstranit. Inkwell icon - Noun Project 2512.svg

Ve statistice rozlišujeme několik druhů proměnných (angl. variables) podle hodnot, které nabývají. Tyto typy jsou určeny především tím, jaké matematické operace můžeme s hodnotami proměnné provádět. Kategorizací proměnných existují více, my se především zaměříme na nejčastěji používanou kategorizací, se kterou přišel Americký psycholog S. S. Stevens[1]. Obecně se často o povaze proměnných a jejich měření vedou spory [2] a i Stevensova typologie se dočkala kritiky [3]. Přesto se na tuto typologii podíváme, poněvadž i přes filosofické a zcela pragmatické obtíže s kategorizací proměnných nám umožňuje rychleji se dorozuívat o povaze dat, či nám poskytne informace o tom, jaké analýzy či operace jsou s těmito daty možné.

Co je to vlastně proměnná? Proměnou se, zjednodušeně řečeno, myslí nějaký znak, který může nabývat různých hodnot. Může to být například barva vlasů, vzdělání, výška, inteligence či úroveň čtenářských dovedností, zkrátka vše, k čemu můžeme přiřknout (změřit, pozorovat, odhnadnout, apod.) různé hodnoty.

Jedním ze základů dělení typů proměnných bývá, jaké matematické operace s nimi můžeme provádět. Uveďme si nejprve souhrnnou tabulku třídění typů proměnných s příklady, které snad dají naznat, jakým způsobem můžeme proměnné třídit.

Kvalitativní Kvantitativní
Kategorické Ordinální Kardinální
Stevensova typologie Nominální Ordinální Intervalová Poměrová
Matematické operace
Statistiky Frekvence, Modus Medián, percentily Průměr, směrodatná odchylka Koeficient variace
Příklady Město bydliště, Vystudovaný obor Dosažené vzdělání, Hodnocení na likertově škále Hodiny, IQ skór, Stupně Celsia Věk, Stupně Kelvina
Další dělení dichotomické vs. polytomické spojité vs. nespojité

Nyní si shrneme podrobnosti o jednotlivých typech proměnných. Zároveň však zdůrazněme, že dobrý souhrn podává i například kniha Psychometrika[4], trochu jiné dělení pak poskytuje Hendl[5].

1) Nominální proměnné

Tyto proměnné jsou takové, k nimž nemůžeme přiřadit nějakou kvantitu. Název je odvozen od latinského nomen (jméno) - což vystihuje podstatu hodnot těchto proměnných, jelikož jsou pouhými názvy, označeními objektů. Jejími hodnotami jsou tedy dvě nebo více označení, které nemají řazení (nemůžeme říci, že jedno je více či méně, větší či menší, apod.). Někdy se nominální proměnné označují jako kategorické proměnné - protože označují různé kategorie.

U nominálních proměnných tak můžete říci, zda daná jednotka patří do určité kategorie, či ne. Příkladem by mohly být například názvy knih. Kolik knih je v knihovně s názvem "Jméno růže"?. Velmi často se ve výzkumném kontextu setkáváme s nominální proměnnou, kterou tvoří různé experimentální skupiny.

Někdy dochází též ke komplikacím s kategoriemi, a to když zjistíme, že naše konstrukty kategorií neodpovídají úplně "realitě". Příkladem může být například často používaná proměnná Pohlaví, kde se často zjistí, že kategorie "Muži" a "Ženy" nestačí a přidáváme tak alespoň kategorii "Jiné". Názornějším příkladem může být například Barva, která bývá často uváděna jako příklad nominální proměnné. Problém nastává, když si uvědomíme, že barvy nejsou inherentně kategorické (v našem vnímání jedna přechází plynule v druhou), což není překvapením, jelikož barva je pouze interpretací percepce frekvence elektromagnetického vlnění (která pochopitelně není kategorická). To samozřejmě nevylučuje, že má smysl zkoumat povahu kategorií barev, jakým způsobem jsou tvořeny, zda jsou interindividuálně či dokonce kulturně univerzální, a podobně - naopak to je často úkolem právě psychologie. Je nicméně mít neustále na zřeteli, co tu vlastně "kategorizujeme".

Dělení podle počtu kategorií

Aby toho nebylo málo, někdy se v literatuře setkáte s označením nominální (kategorické) proměnné jako s faktorovou proměnnou (factor variable), a to zvláště v kontextu návrhu designu či specifických analytických technik (např. ANOVA - Analýzou variance). Právě s tímto označením se také často spojují tzv. úrovně (levels), které jsou jenom jiným označením počtu kategorií. Tak se můžete setkat s faktorem o třech úrovních (factor with three levels), což neznamená nic víc, než kategorickou proměnnou se třemi kategoriemi. Proč je něco takového důležité? Jednou z velice důležitých typů proměnných je faktor o dvou úrovních, tedy binární proměnná (v angličtině binary, někdy nazývaná také jako dummy či boolean variable). Je to tzv. logická proměnná, nabývající dvou hodnot - 1 a 0, resp. TRUE nebo FALSE. Ve statistice má zvláštní postavení, protože se díky ní dají přestrukturovat některá data tak, že se s nimi dají vyloženě dělat psí kusy. Klasickým využitím binární proměnné je, když z nominální proměnné o více kategoriích uděláme více binárních proměnných. Díky tomu můžeme například kategorické proměnné použít v lineární regresi a zjistit efekty jednotlivých kategorií.

Příklad restrukturalizace dat z jedné víceúrovňové nominální proměnné na více binárních proměnných:

Původní kódování Nové kódování
Název knihy Jméno růže Harry Potter a Ohnivý pohár Poetika II O původu nerovnosti mezi lidmi
Jméno růže 1 0 0 0
Harry Potter a Ohnivý pohár 0 1 0 0
Poetika II 0 0 1 0
Jméno růže 1 0 0 0
Jméno růže 1 0 0 0
Harry Potter a Ohnivý pohár 0 1 0 0

Když si tabulku prohlédnete pozorně, zjistíte, že oba způsoby kódování nesou stejnou informaci. Můžete tak přecházet mezi jedním a druhým způsobem zápisu do druhého a zase nazpátek. Oba zápisy mají různé výhody (první například to, že je kompaktní, druhý se hodí do analýz). Stačí si tak jen pamatovat, co znamená binární proměnná, a že nominální proměnné s více kategoriemi se dají reprezentovat jako více binárních proměnných.

2) Ordinální proměnné

Ordinální proměnné jsou odvozené od slovíčka ordo (řada či řád) a jsou to tedy takové proměnné, které můžeme podle nějakého klíče seřadit. Kromě operace, zda jednotka danou hodnotou oplývá či ne, tak můžeme hodnoty mezi sebou porovnávat. Klasickým případem je například úroveň vzdělání (základní < středoškolské < vysokoškolské). Podstatným omezením ordinálních proměnných je ale fakt, že rozdíly mezi jednotlivými úrovněmi nemohou být posuzovány jako stejné. Nemůžeme tak například říci, že rozdíl mezi prvním a třetím umístěným je větší, než rozdíl mezi třetím a čtvrtým (může to být pravda, ale nemusí). Díky řazení hodnot tak můžeme spočítat například medián.

V psychologii se často setkáváme s tzv. likertovými škálami, které se užívají v psychometrii. I u likertových škál nemůžeme říci, zda je rozdíl mezi "naprosto nesouhlasím" a "spíše nesouhlasím" stejný, jako rozdíl mezi "spíše nesouhlasím" a "ani nesouhlasím, ani souhlasím". Čistě ze statistického hlediska tak nemá smysl počítat ani průměr. Přesto se často u likertových škál průměr počítá. Zde právě přichází problém se samotnou kategorizací proměnných, jelikož někdy přecházíme z jedné kategorie do druhé a porušujeme "pravidla" těchto kategorizací. Na samotném konci si tak vždy klademe otázku, zda nám porušení nějakého "pravidla" pomůže zodpovědět správnou otázku, a zda můžeme dostat správnou odpověď. U likertových škál se toho často zase tak mnoho neděje, pokud použijeme medoty porovnávání průměru místo porovnávání ordinálních škál [6] Přesto bychom si vždy měli být vědomi, kdy překračujeme pravidla statistiky a zda jde o vážné porušování pravidel, které nám nemůže dát smysluplnou odpověď, či zda, pokud budeme obezřetní, se dokážeme vysmýknout ze spárů statistického pekla a zvítězit se správnou odpovědí v ruce.

3) Intervalové proměnné

4) Poměrové proměnné

Další důležité pojmy

  1. Stevens. S. S. (1946). On the Theory of Scales of Measurement. Science 103(2684), 677-680.
  2. Maul, A., Irribarra, D.T., & Wilson, M. (2016). On the philosophical foundations of psychological measurement. Measurement 79, 311-320.
  3. Velleman, P. F., & Wilkinson, L. (1993). Nominal, ordinal, interval, and ratio typologies are misleading. The American Statistician, 47(1), 65-72.
  4. Urbánek, T. Denlerová, D., & Širůček, J. (2011). Psychometrika: Měření v psychologii (1st ed.). Praha: Portál.
  5. Hendl, J.(2012). Přehled statistických metod: Analýza a metaanalýza dat. Praha: Portál
  6. Norman, G.(2010).Likert scales, levels of measurement and the "laws" of statistics. Advances in Health Sciences Education.