Korelační a regresní analýza

Obsah

1 Korelace
- 1.1 Korelační koeficienty
- 1.2 Příklady využití korelačních koeficientů v psychometrii
2 Regresní analýza
- 2.1 Historie
- 2.2 Lineární regresní funkce
  - 2.2.1 Postup v SPSS
3 Zdroje

Korelace

Znázorňuje statistickou závislost dvou kvantitativních veličin (měří vzájemný vztah dvou proměnných.
Dvě proměnné jsou korelované, jestliže určité hodnoty jedné proměnné mají tendenci se vyskytovat společně s určitými hodnotami druhé proměnné^[1]

Korelační koeficienty

Vlastnosti korelačního koeficientu r:

Označujeme r
r ∈ 〈-1,1〉
r = 0 ⇒ nezávislost
r = 1 ⇒ přímá závislost
r = -1 ⇒ nepřímá závislost

Korelační determinace r² – znázorňuje podíl společné variance

Pearsonův korelační koeficient

Měří statistickou závislost u lineárních dat
Korelační koeficient je velmi ovlivněn odlehlými hodnotami
Korelační koeficient se počítá pomocí směrodatných odchylek obou proměnných a jejich kovariance (kovariance = míra vzájemné vazby mezi veličinami)

Nelze pochopit (syntaktická chyba): {\displaystyle r=\frac{\sum\left(x_i-x̄ \right)\left(y_i-y \right)}{\sqrt{\sum\left(x_i-x̄ \right)^2\sum\left(y_i-y \right)^2}}=\frac{S_xy}{S_x S_y}}

Spearmanův koeficient korelace

Označujeme r_sp
Korelační koeficient pořadí
Zachycuje obecně monotónní (rostoucí/ klesající) vztahy mezi proměnnými, nikoli pouze lineární
Je rezistentní vůči odlehlým hodnotám
Pro malé rozsahy dat je jeho výpočet méně pracný než Pearsonův korelační koeficient

Kendallův korelační koeficient

Označujeme tau t_k
Neparametrický test nezávislosti
Rozdíl mezi pravděpodobností, že hodnoty dvou proměnných jsou ve stejném pořadí, a pravděpodobností, že ve stejném pořadí nejsou
Větší citlivost na některé nelineární vztahy

Čtyřpolní korelační koeficient

Označujeme φ
Jedná se o Pearsonův korelační koeficient vypočítaný pro dvě alternativní proměnné, které kódujeme pomocí hodnot 0 a 1

Bodově biserální koeficient korelace

Označujeme r_pb
Měří vztah mezi spojitou metrickou proměnnou a binární proměnnou
V praxi se vzorec zpravidla nepoužívá (lze jej nahradit použitím algoritmu pro Pearsonův koeficient korelace, kde binární proměnnou zastupují nuly a jedničky)

Příklady využití korelačních koeficientů v psychometrii

Reliabilita (korelace test – retest, split half)
Validita (korelace test – kritérium)
Diskriminační síla položky (korelace položka – test)
Odhad objektivity (korelace hodnotitel I – hodnotitel II)

Regresní analýza

Regresní analýza je statistická metoda, umožňující nám prozkoumat vztah mezi dvěma proměnnými - tzv. nezávisle proměnnou (X – nazýváme regresand, cílová proměnná) a tzv. závisle proměnnou (Y – nazýváme též regresor)^[2]^[3]^[4]. Pomáhá nám pochopit, jak se změní hodnota závisle proměnné v návaznosti na změnu jedné z nezávisle proměnných (zatímco ostatní nezávisle proměnné zůstávají konstantní). Konečný odhad je založen na tzv. regresní funkci.
Velmi vděčni za regresní analýzu budeme ve chvíli, kdy se např. rozhodneme k posouzení kvalit uchazečů o zaměstnání použít testovou baterii 3 testů. Zatímco korelační koeficient nám umožní zjistit, zda mezi proměnnými existuje vztah a jak je silný (to znamená, zda zvolené testy korelují např. s hodnocením, jaké zaměstnanec získá po ukončení zkušební doby), regresní analýza postupuje o krok dál a umožní nám na základě získaných dat predikovat do budoucna. (V tomto případě tak díky regresní analýze můžeme zjistit, že ačkoliv všechny tři zvolené testy vysoce korelují s kritériem, už pouhý jeden ze zvolených tesů má pro nás dostatečnou predikční sílu a v budoucnu tak využijeme jen tento jeden a uspoříme tak čas).

Historie

Pojem regrese (z lat. regressus, ustupuji, pohybuji se zpět) zavedl do statistiky anglický vědec Francis Galton koncem 19.století, a to jako "regres(i) k průměru". Tím označil fakt, že např. synové vysokých rodičů jsou sice v průměru (statisticky) vyšší než byli jejich rodiče, zároveň ale individuálně nedosahují extrémních hodnot předchozí generace. Jako kdyby se jedinci postupně "vraceli k průměru". Galtonův název se z jeho eugenických výzkumů rozšířil na jakékoli zkoumání souvislostí mezi náhodnými veličinami a vznikla statistická regresní analýza.

Lineární regresní funkce

Lineární regrese je metoda, při které je soubor bodů v grafu proložen přímkou, neboť předpokládáme, že závislost y na x lze graficky vyjádřit přímkou (viz. obrázek). Pokud měřené body proložíme přímkou, bude při odečítání z grafu mezi ypsilonovou hodnotou měřeného bodu a ypsilonovou hodnotou ležící na vytvoření přímce odchylka. Podstatou lineární regrese je nalézt právě takovou přímku, aby součet druhých mocnin zmíněných odchylek byl co nejmenší, jedná se tedy o aproximaci daných hodnot přímkou a to metodou nejmenších čtverců. Model regresní analýzy
V rovnici lineární regresní model vyjádříme takto y = α + βx + e, přičemž β představuje vektor, α bod, ve kterém vložená přímka protíná ypsilonovou osu, x představuje nezávisle proměnnou, y představuje závisle proměnnou a e představuje chybu.
Neznámé hodnoty α a β odhadujeme právě pomocí metody nejmenších čtverců.

Postup v SPSS

Zadání výpočtu

Pro snadnější porozumění co a kam vyplnit použijeme následující příklad: Úspěšnost v prodeji nahrávky v závislosti na množství reklamy (vyjádřeno ve finanční nákladnosti reklamy)^[5].
V menu SPSS postupně volíme Analyze → Regression → Linear…
Nyní je potřeba vyplnit jednotlivá data a to následujícím způsobem
- Dependent variable – závislá proměnná, která graficky znázorněno leží na ose Y a jejíž vývoj chceme pomocí regrese předvídat z nezávisle proměnné (objem prodeje nahrávky)
- Independent variable – nezávisle proměnná, graficky znázorněno leží na ose Y (finanční investice do reklamy)

Interpretace dat:

Tabulka: ignorujeme
Tabulka MODEL SUMMARY:
1. R = vyjádření prosté korelace mezi proměnnými
2. R² = toto číslo vynásobeno 100 je procento, do jaké míry nezávisle proměnná (reklama) vysvětluje pohyb (v našem případě nárůst) závisle proměnné (v našem případě prodej nahrávek)
Tabulka ANOVA
1. Zajímají nás hodnoty F a Sig pro účely zamítnutí nebo přijetí H0
2. Tato tabulka vyjadřuje „pouze“ zda je náš model signifikantně dobrým predátorem situace, ale neříká nám nic o jednotlivých datech a proto se díváme do poslední, čtvrté tabulky
Tabulka COEFFICIENTS
1. B/Constant = intercept, aneb místo, v němž regresní přímka protíná osu Y, interpretujeme jako množství prodeje nahrávky v okamžiku, kdy investice do reklamy je nulová
2. B/Nezávisle proměnná = sklon regresní přímky, získané číslo vyjadřuje, o kolik více nahrávek bude prodáno, navýšíme-li investici do reklamy o „1 jednotku“
3. t + Sig = p hodnota a její vliv na zamítnutí / přijetí H₀
4. Na základě čísel získaných v této tabulce mohu předvídat prodej nahrávek dle objemu investovaných peněz do reklamy podle této „rovnice“
5. Prodej nahrávky = „intercept“ + (sklon x finanční investice do reklamy)

Zdroje

↑ Hendl, J. (2009). Přehled statistických metod: Analýza a metaanalýza dat. Praha: Portál
↑ Hendl, J. (2006). Přehled statistických metod zpracování dat. Praha: Portál.
↑ Zvára, K. (2008). Regresní analýza. Praha: Matfypress.
↑ Regresní analýza. Retrieved from: http://cs.wikipedia.org/wiki/Regresní_analýza
↑ Field, A. (2007). Discovering Statistics Using IBM SPSS Statistics. Londýn: SAGE.

[1] Hendl, J. (2009). Přehled statistických metod: Analýza a metaanalýza dat. Praha: Portál

[2] Hendl, J. (2006). Přehled statistických metod zpracování dat. Praha: Portál.

[3] Zvára, K. (2008). Regresní analýza. Praha: Matfypress.

[4] Regresní analýza. Retrieved from: http://cs.wikipedia.org/wiki/Regresní_analýza

[5] Field, A. (2007). Discovering Statistics Using IBM SPSS Statistics. Londýn: SAGE.

[1]

[2]

[3]

[4]

[5]