Korelační a regresní analýza

Korelace

  • Znázorňuje statistickou závislost dvou kvantitativních veličin (měří vzájemný vztah dvou proměnných.
  • Dvě proměnné jsou korelované, jestliže určité hodnoty jedné proměnné mají tendenci se vyskytovat společně s určitými hodnotami druhé proměnné[1]

Korelační koeficienty

Vlastnosti korelačního koeficientu r:

  • Označujeme r
  • r ∈ 〈-1,1〉
  • r = 0 ⇒ nezávislost
  • r = 1 ⇒ přímá závislost
  • r = -1 ⇒ nepřímá závislost

Korelační determinace r2 – znázorňuje podíl společné variance

Pearsonův korelační koeficient

  • Měří statistickou závislost u lineárních dat
  • Korelační koeficient je velmi ovlivněn odlehlými hodnotami
  • Korelační koeficient se počítá pomocí směrodatných odchylek obou proměnných a jejich kovariance (kovariance = míra vzájemné vazby mezi veličinami)

Nelze pochopit (MathML, alternativně SVG nebo PNG (doporučeno pro moderní prohlížeče a kompenzační pomůcky): Neplatná odpověď („Math extension cannot connect to Restbase.“) od serveru „https://en.wikipedia.org/api/rest_v1/“:): {\displaystyle r=\frac{\sum\left(x_i-x̄ \right)\left(y_i-y \right)}{\sqrt{\sum\left(x_i-x̄ \right)^2\sum\left(y_i-y \right)^2}}=\frac{S_xy}{S_x S_y}}

Spearmanův koeficient korelace

  • Označujeme rsp
  • Korelační koeficient pořadí
  • Zachycuje obecně monotónní (rostoucí/ klesající) vztahy mezi proměnnými, nikoli pouze lineární
  • Je rezistentní vůči odlehlým hodnotám
  • Pro malé rozsahy dat je jeho výpočet méně pracný než Pearsonův korelační koeficient

Kendallův korelační koeficient

  • Označujeme tau tk
  • Neparametrický test nezávislosti
  • Rozdíl mezi pravděpodobností, že hodnoty dvou proměnných jsou ve stejném pořadí, a pravděpodobností, že ve stejném pořadí nejsou
  • Větší citlivost na některé nelineární vztahy

Čtyřpolní korelační koeficient

  • Označujeme φ
  • Jedná se o Pearsonův korelační koeficient vypočítaný pro dvě alternativní proměnné, které kódujeme pomocí hodnot 0 a 1

Bodově biserální koeficient korelace

  • Označujeme rpb
  • Měří vztah mezi spojitou metrickou proměnnou a binární proměnnou
  • V praxi se vzorec zpravidla nepoužívá (lze jej nahradit použitím algoritmu pro Pearsonův koeficient korelace, kde binární proměnnou zastupují nuly a jedničky)


Příklady využití korelačních koeficientů v psychometrii

  • Reliabilita (korelace test – retest, split half)
  • Validita (korelace test – kritérium)
  • Diskriminační síla položky (korelace položka – test)
  • Odhad objektivity (korelace hodnotitel I – hodnotitel II)

Regresní analýza

Regresní analýza je statistická metoda, umožňující nám prozkoumat vztah mezi dvěma proměnnými - tzv. nezávisle proměnnou (X – nazýváme regresand, cílová proměnná) a tzv. závisle proměnnou (Y – nazýváme též regresor)[2][3][4]. Pomáhá nám pochopit, jak se změní hodnota závisle proměnné v návaznosti na změnu jedné z nezávisle proměnných (zatímco ostatní nezávisle proměnné zůstávají konstantní). Konečný odhad je založen na tzv. regresní funkci.
Velmi vděčni za regresní analýzu budeme ve chvíli, kdy se např. rozhodneme k posouzení kvalit uchazečů o zaměstnání použít testovou baterii 3 testů. Zatímco korelační koeficient nám umožní zjistit, zda mezi proměnnými existuje vztah a jak je silný (to znamená, zda zvolené testy korelují např. s hodnocením, jaké zaměstnanec získá po ukončení zkušební doby), regresní analýza postupuje o krok dál a umožní nám na základě získaných dat predikovat do budoucna. (V tomto případě tak díky regresní analýze můžeme zjistit, že ačkoliv všechny tři zvolené testy vysoce korelují s kritériem, už pouhý jeden ze zvolených tesů má pro nás dostatečnou predikční sílu a v budoucnu tak využijeme jen tento jeden a uspoříme tak čas).

Historie

Pojem regrese (z lat. regressus, ustupuji, pohybuji se zpět) zavedl do statistiky anglický vědec Francis Galton koncem 19.století, a to jako "regres(i) k průměru". Tím označil fakt, že např. synové vysokých rodičů jsou sice v průměru (statisticky) vyšší než byli jejich rodiče, zároveň ale individuálně nedosahují extrémních hodnot předchozí generace. Jako kdyby se jedinci postupně "vraceli k průměru". Galtonův název se z jeho eugenických výzkumů rozšířil na jakékoli zkoumání souvislostí mezi náhodnými veličinami a vznikla statistická regresní analýza.

Lineární regresní funkce

Lineární regrese je metoda, při které je soubor bodů v grafu proložen přímkou, neboť předpokládáme, že závislost y na x lze graficky vyjádřit přímkou (viz. obrázek). Pokud měřené body proložíme přímkou, bude při odečítání z grafu mezi ypsilonovou hodnotou měřeného bodu a ypsilonovou hodnotou ležící na vytvoření přímce odchylka. Podstatou lineární regrese je nalézt právě takovou přímku, aby součet druhých mocnin zmíněných odchylek byl co nejmenší, jedná se tedy o aproximaci daných hodnot přímkou a to metodou nejmenších čtverců. Model regresní analýzy Model regresní analýzy
V rovnici lineární regresní model vyjádříme takto y = α + βx + e, přičemž β představuje vektor, α bod, ve kterém vložená přímka protíná ypsilonovou osu, x představuje nezávisle proměnnou, y představuje závisle proměnnou a e představuje chybu.
Neznámé hodnoty α a β odhadujeme právě pomocí metody nejmenších čtverců.

Postup v SPSS

Zadání výpočtu

  • Pro snadnější porozumění co a kam vyplnit použijeme následující příklad: Úspěšnost v prodeji nahrávky v závislosti na množství reklamy (vyjádřeno ve finanční nákladnosti reklamy)[5].
  • V menu SPSS postupně volíme Analyze → Regression → Linear…
  • Nyní je potřeba vyplnit jednotlivá data a to následujícím způsobem
    • Dependent variable – závislá proměnná, která graficky znázorněno leží na ose Y a jejíž vývoj chceme pomocí regrese předvídat z nezávisle proměnné (objem prodeje nahrávky)
    • Independent variable – nezávisle proměnná, graficky znázorněno leží na ose Y (finanční investice do reklamy)

Interpretace dat:

  1. Tabulka: ignorujeme
  2. Tabulka MODEL SUMMARY:
    1. R = vyjádření prosté korelace mezi proměnnými
    2. R2 = toto číslo vynásobeno 100 je procento, do jaké míry nezávisle proměnná (reklama) vysvětluje pohyb (v našem případě nárůst) závisle proměnné (v našem případě prodej nahrávek)
  3. Tabulka ANOVA
    1. Zajímají nás hodnoty F a Sig pro účely zamítnutí nebo přijetí H0
    2. Tato tabulka vyjadřuje „pouze“ zda je náš model signifikantně dobrým predátorem situace, ale neříká nám nic o jednotlivých datech a proto se díváme do poslední, čtvrté tabulky
  4. Tabulka COEFFICIENTS
    1. B/Constant = intercept, aneb místo, v němž regresní přímka protíná osu Y, interpretujeme jako množství prodeje nahrávky v okamžiku, kdy investice do reklamy je nulová
    2. B/Nezávisle proměnná = sklon regresní přímky, získané číslo vyjadřuje, o kolik více nahrávek bude prodáno, navýšíme-li investici do reklamy o „1 jednotku“
    3. t + Sig = p hodnota a její vliv na zamítnutí / přijetí H0
    4. Na základě čísel získaných v této tabulce mohu předvídat prodej nahrávek dle objemu investovaných peněz do reklamy podle této „rovnice“
    5. Prodej nahrávky = „intercept“ + (sklon x finanční investice do reklamy)

Zdroje

  1. Hendl, J. (2009). Přehled statistických metod: Analýza a metaanalýza dat. Praha: Portál
  2. Hendl, J. (2006). Přehled statistických metod zpracování dat. Praha: Portál.
  3. Zvára, K. (2008). Regresní analýza. Praha: Matfypress.
  4. Regresní analýza. Retrieved from: http://cs.wikipedia.org/wiki/Regresní_analýza
  5. Field, A. (2007). Discovering Statistics Using IBM SPSS Statistics. Londýn: SAGE.