Analýza rozptylu

Analýza rozptylu. Vlevo rozdělení náhodné veličiny pro celou populaci. Napravo rozdělení pro jednotlivé subpopulace, jejichž jedinci mají stejnou hodnotu nějakého znaku

Analýza rozptylu (též ANOVA z anglického ANalysis Of VAriance) je metodou matematické statistiky, která umožňuje ověřit, zda na hodnotu náhodné veličiny pro určitého jedince má statisticky významný vliv hodnota některého znaku, který se u jedince dá pozorovat. Tento znak musí nabývat jen konečného počtu možných hodnot (nejméně dvou) a slouží k rozdělení jedinců do vzájemně porovnávaných skupin. Kvantitativní hodnota znaku přitom nemá povahu míry. Je-li třeba vzít v úvahu i konkrétní kvantitativní hodnotu jako míru určitého znaku, použije se místo analýzy rozptylu lineární model.

Analýza rozptylu je pro víc než jeden znak značně výpočetně náročná metoda a je pro ni téměř vždy potřeba počítač se speciálním statistickým softwarem.

Příklad

Upozornění: příklad je fiktivní, data v něm nemají reálný původ.

Na náhodném výběru 30 osob bylo zkoumáno, zda na jejich hrubý měsíční příjem mají statisticky významný vliv jejich vzdělání a pohlaví. V tabulce jsou uvedeny údaje za všechny osoby. Platy se uvádějí v tisících Kč.

Č.PlatPohlavíVzděláníČ.PlatPohlavíVzděláníČ.PlatPohlavíVzdělání
115MBM1118MM2130MV
216MBM1219MM2227MV
317MBM1316MM2334MV
413MBM1416MM2428MV
515MBM1518MM2525MV
612ŽBM1615ŽM2628ŽV
714ŽBM1717ŽM2725ŽV
811ŽBM1819ŽM2830ŽV
915ŽBM1917ŽM2925ŽV
1014ŽBM2016ŽM3026ŽV

Zkoumanými znaky jsou tedy pohlaví (hodnoty M=muž, Ž=žena) a vzdělání (hodnoty BM=bez maturity, M=s maturitou, V=VŠ/VOŠ). Pro každou kombinaci pohlaví a vzdělání je zastoupeno 5 jedinců.

Předpoklady a princip analýzy rozptylu

  • Všechny pozorované náhodné veličiny jsou nezávislé s normálním rozdělením a stejným neznámým rozptylem .
  • Náhodné veličiny uvnitř jedné skupiny (pro stejné hodnoty všech sledovaných znaků) mají stejné střední hodnoty, mezi různými skupinami mohou (ale nemusejí) mít různé střední hodnoty.

Analýza rozptylu je založena na porovnávání dvojic modelů. Jeden model je složitější a předpokládá, že statisticky významný vliv má víc znaků, druhý model je jednodušší a předpokládá, že statisticky významný vliv má méně znaků nebo žádný. Pro každý model se rozdělí jedinci do skupin podle významných znaků, v každé skupině se odhadne střední hodnota a potom se sečtou druhé mocniny odchylek náhodných veličin od střední hodnoty. Čím méně parametrů, tím méně skupin a tím větší odchylky od středních hodnot. Pomocí speciální varianty F testu se pak zjistí, zda se součty odchylek pro různé modely od sebe liší natolik, že není možné oba modely prohlásit za rovnocenné. V takovém případě by se zamítl model s větším součtem odchylek. Pokud se součty odchylek významně neliší, je možné přijmout jednodušší model, tedy lze přijmout předpoklad, že na určitém znaku nezáleží.

Obvyklé modely

Nejpoužívanější modely si objasníme na příkladu dvou znaků A a B:

  1. Ani na znaku A, ani na znaku B nezáleží, náhodné veličiny pro všechny jedince mají stejnou střední hodnotu (nejjednodušší model).
  2. Záleží pouze na znaku A, nikoliv na B. Jedinci se stejnou hodnotou znaku A mají i stejnou střední hodnotu náhodné veličiny, bez ohledu na znak B.
  3. Záleží pouze na znaku B, nikoliv na A. Totéž, co v předchozím modelu, se záměnou znaků.
  4. Záleží na obou znacích, vliv konkrétní hodnoty každého znaku je pevné číslo a tyto vlivy se sčítají (resp. násobí). Znamená to, že konkrétní hodnota znaku A působí stejnoměrně bez ohledu na konkrétní hodnotu znaku B, tyto hodnoty se sčítají (resp. násobí). Model se označuje symbolicky jako A+B.
  5. Záleží na obou znacích, ale jejich vliv není stejnoměrný, nýbrž každá kombinace hodnot znaků A a B má specifickou střední hodnotu (nejsložitější model, nazývaný model s interakcemi). Model se označuje symbolicky jako A+B+A:B.

Tabulka analýzy rozptylu

Výsledky výpočtů a porovnání dvojic modelů se zaznamenávají do tabulky s ustálenou podobou. Každý řádek tabulky představuje krok od jednoduššího modelu ke složitějšímu a porovnání určité dvojice modelů. Pro zjištění, které znaky jsou významné, resp. jaký model je použitelný, se pak postupuje zdola nahoru.
Následuje tabulka pro výše uvedený příklad.

Znak (zdroj měnlivosti)Součet čtvercůStupně volnostiF hodnotap hodnota
Vzdělání1026,22121,6840,000
Pohlaví17,614,1820,052
Pohlaví:Vzdělání3,320,3870,683
Reziduální101,224
Celkem1148,329

Jednotlivé sloupce tabulky mají tento význam:

  • Znak (zdroj měnlivosti) popisuje, který znak nebo kombinace znaků se zařazuje navíc oproti jednoduššímu modelu.
  • Součet čtverců vyjadřuje, o jaké číslo klesne ve složitějším modelu (po zařazení uvedeného znaku či kombinace) součet druhých mocnin odchylek od odhadnutých středních hodnot.
  • Stupně volnosti vyjadřují, kolik parametrů navíc se ve složitějším modelu používá.
  • F hodnota je hodnota testového kritéria, které porovnává dvojici modelů.
  • p hodnota určuje, na jaké hladině významnosti je možné zamítnout hypotézu, že oba použité modely jsou rovnocenné. Porovnává se s předem stanoveným číslem (nejobvykleji s 0,05) a je-li menší, rovnocennost modelů se zamítne.

Interpretace tabulky analýzy rozptylu

Pro interpretaci tabulky jsou nejdůležitější p hodnoty. Postupujeme zdola nahoru od nejsložitějšího modelu a snažíme se dostat k co nejjednoduššímu. Znaky zastoupené v nejjednodušším použitelném modelu se pak prohlásí za statisticky významné.

  1. V použitém příkladu je nejobecnější model s interakcemi. Nejbližší jednodušší model je aditivní (se sčítáním vlivů). Protože na řádku Pohlaví:Vzdělávání je p hodnota vyšší než 0,05, můžeme oba modely považovat za rovnocenné a přejít od modelu s interakcemi k aditivnímu modelu.
  2. Předchozí řádek odpovídá porovnání aditivního modelu s modelem bez znaku Pohlaví. I zde je p hodnota vyšší než 0,05, i když jen nepatrně, proto opět můžeme přijmout, že oba modely jsou rovnocenné, a přejít k modelu s jediným znakem Vzdělání. Zároveň jsme určili, že znak Pohlaví se ukázal v našem případě jako statisticky nevýznamný pro vliv na výši platu.
  3. První řádek odpovídá porovnání modelu s jediným znakem Vzdělání s modelem bez znaků. Protože zde je p hodnota menší než 0,05, nelze přejít k nejjednoduššímu modelu, tedy znak Vzdělání nelze vyřadit.
  4. Závěr: použitá data prokázala, že na výši platu má statisticky významný vliv vzdělání jedince, naopak pohlaví se ukázalo (byť těsně) jako nevýznamné.

Porovnávání jednotlivých skupin

Jakmile výpočet prokáže, že je určitý statistický znak významný, má smysl se ptát, zda se významná odchylka projevuje mezi všemi různými hodnotami znaku, anebo zda se chování náhodných veličin pro některé hodnoty znaku mezi sebou neliší. K tomu účelu se používá tzv. mnohonásobné porovnání.

Poznámky

  • Předpoklad normality není zcela nezbytný, rozdělení náhodné veličiny však musí být relativně „rozumné“, tj. alespoň blízké normálnímu. Předpoklad o shodnosti rozptylů naopak důležitý je.
  • Analýza rozptylu s jediným znakem vede na případ mnohonásobného porovnávání, kde se zkoumá, zda se pro některé ze skupin liší mezi sebou střední hodnoty veličiny zjištěné na jedincích té které skupiny.
  • Stejný počet pozorování ve všech kategoriích podle zkoumaných znaků (tzv. vyvážené třídění) je výhodný pro některé navazující postupy, není však nezbytný. Celou analýzu lze provést i s velmi rozdílnými a malými počty jedinců v některých kategoriích, samozřejmě s rizikem, že při příliš malém počtu jedinců nebude možné vliv některého znaku prokázat.

Literatura

Anděl, J.: Matematická statistika, SNTL 1985.

Externí odkazy

Média použitá na této stránce

ANOVA very good fit.jpg
Autor: Vanderlindenma, Licence: CC BY-SA 3.0
A representation of a situation with a very good fit in terms of ANOVA statistics