Reliabilita

Reliabilita (angl. reliabilityspolehlivost, hodnověrnost) je statistická veličina, udávající spolehlivost testu. Vyjadřuje zda při opakovaném použití testu dostaneme podobné výsledky[1]. Jako taková se používá v rámci takzvané klasické testové teorie. Je vyjádřena jako relativní nepřítomnost chyby při měření a lze ji také chápat jako charakteristiku testové metody.[2] V těchto významech je používána ve statistických vědách, psychometrice, ekonometrii apod.

Základní charakteristika

Podle klasické testové teorie reliabilita nabývá hodnoty 0 (žádná) až 1 (100%) a lze ji přibližně chápat jako procentuální nepřítomnost chyby měření. V psychologii není možné měřit přímo osobnostní vlastnosti (například inteligenci), ale jen jejich projevy. Tyto projevy jsou nutně zkreslené a ovlivněné i jinými faktory, než měřenou proměnnou, a naměřený skór proto lze vyjádřit jako součet pravého (měřeného) skóru a chyby měření, kde je naměřený skór, skutečný skór a je chyba měření.:

Stejný vztah platí i pro rozptyly celého měření – celkový rozptyl naměřených hodnot se skládá z rozptylu pravých skórů a rozptylu chyb měření:[2]

Formální definice reliabilita je proto podíl variability pravých skórů k celkové variabilitě, tedy [2]:

kde je symbol pro reliabilitu, , , a jsou naměřená variabilita, variabilita skutečného skóru a chybového skóru.

Reliabilita bývá označována jako proto, že ji lze abstraktně chápat jako odhad minimální korelace proměnné se sebou samotnou. Pokud by bylo možné test opakovat (což možné není, protože samotné měření mění vlastnosti pozorovaného subjektu), pak by korelace výsledků těchto opakovaných měření byla rovna nebo větší odhadnuté reliabilitě. Protože neexistuje způsob, jak odlišit podíl pravých skórů a chyb měření, je možné míru reliability pouze odhadovat. Jiným způsobem, jak měřit velikost chyb měření, je kromě reliability i teorie zobecnitelnosti.[2]

Chyba měření v rámci klasické testové teorie

Reliabilita je v rámci klasické testové teorie používána k určení chyby měření. Protože je reliabilita „standardizovaným ukazatelem“, je nutné ji převést na jednotky původní škály pomocí vztahu

kde je chyba měření a směrodatná odchylka testu. Pro konstrukci intervalu spolehlivosti pak stačí výslednou hodnotu vynásobit příslušným kvantilem normálního rozložení (např. pro 95% hodnotou 1,96). Takto získaný interval je však intervalem spolehlivosti pouze pro pozorované skóre; výpočet intervalu pravého skóre je komplikovanější a popisují jej například Lord a Novick.[3]

Chyba měření v rámci teorie odpovědi na položku

Jiné psychometrické postupy nicméně používají odlišný způsob uvažování o reliabilitě. Například teorie odpovědi na položku používá odlišné indexy s jiným významem, které lze chápat jako analogie reliability v pojetí klasické testové teorie. K odhadu standardní chyby měření pak slouží například informační funkce položky, pomocí které je pro každé latentní skóre stanoven jiný odhad chyby měření.

Reliabilita versus validita

Validita, reliabilita a objektivita jsou tři základní údaje, které je nutné uvádět u každého testu jako vědecké metody v případě, že nelze danou vlastnost měřit přímo (tedy jako například teplotu, vzdálenost apod.) – tento případ nastává zejména ve společenských vědách. Validita udává, zda test skutečně měří měřenou vlastnost. Reliabilita nám říká, jak dobře metoda měří, hovoří o technické kvalitě měřícího nástroje. Reliabilitu proto lze chápat jako nutný předpoklad validity a test může být sice spolehlivý (mít vysokou reliabilitu), ale může měřit něco jiného, než co si myslíme, a tedy jeho validita může být nízká. Vztah mezi reliabilitou a validitou je vztah mezi přesností a správností. Velikost reliability navíc určuje maximální možnou teoretickou validitu testu: validita nemůže být vyšší než odmocnina z reliability.[4]

Příklad z psychologie: chceme změřit inteligenci některého člověka testem inteligence. Validita nám řekne, zda test inteligence měří skutečně inteligenci, nebo něco jiného (například schopnost číst, která je i otázkou toho, co se člověk naučil). Reliabilita nám řekne, jak přesně test tuto vlastnost změří.

Požadovaná úroveň reliability

Podle Helmstadterova pravidla by měla reliabilita testu nabývat různých hodnot podle cíle měření[5]:

  • 0,50 pro hodnocení výkonu skupiny;
  • 0,90 pro hodnocení rozdílů v úrovni výkonu skupiny u dvou a více výkonů;
  • 0,94 pro hodnocení úrovně individuálního výkonu;
  • 0,98 pro hodnocení rozdílů v úrovních individuálního výkonu ve dvou a více výkonech.

V praxi ale takto vysoké reliability dosahuje jen málo metod, a proto se většinou používá shovívavější Klinovo pravidlo říkající, že by reliabilita metody měla být alespoň 0,7[6]. Reliabilita je také podmínkou validity: platí totiž, že odmocnina z reliability se rovná maximální možné validitě.[2]

Typy reliability

Reliabilitu lze chápat více různými způsoby, zde jsou uvedeny některé z nich.

Reliabilita jako vnitřní konzistence

Jde o jednu z nejčastěji používaných druhů reliability, udávanou nejčastěji koeficientem Cronbachovo alfa. Tato reliabilita vychází z předpokladu, že by všechny položky měřící jednu vlastnost měly mít mezi sebou kladné, dostatečně vysoké korelace. Tento typ reliability však naráží na tzv. psychometrický paradox: tedy čím vyšší je vnitřní konzistence, tím nižší je validita metody. To proto, že při měření latentních proměnných chceme zachytit celou šíři aspektů daného faktoru, avšak při vysoké vnitřní konzistenci všechny položky měří zhruba to stejné – jde tedy o neustálé vyvažování reliability a validity. Vnitřní konzistence také z principu roste s počtem položek.

Cronbachovo alfa má následující vzorec:[2]

kde k je počet položek, je rozptyl i-té položky a je rozptyl celého testu.

Kuder-Richardsonova reliabilita

Jde o speciální případ vnitřní konzistence určený pro dichotomické položky, který částečně řeší reliabilitu u časových úloh. Pracuje totiž s homogenitou – podle obtížnosti seřazené položky testu by tedy měla osoba řešit bez potíží až do okamžiku, kdy dojde k položkám těžším, než může zvládnout. Dál by měla být schopna splnit jen velmi málo úloh. Pro vyjádření tohoto typu reliability bývá nejčastěji použit koeficient KR-20 či KR-21. Jde o historicky starší koeficient, než Cronbachovo alfa, a ve většině případů poskytuje obdobné výsledky. Jeho výhodou je nižší výpočetní náročnost, díky které lze snadno spočítat i ručně.

Postup pro výpočet koeficientu KR-20 je:

kde je počet položek testu, jejich rozptyl, podíl osob, které mají j-tou položku zodpovězenou správně a podíl osob, které ji správně nezodpověděly; je proto rozptyl dichotomické položky. Koeficient KR-21 je specifikací výše uvedeného výpočtu a je určený pro test, ve kterém všechny položky mají přibližně stejnou obtížnost.

Test-retest reliabilita

Též často udávaný typ reliability nám říká, jak moc spolu koreluje ten samý test při opakovaném použití na těch samých lidech (tedy vždy naměří to stejné). Zpravidla lze využít běžných koeficientů korelace. Nevýhody jsou však dvě:

  • Většina psychických vlastností je v čase proměnlivá, proto s větším časovým rozestupem se nutně musí lišit i dosažený výsledek, což reliabilitu snižuje.
  • Naopak při administraci po uplynutí příliš krátké doby vzniká tzv. efekt zácviku a nadhodnocení reliability kvůli zapamatování si položek. Doporučuje se proto rozestup minimálně 3 měsíce.

Reliabilita paralelních forem

Výzkumník vytvoří dvě verze testu, které administruje jedinému respondentovi a vzájemně je pak koreluje. Vytvořit však zcela stejné testy není možné, a proto ani reliabilita paralelních forem nemůže být přiměřeně vysoká. K tomuto tzv. vyrovnávání forem testů bylo vyvinuto větší množství metod.

Split-half reliabilita

Vzniká rozdělením testu na dvě poloviny a jejich vzájemnou korelací. To částečně řeší předchozí problém, tento postup (stejně jako vnitřní konzistenci) však není možné aplikovat u výkonových testů omezených časem. Další nevýhoda split-half reliability tkví ve zkrácení testu, která automaticky reliabilitu snižuje (existuje vyšší pravděpodobnost "náhodného" zodpovězení položky určitým konkrétním způsobem). Proto se většinou používá Spearman-Brownův vzorec (angl. Spearman-Brown prophecy formula, tedy Spearman-Brownův věštecký vzorec), který slouží k odhadu reliability pro celý, nezkrácený test:

kde je reliabilita získaná původním výpočtem, m je poměr délky původního testu k délce testu zkráceného (u split-half reliability tedy m = 2) a je odhad výsledné reliability testu m-krát delšího než je délka zkráceného testu.[2] Tento vzorec se používá i pro odhad, o kolik je nutno zvýšit počet položek nevyhovujícího testu, abychom dosáhli požadované velikosti reliability.

Reliabilita jako shoda pozorovatelů

Pro určení reliability v kvalitativním výzkumu bývá často používaná shoda pozorovatelů – tedy míra, s jakou dva různí výzkumníci posoudí stejný jev stejně. V případě dvou výzkumníků a alespoň ordinální proměnné lze využít běžnou korelaci. V případě většího počtu posuzovatelů lze použít koeficient konkordance, v případě nominálních proměnných zase koeficient kappa.

Odkazy

Reference

  1. Reliabilita – WikiSkripta. www.wikiskripta.eu [online]. [cit. 2019-03-11]. Dostupné online. 
  2. a b c d e f g URBÁNEK, Tomáš; DENGLEROVÁ, Denisa; ŠIRŮČEK, Jan. Psychometrika: Měření v psychologii. Praha: Portál, 2011. ISBN 978-80-7367-836-4. 
  3. LORD, Frederic M. Statistical Theories of Mental Test Scores. [s.l.]: Addison-Wesley Publishing Company, 1968. ISBN 978-0394347714. (anglicky) 
  4. URBÁNEK, Tomáš. Základy psychometriky. Brno: Masarykova univerzita, 2002. ISBN 80-210-2797-5. 
  5. HELMSTADTER, G. C. Principles of Psychological Measurement. Engelwood Cliffs, NJ: Prentice-Hall, Inc., 1964. Dostupné online. ISBN 9780137096671. 
  6. KLINE, Paul. The handbook of psychological testing. London: Routledge, 1993. Dostupné online. ISBN 978-0415211581. 

Související články

Externí odkazy