Boxplot
V deskriptivní (popisné) statistice je boxplot neboli krabicový graf či krabicový diagram jeden ze způsobů grafické vizualizace numerických dat pomocí jejich kvartilů. Střední „krabicová“ část diagramu je shora ohraničena 3. kvartilem, zespodu 1. kvartilem a mezi nimi se nachází linie vymezující medián. Boxploty mohou obsahovat také linie vycházející ze střední části diagramu kolmo nahoru a dolů, tzv. vousy, vyjadřující variabilitu dat pod prvním a nad třetím kvartilem. Odlehlé hodnoty, tzv. outliery, pak mohou být vykresleny jako jednotlivé body.
Boxploty zobrazují rozdíly mezí datovými soubory bez jakýchkoli předpokladů normálního rozdělení dat, jsou tedy neparametrické. Rozteče mezi jednotlivými prvky střední části diagramu indikují stupeň disperze (rozptylu) a šikmosti dat. Kromě bodů samotných umožňují také vizuálně odhadnout různé L-estimátory, zejména rozmezí mezi kvartily, rozsah dat, aritmetický průměr a vážený průměr. Boxploty mohou být vykresleny vodorovně nebo svisle.
Typy boxplotů
Boxploty jsou vždy jednotné ve významu střední „krabicové“ části diagramu. Horní a spodní hranice označují 3. a 1. kvartil a horizontální linie uvnitř značí vždy druhý kvartil (medián). Vousy však mohou reprezentovat několik různých hodnot, mezi nimi např.:
- minimum a maximum všech dat[1] (viz obrázek 2)
- nejnižší údaj 1,5 IQR spodního kvartilu a nejvyšší údaj 1,5 IQR horního kvartilu[2][3] (viz obrázek 3)
- jedna standardní odchylka nad a pod střední hodnotou dat
- 9. a 91. percentil
- 2. a 98. percentil
Veškerá data nezahrnutá mezi vousy by měla být vykreslena jako outliery tečkou, kroužkem, nebo hvězdičkou. Občas však zakreslena nebývají.
Některé boxploty obsahují navíc znak reprezentující aritmetický průměr dat.[2]
Na některých boxplotech jsou vousy po celé své délce doplněny šrafováním.
Vzácně se boxploty vyskytují úplně bez vousů.
Vzhledem k této různorodosti je vhodné popsat užitou konvenci používání vousů a extrémních hodnot v popisu diagramu.
Varianty
Několik variant boxplotů bylo popsáno výše. Dva nejběžnější typy jsou boxplot s proměnlivou šířkou a zubatý boxplot (viz obrázek 4).
Boxploty s proměnlivou šířkou znázorňují velikost každé skupiny dat pomocí šířky střední části diagramu. Oblíbenou konvencí je zakreslit šířku grafu úměrnou druhé mocnině velikosti skupiny.[1]
Boxploty se zářezy používají „zářezy“ nebo zúžení střední části diagramu v okolí mediánu. Zářezy ukazují i hrubou významnost rozdílu mediánů. Pokud se zářezy dvou boxplotů nepřekrývají, existuje pravděpodobně statisticky významný rozdíl mezi mediány.[1] Šířka zářezů je úměrná mezikvartálnímu rozmezí vzorku a nepřímo úměrná druhé odmocnině z velikosti vzorku. Nicméně existuje nejistota ohledně nejvhodnějšího koeficientu (může se lišit v závislosti na podobnosti rozptylů vzorků).[1] Jednou z konvencí je .[3]
Vizualizace
Boxplot je rychlý způsob zkoumání jedné nebo více sad dat graficky. Boxploty se mohou zdát primitivnější než histogram nebo odhad hustoty jádra, ale mají některé výhody. Zabírají méně místa, a proto jsou zvláště užitečné pro porovnávání rozdělení četností mezi několika datovými sadami (viz obrázek 1). Volba počtu a šířky košových technik může výrazně ovlivnit vzhled histogramu a volba šířky pásma může silně ovlivnit vzhled odhadu hustoty jádra.
Ač pohled na statistické rozložení pravděpodobnosti je intuitivnější než pohled na boxplot, porovnání boxplotu s distribuční funkcí rozdělení pravděpodobnosti (teoretický histogram) pro normální N(0,1σ2) rozdělení může být užitečným nástrojem pro pochopení boxplotu (viz obrázek 5).
Reference
V tomto článku byl použit překlad textu z článku Box plot na anglické Wikipedii.
- ↑ a b c d MCGILL, Robert; TUKEY, John W.; LARSEN, Wayne A. Variations of Box Plots. The American Statistician. 1978, s. 12–16. DOI 10.2307/2683468. JSTOR 2683468. (anglicky)
- ↑ a b FRIGGE, Michael; HOAGLIN, David C.; IGLEWICZ, Boris. Some Implementations of the Boxplot. The American Statistician. 1989, s. 50–54. DOI 10.2307/2685173. JSTOR 2685173. (anglicky)
- ↑ a b R: Box Plot Statistics [online]. [cit. 2011-06-26]. Dostupné online. (anglicky)
Externí odkazy
- Obrázky, zvuky či videa k tématu Boxplot na Wikimedia Commons
Média použitá na této stránce
Autor: Schlurcher , Licence: CC BY 3.0
Plot of a Box-Plot with Whiskers to 1.5 interquartile range. The picture was created with Statistica v. 8.0
(c) Jhguch at en.wikipedia, CC BY-SA 2.5
Boxplot and a probability density function (pdf) of a Normal N(0,1σ2) Population.
Autor: Schlurcher , Licence: CC BY 3.0
Plot of a box-plot with whiskers to Min and Max of the Data. The plot was created with Statistica v.8.0
Boxplot representing Michelson's data on the speed of light. It consists of five experiments, each made of 20 consecutive runs.
Autor: Brett Montgomery, Licence: CC0
Four box plot variations demonstrating the use of notches and variable width.
Created in the free statistical software package R using two (arbitrarily chosen) data vectors (named "data1" and "data2") and the following code:
par(mfrow=c(2,2)) boxplot(data1, data2, ylim=c(0,100), names=c("Group 1","Group 2"), notch=FALSE, varwidth=FALSE, main=("Traditional Box Plot")) boxplot(data1, data2, ylim=c(0,100), names=c("Group 1","Group 2"), notch=TRUE, varwidth=FALSE, main=("Notched Box Plot")) boxplot(data1, data2, ylim=c(0,100), names=c("Group 1","Group 2"), notch=FALSE, varwidth=TRUE, main=("Variable Width Box Plot")) boxplot(data1, data2, ylim=c(0,100), names=c("Group 1","Group 2"), notch=TRUE, varwidth=TRUE, main=("Variable Width Notched Box Plot"))Exported as pdf, then converted to svg in Inkscape.