Ekologická chyba

Ekologická chyba (neboli ekologický klam, ekologický úsudek klamu) je logický výklad statistických dat, kde úsudek o povaze jednotlivých dat je odvozen od závěru pro skupinu, do které tato data patří. Ekologický klam se někdy odkazuje na omyl divize (fallacy of division) - omyl dělení, který není statistický problém. Čtyři společné statistické ekologické klamy jsou: záměny ekologických souvislostí a jednotlivých korelací, zmatenost mezi skupinami průměru a celkový průměr, Simpsonův paradox a rozdíl mezi vyšším průměrem a vyšší pravděpodobností.

Korelace skupin a jednotlivců

Ekologický klam může odkazovat na následující statistické klamy: korelace mezi jednotlivými průměry je odvozena z korelace proměnných shromažďovaných dat pro skupinu, do které tato data patří.

Příklady

Předpokládejme, že protestantské vlivy negativně vedou k sebevraždám, ale pravděpodobnost, že něčí soused spáchá sebevraždu je vyšší, než se stane protestantem. Pak, i když na individuální úrovni existuje negativní korelace mezi sebevražednými sklony a protestantstvím, tam může být pozitivní korelace na agregátní úrovni.

Dále, bohatství značí, že budeme volit republikány, ale bohatší státy volí demokraty. Například, v roce 2004, republikánský kandidát George W. Bush vyhrál v patnácti nejchudších státech a demokratický kandidát, John Kerry, vyhrál v 9 z 11 nejbohatších státech. Přesto 62 % voličů s ročními příjmy přes 200 000 $ hlasovalo pro Bushe, ale jen 36 % voličů s ročním příjmem menším než 15 000 $ hlasovalo pro Bushe.

Oficiální problém

Korelace celkového množství (nebo ekologická korelace) se nerovná korelaci jednotlivých veličin. Označíme dvě veličiny na individuální úrovni. Vzorec pro kovariance z celkových množství ve skupinách o velikosti N je:

Kovariance dvou agregovaných proměnných závisí nejen na kovarianci dvou proměnných v rámci stejných členů, ale také na kovarianci z proměnných mezi různými členy. Jinými slovy, vztah souhrnných proměnných, které nejsou relevantní na individuální úrovni.

Problém korelace nese samozřejmě problém pro regresi souhrnných proměnných: korelace klamu je proto důležitá otázka pro vědce, kteří chtějí měřit příčiny vlivů. Začněte s regresním modelem, kde je výsledek je ovlivněn

Regresní model na agregátní (celkové) úrovni se získá sečtením jednotlivých rovnic:

Nic nebrání tomu, aby byly chyby před korelací na agregátní úrovni. Proto se obvykle používá regrese na agregátní úrovni a údaje se nedají odhadnout stejným modelem, který se používá při regresi s individuálními údaji.

Agregátní model je správný, právě když:

To znamená, že říze?? , neudává . Vraťme se zpět k příkladu z náboženství, agregát modelu správně měří sklon protestantů spáchat sebevraždu jen tehdy, je-li uvnitř každého náboženství nějaká tolerance spáchat sebevraždu, není určena počtem protestantů ve státě.

Historické příklady chyb

První příklad ekologické chyby řešil Émile Durkheim v roce 1897 ve Francii, když se zabýval sebevraždami. Dalším příkladem je dokument z roku 1950 Williama S. Robinsona. V každém ze 48 států + District of Columbia v USA proběhlo v roce 1930 sčítání lidu, Robinson počítal s negramotností a podílem obyvatel narozených mimo USA. Ukázalo se, že když jsou dvě osoby spojeny negativní korelací -0,53 – čím více je přistěhovalců ve státě, tím nižší je průměrná negramotnost. Ale přistěhovalci byli v průměru více negramotní než občané USA. Robinson předvedl na vytvořené negativní korelaci, že se přistěhovalci rozhodli usadit se ve státech, kde je domorodé obyvatelstvo více gramotné. Varoval před vyvozením závěrů o jednotlivci na základě populační úrovně nebo ekologických dat. V roce 2011 bylo zjištěno, že Robinsonovi výpočty z ekologických korelací jsou založeny na špatných údajích. Výsledek jeho vypočtené korelace je -0,53, ale ve skutečnosti je -0,46. Robinsonův dokument byl klíčový, ale pojem „ekologická chyba“ byl poprvé použit až v roce 1958 Selvinem.

Výběr mezi celkovým a individuálním úsudkem

Není nic špatného na spuštění regrese na celkových údajích, pokud je zájem v celkovém modelu. Například, je správně, aby spuštění regrese mezi policií a kriminalitou na úrovni státu, pokud by byl důsledek zájem politiků o růst počtu policistů v obcích. Nicméně, ekologická chyba by se stala, kdyby městská rada přijala nové síly k policii v obci a to vedlo ke kriminalitě na úrovni obce z korelace na úrovni státu. Rozhodnete-li se spustit celkovou nebo individuální regresi k pochopení souhrnného vlivu na nějaké politiky, závisí na následující dohodě: Souhrnné regrese ke ztrátě dat na individuální úrovni a k jednotlivé regresi přidáme silné předpoklady k modelaci. Někteří vědci tvrdí, že ekologická korelace dává lepší obrázek o výsledku veřejných politických opatřeních, a tím, že doporučí ekologický vztah přes jednotlivé úrovně korelace pro tento účel (Lubinski & Humphreys, 1996). Jiní vědci s tímto nesouhlasí, a to zejména, když vztahy mezi úrovněmi nejsou jasně definované. Aby se zabránilo ekologické chybě, mohou vědci s jednotlivými údaji modelovat a zajišťovat, co se s nimi děje na individuální úrovni, jak spolu souvisí individuální a celková úroveň a nakonec, zda výsledky pomohou k pochopení mezi individuální a celkovou úrovní. Například, v hodnocení dopadu státní politiky je užitečné vědět, že dopad politiky se liší méně mezi státy, než dělat politiku sami, což naznačuje, že rozdíly v politice nejsou dobře přehrány do výsledků a to navzdory vysoké ekologické souvislosti (Rose, 1973).

Skupina a celkové průměry

Ekologická chyba také může odkazovat na následující chybu: průměr pro skupinu je zaokrouhlený průměr v celkové populaci (pokud celkovou populaci rozdělíme na skupiny). Předpokládejme, že člověk zná počet protestantů i výskyt sebevražd v USA, ale nemá údaje o propojení náboženství se sebevraždami na individuální úrovni. Pokud se někdo zajímá o míru sebevražd protestantů, je těžké odhadnout míru v celkovém počtu sebevražd vyděleném počtem protestantů ve státě. Oficiálně se značí jako (Suicide = sebevraždy; Protestant = počet protestantů) průměrné skupiny obvykle mají:

Nicméně zákon[zdroj?!] udává

Jak víme, tak vyjde mezi 0 a 1.

Simpsonův paradox

Simpsonův paradox je velice významný ekologický klam. Týká se skutečnosti, při které porovnáváme dvě skupiny různých velikostí, průměr některých proměnných může být v první skupině vyšší nebo nižší než průměr v celkové populaci. Formálně, kdy se každá hodnota Z vztahuje na jinou skupinu a X označuje nějakou formu ošetření, může se stát, že

Kdy nezávisí na , Simpsonův paradox opomíjí proměnnou, která může ovlivnit regresi na , kdy je formální proměnnou a vypustíme proměnnou . Na výpočtu je zarážející to, že parametry mají opačná znaménka.

Průměr a medián

Dalším příkladem ekologické chyby je, že průměr populace předpokládá, že je z hlediska pravděpodobnosti na vlastní úrovni. Například, v případě, že průměrné skóre skupiny A je větší než 0, ale neznamená to, že náhodný jednotlivec ze skupiny A má větší pravděpodobnost v pozitivní výsledek. Dále, je-li měřena zvláštní skupina lidí, kteří mají nižší průměrné IQ, než v běžné populaci, je chyba v tom, že pokud náhodně vybereme jednoho člena skupiny, je větší pravděpodobnost, že má nižší IQ než je průměr IQ v běžné populaci. Matematicky vycházíme ze skutečnosti, že rozdělení může mít pozitivní průměr, ale negativní medián. Tato vlastnost je vázána s šikmostí rozdělení.

Příklad:

  • Skupina A: 80 % lidí má 40 bodů a 20 % dostalo 95 bodů. Průměrné skóre je 51 bodů.
  • Skupina B: 50 % lidí má 45 bodů a 50 % má 55 bodů. Průměrné skóre je 50 bodů.
  • Když si budeme vybírat dva lidi náhodně ze skupiny A a B, existují 4 možné výsledky:
    • A - 40, B - 45 (B vyhraje, 40% pravděpodobnost)
    • A - 40, B - 55 (B vyhraje, 40% pravděpodobnost)
    • A - 95, B - 45 (A vyhraje, 10% pravděpodobnost)
    • A - 95, B - 55 (A vyhraje, 10% pravděpodobnost)
  • Přestože má skupina A vyšší průměrné skóre, zaznamená jedinec ze skupiny A nižší skóre než náhodný člen ze skupiny B.

Právní aplikace

Ekologická chyba byla probírána u soudu ve Washingtonu během voleb v roce 2004, v nichž bylo identifikováno několik neplatných hlasů – při sčítání, bohužel, nebylo možné zjistit kdo byli tito nelegální voliči, protože volby jsou tajné. Vyzyvatelé argumentovali tím, že nelegální hlasy ve volbách sledovali ve volebních okrscích, ve kterých byly odevzdány, a tak by vyhledání těchto voličů mělo být provedeno odpovídajícím způsobem. Znalec řekl, že tento přístup je, jako se snažit přijít na to, že průměrný odpal Ičiróa Suzukiho je rychlejší než průměrné odpalování vypočtené z odpalů celého týmu Seattle Mariners, protože nelegální hlasy byly zjištěny v nereprezentativním vzorku voličů a skutečnost může být odlišná od průměrného voliče. Soudce rozhodl v tomto sporu tak, že se jednalo o ekologickou chybu.