Čo je Simpsonov paradox v štatistike?

paradox je vyhlásenie alebo fenomén, ktorý sa na povrchu javí ako protirečivý. Paradoxy pomáhajú odhaliť základnú pravdu pod povrchom toho, čo sa javí ako absurdné. V oblasti štatistiky Simpsonov paradox demonštruje, aké problémy vznikajú kombináciou údajov z niekoľkých skupín.

Pri všetkých údajoch musíme postupovať opatrne. Odkiaľ to prišlo? Ako sa to získalo? A čo to vlastne hovorí? To všetko sú dobré otázky, ktoré by sme si mali položiť pri predložení údajov. Veľmi prekvapivý prípad Simpsonovho paradoxu nám ukazuje, že niekedy to, čo sa zdá, že údaje hovoria, v skutočnosti nie je.

Prehľad paradoxu

Predpokladajme, že pozorujeme niekoľko skupín a vytvoríme vzťah alebo korelácia pre každú z týchto skupín. Simpsonov paradox hovorí, že keď skombinujeme všetky skupiny dohromady a pozeráme sa na údaje v súhrnnej podobe, korelácia, ktorú sme si všimli predtým, sa môže zvrátiť. Najčastejšie je to dôsledkom číhajúcich premenných, ktoré neboli brané do úvahy, ale niekedy je to kvôli číselným hodnotám údajov.

instagram viewer

príklad

Aby sme si trochu lepšie uvedomili Simpsonov paradox, pozrime sa na nasledujúci príklad. V určitej nemocnici sú dvaja lekári. Chirurg A operuje na 100 pacientoch a 95 prežije. Chirurg B operuje u 80 pacientov a 72 prežije. Uvažujeme o operácii v tejto nemocnici a život cez operáciu je niečo dôležité. Chceme si vybrať lepší z týchto dvoch chirurgov.

Pozeráme sa na údaje a použijeme ich na výpočet toho, aké percento pacientov chirurga A prežilo svoje operácie, a porovnáme ich s mierou prežitia pacientov chirurga B.

  • 95 pacientov zo 100 prežilo s chirurgom A, takže 95/100 = 95% z nich prežilo.
  • 72 pacientov z 80 prežilo s chirurgom B, takže 72/80 = 90% z nich prežilo.

Na základe tejto analýzy, ktorý chirurg by sme sa mali rozhodnúť, že sa s nami budeme liečiť? Zdá sa, že chirurg A je bezpečnejšia stávka. Ale je to skutočne pravda?

Čo keby sme urobili ďalší výskum údajov a zistili sme, že nemocnice pôvodne uvažovala dva rôzne typy chirurgických zákrokov, ale potom všetky údaje spojil, aby podal správu o každej z nich chirurgovia. Nie všetky operácie sú si rovné, niektoré sa považovali za vysoko rizikové pohotovostné operácie, zatiaľ čo iné boli rutinnejšej povahy, ktorá bola naplánovaná vopred.

Zo 100 pacientov, ktorí liečili chirurga A, bolo 50 vysoko rizikových, z ktorých traja zomreli. Ďalších 50 bolo považovaných za rutinné, z ktorých 2 umreli. To znamená, že pre rutinnú operáciu má pacient liečený chirurgom A mieru prežitia 48/50 = 96%.

Teraz sa podrobnejšie zaoberáme údajmi o chirurgovi B a zistíme, že z 80 pacientov bolo 40 vysoko rizikových, z ktorých sedem zomrelo. Ďalších 40 bolo rutinných a iba jeden zomrel. To znamená, že pacient má pre rutinný chirurgický zákrok s chirurgom B. mieru prežitia 39/40 = 97,5%.

Ktorý chirurg sa teraz javí lepšie? Ak má byť vaša operácia rutinná, potom je chirurg B skutočne lepším chirurgom. Ak sa pozrieme na všetky operácie, ktoré vykonávajú chirurgovia, A je lepšie. To je dosť kontraintuitívne. V tomto prípade ovplyvňuje číracia premenná typu chirurgického zákroku kombinované údaje chirurgov.

História Simpsonovho paradoxu

Simpsonov paradox je pomenovaný po Edwardovi Simpsonovi, ktorý tento paradox prvýkrát opísal v dokumente z roku 1951 „Interpretácia interakcií v pohotovostných tabuľkách“ z Časopis Kráľovskej štatistickej spoločnosti. Pearson a Yule pozorovali podobný paradox o pol storočia skôr ako Simpson, takže Simpsonov paradox sa niekedy označuje aj ako Simpson-Yuleov efekt.

Existuje mnoho rozsiahlych aplikácií paradoxu v oblastiach, ktoré sú tak rozmanité ako športové štatistiky a štatistiky údaje o nezamestnanosti. Kedykoľvek sa tieto údaje zhromažďujú, dávajte si pozor na tento paradox.