Jedného dňa pri obede zjedla mladá žena veľkú misku zmrzliny a jeden člen jej fakulty k nej pristúpil a povedal: „Mali by ste byť opatrní, je vysoká štatistickýkorelácia medzi zmrzlinou a topením. “ Musela mu dať zmätený pohľad, keď sa viac rozpracoval. "Dni s najväčším predajom zmrzliny tiež vidia, že sa väčšina utopí."
Keď dokončila svoju zmrzlinu, dvaja kolegovia diskutovali o skutočnosti, že len preto, že jedna premenná je štatisticky spojená s druhou, neznamená to, že jedna je príčinou druhej. V pozadí sa niekedy skrýva premenlivá hodnota. V takom prípade sa v údajoch skryje deň v roku. V horúcich letných dňoch sa predáva viac zmrzliny ako v zime zasnežených. V lete pláva viac ľudí, a preto sa v lete utopí viac ako v zime.
Dajte si pozor na číhajúce premenné
Vyššie uvedená anekdota je ukážkovým príkladom toho, čo sa nazýva číhajúca premenná. Ako už názov napovedá, číhajúca premenná môže byť nepolapiteľná a ťažko odhaliteľná. Keď zistíme, že dva číselné súbory údajov úzko súvisia, mali by sme sa vždy opýtať: „Môže existovať niečo, čo spôsobuje tento vzťah?“
Nasleduje príklad silnej korelácie spôsobenej číhajúcou premennou:
- Priemerný počet počítačov na osobu v krajine a priemerná dĺžka života v tejto krajine.
- Počet hasičov pri požiari a škody spôsobené požiarom.
- Výška žiaka základnej školy a jeho úroveň čítania.
Vo všetkých týchto prípadoch je vzťah medzi premennými veľmi silný. Toto je zvyčajne označené a korelačný koeficient ktorá má hodnotu blízku 1 alebo -1. Nezáleží na tom, ako blízko je tento korelačný koeficient 1 alebo -1, táto štatistika nemôže ukázať, že jedna premenná je príčinou druhej premennej.
Detekcia číhajúcich premenných
Z hľadiska svojej povahy je ťažké zistiť číre premenné. Jednou z stratégií, ak sú k dispozícii, je preskúmať, čo sa stane s údajmi v priebehu času. To môže odhaliť sezónne trendy, ako napríklad príklad zmrzliny, ktoré sa pri hromadení údajov skryjú. Ďalšou metódou je pozrieť sa na outliers a skúste zistiť, čo ich odlišuje od ostatných údajov. Niekedy to poskytuje náznak toho, čo sa deje v zákulisí. Najlepší postup je aktívny; starostlivo spochybňujte predpoklady a experimenty s návrhom.
Prečo na tom záleží?
V úvodnom scenári predpokladajme, že kongresman s dobrým významom, ale štatisticky neinformovaný, navrhuje zakázať všetku zmrzlinu, aby sa predišlo utopeniu. Takýto návrh zákona by spôsobil nepríjemnosti veľkým skupinám obyvateľstva, prinútil by niekoľko spoločností k bankrotu a odstránil by tisíce pracovných miest, keď sa zatvoril priemysel zmrzliny v krajine. Napriek najlepším zámerom by tento návrh neznížil počet utopených úmrtí.
Ak sa zdá, že tento príklad je príliš pritiahnutý za vlasy, zvážte nasledujúce skutočnosti, ktoré sa skutočne stali. Na začiatku 20. rokov 20. storočia si lekári všimli, že niektoré deti záhadne zomierajú v spánku z dôvodu dýchacích problémov. Nazývalo sa to smrteľná smrť a teraz sa nazýva SIDS. Jedna z vecí, ktoré vyústili z pitiev vykonaných na tých, ktorí zomreli na SIDS, bol zväčšený týmus, žľaza umiestnená v hrudi. Z korelácie zväčšených týmusových žliaz u detí SIDS lekári predpokladali, že abnormálne veľký brzlík spôsobil nesprávne dýchanie a smrť.
Navrhovaným riešením bolo zmrštenie týmusu vysokými radiáciami alebo úplné odstránenie žľazy. Tieto postupy mali vysokú úmrtnosť a viedli k ešte väčšiemu počtu úmrtí. Je smutné, že tieto operácie nemuseli byť vykonané. Následný výskum ukázal, že títo lekári sa pomýlili vo svojich predpokladoch a že týmus nie je zodpovedný za SIDS.
Korelácia neznamená príčinu
To by nás malo prinútiť pozastaviť sa, keď si myslíme, že štatistické dôkazy sa používajú na zdôvodnenie vecí, ako sú lekárske režimy, legislatíva a vzdelávacie návrhy. Je dôležité, aby sa pri interpretácii údajov vykonávala dobrá práca, najmä ak výsledky týkajúce sa korelácie ovplyvnia životy ostatných.
Keď niekto uvedie, „Štúdie ukazujú, že A je príčinou B a niektoré štatistické údaje ho zálohujú“, buďte pripravení odpoveď: „korelácia neznamená príčinnú súvislosť.“ Vždy hľadajte, čo sa skrýva pod dát.