Numerické údaje sa niekedy vyskytujú v pároch. Možno a paleontológ meria dĺžky stehennej kosti (stehennej kosti) a humeru (ramennej kosti) v piatich fosíliách toho istého druhu dinosaura. Dalo by sa zmysluplne zvážiť dĺžku ramien oddelene od dĺžok nôh a vypočítať veci ako priemer alebo štandardnú odchýlku. Čo ak však výskumník zaujíma, či existuje vzťah medzi týmito dvoma meraniami? Nestačí sa len pozerať na ruky oddelene od nôh. Namiesto toho by mal paleontológ spárovať dĺžky kostí pre každú kostru a používať plochu štatistika známy ako korelácia.
Čo je korelácia? Vo vyššie uvedenom príklade predpokladajte, že výskumný pracovník študoval údaje a dosiahol nie príliš prekvapujúce Výsledkom bolo, že fosílie dinosaura s dlhšími ramenami mali tiež dlhšie nohy a fosílie s kratšími ramenami kratšie nohy. Rozptyl dát ukázal, že všetky dátové body boli zoskupené blízko priamky. Výskumník by potom povedal, že existuje silný priamy vzťah, alebo korelácia, medzi dĺžkami kostí paží a kostí nôh fosílií. Na to, aby bola korelácia silná, je potrebné vykonať ešte viac práce.
Korelácia a rozptyl
Pretože každý dátový bod predstavuje dve čísla, dvojrozmerný rozptyl je veľkou pomocou pri vizualizácii údajov. Predpokladajme, že skutočne máme ruky na údajoch dinosaura a päť fosílií má nasledujúce merania:
- Femur 50 cm, humerus 41 cm
- Femur 57 cm, humerus 61 cm
- Femur 61 cm, humerus 71 cm
- Femur 66 cm, humerus 70 cm
- Femur 75 cm, humerus 82 cm
Rozptyl údajov, s meraním stehennej kosti v horizontálnom smere a meraním humeru vo vertikálnom smere, vedie k vyššie uvedenému grafu. Každý bod predstavuje meranie jednej z koster. Napríklad bod v ľavom dolnom rohu zodpovedá kostre # 1. Bod v pravom hornom rohu je kostra # 5.
Určite to vyzerá, že by sme mohli nakresliť priamku, ktorá by bola veľmi blízka všetkým bodom. Ako však môžeme s istotou povedať? Blízkosť je v oku pozorovateľa. Ako vieme, že naše definície „blízkosti“ sa zhodujú s niekým iným? Existuje nejaký spôsob, ako by sme mohli kvantifikovať túto blízkosť?
Korelačný koeficient
Aby bolo možné objektívne zmerať, ako blízko majú byť údaje pozdĺž priamky, k záchrane dôjde korelačný koeficient. korelačný koeficient, zvyčajne označované r, je skutočné číslo od -1 do 1. Hodnota r zmeria silu korelácie na základe vzorca, čím sa eliminuje akákoľvek subjektivita v procese. Pri interpretácii hodnoty súboru majte na pamäti niekoľko usmernení r.
- ak r = 0, potom sú body úplným zmiešaním s absolútne žiadnym priamym vzťahom medzi údajmi.
- ak r = -1 alebo r = 1, potom sa všetky údajové body dokonale zarovnajú na jednom riadku.
- ak r je hodnota iná ako tieto extrémy, výsledkom je menej ako dokonalé prispôsobenie priamky. V súboroch údajov v reálnom svete je to najbežnejší výsledok.
- ak r je pozitívny, potom linka stúpa s a pozitívny sklon. ak r je záporná, potom čiara klesá so záporným sklonom.
Výpočet koeficientu korelácie
Vzorec pre korelačný koeficient r je komplikovaná, ako vidno tu. Zložky vzorca sú stredné hodnoty a štandardné odchýlky oboch súborov číselných údajov, ako aj počet údajových bodov. Pre väčšinu praktických aplikácií r je únavné počítať ručne. Ak boli naše údaje zadané do kalkulačky alebo tabuľkového procesora pomocou štatistické príkazy, potom je zvyčajne k dispozícii zabudovaná funkcia na výpočet r.
Obmedzenia korelácie
Aj keď je korelácia mocným nástrojom, pri jej používaní existujú určité obmedzenia:
- Korelácia nám o údajoch úplne nehovorí. Prostriedky a štandardné odchýlky sú naďalej dôležité.
- Údaje možno opísať krivkou zložitejšou ako priamka, ale pri výpočte sa to nezobrazí r.
- Mimoriadne hodnoty silne ovplyvňujú korelačný koeficient. Ak v našich údajoch vidíme nejaké odľahlé hodnoty, mali by sme byť opatrní, aké závery vyvodzujeme z hodnoty r.
- Len preto, že sú korelované dve sady údajov, neznamená to, že jedna je príčina na strane druhej.