Pri pohľade na rozptyl je veľa otázok. Jedným z najbežnejších je premýšľanie o tom, ako priamka sa priblíži údajom. Aby sme to pomohli odpovedať, existuje opisná štatistika nazývaná korelačný koeficient. Uvidíme, ako vypočítať túto štatistiku.
Korelačný koeficient
korelačný koeficient, označené r, hovorí, ako úzko sú údaje v a bodový diagram spadnúť pozdĺž priamky. Čím bližšie, tým absolútna hodnota z r Čím je jedna, tým lepšie sú údaje opísané pomocou lineárnej rovnice. ak r = 1 alebo r = -1 potom je súbor údajov dokonale zarovnaný. Množiny údajov s hodnotami r blízko nuly ukazujú malý až žiadny priamy vzťah.
Vzhľadom na zdĺhavé výpočty je najlepšie počítať r s použitím kalkulačky alebo štatistického softvéru. Vždy však stojí za to vedieť, čo robí kalkulačka pri výpočte. Nasleduje postup na výpočet korelačného koeficientu hlavne ručne s kalkulačkou používanou na bežné aritmetické kroky.
Kroky pre výpočet r
Začneme zoznamom krokov k výpočtu korelačného koeficientu. Údaje, s ktorými pracujeme, sú párové dáta, z ktorých každá dvojica bude označená (Xja, yja).
- Začneme niekoľkými predbežnými výpočtami. Množstvá z týchto výpočtov sa použijú v nasledujúcich krokoch nášho výpočtu r:
- Vypočítajte x̄, Priemerný všetkých prvých súradníc údajov Xja.
- Vypočítajte ȳ, strednú hodnotu všetkých druhých súradníc údajov
- yja.
- vypočítať s X vzorka smerodajná odchýlka všetkých prvých súradníc údajov Xja.
- vypočítať s y vzorová smerodajná odchýlka všetkých druhých súradníc údajov yja.
- Použite vzorec (zX)ja = (Xja - X) / s X a pre každú z nich vypočítať štandardizovanú hodnotu Xja.
- Použite vzorec (zy)ja = (yja – ȳ) / s y a pre každú z nich vypočítať štandardizovanú hodnotu yja.
- Vynásobené zodpovedajúce štandardizované hodnoty: (zX)ja(zy)ja
- Pridajte produkty z posledného kroku spolu.
- Vydeľte sumu z predchádzajúceho kroku n - 1, kde n je celkový počet bodov v našej skupine spárovaných údajov. Výsledkom toho všetkého je korelačný koeficient r.
Tento proces nie je náročný a každý krok je pomerne bežný, ale zhromažďovanie všetkých týchto krokov je celkom zapojené. Výpočet smerodajnej odchýlky je sám osebe dosť únavný. Výpočet korelačného koeficientu však nezahŕňa iba dve smerodajné odchýlky, ale množstvo ďalších operácií.
Príklad
Presne vidieť, ako sa hodnota r získame, pozrieme sa na príklad. Opäť je dôležité poznamenať, že v prípade praktických aplikácií by sme na výpočet chceli použiť kalkulačku alebo štatistický softvér r pre nás.
Začneme zoznamom párovaných údajov: (1, 1), (2, 3), (4, 5), (5,7). Priemer z X hodnoty, priemer 1, 2, 4 a 5 je x = 3. Máme tiež ȳ = 4. Štandardná odchýlka
X hodnoty sú sX = 1,83 a sy = 2.58. V nasledujúcej tabuľke sú zhrnuté ďalšie výpočty potrebné pre r. Súčet produktov v pravom stĺpci je 2.969848. Keďže sú celkom štyri body a 4 - 1 = 3, delíme súčet produktov 3. To nám dáva korelačný koeficient r = 2.969848/3 = 0.989949.
Tabuľka pre príklad výpočtu korelačného koeficientu
X | y | zX | zy | zXzy |
---|---|---|---|---|
1 | 1 | -1.09544503 | -1.161894958 | 1.272792057 |
2 | 3 | -0.547722515 | -0.387298319 | 0.212132009 |
4 | 5 | 0.547722515 | 0.387298319 | 0.212132009 |
5 | 7 | 1.09544503 | 1.161894958 | 1.272792057 |