Štatistika a analýza lineárnej regresie

Lineárna regresia je štatistická technika, ktorá sa používa na získanie ďalších informácií o vzťahu medzi nezávislou (predikčnou) premennou a závislou (kriteriálnou) premennou. Ak máte vo svojej analýze viac ako jednu nezávislú premennú, nazýva sa to viacnásobná lineárna regresia. Vo všeobecnosti umožňuje regresia výskumníkovi položiť všeobecnú otázku „Aký je najlepší prediktor ???“

Povedzme napríklad, že sme študovali príčiny obezita, merané indexom telesnej hmotnosti (BMI). Chceli sme najmä zistiť, či boli tieto premenné významné prediktory BMI osoby: počet rýchleho občerstvenia jedlá konzumované týždenne, počet hodín sledovaných televíziou týždenne, počet minút cvičenia týždenne a rodičia “ BMI. Lineárna regresia by bola dobrou metodikou pre túto analýzu.

Regresná rovnica

Ak vykonávate regresnú analýzu s jednou nezávislou premennou, regresná rovnica je Y = a + b * X, kde Y je závislá premenná, X je nezávislá premenná, a je konštanta (alebo priesečník) a b je sklon regresnej priamky. Povedzme napríklad, že GPA sa najlepšie predpovedá pomocou regresnej rovnice 1 + 0,02 * IQ. Keby mal študent IQ 130, jeho GPA by bola 3,6 (1 + 0,02 * 130 = 3,6).

instagram viewer

Ak vykonávate regresnú analýzu, v ktorej máte viac ako jednu nezávislú premennú, regresná rovnica je Y = a + b1 * X1 + b2 * X2 +… + BP * XP. Napríklad, ak by sme chceli do našej analýzy GPA zahrnúť viac premenných, ako napríklad opatrenia na motiváciu a sebadisciplínu, použili by sme to rovnice.

R-Square

R-námestie, tiež známe ako koeficient určenia, je bežne používaná štatistika na vyhodnotenie vhodnosti modelu regresnej rovnice. To znamená, ako dobré sú všetky vaše nezávislé premenné pri predpovedaní závislej premennej? Hodnota R-štvorca sa pohybuje od 0,0 do 1,0 a môže sa vynásobiť 100, aby sa získalo percento odchýlka vysvetlené. Napríklad návrat k našej regresnej rovnici GPA s iba jednou nezávislou premennou (IQ)… povedzme, že naše R-obdĺžnik pre rovnicu bol 0,4. Mohli by sme to interpretovať tak, že 40% rozptylu v GPA je vysvetlené IQ. Ak potom pridáme ďalšie dve premenné (motivácia a sebadisciplína) a R-štvorec sa zvýši na 0.6, to znamená, že IQ, motivácia a sebadisciplína spolu vysvetľujú 60% rozptylu v GPA skóre.

Regresné analýzy sa zvyčajne vykonávajú pomocou štatistického softvéru, ako je napríklad SPSS alebo SAS, a preto sa pre vás vypočíta štvorec R.

Interpretácia regresných koeficientov (b)

Koeficienty b z vyššie uvedených rovníc predstavujú silu a smer vzťahu medzi nezávislými a závislými premennými. Ak sa pozrieme na rovnicu GPA a IQ, 1 + 0,02 * 130 = 3,6, 0,02 je regresný koeficient pre premennú IQ. To nám hovorí, že smer vzťahu je pozitívny, takže ako sa zvyšuje IQ, zvyšuje sa aj GPA. Keby rovnica bola 1 - 0,02 * 130 = Y, znamenalo by to, že vzťah medzi IQ a GPA bol negatívny.

predpoklady

Existuje niekoľko predpokladov o údajoch, ktoré musia byť splnené, aby sa mohla vykonať lineárna regresná analýza:

  • linearita: Predpokladá sa, že vzťah medzi nezávislými a závislými premennými je lineárny. Aj keď tento predpoklad nemožno nikdy úplne potvrdiť, pri pohľade na a bodový diagram vašich premenných môže pomôcť pri tomto určení. Ak je zakrivenie vo vzťahu, môžete zvážiť transformáciu premenných alebo explicitne povoliť nelineárne komponenty.
  • normalita: Predpokladá sa, že rezíduá normálne sú distribuované vaše premenné. To znamená, že chyby v predikcii hodnoty Y (závislá premenná) sú rozdelené spôsobom, ktorý sa približuje k normálnej krivke. Môžete sa na to pozrieť histogramy alebo grafy normálnej pravdepodobnosti na kontrolu distribúcie vašich premenných a ich zvyškových hodnôt.
  • nezávislosť: Predpokladá sa, že chyby v predikcii hodnoty Y sú navzájom nezávislé (nekorelujú).
  • homoskedasticita: Predpokladá sa, že rozptyl okolo regresnej priamky je rovnaký pre všetky hodnoty nezávislých premenných.

zdroj

  • StatSoft: Učebnica elektronickej štatistiky. (2011). http://www.statsoft.com/textbook/basic-statistics/#Crosstabulationb.