Stupne slobody za nezávislosť v dvojsmernej tabuľke

click fraud protection

Počet stupne slobody pre nezávislosť dvoch kategorických premenných je daný jednoduchým vzorcom: (r - 1)(C - 1). Tu r je počet riadkov a C je počet stĺpcov v obojsmerný stôl hodnôt kategorickej premennej. Čítajte ďalej, ak sa chcete dozvedieť viac o tejto téme a pochopiť, prečo tento vzorec uvádza správne číslo.

Pozadie

Jeden krok v procese mnohých testy hypotéz je určenie počtu stupňov voľnosti. Toto číslo je dôležité, pretože pre rozdelenie pravdepodobnosti ktoré zahŕňajú skupinu distribúcií, napríklad distribúciu chí-kvadrát, počet stupňov sloboda určuje presnú distribúciu z rodiny, ktorú by sme mali používať v našej hypotéze test.

Stupne slobody predstavujú počet slobodných rozhodnutí, ktoré môžeme v danej situácii urobiť. Jedným z testov hypotéz, ktoré si vyžadujú, aby sme určili stupne slobody, je chi-square test nezávislosti pre dve kategorické premenné.

Testy nezávislosti a dvojsmerných tabuliek

Test nezávislosti na štvorci chi od nás vyžaduje, aby sme vytvorili obojsmernú tabuľku, tiež známu ako pohotovostná tabuľka. Tento typ tabuľky má

instagram viewer
r riadky a C stĺpce predstavujúce r úrovne jednej kategorickej premennej a C úrovne inej kategorickej premennej. Ak teda nepočítame riadok a stĺpec, v ktorom zaznamenávame súčty, existuje celkom rc bunky v obojsmernej tabuľke.

Test nezávislosti chí-kvadrát nám umožňuje testovať hypotézu, že kategorický premenné sú na sebe nezávislé. Ako sme uviedli vyššie, r riadky a C stĺpce v tabuľke nám (r - 1)(C - 1) stupne voľnosti. Ale nemusí byť hneď jasné, prečo je to správny počet stupňov slobody.

Počet stupňov slobody

Ak chcete zistiť, prečo (r - 1)(C - 1) je správne číslo, túto situáciu preskúmame podrobnejšie. Predpokladajme, že poznáme medzné súčty pre každú z úrovní našich kategorických premenných. Inými slovami, poznáme súčet pre každý riadok a súčet pre každý stĺpec. V prvom riadku sú C stĺpce v našej tabuľke, takže sú C buniek. Akonáhle poznáme hodnoty všetkých okrem jednej z týchto buniek, potom, pretože poznáme celkový počet všetkých buniek, je jednoduchým problémom algebry určiť hodnotu zostávajúcej bunky. Keby sme vyplňovali tieto bunky v našom stole, mohli by sme vstúpiť C - 1 z nich voľne, ale potom zostávajúca bunka je určená súčtom riadku. Takto sú C - 1 stupeň voľnosti v prvom rade.

Týmto spôsobom pokračujeme v ďalšom riadku a sú tu opäť C - 1 stupeň voľnosti. Tento proces pokračuje, kým sa nedostaneme do predposledného riadku. Prispieva každý z riadkov s výnimkou posledného C - celkom 1 stupeň slobody. V čase, keď máme všetky okrem posledného riadku, potom, pretože poznáme súčet stĺpcov, môžeme určiť všetky položky v poslednom riadku. To nám dáva r - 1 riadky s C - 1 stupeň voľnosti v každom z nich, celkom (r - 1)(C - 1) stupne voľnosti.

príklad

Vidíme to na nasledujúcom príklade. Predpokladajme, že máme dvojsmernú tabuľku s dvoma kategorickými premennými. Jedna premenná má tri úrovne a druhá má dve. Ďalej predpokladajme, že poznáme súčty riadkov a stĺpcov pre túto tabuľku:

Úroveň A Úroveň B Celkom
Úroveň 1 100
Úroveň 2 200
Úroveň 3 300
Celkom 200 400 600

Vzorec predpovedá, že existujú (3-1) (2-1) = 2 stupne voľnosti. Vidíme to takto. Predpokladajme, že do ľavého horného políčka vyplníme číslo 80. Týmto sa automaticky určí celý prvý riadok záznamov:

Úroveň A Úroveň B Celkom
Úroveň 1 80 20 100
Úroveň 2 200
Úroveň 3 300
Celkom 200 400 600

Ak teraz vieme, že prvý záznam v druhom riadku je 50, vyplní sa zvyšok tabuľky, pretože poznáme súčet každého riadku a stĺpca:

Úroveň A Úroveň B Celkom
Úroveň 1 80 20 100
Úroveň 2 50 150 200
Úroveň 3 70 230 300
Celkom 200 400 600

Tabuľka je úplne vyplnená, mali sme však iba dve bezplatné voľby. Akonáhle boli tieto hodnoty známe, zvyšok tabuľky sa úplne stanovil.

Aj keď zvyčajne nepotrebujeme vedieť, prečo existuje toľko stupňov slobody, je dobré vedieť, že v skutočnosti iba uplatňujeme pojem stupňov slobody na novú situáciu.

instagram story viewer