Ako odhadnúť štandardné odchýlky (SD)

Štandardná odchýlka a rozsah sú oboma rozmermi šírenie súboru údajov. Každé číslo nám hovorí vlastným spôsobom, ako sú údaje rozmiestnené, pretože obidve sú mierou variácie. Aj keď neexistuje jednoznačný vzťah medzi rozsah a smerodajná odchýlka, existuje pravidlo palca čo môže byť užitočné na prepojenie týchto dvoch štatistík. Tento vzťah sa niekedy označuje ako pravidlo rozsahu pre štandardnú odchýlku.

Pravidlo rozsahu nám hovorí, že smerodajná odchýlka vzorky je približne rovná jednej štvrtine rozsahu údajov. Inými slovamis = (Maximum - minimum) / 4. Toto je veľmi jednoduchý recept na použitie a mal by sa používať iba ako veľmi drsný odhad smerodajnej odchýlky.

Príklad

Aby sme videli príklad toho, ako funguje pravidlo rozsahu, pozrieme nasledujúci príklad. Predpokladajme, že začíname s dátovými hodnotami 12, 12, 14, 15, 16, 18, 18, 20, 20, 25. Tieto hodnoty majú a Priemerný 17 a štandardná odchýlka asi 4,1. Ak namiesto toho najprv spočítame rozsah našich údajov ako 25 - 12 = 13 a potom delíme toto číslo štyrmi, náš odhad štandardnej odchýlky je 13/4 = 3,25. Toto číslo je relatívne blízko skutočnej štandardnej odchýlke a dobré pre hrubý odhad.

instagram viewer

Prečo to funguje?

Môže sa zdať, že pravidlo rozsahu je trochu zvláštne. Prečo to funguje? Nezdá sa byť úplne svojvoľné rozdeliť tento rozsah štyrmi? Prečo by sme sa nedelili iným číslom? V zákulisí sa v skutočnosti deje matematické odôvodnenie.

Spomeňte si na vlastnosti zvonová krivka a pravdepodobnosti z a štandardné normálne rozdelenie. Jedna vlastnosť súvisí s množstvom údajov, ktoré spadajú do určitého počtu štandardných odchýlok:

  • Približne 68% údajov je v rámci jednej štandardnej odchýlky (vyššej alebo nižšej) od priemeru.
  • Približne 95% údajov je v rámci dvoch štandardných odchýlok (vyšších alebo nižších) od priemeru.
  • Približne 99% je v rámci troch štandardných odchýlok (vyšších alebo nižších) od priemeru.

Číslo, ktoré použijeme, sa týka 95%. Môžeme povedať, že 95% z dvoch smerodajných odchýlok pod priemerom do dvoch štandardných odchýlok nad priemerom, máme 95% našich údajov. Tak by sa takmer celé naše normálne rozdelenie rozprestieralo na úseku trate, ktorý je celkom štyri štandardné odchýlky.

Nie všetky údaje sú bežne distribuované a majú tvar zvonovej krivky. Väčšina údajov sa však správa tak dobre, že odchodom dvoch štandardných odchýlok od priemeru sa zachytia takmer všetky údaje. Odhadujeme a hovoríme, že štyri štandardné odchýlky sú približne veľkosťou rozsahu, a preto rozsah delený štyrmi je približná aproximácia štandardnej odchýlky.

Použitie pre pravidlo rozsahu

Pravidlo rozsahu je užitočné v mnohých nastaveniach. Po prvé, ide o veľmi rýchly odhad smerodajnej odchýlky. Štandardná odchýlka vyžaduje, aby sme najprv našli strednú hodnotu a potom ju odpočítali od každého údajového bodu, štvorca rozdiely, sčítajte ich, vydeľte jedným menším ako je počet údajových bodov, potom (nakoniec) vezmite štvorec koreň. Na druhej strane pravidlo rozsahu vyžaduje iba jedno odčítanie a jedno rozdelenie.

Ďalším miestom, kde je pravidlo rozsahu užitočné, je to, keď máme neúplné informácie. Vzorce, ako je vzorec na určenie veľkosti vzorky, si vyžadujú tri informácie: požadované miera chyby, úroveň dôvery a štandardnú odchýlku populácie, ktorú skúmame. Mnohokrát nie je možné vedieť, čo obyvateľstvo smerodajná odchýlka je. Pomocou pravidla rozsahu dokážeme odhadnúť túto štatistiku a potom vieme, ako veľké by sme mali urobiť našu vzorku.