Súhrnné štatistiky, ako sú medián, prvý kvartil a tretí kvartil sú merania polohy. Je to preto, že tieto čísla naznačujú, kde leží určitá časť distribúcie údajov. Medián je napríklad prostredná pozícia skúmaných údajov. Polovica údajov má hodnoty nižšie ako stredná hodnota. Podobne 25% údajov má hodnoty nižšie ako prvý kvartil a 75% údajov má hodnoty nižšie ako tretí kvartil.
Tento koncept možno zovšeobecniť. Jedným zo spôsobov, ako to dosiahnuť, je zvážiť percentil. 90. percentil označuje bod, v ktorom 90% údajov má hodnoty nižšie ako toto číslo. Všeobecnejšie povedané, ppercentil je číslo n pre ktoré p% údajov je menej ako n.
Nepretržité náhodné premenné
Štatistika rádu mediánu, prvého kvartilu a tretieho kvartilu sa zvyčajne uvádza v a Ak je nastavená diskrétna množina údajov, môžu sa tieto štatistické údaje definovať aj pre nepretržité náhodné variabilné. Pretože pracujeme s nepretržitou distribúciou, používame integrál. ppercentil je číslo n také, že:
∫-₶nF ( X ) dx = p/100.
Tu F ( X ) je funkcia hustoty pravdepodobnosti. Takto môžeme získať akýkoľvek percentil, ktorý chceme pre
nepretržitý Distribúcia.kvantily
Ďalšou generalizáciou je, že naše štatistiky objednávok rozdeľujú distribúciu, s ktorou pracujeme. Medián rozdelí údaje na polovicu a medián alebo 50. percentil nepretržitej distribúcie rozdelí distribúciu na polovicu z hľadiska plochy. Prvý kvartil, medián a tretí kvartil rozdelí naše údaje do štyroch častí s rovnakým počtom v každom. Vyššie uvedený integrál môžeme použiť na získanie 25., 50. a 75. percentilu a rozdelenie spojitého rozdelenia na štyri časti rovnakej oblasti.
Tento postup môžeme zovšeobecniť. Otázka, ktorú môžeme začať, je daná prirodzeným číslom n, ako môžeme rozdeliť rozdelenie premennej na n rovnako veľké kúsky? Toto priamo hovorí k myšlienke kvantilov.
n kvantily pre súbor údajov sa nachádzajú približne zoradením údajov v poradí a potom rozdelením tohto poradia n - 1 rovnomerne rozmiestnené body v intervale.
Ak máme funkciu hustoty pravdepodobnosti pre spojitú náhodnú premennú, použijeme vyššie uvedený integrál na nájdenie kvantilov. pre n kvantily, ktoré chceme:
- Prvý, kto má 1 /n oblasti distribúcie vľavo od nej.
- Druhý má 2 /n oblasti distribúcie vľavo od nej.
- rmať r/n oblasti distribúcie vľavo od nej.
- Posledný, ktorý mal (n - 1)/n oblasti distribúcie vľavo od nej.
Vidíme to pre akékoľvek prirodzené číslo n, n kvantily zodpovedajú 100r/npercentil, kde r môže byť akékoľvek prirodzené číslo od 1 do n - 1.
Bežné kvantily
Niektoré typy kvantilov sa používajú dosť často na to, aby mali špecifické názvy. Nižšie je uvedený zoznam týchto:
- 2 kvantil sa nazýva stredný
- Tieto 3 kvantily sa nazývajú terciály
- Tieto 4 kvantily sa nazývajú kvartily
- 5 kvantilov sa nazýva kvintily
- Šesť kvantilov sa nazýva sextily
- Sedem kvantilov sa nazýva septiles
- 8 kvantilov sa nazýva oktily
- 10 kvantilov sa nazýva decily
- 12 kvantilov sa nazýva duodecily
- 20 kvantilov sa nazýva vigintily
- 100 kvantilov sa nazýva percentily
- 1000 kvantilov sa nazýva permily
Samozrejme, existujú aj iné kvantily okrem tých, ktoré sú uvedené vyššie. Použitý špecifický kvantil sa mnohokrát zhoduje s veľkosťou vzorky z kontinuálnej vzorky distribúcia.
Použitie kvantilov
Okrem určenia polohy súboru údajov sú kvantily užitočné aj inými spôsobmi. Predpokladajme, že máme jednoduchú náhodnú vzorku z populácie a jej rozloženie nie je známe. Aby sme pomohli určiť, či model, ako napríklad normálne rozdelenie alebo Weibullovo rozdelenie, je vhodný pre populáciu, z ktorej sme odoberali vzorky, môžeme sa pozrieť na kvantily našich údajov a modelu.
Porovnaním kvantilov z našich vzorových údajov s kvantami z konkrétneho rozdelenia pravdepodobnosti, výsledkom je zbierka spárovaných údajov. Tieto dáta vynesíme do rozptylu, známeho ako kvantil-kvantilný graf alebo graf q-q. Ak je výsledný rozptyl zhruba lineárny, potom je model vhodný pre naše údaje.