Triedy histogramu: informácie a príklady

Skutočne neexistuje pravidlo, koľko tried by malo byť. O počte kurzov je potrebné zvážiť niekoľko vecí. Keby existovala iba jedna trieda, všetky údaje by spadali do tejto triedy. Náš histogram by bol jednoducho jediným obdĺžnikom s výškou danou počtom prvkov v našej sade údajov. To by nebolo veľmi užitočné alebo užitočný histogram.

Na druhej strane by sme mohli mať množstvo tried. Výsledkom by bolo množstvo barov, z ktorých by žiadny nebol pravdepodobne vysoký. Pomocou tohto typu histogramu by bolo veľmi ťažké určiť akékoľvek rozlišovacie charakteristiky od údajov.

Aby sme zabránili týmto dvom extrémom, musíme použiť pravidlo, podľa ktorého určíme počet tried pre histogram. Ak máme relatívne malú množinu údajov, zvyčajne používame iba okolo päť tried. Ak je množina údajov pomerne veľká, potom používame okolo 20 tried.

Opäť je potrebné zdôrazniť, že ide o pravidlo, nie o absolútny štatistický princíp. Môžu existovať dobré dôvody pre odlišný počet tried údajov. Nižšie je uvedený príklad toho.

instagram viewer

Predtým, ako zvážime niekoľko príkladov, uvidíme, ako určiť, čo triedy skutočne sú. Tento proces začneme hľadaním rozsah našich údajov. Inými slovami, odčítame najnižšiu hodnotu údajov od najvyššej hodnoty údajov.

Ak je množina údajov relatívne malá, rozdelíme rozsah číslom päť. Kvocient je šírka tried pre náš histogram. V tomto procese budeme pravdepodobne musieť urobiť nejaké zaokrúhlenie, čo znamená, že celkový počet tried nemusí byť päť.

Ak je množina údajov pomerne veľká, rozdelíme rozsah číslom 20. Rovnako ako predtým, aj tento problém s rozdelením nám poskytuje šírku tried pre náš histogram. Rovnako, ako sme videli predtým, naše zaokrúhlenie môže mať za následok o niečo viac alebo trochu menej ako 20 tried.

V obidvoch prípadoch veľkých alebo malých množín údajov zabezpečujeme, aby prvá trieda začala v bode o niečo menšom ako najmenšia hodnota údajov. Musíme to urobiť tak, aby prvá hodnota údajov spadala do prvej triedy. Ostatné nasledujúce triedy sú určené šírkou, ktorá bola nastavená pri rozdelení rozsahu. Vieme, že sme v poslednej triede, keď táto najvyššia hodnota údajov obsahuje táto trieda.

Napríklad určíme vhodnú šírku triedy a triedy pre množinu údajov: 1.1, 1.9, 2.3, 3.0, 3.2, 4.1, 4.2, 4.4, 5.5, 5.5, 5.6, 5.7, 5.9, 6.2, 7.1, 7.9, 8.3, 9.0, 9.2, 11.1, 11.2, 14.4, 15.5, 15.5, 16.7, 18.9, 19.2.

Vidíme, že v našej sade je 27 údajových bodov. Toto je relatívne malý súbor, a preto rozdelíme rozsah číslom päť. Rozsah je 19,2 - 1,1 = 18,1. Delíme 18,1 / 5 = 3,62. To znamená, že by bola vhodná šírka triedy 4. Naša najmenšia hodnota údajov je 1,1, takže prvú triedu začíname v bode menšom ako toto. Pretože naše údaje pozostávajú z kladných čísel, bolo by rozumné, aby prvá trieda prešla od 0 do 4.

Ako príklad môžeme uviesť, že existuje test s možnosťou výberu z viacerých odpovedí s 35 otázkami a testom sa zúčastní 1 000 študentov na strednej škole. Chceme vytvoriť histogram ukazujúci počet študentov, ktorí v teste dosiahli určité skóre. Vidíme, že 35/5 = 7 a že 35/20 = 1,75. Napriek nášmu pravidlu, ktorý nám dáva výber tried šírky 2 alebo 7, ktoré sa majú použiť pre náš histogram, môže byť lepšie mať triedy šírky 1. Tieto triedy by zodpovedali každej otázke, ktorú študent pri teste odpovedal správne. Prvý z nich by bol sústredený na 0 a posledný by bol sústredený na 35.

instagram story viewer