Vzhľadom k tomu, a postupnosť údajov, môžeme si položiť otázku, či k sekvencii došlo náhodným javom alebo či údaje nie sú náhodné. Náhodnosť je ťažké identifikovať, pretože je veľmi ťažké jednoducho sa pozrieť na údaje a určiť, či bola alebo nebola vytvorená náhodou. Jedna metóda, ktorá sa môže použiť na určenie, či sa sekvencia skutočne náhodne vyskytla, sa nazýva test behu.
Test behu je test významnosti alebo test hypotéz. Postup pre tento test je založený na spustení alebo postupnosti údajov, ktoré majú konkrétnu vlastnosť. Aby sme pochopili, ako funguje test behov, musíme najskôr preskúmať koncept behu.
Postupnosť údajov
Začneme tým, že sa pozrieme na príklad behov. Zvážte nasledujúcu postupnosť náhodných číslic:
6 2 7 0 0 1 7 3 0 5 0 8 4 6 8 7 0 6 5 5
Jedným zo spôsobov, ako klasifikovať tieto číslice, je rozdeliť ich na dve kategórie, buď párne (vrátane číslic 0, 2, 4, 6 a 8) alebo nepárne (vrátane číslic 1, 3, 5, 7 a 9). Pozrime sa na postupnosť náhodných číslic a párne čísla označíme ako E a nepárne čísla ako O:
EE O E O O E E E E E O O E E O O
Behy sú ľahšie viditeľné, ak to prepíšeme tak, že všetky OS sú spolu a všetky Es sú spolu:
EE O EE OO E O EEEEE O EE OO
Počítame počet blokov párnych alebo nepárnych čísel a zistíme, že pre údaje existuje celkom desať cyklov. Štyri zjazdovky majú dĺžku jedna, päť má dĺžku dva a jedna má dĺžku päť
podmienky
S akýmkoľvek test závažnosti, je dôležité vedieť, aké podmienky sú potrebné na vykonanie testu. Pre test behov budeme môcť klasifikovať každú hodnotu údajov zo vzorky do jednej z dvoch kategórií. Vypočítame celkový počet pokusov v pomere k počtu hodnôt dát, ktoré spadajú do každej kategórie.
Test bude a obojstranný test. Dôvodom je to, že príliš málo pokusov znamená, že pravdepodobne nie je dostatok variácií a počet pokusov, ktoré by nastali náhodným procesom. Príliš veľa pokusov bude mať za následok, že sa proces medzi kategóriami strieda príliš často na to, aby bol náhodne opísaný.
Hypotézy a P-hodnoty
Každá skúška významnosti má nulová a alternatívna hypotéza. Pri teste runov je nulovou hypotézou, že sekvencia je náhodná sekvencia. Alternatívnou hypotézou je, že postupnosť vzorkovaných údajov nie je náhodná.
Štatistický softvér dokáže vypočítať p-hodnota čo zodpovedá konkrétnej štatistike testu. Existujú aj tabuľky, v ktorých sú uvedené kritické čísla úroveň významnosti pre celkový počet cyklov.
Spustí príklad testu
V nasledujúcom príklade si ukážeme, ako funguje test spustenia. Predpokladajme, že pri zadaní úlohy sa od študenta požaduje, aby 16-krát prevrátil mincu a zaznamenal poradie hláv a chvostov, ktoré sa objavilo. Ak skončíme s týmto súborom údajov:
H H H H H H T H H T H H H H H H H
Môžeme sa opýtať, či študent skutočne vykonal domácu úlohu, alebo podviedol a napísal sériu H a T, ktoré vyzerajú náhodne? Test behov nám môže pomôcť. Predpoklady sú splnené pre test behy, pretože dáta môžu byť klasifikované do dvoch skupín, buď ako hlava alebo chvost. Pokračujeme počítaním počtu cyklov. Pri preskupovaní vidíme nasledujúce:
H H H H H TT H TT H H H H H H
Existuje desať pokusov o naše dáta so siedmimi chvostmi a deviatimi hlavami.
Nulová hypotéza je, že údaje sú náhodné. Alternatívou je, že to nie je náhodné. Pri hladine významnosti alfa rovnajúcej sa 0,05 vidíme pri nahliadnutí do správnej tabuľky, že odmietame nulovú hypotézu, keď je počet pokusov menší ako 4 alebo väčší ako 16. Pretože v našich údajoch je desať pokusov, my neodmietnuť nulová hypotéza H0.
Normálna aproximácia
Test behov je užitočným nástrojom na určenie, či je sekvencia pravdepodobne náhodná alebo nie. V prípade veľkého súboru údajov je niekedy možné použiť normálnu aproximáciu. Táto normálna aproximácia vyžaduje, aby sme použili počet prvkov v každej kategórii a potom vypočítali strednú a štandardnú odchýlku príslušného normálne rozdelenie.