Čistenie údajov je kľúčovou súčasťou analýzy údajov, najmä ak zbierate vlastné kvantitatívne údaje. Po zhromaždení údajov ich musíte vložiť do počítačového programu, ako je napr SAS, SPSS alebo Excel. Počas tohto procesu, či už sa to robí ručne alebo počítačovým skenerom, dôjde k chybám. Bez ohľadu na to, ako starostlivo boli údaje zadané, sú chyby nevyhnutné. To by mohlo znamenať nesprávne kódovanie, nesprávne čítanie napísaných kódov, nesprávne snímanie čiernych značiek, chýbajúce údaje atď. Čistenie údajov je proces zisťovania a opravy týchto chýb pri kódovaní.
Existujú dva typy čistenia údajov, ktoré je potrebné vykonať v súboroch údajov. Sú možné čistenie kódu a núdzové čistenie. Obidve sú rozhodujúce pre proces analýzy údajov, pretože ak ich ignorujete, takmer vždy budete mať klamlivé výsledky výskumu.
Možné čistenie kódu
Každá daná premenná bude mať určenú množinu možností a kódov odpovedí, ktoré sa zhodujú s každou voľbou odpovede. Napríklad premenná rod bude mať tri možnosti výberu a kódy pre každú: 1 pre mužov, 2 pre ženy a 0 pre žiadnu odpoveď. Ak máte respondenta kódovaného ako 6 pre túto premennú, je zrejmé, že došlo k chybe, pretože to nie je možný kód odpovede. Možné čistenie kódu je proces kontroly, aby sa zistilo, že v dátovom súbore sa objavujú iba kódy priradené k výberu odpovedí pre každú otázku (možné kódy).
Niektoré počítačové programy a štatistické softvérové balíky, ktoré sú k dispozícii na zadávanie údajov, pri zadávaní údajov kontrolujú tieto typy chýb. Tu užívateľ definuje možné kódy pre každú otázku pred zadaním údajov. Potom, ak je zadané číslo mimo preddefinovaných možností, zobrazí sa chybové hlásenie. Napríklad, ak sa používateľ pokúsil zadať 6 pre pohlavie, počítač môže zapípať a odmietnuť kód. Ostatné počítačové programy sú určené na testovanie nezákonných kódov v hotových údajových súboroch. To znamená, že ak neboli skontrolované počas procesu zadávania údajov, ako je opísané, existujú spôsoby, ako skontrolovať chyby kódovania súborov po dokončení zadávania údajov.
Ak nepoužívate počítačový program, ktorý počas procesu zadávania údajov kontroluje chyby kódovania, niektoré chyby môžete vyhľadať jednoducho preskúmaním distribúcie odpovedí na každú položku v údajoch set. Napríklad by ste mohli vygenerovať tabuľku frekvencií pre premennú rod a tu by ste videli číslo 6, ktoré bolo nesprávne zadané. Potom môžete vyhľadať danú položku v dátovom súbore a opraviť ju.
Podmienené čistenie
Druhý typ dáta čistenie sa nazýva núdzové čistenie a je trochu komplikovanejšie ako čistenie podľa kódu. Logická štruktúra údajov môže obmedzovať reakcie určitých respondentov alebo určité premenné. Pohotovostné čistenie je proces kontroly, či iba také prípady, ktoré by mali mať údaje o konkrétnej premennej, také údaje skutočne majú. Povedzme napríklad, že máte dotazník, v ktorom sa pýtate respondentov, koľkokrát boli tehotné. Všetkým respondentkám by mala byť v údajoch zaznamenaná odpoveď. Samcom by však malo byť ponechané prázdne miesto, alebo by mali mať špeciálny kód pre neodpovedanie. Ak sú napríklad muži v údajoch kódovaní ako majúce 3 tehotenstva, viete, že došlo k chybe a je potrebné ju opraviť.
Referencie
Babbie, E. (2001). Prax sociálneho výskumu: 9. vydanie. Belmont, Kalifornia: Wadsworth Thomson.