Klastrová analýza je štatistická technika, ktorá sa používa na identifikáciu toho, ako je možné zoskupiť rôzne jednotky - napríklad ľudí, skupiny alebo spoločnosti - kvôli charakteristikám, ktoré majú spoločné. Známy sa tiež nazýva klastrovanie. Ide o nástroj prieskumnej analýzy údajov, ktorého cieľom je triediť rôzne objekty do skupín takým spôsobom, že patria do tej istej skupiny, majú maximálny stupeň asociácie, a ak nepatria do tej istej skupiny, ich stupeň asociácie je minimálna. Na rozdiel od iných štatistické techniky, štruktúry, ktoré sú odkryté pomocou klastrovej analýzy, nemusia byť vysvetlené ani interpretované - objavujú štruktúru v údajoch bez toho, aby vysvetlili, prečo existujú.
Čo je klastrovanie?
Zhlukovanie existuje takmer vo všetkých aspektoch nášho každodenného života. Vezmite si napríklad predmety v obchode s potravinami. Rôzne druhy tovaru sa vždy zobrazujú na rovnakých alebo blízkych miestach - mäso, zelenina, sóda, obilniny, papierové výrobky atď. Vedci často chcú urobiť to isté s údajmi a zoskupiť objekty alebo predmety do zoskupení, ktoré majú zmysel.
Ako príklad zo sociálnej vedy povedzme, že sa pozeráme na krajiny a chceme ich zoskupiť do zoskupení na základe charakteristík, ako sú deľba práce, armády, technológie alebo vzdelaná populácia. Zistili by sme, že Británia, Japonsko, Francúzsko, Nemecko a Spojené štáty americké majú podobné charakteristiky a budú zoskupené. Uganda, Nikaragua a Pakistan by boli tiež zoskupení do iného zoskupenia, pretože majú odlišnú skupinu charakteristík, vrátane nízkej úrovne bohatstva, jednoduchších deľieb práce, relatívne nestabilných a nedemokratických politických inštitúcií a nízkej technológie Rozvoj.
Zhluková analýza sa zvyčajne používa vo výskumnej fáze výskumu, keď výskumný pracovník nemá vopred koncipované hypotézy. Zvyčajne to nie je jediná použitá štatistická metóda, ale skôr sa vykonáva v počiatočných fázach projektu, aby pomohla usmerniť zvyšok analýzy. Z tohto dôvodu nie je testovanie významnosti zvyčajne ani relevantné, ani vhodné.
Existuje niekoľko rôznych typov klastrovej analýzy. Najbežnejšie používanými sú K-klastrovanie a hierarchické klastrovanie.
K znamená Klastrovanie
K-znamená zoskupovanie zaobchádza s údajmi ako s objektmi, ktoré majú polohy a vzdialenosti od seba (všimnite si, že vzdialenosti používané v zoskupovaní často nepredstavujú priestorové vzdialenosti). Rozdeľuje objekty do vzájomne sa vylučujúcich klastrov K, takže objekty v každom klastri sú rovnaké čo najbližšie k sebe a súčasne, čo najďalej od objektov v iných zoskupeniach. Každý klaster je potom charakterizovaný svojím stredný alebo stredný bod.
Hierarchické zoskupovanie
Hierarchické zoskupovanie je spôsob, ako skúmať zoskupenia v údajoch súčasne na rôznych mierkach a vzdialenostiach. Urobí to vytvorením stromu klastrov s rôznymi úrovňami. Na rozdiel od zoskupovania K znamená, že strom nie je jediná skupina zoskupení. Ide skôr o viacúrovňovú hierarchiu, v ktorej sú klastre na jednej úrovni spojené ako klastre na vyššej úrovni. Algoritmus, ktorý sa používa, začína každým prípadom alebo premennou v samostatnom klastri a potom kombinuje klastre, kým nezostane iba jeden. To umožňuje výskumníkovi rozhodnúť sa, ktorá úroveň zoskupovania je najvhodnejšia pre jeho výskum.
Vykonanie klastrovej analýzy
väčšina štatistické softvérové programy môže vykonávať zhlukovú analýzu. V SPSS zvoľte analyzovať z ponuky triedenie a klastrová analýza. V SAS, klaster proc môže byť použitá.
Aktualizoval používateľ Nicki Lisa Cole, Ph. D.