Predstavujeme najlepšie porovnanie analýzy faktorov klastra v / s

Obsah:

Anonim

Čo je klastrová analýza

Zhluková analýza zoskupuje údaje na základe charakteristík, ktoré majú. Zhluková analýza zoskupuje objekty na základe faktorov, ktoré ich robia podobnými. Zhluková analýza sa inak nazýva segmentačná analýza alebo analýza taxonómie. Klastrová analýza nerozlišuje závislé a nezávislé premenné. Zhluková analýza sa používa v mnohých oblastiach, ako je psychológia, biológia, štatistika, získavanie údajov, rozpoznávanie vzorov a iné spoločenské vedy.

Cieľ klastrovej analýzy

Hlavným cieľom klastrovej analýzy je riešiť heterogenitu v každej sade údajov. Ďalšími cieľmi klastrovej analýzy sú:

  • Opis taxonómie - Identifikácia skupín v rámci údajov
  • Zjednodušenie údajov - Schopnosť analyzovať skupiny podobných pozorovaní namiesto všetkých individuálnych pozorovaní
  • Generovanie alebo testovanie hypotéz - Vypracujte hypotézu na základe povahy údajov alebo otestujte skôr uvedenú hypotézu
  • Identifikácia vzťahov - zjednodušená štruktúra zo skupinovej analýzy, ktorá popisuje vzťahy

Klastrová analýza má dva hlavné ciele - Porozumenie a Utility.

V prípade porozumenia skupinová analýza zoskupuje objekty, ktoré zdieľajú niektoré spoločné vlastnosti

Na účely pomôcky poskytuje klastrová analýza charakteristiku každého dátového objektu klastrom, do ktorých patria.

Zhluková analýza ide ruka v ruke s faktorovou analýzou a diskriminačnou analýzou.

Skôr ako začnete, mali by ste si položiť niekoľko otázok týkajúcich sa analýzy klastrov

  • Aké premenné sú relevantné?
  • Je veľkosť vzorky dostatočná?
  • Môžu byť zistené odľahlé hodnoty a mali by byť odstránené?
  • Ako by sa mala merať podobnosť objektu?
  • Mali by byť údaje štandardizované?

Druhy klastrov

Existujú tri hlavné typy klastrov

  • Hierarchické zoskupovanie - ktoré obsahuje aglomeračnú a deliacu metódu
  • Rozdelenie klastrov - obsahuje K-prostriedky, Fuzzy K-prostriedky, izodata pod ňou
  • Clustering založený na hustote - má pod ním Denclust, CLUPOT, Mean Shift, SVC, Parzen-Watershed

Predpoklady v klastrovej analýze

V klastrovej analýze sú vždy dva predpoklady

  • Predpokladá sa, že vzorka je predstaviteľom populácie
  • Predpokladá sa, že premenné nie sú korelované. Aj keď sú premenné korelované, odstráňte korelované premenné alebo použite merania vzdialenosti, ktoré kompenzujú koreláciu.

Kroky v klastrovej analýze

    • Krok 1: Definujte problém
    • Krok 2: Vyberte vhodné opatrenie podobnosti
    • Krok 3: Rozhodnite sa, ako zoskupiť objekty
    • Krok 4: Rozhodnite sa o počte zhlukov
    • Krok 5: Interpretujte, opíšte a overte klaster

Klastrová analýza v SPSS

V SPSS nájdete voľbu analýzy klastrov v možnosti Analyzovať / klasifikovať. V SPSS existujú tri metódy pre klastrovú analýzu - K-Means Cluster, Hierarchical Cluster a Two Step Cluster.

Metóda klastrov K-Means klasifikuje danú množinu údajov prostredníctvom pevného počtu klastrov. Táto metóda je ľahko zrozumiteľná a poskytuje najlepší výstup, ak sú údaje navzájom dobre oddelené.

Analýza klastrov v dvoch krokoch je nástroj určený na spracovanie veľkých množín údajov. Vytvára zhluky podľa kategórií aj spojitých premenných.

Hierarchický klaster je najbežnejšie používanou metódou klastrovej analýzy. Spája prípady do homogénnych zoskupení tak, že ich spojí do série postupných krokov.

Hierarchická klastrová analýza obsahuje tri kroky

  • Vypočítajte vzdialenosť
  • Prepojte klastre
  • Výber riešenia výberom správneho počtu klastrov

Nižšie sú uvedené kroky na vykonanie analýzy hierarchického klastra v SPSS.

  • Prvým krokom je výber premenných, ktoré sa majú zoskupiť. Vysvetľuje vám to nasledujúce dialógové okno
  • Kliknutím na možnosť štatistiky vo vyššie uvedenom dialógovom okne získate dialógové okno, v ktorom chcete určiť výstup
  • V dialógovom okne grafy pridajte program Dendrogram. Dendrogram je grafické znázornenie metódy hierarchickej klastrovej analýzy. Ukazuje, ako sa zhluky kombinujú v každom kroku, až kým nevytvoria jeden klaster.
  • Metóda dialógového okna je rozhodujúca. Tu môžete uviesť metódu vzdialenosti a zoskupovania. V SPSS existujú tri miery pre interval, počet a binárne údaje.
  • Štvorcová euklidovská vzdialenosť je súčet druhých rozdielov bez toho, aby sa brala druhá odmocnina.
  • V počtoch si môžete vybrať medzi mierkou Chi Square a Phi Square
  • V časti Binárne máte k dispozícii veľa možností. Štvorcová euklidovská vzdialenosť je najlepšou možnosťou použitia.
  • Ďalším krokom je výber klastrovej metódy. Vždy sa odporúča používať jednoduché spojenie alebo najbližší sused, pretože to ľahko pomáha pri identifikácii odľahlých hodnôt. Po identifikácii odľahlých hodnôt môžete použiť Wardovu metódu.
  • Posledným krokom je štandardizácia

Kritika klastrovej analýzy

Najbežnejšia kritika je uvedená nižšie

  • Je popisný, teoretický a neferenciálny.
  • Vytvorí zhluky bez ohľadu na skutočnú existenciu akejkoľvek štruktúry
  • Nemôže sa široko používať, pretože úplne závisí od premenných použitých ako základ pre meranie podobnosti

Čo je analýza faktorov?

Faktorová analýza je exploratívna analýza, ktorá pomáha pri zoskupovaní podobných premenných do dimenzií. Môže sa použiť na zjednodušenie údajov znížením rozmerov pozorovaní. Faktorová analýza má niekoľko rôznych rotačných metód.

Faktorová analýza sa používa väčšinou na účely redukcie údajov.

Existujú dva typy faktorovej analýzy - prieskumná a potvrdzujúca

  • Prieskumná metóda sa používa, keď nemáte vopred definovanú predstavu o štruktúrach alebo rozmeroch v množine premenných.
  • Potvrdzujúca metóda sa používa, keď chcete otestovať konkrétnu hypotézu o štruktúrach alebo rozmeroch v množine premenných.

Ciele analýzy faktorov

Ďalej sú uvedené dva hlavné ciele faktorovej analýzy

  • Identifikácia základných faktorov - Patrí sem zoskupovanie premenných do homogénnych súborov, vytváranie nových premenných a pomoc pri získavaní poznatkov o kategóriách
  • Skríning premenných - pri regresii je užitočné a identifikuje zoskupenia, ktoré vám umožňujú vybrať jednu premennú, ktorá predstavuje veľa.

Predpoklady analýzy faktorov

Ďalej sú uvedené štyri hlavné predpoklady analýzy faktorov

  • Modely sú zvyčajne založené na lineárnych vzťahoch
  • Predpokladá sa, že zozbierané údaje sú odstupňované po intervaloch
  • Je žiaduca multiklinearita v údajoch, pretože cieľom je zistiť vzájomne prepojenú množinu premenných
  • Údaje by mali byť otvorené a mali by reagovať na faktorovú analýzu. Nemalo by to byť tak, aby premenná korelovala iba so sebou a žiadna korelácia s inou premennou neexistuje. Na týchto údajoch nie je možné vykonať faktorovú analýzu.

Druhy faktoringu

  • Hlavné faktoring komponentov - najčastejšie používaná metóda, pri ktorej sa váhy váh vypočítavajú tak, aby sa extrahovala maximálna možná rozptyl, a pokračuje, kým nezostane žiadna zmysluplná odchýlka.
  • Kánonická analýza faktorov - nájde faktory, ktoré majú najvyššiu kanonickú koreláciu s pozorovanými premennými
  • Analýza spoločných faktorov - Vyhľadáva najmenší počet faktorov, ktoré môžu zodpovedať za bežné rozptyly súboru premenných
  • Image factoring - Na základe korelačnej matice, kde je každá premenná predpovedaná od ostatných pomocou viacnásobnej regresie
  • Alpha Factoring - maximalizuje spoľahlivosť faktorov
  • Faktorový regresný model - Kombinácia faktorového modelu a regresného modelu, ktorého faktory sú čiastočne známe

Kritériá analýzy faktorov

  1. Vlastné kritériá

  • Predstavuje mieru rozptylu v pôvodných premenných, ktorá je spojená s faktorom
  • Súčet druhej mocniny zaťaženia faktora každej premennej na faktore predstavuje vlastnú hodnotu
  • Zachovávajú sa faktory s vlastnými hodnotami, ktoré sú väčšie ako 1, 0
  1. Kritériá súradnicového grafu

  • Graf vlastných čísel proti počtu faktorov v poradí extrakcie.
  • Tvar grafu určuje počet faktorov
  1. Percento kritérií variácie

  • Počet extrahovaných faktorov sa zistí tak, že zvyšujúce sa percento rozptylu extrahovaného faktormi dosiahne úroveň spokojnosti.
  1. Kritériá testu významnosti

  • Zisťuje sa štatistická dôležitosť jednotlivých vlastných čísel a zachovávajú sa iba tie faktory, ktoré sú štatisticky významné

Faktorová analýza sa používa v rôznych oblastiach ako psychológia, sociológia, politológia, vzdelávanie a duševné zdravie.

Analýza faktorov v SPSS

V SPSS možno nájsť faktorovú analýzu v časti Analýza redukcie rozmerov à Faktor

  • Začnite pridaním premenných do časti Zoznam premenných
  • Kliknite na kartu Popis a pridajte niekoľko štatistík, podľa ktorých sa overujú predpoklady faktorovej analýzy.
  • Kliknite na možnosť Extrakcia, ktorá vám umožní zvoliť metódu extrakcie a medznú hodnotu na extrakciu
  • Principal Components (PCA) je predvolená metóda extrakcie, ktorá extrahuje aj nekorelované lineárne kombinácie premenných. PCA sa môže použiť, keď je korelačná matica singulárna. Je veľmi podobná kanonickej korelačnej analýze, kde prvý faktor má maximálnu rozptyl a nasledujúce faktory vysvetľujú menšiu časť rozptylu.
  • Druhou najbežnejšou analýzou je faktoring hlavných osí. Identifikuje skryté konštrukty za pozorovaniami.
  • Ďalším krokom je výber spôsobu rotácie. Najčastejšie používanou metódou je Varimax. Táto metóda zjednodušuje interpretáciu faktorov.
  • Druhou metódou je Quartimax. Táto metóda strieda faktory, aby sa minimalizoval počet faktorov. Zjednodušuje sa interpretácia pozorovanej premennej.
  • Ďalšou metódou je Equamax, ktorá je kombináciou vyššie uvedených dvoch metód.
  • V dialógovom okne kliknutím na „možnosti“ môžete spravovať chýbajúce hodnoty
  • Pred uložením výsledkov do súboru údajov najprv spustite analýzu faktorov a skontrolujte predpoklady a potvrďte, že výsledky sú zmysluplné a užitočné.

Zhluková analýza verzus faktorová analýza

Klastrová analýza aj faktorová analýza sú nekontrolovanou metódou učenia, ktorá sa používa na segmentáciu údajov. Mnoho výskumníkov, ktorí sú v tejto oblasti noví, má pocit, že klastrová analýza a faktorová analýza sú podobné. Môže sa to zdať podobné, ale líšia sa mnohými spôsobmi. Rozdiely medzi zhlukovou analýzou a faktorovou analýzou sú uvedené nižšie

  • objektívny

Cieľ klastrovej a faktorovej analýzy je odlišný. Cieľom klastrovej analýzy je rozdeliť pozorovania na homogénne a odlišné skupiny. Faktorová analýza na druhej strane vysvetľuje homogenitu premenných vyplývajúcich z podobnosti hodnôt.

  • zložitosť

Zložitosť je ďalším faktorom, na ktorom sa líšia klastrová a faktorová analýza. Veľkosť údajov ovplyvňuje analýzu odlišne. Ak je veľkosť údajov príliš veľká, stane sa to výpočtovo neúčinnou pri klastrovej analýze.

  • Riešenie

Riešenie problému je viac-menej podobné vo faktorovej aj klastrovej analýze. Faktorová analýza však poskytuje lepšie riešenie pre výskumného pracovníka v lepšom aspekte. Klastrová analýza neprináša najlepší výsledok, pretože všetky algoritmy v klastrovej analýze sú výpočtovo neefektívne.

  • aplikácia

Faktorová analýza a klastrová analýza sa na reálne údaje používajú odlišne. Faktorová analýza je vhodná na zjednodušenie zložitých modelov. Redukuje veľkú množinu premenných na oveľa menšiu množinu faktorov. Výskumník môže vyvinúť súbor hypotéz a analýzu faktora spustenia na potvrdenie alebo zamietnutie týchto hypotéz.

Zhluková analýza je vhodná na klasifikáciu objektov na základe určitých kritérií. Výskumník môže pomocou zoskupenej analýzy zmerať určité aspekty skupiny a rozdeliť ich do konkrétnych kategórií.

Existuje aj veľa ďalších rozdielov, ktoré sú uvedené nižšie

  • Zhluková analýza sa pokúša o zoskupenie prípadov, zatiaľ čo faktorová analýza sa pokúša o zoskupenie prvkov.
  • Zhluková analýza sa používa na nájdenie menších skupín prípadov, ktoré sú reprezentatívne pre údaje ako celok. Faktorová analýza sa používa na nájdenie menšej skupiny funkcií, ktoré sú reprezentatívne pre pôvodné prvky množiny údajov.
  • Najdôležitejšou súčasťou klastrovej analýzy je zistenie počtu zhlukov. Metódy zoskupovania sa v zásade delia na dve - aglomeračná metóda a metóda rozdelenia. Aglomeračná metóda začína každým prípadom vo vlastnom zoskupení a končí, keď sa splnia kritériá. Metóda rozdelenia disku začína vo všetkých prípadoch v jednom klastri.
  • Faktorová analýza sa používa na zistenie základnej štruktúry v súbore údajov.

záver

Dúfam, že tento článok by vám pomohol pochopiť základy Clusterovej analýzy a Faktorovej analýzy a rozdiely medzi nimi.

Súvisiace kurzy: -

  1. Kurz klastrovej analýzy