Prehľad typov klastrov

Predtým, ako sa učíme klastrové typy, pochopme, čo je klastrovanie a prečo je práve teraz v priemysle strojového učenia tak dôležité.

Čo je klastrovanie? Zhlukovanie je proces, pri ktorom algoritmus delí údajové body do určitého počtu skupín na základe zásady, že podobné dátové body zostávajú blízko seba a spadajú do rovnakej skupiny.

Prečo je to tak dôležité teraz? Pochopme, že napríklad na príklade je internetový obchod s odevmi a chcú lepšie porozumieť svojim zákazníkom, aby mohli zefektívniť svoju reklamnú stratégiu. Nie je možné, aby mali pre každého zákazníka jedinečnú stratégiu. Namiesto toho môžu rozdeliť zákazníkov na určitý počet skupín (na základe ich predchádzajúcich nákupov) a majú samostatnú stratégiu samostatných skupín. Vďaka tomu je podnikanie efektívnejšie, a preto je v súčasnosti v tomto odvetví dôležité zoskupovanie.

Typy klastrov

Metódy zhlukovania sú vo všeobecnosti rozdelené do dvoch typov: tvrdé metódy a mäkké metódy. V metóde tvrdého zhlukovania každý dátový bod alebo pozorovanie patrí iba do jedného zhluku. V metóde mäkkého zhlukovania nebude každý dátový bod úplne patriť do jedného klastra, namiesto toho môže byť členom viac ako jedného klastra, má sadu koeficientov členenia zodpovedajúcich pravdepodobnosti, že bude v danom klastri.

V súčasnosti sa používajú rôzne typy klastrovacích metód. V tomto článku sa pozrime na niektoré z tých dôležitých, ako sú hierarchické klastrovanie, klastrovanie podľa oddielov, fuzzy klastrovanie, klastrovanie na základe hustoty a klastrovanie na základe distribučného modelu. Teraz diskutujme o každom z nich na príklade:

1. Zhlukovanie skupín

Rozdelenie na oddiely je typ techniky klastrovania, ktorý rozdeľuje množinu údajov do určeného počtu skupín. (Napríklad hodnota K v KNN a bude sa rozhodovať skôr, ako začneme trénovať model). Môže sa nazývať aj metóda založená na ťažisku. Pri tomto prístupe je klastrové centrum (ťažisko) tvorené tak, že vzdialenosť dátových bodov v tomto zoskupení je pri výpočte s inými ťažiskami zoskupenia minimálna. Najpopulárnejším príkladom tohto algoritmu je algoritmus KNN. Takto vyzerá algoritmus klastrovania do skupín

2. Hierarchické zhlukovanie

Hierarchické zoskupovanie je typ techniky zoskupovania, ktorý rozdeľuje túto množinu údajov do niekoľkých zoskupení, kde používateľ nešpecifikuje počet zoskupení, ktoré sa majú vygenerovať pred školením modelu. Tento typ klastrovacej techniky je známy aj ako metódy založené na pripojení. Pri tejto metóde sa jednoduché rozdelenie dátovej sady nebude robiť, zatiaľ čo nám poskytuje hierarchiu zhlukov, ktoré sa navzájom spájajú po určitej vzdialenosti. Po vykonaní hierarchického zoskupovania v súbore údajov bude výsledkom stromová reprezentácia dátových bodov (Dendogram), ktoré sú rozdelené do zhlukov. Takto vyzerá hierarchické zoskupovanie po ukončení školenia

Zdrojový odkaz: Hierarchical Clustering

V rozdelení klastrov a hierarchickom klastrovaní je jeden hlavný rozdiel, ktorý si môžeme všimnúť, v rozdelení do klastrov. Preddefinujeme hodnotu, do koľkých zoskupení chceme, aby sa množina údajov rozdelila, a túto hodnotu neurčíme v hierarchickom zoskupovaní.,

3. Zhlukovanie založené na hustote

V tomto zhlukovaní sa klastre techniky vytvoria segregáciou rôznych oblastí hustoty na základe rôznych hustôt v dátovom grafe. Najpoužívanejší algoritmus v tomto type techniky je priestorové klastrovanie a aplikácia so šumom na základe hustoty (DBSCAN). Hlavnou myšlienkou tohto algoritmu je, že by mal existovať minimálny počet bodov, ktoré obsahujú v susedstve daného polomeru pre každý bod v zoskupení. Doteraz v prípade vyššie diskutovaných zhlukovacích techník, ak pozorujete pozorne, môžeme pozorovať jednu spoločnú vec vo všetkých technikách, ktoré majú tvar vytvorených zhlukov, sú buď sférické, oválne alebo konkávne. DBSCAN môže vytvárať zoskupenia v rôznych tvaroch, tento typ algoritmu je najvhodnejší, keď množina údajov obsahuje šum alebo odľahlé hodnoty. Takto vyzerá algoritmus priestorového zoskupovania založený na hustote po ukončení školenia.

Zdrojový odkaz: Zhlukovanie založené na hustote

4. Klastrovanie podľa distribučného modelu

Pri tomto type zhlukovania sa klastre techniky vytvárajú identifikáciou pravdepodobnosti, že všetky dátové body v klastri pochádzajú z rovnakej distribúcie (normálna, gaussovská). Najpopulárnejším algoritmom v tomto type techniky je klastrovanie očakávania-maximalizácie (EM) pomocou Gaussovských zmiešaných modelov (GMM).

Normálne techniky klastrovania, ako je hierarchické klastrovanie a klastrovanie podľa oblastí, nie sú založené na formálnych modeloch, KNN pri delení klastrov poskytuje rôzne výsledky s rôznymi hodnotami K. Pretože KNN a KMN zvažujú stred pre klastrové centrum, nie je najvhodnejšie v prípade Gaussovských zmiešaných modelov predpokladať, že dátové body sú gaussovské rozdelené, takže máme dva parametre, ktoré popisujú tvar priemeru klastrov a štandardnú odchýlku. Týmto spôsobom je pre každý klaster priradené jedno Gaussovo rozdelenie, aby sa získali optimálne hodnoty týchto parametrov (stredná a štandardná odchýlka), používa sa optimalizačný algoritmus s názvom Očakávaná maximalizácia. Takto vyzerá EM - GMM po tréningu.

Odkaz na zdroj: Klastrovanie podľa distribučného modelu

5. Fuzzy Clustering

Patrí do odvetvia techník zoskupovania mäkkých metód, zatiaľ čo všetky vyššie uvedené techniky zoskupovania patria do techník zoskupovania tvrdých metód. V tomto type techniky zhlukovania sa body nachádzajú blízko stredu, možno časti druhého zhluku vo vyššej miere ako body na okraji toho istého zhluku. Pravdepodobnosť bodu, ktorý patrí do daného klastra, je hodnota, ktorá leží medzi 0 a 1. Najpopulárnejším algoritmom v tomto type techniky je FCM (Fuzzy C-Algorithm). Tu sa ťažisko klastra vypočíta ako priemer všetkých bodov vážených pravdepodobnosťou príslušnosti k zoskupeniu.

Záver - typy klastrov

Toto sú niektoré z rôznych techník klastrovania, ktoré sa v súčasnosti používajú, av tomto článku sme pre každú techniku ​​klastrovania zahrnuli jeden populárny algoritmus. Musíme si zvoliť typ technológie, ktorú používame, na základe nášho súboru údajov a požiadaviek, ktoré musíme splniť.

Odporúčané články

Toto bol sprievodca Typy klastrov. Tu diskutujeme rôzne typy klastrov s ich príkladmi. Ďalšie informácie nájdete aj v nasledujúcich článkoch -

  1. Hierarchický klastrovací algoritmus
  2. Klastrovanie v strojovom učení
  3. Typy algoritmov strojového učenia
  4. Typy techník analýzy údajov
  5. Ako používať a odstrániť hierarchiu v Tableau?
  6. Kompletný sprievodca typmi analýzy údajov

Kategórie: