Úvod do algoritmu K-znamená klastrovací algoritmus?

Zoskupovanie K- znamená znamená, že nie je sledovaný algoritmus učenia. Používa sa, ak údaje nie sú definované v skupinách alebo kategóriách, tj neoznačené údaje. Cieľom tohto klastrovacieho algoritmu je hľadať a nájsť skupiny v údajoch, kde premenná K predstavuje počet skupín.

Pochopenie algoritmu Clustering Algorithm

Tento algoritmus je iteračný algoritmus, ktorý rozdeľuje množinu údajov podľa ich vlastností do počtu K preddefinovaných neprekrývajúcich sa rôznych klastrov alebo podskupín. Robí údajové body zoskupení čo najviac podobné a tiež sa snaží udržať zoskupenia v čo najväčšej miere. Priradí dátové body klastru, ak je súčet štvorcovej vzdialenosti medzi ťažiskom klastra a dátovými bodmi minimálny, pričom ťažisko klastra je aritmetickým priemerom údajových bodov, ktoré sú v klastri. Menšia zmena v zoskupení vedie k podobným alebo homogénnym údajovým bodom v zoskupení.

Ako funguje algoritmus K- znamená klastrovací algoritmus?

Algoritmus zoskupovania K- znamená klaster:

  • K = počet podskupín alebo zoskupení
  • Vzorka alebo tréningová súprava = (x 1, x 2, x 3, ……… x n )

Teraz predpokladajme, že máme súbor údajov, ktorý nie je označený, a musíme ho rozdeliť do zhlukov.

Teraz musíme nájsť počet klastrov. Toto je možné dosiahnuť dvoma spôsobmi:

  • Metóda lakte.
  • Účel metódy.

V krátkosti ich prediskutujeme:

Metóda lakte

Pri tejto metóde sa nakreslí krivka medzi „v rámci súčtu štvorcov“ (WSS) a počtom zhlukov. Znázornená krivka pripomína ľudskú ruku. Nazýva sa to metóda lakťa, pretože bod lakťa v krivke nám dáva optimálny počet zhlukov. V grafe alebo krivke sa po bode lakťa hodnota WSS mení veľmi pomaly, takže sa musí považovať za bod lakťa konečná hodnota počtu zhlukov.

Účel-Based

V tejto metóde sa údaje delia na základe rôznych metrík a potom sa posúdi, ako dobre sa v tomto prípade darilo. Napríklad usporiadanie košieľ v oddelení pre pánske odevy v obchodoch sa uskutočňuje podľa kritérií veľkosti. Môže sa to robiť na základe ceny a značiek. Najvhodnejší by bol zvolený tak, aby poskytoval optimálny počet zhlukov, tj hodnotu K.

Teraz sa môžeme vrátiť k našim vyššie uvedeným údajom. Počet klastrov, tj hodnotu K, môžeme vypočítať pomocou ktorejkoľvek z vyššie uvedených metód.

Ako používať vyššie uvedené metódy?

Teraz sa pozrime na proces vykonania:

Krok 1: Inicializácia

Najskôr inicializujte ľubovoľné náhodné body nazývané ťažiskom klastra. Pri inicializácii musíte dbať na to, aby ťažiská klastra boli menšie ako počet tréningových dátových bodov. Tento algoritmus je iteračný algoritmus, a preto sa nasledujúce dva kroky vykonávajú iteratívne.

Krok 2: Priradenie klastra

Po inicializácii sa prejdú všetky údajové body a vypočíta sa vzdialenosť medzi všetkými ťažiskami a údajovými bodmi. Zhluky by sa teraz vytvorili v závislosti od minimálnej vzdialenosti od ťažísk. V tomto príklade sú dáta rozdelené do dvoch klastrov.

Krok 3: Pohybovanie Centroidom

Pretože zoskupenia vytvorené v predchádzajúcom kroku nie sú optimalizované, je potrebné vytvoriť optimalizované zoskupenia. Z tohto dôvodu je potrebné presunúť centroidy iteratívne na nové miesto. Vezmite údajové body jedného klastra, vypočítajte ich priemer a potom premiestnite ťažisko tohto klastra do tohto nového umiestnenia. Rovnaký krok zopakujte pre všetky ostatné klastre.

Krok 4: Optimalizácia

Vyššie uvedené dva kroky sa uskutočňujú iteratívne, až kým sa ťažiskové bunky prestanú pohybovať, tj už nezmenia svoje polohy a nestanú sa statickými. Po dokončení sa algoritmus k- nazýva konvergovaný.

Krok 5: Konvergencia

Teraz sa tento algoritmus zblížil a vytvorili sa zreteľne viditeľné zhluky. Tento algoritmus môže poskytnúť rôzne výsledky v závislosti od toho, ako boli klastre inicializované v prvom kroku.

Aplikácia algoritmu K-znamená klastrovací algoritmus

  • Segmentácia trhu
  • Zoskupovanie dokumentov
  • Segmentácia obrazu
  • Kompresia obrázka
  • Kvantifikácia vektorov
  • Zhluková analýza
  • Funkcie učenie alebo učenie slovníka
  • Identifikácia oblastí náchylných na zločin
  • Detekcia poistných podvodov
  • Analýza údajov o verejnej doprave
  • Zhlukovanie IT aktív
  • Segmentácia zákazníkov
  • Identifikácia rakovinových údajov
  • Používa sa vo vyhľadávačoch
  • Predpoveď aktivity liekov

Výhody algoritmu Cl-Clustering Algorithm

  • Je to rýchle
  • robustný
  • Ľahko pochopiteľné
  • Pomerne efektívne
  • Ak sú súbory údajov odlišné, poskytuje najlepšie výsledky
  • Vytvárajte pevnejšie zoskupenia
  • Keď sa pripočítajú centroidy, klaster sa zmení.
  • pružný
  • Ľahko interpretovateľné
  • Lepšie výpočtové náklady
  • Zvyšuje presnosť
  • Funguje lepšie pri sférických klastroch

Nevýhody algoritmu Cl-Clustering Algorithm

  • Vyžaduje predchádzajúcu špecifikáciu počtu klastrových stredísk
  • Ak existujú dve vysoko prekrývajúce sa údaje, potom ich nemožno rozlíšiť a nedokážeme povedať, že existujú dva zoskupenia
  • Pri rôznom zastúpení údajov sa dosiahnuté výsledky tiež líšia
  • Euklidovská vzdialenosť môže faktory nerovnomerne vážiť
  • Poskytuje lokálne optimá funkcie štvorcovej chyby
  • Niekedy náhodný výber centroidov nemôže priniesť plodné výsledky
  • Môže sa použiť, iba ak je definovaný význam
  • Nie je možné spracovať odľahlé a hlučné údaje
  • Nepracujte pre nelineárny súbor údajov
  • Nedostatok konzistencie
  • Citlivé na mierku
  • Ak sa vyskytnú veľmi veľké množiny údajov, počítač môže zlyhať.
  • Problémy s predpoveďami

Odporúčané články

Toto bol sprievodca klastrovým algoritmom K-Means. Tu sme diskutovali o práci, aplikáciách, výhodách a nevýhodách algoritmu K-Means clustering. Viac informácií nájdete aj v ďalších navrhovaných článkoch -

  1. Čo sú neurónové siete?
  2. Čo je dolovanie dát? | Úloha ťažby údajov
  3. Interview Otázka dolovania dát
  4. Strojové učenie vs neurónová sieť
  5. Klastrovanie v strojovom učení

Kategórie: