Úvod do algoritmu K-znamená klastrovací algoritmus?
Zoskupovanie K- znamená znamená, že nie je sledovaný algoritmus učenia. Používa sa, ak údaje nie sú definované v skupinách alebo kategóriách, tj neoznačené údaje. Cieľom tohto klastrovacieho algoritmu je hľadať a nájsť skupiny v údajoch, kde premenná K predstavuje počet skupín.
Pochopenie algoritmu Clustering Algorithm
Tento algoritmus je iteračný algoritmus, ktorý rozdeľuje množinu údajov podľa ich vlastností do počtu K preddefinovaných neprekrývajúcich sa rôznych klastrov alebo podskupín. Robí údajové body zoskupení čo najviac podobné a tiež sa snaží udržať zoskupenia v čo najväčšej miere. Priradí dátové body klastru, ak je súčet štvorcovej vzdialenosti medzi ťažiskom klastra a dátovými bodmi minimálny, pričom ťažisko klastra je aritmetickým priemerom údajových bodov, ktoré sú v klastri. Menšia zmena v zoskupení vedie k podobným alebo homogénnym údajovým bodom v zoskupení.
Ako funguje algoritmus K- znamená klastrovací algoritmus?
Algoritmus zoskupovania K- znamená klaster:
- K = počet podskupín alebo zoskupení
- Vzorka alebo tréningová súprava = (x 1, x 2, x 3, ……… x n )
Teraz predpokladajme, že máme súbor údajov, ktorý nie je označený, a musíme ho rozdeliť do zhlukov.
Teraz musíme nájsť počet klastrov. Toto je možné dosiahnuť dvoma spôsobmi:
- Metóda lakte.
- Účel metódy.
V krátkosti ich prediskutujeme:
Metóda lakte
Pri tejto metóde sa nakreslí krivka medzi „v rámci súčtu štvorcov“ (WSS) a počtom zhlukov. Znázornená krivka pripomína ľudskú ruku. Nazýva sa to metóda lakťa, pretože bod lakťa v krivke nám dáva optimálny počet zhlukov. V grafe alebo krivke sa po bode lakťa hodnota WSS mení veľmi pomaly, takže sa musí považovať za bod lakťa konečná hodnota počtu zhlukov.
Účel-Based
V tejto metóde sa údaje delia na základe rôznych metrík a potom sa posúdi, ako dobre sa v tomto prípade darilo. Napríklad usporiadanie košieľ v oddelení pre pánske odevy v obchodoch sa uskutočňuje podľa kritérií veľkosti. Môže sa to robiť na základe ceny a značiek. Najvhodnejší by bol zvolený tak, aby poskytoval optimálny počet zhlukov, tj hodnotu K.
Teraz sa môžeme vrátiť k našim vyššie uvedeným údajom. Počet klastrov, tj hodnotu K, môžeme vypočítať pomocou ktorejkoľvek z vyššie uvedených metód.
Ako používať vyššie uvedené metódy?
Teraz sa pozrime na proces vykonania:
Krok 1: Inicializácia
Najskôr inicializujte ľubovoľné náhodné body nazývané ťažiskom klastra. Pri inicializácii musíte dbať na to, aby ťažiská klastra boli menšie ako počet tréningových dátových bodov. Tento algoritmus je iteračný algoritmus, a preto sa nasledujúce dva kroky vykonávajú iteratívne.
Krok 2: Priradenie klastra
Po inicializácii sa prejdú všetky údajové body a vypočíta sa vzdialenosť medzi všetkými ťažiskami a údajovými bodmi. Zhluky by sa teraz vytvorili v závislosti od minimálnej vzdialenosti od ťažísk. V tomto príklade sú dáta rozdelené do dvoch klastrov.
Krok 3: Pohybovanie Centroidom
Pretože zoskupenia vytvorené v predchádzajúcom kroku nie sú optimalizované, je potrebné vytvoriť optimalizované zoskupenia. Z tohto dôvodu je potrebné presunúť centroidy iteratívne na nové miesto. Vezmite údajové body jedného klastra, vypočítajte ich priemer a potom premiestnite ťažisko tohto klastra do tohto nového umiestnenia. Rovnaký krok zopakujte pre všetky ostatné klastre.
Krok 4: Optimalizácia
Vyššie uvedené dva kroky sa uskutočňujú iteratívne, až kým sa ťažiskové bunky prestanú pohybovať, tj už nezmenia svoje polohy a nestanú sa statickými. Po dokončení sa algoritmus k- nazýva konvergovaný.
Krok 5: Konvergencia
Teraz sa tento algoritmus zblížil a vytvorili sa zreteľne viditeľné zhluky. Tento algoritmus môže poskytnúť rôzne výsledky v závislosti od toho, ako boli klastre inicializované v prvom kroku.
Aplikácia algoritmu K-znamená klastrovací algoritmus
- Segmentácia trhu
- Zoskupovanie dokumentov
- Segmentácia obrazu
- Kompresia obrázka
- Kvantifikácia vektorov
- Zhluková analýza
- Funkcie učenie alebo učenie slovníka
- Identifikácia oblastí náchylných na zločin
- Detekcia poistných podvodov
- Analýza údajov o verejnej doprave
- Zhlukovanie IT aktív
- Segmentácia zákazníkov
- Identifikácia rakovinových údajov
- Používa sa vo vyhľadávačoch
- Predpoveď aktivity liekov
Výhody algoritmu Cl-Clustering Algorithm
- Je to rýchle
- robustný
- Ľahko pochopiteľné
- Pomerne efektívne
- Ak sú súbory údajov odlišné, poskytuje najlepšie výsledky
- Vytvárajte pevnejšie zoskupenia
- Keď sa pripočítajú centroidy, klaster sa zmení.
- pružný
- Ľahko interpretovateľné
- Lepšie výpočtové náklady
- Zvyšuje presnosť
- Funguje lepšie pri sférických klastroch
Nevýhody algoritmu Cl-Clustering Algorithm
- Vyžaduje predchádzajúcu špecifikáciu počtu klastrových stredísk
- Ak existujú dve vysoko prekrývajúce sa údaje, potom ich nemožno rozlíšiť a nedokážeme povedať, že existujú dva zoskupenia
- Pri rôznom zastúpení údajov sa dosiahnuté výsledky tiež líšia
- Euklidovská vzdialenosť môže faktory nerovnomerne vážiť
- Poskytuje lokálne optimá funkcie štvorcovej chyby
- Niekedy náhodný výber centroidov nemôže priniesť plodné výsledky
- Môže sa použiť, iba ak je definovaný význam
- Nie je možné spracovať odľahlé a hlučné údaje
- Nepracujte pre nelineárny súbor údajov
- Nedostatok konzistencie
- Citlivé na mierku
- Ak sa vyskytnú veľmi veľké množiny údajov, počítač môže zlyhať.
- Problémy s predpoveďami
Odporúčané články
Toto bol sprievodca klastrovým algoritmom K-Means. Tu sme diskutovali o práci, aplikáciách, výhodách a nevýhodách algoritmu K-Means clustering. Viac informácií nájdete aj v ďalších navrhovaných článkoch -
- Čo sú neurónové siete?
- Čo je dolovanie dát? | Úloha ťažby údajov
- Interview Otázka dolovania dát
- Strojové učenie vs neurónová sieť
- Klastrovanie v strojovom učení