K- znamená algoritmus zoskupovania Ako to funguje Analýza a implementácia

Úvod do algoritmu K-znamená klastrovací algoritmus?

Zoskupovanie K- znamená znamená, že nie je sledovaný algoritmus učenia. Používa sa, ak údaje nie sú definované v skupinách alebo kategóriách, tj neoznačené údaje. Cieľom tohto klastrovacieho algoritmu je hľadať a nájsť skupiny v údajoch, kde premenná K predstavuje počet skupín.

Pochopenie algoritmu Clustering Algorithm

Tento algoritmus je iteračný algoritmus, ktorý rozdeľuje množinu údajov podľa ich vlastností do počtu K preddefinovaných neprekrývajúcich sa rôznych klastrov alebo podskupín. Robí údajové body zoskupení čo najviac podobné a tiež sa snaží udržať zoskupenia v čo najväčšej miere. Priradí dátové body klastru, ak je súčet štvorcovej vzdialenosti medzi ťažiskom klastra a dátovými bodmi minimálny, pričom ťažisko klastra je aritmetickým priemerom údajových bodov, ktoré sú v klastri. Menšia zmena v zoskupení vedie k podobným alebo homogénnym údajovým bodom v zoskupení.

Ako funguje algoritmus K- znamená klastrovací algoritmus?

Algoritmus zoskupovania K- znamená klaster:

K = počet podskupín alebo zoskupení
Vzorka alebo tréningová súprava = (x ₁, x ₂, x ₃, ……… x _n )

Teraz predpokladajme, že máme súbor údajov, ktorý nie je označený, a musíme ho rozdeliť do zhlukov.

Teraz musíme nájsť počet klastrov. Toto je možné dosiahnuť dvoma spôsobmi:

Metóda lakte.
Účel metódy.

V krátkosti ich prediskutujeme:

Metóda lakte

Pri tejto metóde sa nakreslí krivka medzi „v rámci súčtu štvorcov“ (WSS) a počtom zhlukov. Znázornená krivka pripomína ľudskú ruku. Nazýva sa to metóda lakťa, pretože bod lakťa v krivke nám dáva optimálny počet zhlukov. V grafe alebo krivke sa po bode lakťa hodnota WSS mení veľmi pomaly, takže sa musí považovať za bod lakťa konečná hodnota počtu zhlukov.

Účel-Based

V tejto metóde sa údaje delia na základe rôznych metrík a potom sa posúdi, ako dobre sa v tomto prípade darilo. Napríklad usporiadanie košieľ v oddelení pre pánske odevy v obchodoch sa uskutočňuje podľa kritérií veľkosti. Môže sa to robiť na základe ceny a značiek. Najvhodnejší by bol zvolený tak, aby poskytoval optimálny počet zhlukov, tj hodnotu K.

Teraz sa môžeme vrátiť k našim vyššie uvedeným údajom. Počet klastrov, tj hodnotu K, môžeme vypočítať pomocou ktorejkoľvek z vyššie uvedených metód.

Ako používať vyššie uvedené metódy?

Teraz sa pozrime na proces vykonania:

Krok 1: Inicializácia

Najskôr inicializujte ľubovoľné náhodné body nazývané ťažiskom klastra. Pri inicializácii musíte dbať na to, aby ťažiská klastra boli menšie ako počet tréningových dátových bodov. Tento algoritmus je iteračný algoritmus, a preto sa nasledujúce dva kroky vykonávajú iteratívne.

Krok 2: Priradenie klastra

Po inicializácii sa prejdú všetky údajové body a vypočíta sa vzdialenosť medzi všetkými ťažiskami a údajovými bodmi. Zhluky by sa teraz vytvorili v závislosti od minimálnej vzdialenosti od ťažísk. V tomto príklade sú dáta rozdelené do dvoch klastrov.

Krok 3: Pohybovanie Centroidom

Pretože zoskupenia vytvorené v predchádzajúcom kroku nie sú optimalizované, je potrebné vytvoriť optimalizované zoskupenia. Z tohto dôvodu je potrebné presunúť centroidy iteratívne na nové miesto. Vezmite údajové body jedného klastra, vypočítajte ich priemer a potom premiestnite ťažisko tohto klastra do tohto nového umiestnenia. Rovnaký krok zopakujte pre všetky ostatné klastre.

Krok 4: Optimalizácia

Vyššie uvedené dva kroky sa uskutočňujú iteratívne, až kým sa ťažiskové bunky prestanú pohybovať, tj už nezmenia svoje polohy a nestanú sa statickými. Po dokončení sa algoritmus k- nazýva konvergovaný.

Krok 5: Konvergencia

Teraz sa tento algoritmus zblížil a vytvorili sa zreteľne viditeľné zhluky. Tento algoritmus môže poskytnúť rôzne výsledky v závislosti od toho, ako boli klastre inicializované v prvom kroku.

Aplikácia algoritmu K-znamená klastrovací algoritmus

Segmentácia trhu
Zoskupovanie dokumentov
Segmentácia obrazu
Kompresia obrázka
Kvantifikácia vektorov
Zhluková analýza
Funkcie učenie alebo učenie slovníka
Identifikácia oblastí náchylných na zločin
Detekcia poistných podvodov
Analýza údajov o verejnej doprave
Zhlukovanie IT aktív
Segmentácia zákazníkov
Identifikácia rakovinových údajov
Používa sa vo vyhľadávačoch
Predpoveď aktivity liekov

Výhody algoritmu Cl-Clustering Algorithm

Je to rýchle
robustný
Ľahko pochopiteľné
Pomerne efektívne
Ak sú súbory údajov odlišné, poskytuje najlepšie výsledky
Vytvárajte pevnejšie zoskupenia
Keď sa pripočítajú centroidy, klaster sa zmení.
pružný
Ľahko interpretovateľné
Lepšie výpočtové náklady
Zvyšuje presnosť
Funguje lepšie pri sférických klastroch

Nevýhody algoritmu Cl-Clustering Algorithm

Vyžaduje predchádzajúcu špecifikáciu počtu klastrových stredísk
Ak existujú dve vysoko prekrývajúce sa údaje, potom ich nemožno rozlíšiť a nedokážeme povedať, že existujú dva zoskupenia
Pri rôznom zastúpení údajov sa dosiahnuté výsledky tiež líšia
Euklidovská vzdialenosť môže faktory nerovnomerne vážiť
Poskytuje lokálne optimá funkcie štvorcovej chyby
Niekedy náhodný výber centroidov nemôže priniesť plodné výsledky
Môže sa použiť, iba ak je definovaný význam
Nie je možné spracovať odľahlé a hlučné údaje
Nepracujte pre nelineárny súbor údajov
Nedostatok konzistencie
Citlivé na mierku
Ak sa vyskytnú veľmi veľké množiny údajov, počítač môže zlyhať.
Problémy s predpoveďami

Odporúčané články

Toto bol sprievodca klastrovým algoritmom K-Means. Tu sme diskutovali o práci, aplikáciách, výhodách a nevýhodách algoritmu K-Means clustering. Viac informácií nájdete aj v ďalších navrhovaných článkoch -

Čo sú neurónové siete?
Čo je dolovanie dát? | Úloha ťažby údajov
Interview Otázka dolovania dát
Strojové učenie vs neurónová sieť
Klastrovanie v strojovom učení

K- znamená algoritmus zoskupovania Ako to funguje Analýza a implementácia

Obsah:

Úvod do algoritmu K-znamená klastrovací algoritmus?

Pochopenie algoritmu Clustering Algorithm

Ako funguje algoritmus K- znamená klastrovací algoritmus?

Metóda lakte

Účel-Based

Ako používať vyššie uvedené metódy?

Krok 1: Inicializácia

Krok 2: Priradenie klastra

Krok 3: Pohybovanie Centroidom

Krok 4: Optimalizácia

Krok 5: Konvergencia

Aplikácia algoritmu K-znamená klastrovací algoritmus

Výhody algoritmu Cl-Clustering Algorithm

Nevýhody algoritmu Cl-Clustering Algorithm

Odporúčané články

Základné režimy klávesových skratiek vo Photoshope

Otvorte viac obrázkov ako vrstvy vo Photoshope

Pochopenie vrstvy masky vo Photoshope

Predvoľby panela Photoshop Essential Layers

Otvorte viac obrázkov ako vrstvy Photoshopu

Spracovanie súborov PHP Komplexný sprievodca spracovaním súborov v PHP

Dátové typy PHP - Top 3 dátové typy PHP s príkladmi

PHP urobiť, zatiaľ čo slučka Naučte sa príklady opakovania cyklu

PHP Float - Ako funguje Float v PHP Typy plávajúcich hodnôt

10 najčastejších otázok o rozhovoroch v PHP pre skúsených (aktualizované pre rok 2019)

Prípadové vyhlásenie v Jave Vývojový diagram príkazu Switch-Case v Jave

Kariérny úspech - 10 užitočných vecí na úspešnú zmenu kariéry

Prípadová štúdia v oblasti projektového riadenia Prípadová štúdia a jej spätná väzba

Správa hotovosti Druhy, úlohy a funkcie riadenia hotovosti

Prípad CASE v PL / SQL Ako funguje Prípadové vyhlásenie?