Metódy zoskupovania Dôležitosť a techniky klastrových metód

Obsah:

Anonim

Úvod do klastrových metód

Tento článok predstavuje prehľad rôznych metód klastrovania používaných v technikách získavania údajov s rôznymi princípmi. Clustering je skupina dátových objektov usporiadaných do iného logického zoskupenia. Zoskupovanie podobných údajových položiek a priradenie podobných údajových položiek do jednotlivých klastrov. Zhlukovanie sa vykonáva vo veľkých súboroch údajov pre učenie bez dozoru. Počas tohto vykonávame oddiel na množine údajov do skupín. Štruktúra klastrovania je s podsúbormi znázornená nasledovne. C = cl, c2 … cn. Pretože zoskupovacie skupiny majú podobné objekty, je potrebné prijať určité opatrenia v zoskupovacích metódach na určenie mier a vzdialeností. Metódy zhlukovania sú založené na pravdepodobnostných modeloch. Dolovanie údajov vyžaduje zoskupovanie, aby sa škálovateľnosť mohla zaoberať vysokými databázami, manipulovať s viacrozmerným priestorom, zvládať chybné údaje a hluk.

Vysvetlite klastrové metódy?

Táto metóda zhlukovania pomáha pri zoskupovaní cenných údajov do zhlukov a z toho vyberie vhodné výsledky založené na rôznych technikách. Napríklad pri získavaní informácií sú výsledky dotazu zoskupené do malých klastrov a každý klaster má irelevantné výsledky. Techniky zoskupovania sú zoskupené do podobných kategórií a každá kategória je rozdelená do podkategórií, aby pomohla pri skúmaní výstupov z dotazov. Existujú rôzne typy klastrovacích metód

  • Hierarchické metódy
  • Metódy rozdelenia
  • Hustota na báze
  • Zoskupovanie podľa modelu
  • Model založený na mriežke

Nasleduje prehľad techník používaných pri získavaní údajov a umelej inteligencii.

1. Hierarchická metóda

Táto metóda vytvára klaster rozdelením oblastí zhora nadol a zdola nahor. Oba tieto prístupy vytvárajú dendrogram, ktorý vytvára spojenie medzi nimi. Dendrogram je stromový formát, ktorý udržuje sekvenciu zlúčených klastrov. Hierarchické metódy sa vyrábajú vo viacerých skupinách s ohľadom na úroveň podobnosti. Sú rozdelené do aglomeračného hierarchického zoskupovania a deliaceho sa hierarchického zoskupovania. Tu sa vytvára klastrový strom pomocou techník zlučovania. Na rozdelenie procesu delenia sa používa zlúčenie využíva aglomeráciu. Aglomeračné zoskupovanie zahŕňa:

  1. Spočiatku berú všetky dátové body a zvažujú ich ako jednotlivé klastre začínajú zhora nadol. Tieto zoskupenia sa zlúčia, až kým nedosiahneme požadované výsledky.
  2. Ďalšie dve podobné zoskupenia sú zoskupené do jedného veľkého klastra.
  3. Opäť sa počíta blízkosť obrovského zhluku a zlúčia sa podobné zhluky.
  4. Posledný krok zahŕňa zlúčenie všetkých získaných zhlukov v každom kroku, aby sa vytvoril konečný jediný klaster.

2. Metóda rozdelenia:

Hlavným cieľom oddielu je premiestnenie. Premiestnia oddiely presunutím z jedného klastra do druhého, čím sa vytvorí počiatočné rozdelenie na oddiely. Rozdeľuje údajové objekty typu „n“ na počet klastrov „k“. Táto metóda rozdelenia je pri rozpoznávaní vzorov uprednostňovaná viac ako hierarchický model. Na splnenie týchto techník sú stanovené tieto kritériá:

  • Každý klaster by mal mať jeden objekt.
  • Každý dátový objekt patrí do jedného klastra.

Najbežnejšie používanými technikami rozdelenia sú algoritmy K-mean Algorithm. Rozdeľujú sa na „K“ zoskupenia predstavované ťažiskami. Každé centrum klastra sa vypočíta ako priemer tohto klastra a funkcia R vizualizuje výsledok. Tento algoritmus má nasledujúce kroky:

  1. Náhodný výber K objektov zo súboru údajov a vytvorenie počiatočných centier (centroidov)
  2. Ďalšie priradenie euklidovskej vzdialenosti medzi objektmi a stredným stredom.
  3. Priradenie strednej hodnoty pre každý jednotlivý klaster.
  4. Kroky aktualizácie Centroidu pre každý klaster „k“.

3. Model hustoty:

V tomto modeli sú klastre definované lokalizáciou oblastí s vyššou hustotou v klastri. Hlavný princíp za nimi sa sústreďuje na dva parametre: maximálny polomer susedstva a minimálny počet bodov. Model založený na hustote identifikuje zhluky rôznych tvarov a šumu. Funguje tak, že detekuje vzory odhadom priestorového umiestnenia a vzdialenosti použitej v susednej metóde, je DBSCAN (priestorové zoskupovanie založené na hustote), ktoré dáva ruky veľkým priestorovým databázam. Využívanie troch údajových bodov na zoskupovanie, konkrétne základných bodov, hraničných bodov a odľahlých hodnôt. Primárnym cieľom je identifikovať klastre a ich distribučné parametre. Proces klastrovania je zastavený z dôvodu potreby parametrov hustoty. Na nájdenie klastrov je dôležité mať pri výpočte vzdialenosti jadra parameter Minimálne vlastnosti na klaster. Tri rôzne nástroje, ktoré tento model poskytuje, sú DBSCAN, HDBSCAN, viacúrovňové.

4. Zoskupovanie podľa modelu

Tento model kombinuje dva alebo tri klastre z distribúcie údajov. Základnou myšlienkou tohto modelu je potrebné rozdeliť údaje do dvoch skupín na základe pravdepodobnostného modelu (viacrozmerné normálne rozdelenie). Každá skupina je tu priradená ako koncepcia alebo trieda. Každá zložka je definovaná funkciou hustoty. Na nájdenie parametra v tomto modeli sa na zostavenie distribúcie zmesi použije odhad maximálnej pravdepodobnosti. Každý klaster „K“ je modelovaný gaussovskou distribúciou s dvojparametrovým µk stredným vektorom a £ k kovariančným vektorom.

5. Model založený na mriežke

V tomto prístupe sa objekty považujú za priestorom riadené rozdelením priestoru do konečného počtu buniek, aby vytvorili mriežku. S pomocou mriežky sa technika klastrovania používa na rýchlejšie spracovanie, ktoré zvyčajne závisí od buniek, nie od objektov. Ide o tieto kroky:

  • Vytvorenie mriežkovej štruktúry
  • Hustota buniek sa vypočíta pre každú bunku
  • Aplikácia triediaceho mechanizmu na ich hustoty.
  • Hľadanie klastrových centier a prechod na susedných bunkách na opakovanie procesu.

Dôležitosť klastrových metód

  1. Metóda klastrovania pomáha pri reštartovaní procedúry lokálneho vyhľadávania a odstraňuje neefektívnosť. Zhlukovanie pomáha určiť vnútornú štruktúru údajov.
  2. Táto klastrovacia analýza sa použila na modelovú analýzu, vektorovú oblasť príťažlivosti.
  3. Zhlukovanie pomáha pri pochopení prirodzeného zoskupenia v súbore údajov. Ich účelom je dať zmysel rozdeliť údaje do nejakej skupiny logických zoskupení.
  4. Kvalita klastrov závisí od metód a identifikácie skrytých vzorcov.
  5. Zohrávajú širokú úlohu v aplikáciách, ako je marketingový ekonomický výskum, weblogy na identifikáciu vzorov v opatreniach na podobnosť, spracovanie obrazu, priestorový výskum.
  6. Používajú sa pri odhaľovaní odľahlých údajov na odhaľovanie podvodov s kreditnými kartami.

záver

Zhlukovanie sa považuje za všeobecnú úlohu pri riešení problému, ktorý formuluje problém s optimalizáciou. Hrá kľúčový význam v oblasti získavania údajov a analýzy údajov. Videli sme rôzne spôsoby zhlukovania, ktoré rozdeľujú množinu údajov, závisí od požiadaviek. Väčšina výskumu je založená na tradičných technikách, ako sú K-prostriedky a hierarchické modely. Klastrové oblasti sa uplatňujú vo vysoko dimenzionálnych štátoch, ktoré tvoria budúci rozsah výskumných pracovníkov.

Odporúčaný článok

Toto bol sprievodca klastrovým metódam. Tu sme diskutovali o koncepte, dôležitosti a technikách klastrových metód. Viac informácií nájdete aj v ďalších navrhovaných článkoch -

  1. Čo je ETL?
  2. Čo je to Data Science
  3. Čo je to Teradata?
  4. Top 6 alternatív AWS
  5. Klastrovanie v strojovom učení
  6. Viacrozmerná regresia
  7. Hierarchické zoskupovanie Aglomeračné a deliace sa zoskupovanie