Úvod do metód súboru v strojovom učení

V tomto článku sa zobrazí osnova Metódy súboru v strojovom učení. Ensemble learning je kombináciou rôznych techník strojového učenia do prediktívneho modelu na zlepšenie predikcie. Osvojenie súboru sa získava na zníženie rozptylu prediktívnych údajov. Účelom tohto typu učenia je minimalizovať zaujatosť modelu. Ensemble learning je multimodálny systém, v ktorom sú rôzne klasifikátory alebo techniky strategicky kombinované na klasifikáciu alebo predpovedanie štatistík z komplexného problému s lepšou presnosťou. Cieľom takéhoto učenia je minimalizovať pravdepodobnosť slabého výberu z modelu. Určuje dôveru v rozhodnutie podľa modelu. Myšlienka výberu optimálnych funkcií sa realizovala v kompletnom vzdelávaní.

Typy metód súboru v strojovom učení

Metódy súboru pomáhajú vytvárať viacero modelov a potom ich kombinovať, aby sa dosiahli zlepšené výsledky. Niektoré metódy súboru sú rozdelené do nasledujúcich skupín:

1. Sekvenčné metódy

V tejto metóde súboru Ensemble existujú postupne generovaní žiaci základnej školy, v ktorých sa nachádza dátová závislosť. Všetky ďalšie údaje v žiakovi základnej školy majú určitú závislosť od predchádzajúcich údajov. Takže predchádzajúce nesprávne označené údaje sú vyladené na základe ich váhy, aby sa zlepšil výkon celého systému.

Príklad : Zvýšenie

2. Paralelná metóda

V tejto metóde súboru Ensemble je základný žiak generovaný paralelne v poradí, v ktorom neexistuje závislosť na údajoch. Každé údaje v základnom žiakovi sa generujú nezávisle.

Príklad : stohovanie

3. Homogénny súbor

Takáto metóda súboru je kombináciou rovnakých typov klasifikátorov. Súbor údajov je však pre každého klasifikátora iný. Vďaka tomu bude kombinovaný model fungovať presnejšie po agregácii výsledkov z každého modelu. Tento typ súboru funguje s veľkým počtom súborov údajov. V homogénnej metóde je metóda výberu prvkov rovnaká pre rôzne údaje o výcviku. Je to výpočtovo drahé.

Príklad: Populárne metódy, ako je vrecovanie a posilňovanie, prichádzajú do homogénneho súboru.

4. Heterogénny súbor

Takáto metóda súboru je kombináciou rôznych typov klasifikátorov alebo modelov strojového učenia, v ktorých každý klasifikátor staval na rovnakých údajoch. Takáto metóda funguje pre malé súbory údajov. V heterogénnom prípade je metóda výberu prvkov odlišná pre rovnaké údaje o výcviku. Celkový výsledok tejto metódy súboru sa uskutočňuje spriemerovaním všetkých výsledkov každého kombinovaného modelu.

Príklad : stohovanie

Technická klasifikácia metód súboru

Nasleduje technická klasifikácia metód súboru:

1. Balenie

Táto metóda súboru kombinuje dva modely strojového učenia, tj zavádzanie a agregácia do jedného súboru. Cieľom metódy vrecovania je znížiť vysokú odchýlku modelu. Rozhodovacie stromy majú rozptyl a nízku predpojatosť. Veľký súbor údajov je vzorkovaný (povedzme 1 000 vzoriek) (povedzme 10 čiastkových vzoriek, z ktorých každý nesie 100 vzoriek údajov). Viaceré rozhodovacie stromy sú zostavené z údajov o jednotlivých čiastkových vzorkách. Pri rozdrobovaní čiastkových údajov o rôznych rozhodovacích stromoch sa znižuje obava z nadmerného prispôsobovania údajov o školeniach pre každý rozhodovací strom. Kvôli efektívnosti modelu sa každý z jednotlivých rozhodovacích stromov pestuje hlboko a obsahuje údaje o školeniach, z ktorých sa odobrali vzorky. Výsledky každého rozhodovacieho stromu sa zhromažďujú, aby sa porozumelo konečnej predikcii. Rozptyl agregovaných údajov sa zmenšuje. Presnosť predikcie modelu v metre vrecovania závisí od počtu použitých rozhodovacích stromov. Rôzna čiastková vzorka údajov vzorky sa vyberie náhodne s nahradením. Výstup každého stromu má vysokú koreláciu.

2. Posilnenie

Podporný súbor tiež kombinuje rôzne rovnaké typy klasifikátorov. Posilnenie je jednou zo sekvenčných metód súboru, v ktorých každý model alebo klasifikátor beží na základe funkcií, ktoré použije nasledujúci model. Týmto spôsobom metóda zosilnenia vytvára silnejší model študentov od slabých modelov študentov spriemerovaním ich hmotností. Inými slovami, silnejší trénovaný model závisí od viacerých slabých trénovaných modelov. Slabý vzdelávací model alebo model, ktorý je vyškolený na nosenie, je model, ktorý je menej korelovaný s pravou klasifikáciou. Ďalší slabý žiak je však o niečo viac korelovaný s pravou klasifikáciou. Kombinácia takýchto slabých študentov dáva silnému študentovi, ktorý dobre koreluje so skutočnou klasifikáciou.

3. Stohovanie

Táto metóda tiež kombinuje viacnásobné klasifikácie alebo regresné techniky pomocou meta-klasifikátora alebo meta-modelu. Modely nižších úrovní sú trénované kompletným súborom údajov o odbornej príprave a potom je kombinovaný model trénovaný s výsledkami modelov nižšej úrovne. Na rozdiel od posilnenia sa každý model nižšej úrovne podrobuje paralelnému školeniu. Predikcia z modelov nižšej úrovne sa používa ako vstup pre nasledujúci model ako súbor údajov o výcviku a tvorí balík, v ktorom je horná vrstva modelu vyškolená ako spodná vrstva modelu. Model hornej vrstvy má dobrú presnosť predpovede a bol postavený na modeloch nižšej úrovne. Zásobník sa zvyšuje, až kým sa nevykonáva najlepšia predpoveď s minimálnou chybou. Predikcia kombinovaného modelu alebo meta modelu je založená na predikcii rôznych slabých modelov alebo modelov nižšej vrstvy. Zameriava sa na výrobu modelu s menšou zaujatosťou.

4. Náhodný les

Náhodný les sa mierne líši od pytlovania, pretože používa hlboké stromy, ktoré sú namontované na vzorkách bootstrapu. Výstup každého tressu je kombinovaný, aby sa znížila variabilita. Kým rasti každý strom, namiesto generovania vzorky bootstrapu založenej na pozorovaní v množine údajov, vzorkovú množinu údajov tiež testujeme na základe funkcií a na zostavenie stromu používame iba náhodnú podskupinu takejto vzorky. Inými slovami, vzorkovanie súboru údajov sa vykonáva na základe funkcií, ktoré znižujú koreláciu rôznych výstupov. Náhodný les je vhodný na rozhodovanie o chýbajúcich údajoch. Náhodný les znamená náhodný výber podskupiny vzorky, ktorá znižuje pravdepodobnosť získania súvisiacich predikčných hodnôt. Každý strom má inú štruktúru. Výsledkom náhodného lesa je mierne zvýšenie zaujatosti lesa, ale v dôsledku spriemerovania všetkých menej príbuzných predpovedí z rôznych stromov sa výsledná odchýlka znižuje a poskytuje celkovo lepší výkon.

záver

Multimodálny prístup súboru sa realizuje prostredníctvom hlbokých vzdelávacích modelov, v ktorých komplexné údaje študovali a spracovávali prostredníctvom rôznych kombinácií klasifikátora, aby sa získala lepšia predikcia alebo klasifikácia. Predikcia každého modelu v súborovom vzdelávaní musí byť vo väčšej miere nekorelovaná. Tým sa udržiava minimálna predpojatosť a rozptyl modelu. Model bude efektívnejší a bude predpovedať výstup pri minimálnej chybe. Súbor je dohliadaný algoritmus výučby, pretože model je predtým trénovaný so súborom údajov na predpovedanie. V rámci komplexného učenia by mal byť počet klasifikátorov komponentov rovnaký ako počet značiek na dosiahnutie vysokej presnosti.

Odporúčané články

Toto je sprievodca metódami súborov v strojovom učení. Tu diskutujeme dôležité typy metód súboru v strojovom učení spolu s technickou klasifikáciou. Viac informácií nájdete aj v ďalších navrhovaných článkoch -

  1. Úvod do techniky súborov
  2. Životný cyklus strojového učenia s výhodami
  3. Algoritmy strojového učenia
  4. Top 24 otázok o strojovom učení Rozhovor

Kategórie: