Prehľad strojového učenia hyperparametrov

Pre každý model potrebujeme niektoré parametre, ktoré pomôžu pri poskytovaní základne pre riešenie problému / analýzu a vyhodnotenie modelu. Niektoré z týchto parametrov je potrebné sa naučiť z údajov a niektoré musíme z nášho konca výslovne definovať. Parametre, ktoré je možné získať z údajov bez toho, aby boli explicitne definované, sa nazývajú modelové parametre. Parameter, ktorý je explicitne definovaný používateľom, sa nazýva Hyperparametre. Hyperparametre sú iba parametre modelu, ale pojem hyperparametre sa používajú v strojovom učení, aby sa dali ľahko rozlíšiť a nezamieňať s parametrami modelu, ktoré sa získali zo súboru údajov.

Čo je strojové učenie hyperparameterov?

Pre väčšinu rámcov strojového učenia nemajú hyperparametre presnú definíciu. Tieto hyperparametre riadia základný systém modelu, ktorý riadi primárne (modálne) parametre modelu. Pokúsme sa porozumieť hyperparametrom s nasledujúcim príkladom.

  • Ladenie vašich huslí je veľmi dôležité, keď je človek v štádiu učenia, pretože v tom čase vytvára spojenie medzi rôznymi zmyslami. Uši, prsty a oči sa učia husle súčasne. Teraz na začiatku Zvyknutie si na zvuk huslí z tónu vytvára zlý vkus zvuku, ktorý kazí celú ich skúsenosť s zamilovaním sa do procesu učenia sa huslí.
  • To je dôvod, prečo ladenie huslí môže skutočne pomôcť človeku v procese učenia sa huslí. Rovnakým spôsobom je hyperparameter akýmsi vyladením modelu strojového učenia, aby dal správny smer.
  • Hyperparametre sa všeobecne definujú pred použitím algoritmu strojového učenia na množinu údajov.
  • Teraz je ďalšou úlohou to, čo by mal byť hyperparameter a aká by mala byť jeho hodnota. Pretože človek musí vedieť, aké struny sú potrebné naladiť a ako naladiť husle, skôr ako ho naladia. To isté platí pre hyperparametre, musíme definovať, ktoré hyperparametre a aká by mala byť jeho hodnota, v zásade záleží na každej úlohe a každom súbore údajov.
  • Aby sme to pochopili, pozrime sa na perspektívu optimalizácie modelu.
  • Pri implementácii modelu strojového učenia hrá optimalizácia modelu životne dôležitú úlohu. Existuje veľa odvetví strojového učenia, ktoré sa venujú výhradne optimalizácii modelu strojového učenia. Všeobecne sa vie, že na optimalizáciu modelu je potrebné upraviť kód tak, aby sa minimalizovala chyba.
  • Existujú však skryté prvky, ktoré ovplyvňujú optimalizáciu strojového učenia mimo modelu a majú veľký vplyv na správanie sa modelu. Tieto skryté prvky sa označujú ako hyperparametre, sú to kritické komponenty pre optimalizáciu akéhokoľvek modelu strojového učenia.
  • Hyperparametre sú jemné tunery / nastavenia, ktoré riadia správanie modelu. Tieto hyperparametre sú definované mimo modelu, ale majú priamy vzťah k výkonu modelu. Hyperparametre sa dajú považovať za ortogonálne k modelu.
  • Kritériá na definovanie hyperparametra sú veľmi flexibilné a abstraktné. Určite existuje niekoľko hyperparametrov, ako je napríklad počet skrytých vrstiev, rýchlosť učenia sa modelu, ktorá je dobre zavedená, a tiež sú tu niektoré nastavenia, ktoré možno pre konkrétny model považovať za hyperparameter, napríklad riadenie kapacity modelu.
  • Existuje pravdepodobnosť, že algoritmus preplní model, ak sa algoritmy naučia priamo prostredníctvom nastavení. Pretože je zrejmé, že hyperparametre sa nenaučili / nevyladili prostredníctvom výcvikovej sady, takže na výber hyperparametrov sa používa testovacia alebo validačná sada. Vo všeobecnosti nastavujeme rôzne hodnoty hyperparametrov. Za náš najlepší hyperparameter sa považuje tá, ktorá najlepšie funguje so sadou testov alebo validácií.

Kategórie hyperparametra

Pre rôzne typy súborov údajov a podľa modelu môžeme mať rôzne hyperparametre na zvýšenie výkonu modelu. Hyperparametre možno všeobecne rozdeliť do dvoch kategórií.

  • Hyperparameter na optimalizáciu
  • Hyperparametre pre konkrétne modely

Poďme diskutovať o každom z nich.

1. Hyperparametre pre optimalizáciu

Ako už názov napovedá, tieto hyperparametre sa používajú na optimalizáciu modelu.

  • Miera učenia

Tento hyperparameter určuje, do akej miery novo získané údaje nahradia staré dostupné údaje. Ak je hodnota tohto hyperparametra vysoká, vyššia miera učenia nebude model správne optimalizovať, pretože existuje šanca, že preskočí minimá. Na druhej strane, ak sa miera učenia berie oveľa menej, konvergencia bude veľmi pomalá.

Rýchlosť učenia hrá rozhodujúcu úlohu pri optimalizácii výkonu modelu, pretože v niektorých prípadoch majú modely stovky parametrov (parametre modelu) s krivkou chýb, miera učenia sa rozhodne o frekvencii krížovej kontroly so všetkými parametrami. Je tiež ťažké nájsť lokálne minimá kriviek chýb, pretože zvyčajne majú nepravidelné krivky.

  • Veľkosť šarže

Na urýchlenie procesu učenia sa školiaca súprava delí na rôzne dávky. V prípade stochastického postupu tréningu modelu sa malá šarža trénuje, vyhodnocuje a spätne spracúva tak, aby sa upravili hodnoty všetkých vašich hyperparametrov, to isté sa opakuje pre celý tréningový set.

Ak je veľkosť šarže väčšia ako sa predĺži čas potrebný na učenie a bude vyžadovať viac pamäte na spracovanie na násobenie matíc. Ak je veľkosť dávky menšia, pri výpočte chýb bude viac šumu.

  • Počet epoch

Epocha predstavuje kompletný cyklus pre údaje, ktoré sa majú naučiť v strojovom učení. Epochy hrajú veľmi dôležitú úlohu v procese opakovaného učenia.

Pri určovaní správneho počtu epoch sa berie do úvahy chyba validácie. Je možné zvýšiť počet epoch, pokiaľ dôjde k zníženiu chyby pri validácii. Ak sa chyba validácie nezlepší pre po sebe nasledujúce epochy, potom je to signál na zastavenie zvyšujúceho sa počtu epoch. To je tiež známe ako predčasné zastavenie.

2. Hyperparametre pre špecifické modely

Niektoré hyperparametre sú zapojené do štruktúry samotného modelu. Niektoré z nich sú nasledujúce.

  • Počet skrytých jednotiek

V modeloch hlbokého učenia je nevyhnutné definovať niekoľko skrytých jednotiek pre neurónové siete. Tento hyperparameter sa používa na definovanie vzdelávacej kapacity modelu. pre komplexné funkcie musíme definovať niekoľko skrytých jednotiek, ale nezabudnite, že by nemal model preceňovať.

  • Počet vrstiev

Je zrejmé, že neurónová sieť s 3 vrstvami poskytne lepší výkon ako 2 vrstvy. Zvýšenie o viac ako 3 to v neurónových sieťach veľmi nepomôže. V prípade CNN zvyšuje model počet vrstiev.

záver

Parametre Hyper sú definované explicitne pred použitím algoritmu strojového učenia na množinu údajov. Hyperparametre sa používajú na definovanie komplexnosti modelu na vyššej úrovni a schopnosti učiť sa. Hyperparametre môžu byť tiež nastaveniami modelu. Niektoré hyperparametre sú definované na optimalizáciu modelov (veľkosť šarže, rýchlosť učenia atď.) A niektoré sú špecifické pre modely (počet skrytých vrstiev atď.).

Odporúčané články

Toto je sprievodca strojovým učením hyperparameterov. Tu diskutujeme prehľad a čo je hyperparameterové strojové učenie s jeho kategóriami. Ďalšie informácie nájdete aj v nasledujúcich článkoch -

  1. Úvod do strojového učenia
  2. Strojové učenie bez dozoru
  3. Typy algoritmov strojového učenia
  4. Aplikácie strojového učenia
  5. Implementácia neurónových sietí
  6. Top 6 Porovnanie medzi CNN vs RNN

Kategórie: