Čo je výučba posilnenia? - Funkcie a rôzne faktory

Obsah:

Anonim

Úvod do výučby posilnenia

Posilnenie učenia je typ strojového učenia, a preto je tiež súčasťou umelej inteligencie, keď sa aplikuje na systémy, systémy vykonávajú kroky a učia sa na základe výsledku krokov, aby získali komplexný cieľ, ktorý je pre systém dosiahnutý.

Porozumieť posilneniu učenia

Pokúsme sa pod prácou posilňovacieho učenia pomocou 2 jednoduchých prípadov použitia:

Prípad č. 1

V rodine je dieťa, práve začala chodiť a všetci sú z toho celkom spokojní. Jedného dňa sa rodičia pokúsia stanoviť cieľ, dovoľte nám, aby sme sa dostali na gauč, a uvidíme, či to dieťa dokáže.

Výsledok prípadu 1: Dieťa úspešne dorazí na pohovku, a preto je každý v rodine veľmi šťastný, že to vidí. Zvolená cesta teraz prichádza s pozitívnou odmenou.

Body: Odmena + (+ n) → Pozitívna odmena.

Zdroj: https://images.app.goo.gl/pGCXJ1N1bzLAer126

Prípad č. 2

Dieťa sa nedokázalo dostať na gauč a dieťa kleslo. Bolí to! Čo by mohlo byť dôvodom? V ceste na gauč môžu byť nejaké prekážky a dieťa sa dostalo do prekážok.

Výsledok prípadu 2: Dieťa padá na prekážky a plače! Ach, to bolo zlé, naučila sa, aby nabudúce nespadla do pasce prekážky. Zvolená cesta má teraz zápornú odmenu.

Body: Odmeny + (-n) → Záporná odmena.

Zdroj: https://images.app.goo.gl/FRfd8cUqrQRLe6sZ7

Teraz sme videli prípady 1 a 2, posilňujúce učenie v koncepcii robí to isté s výnimkou toho, že to nie je človek, ale namiesto toho sa vykonáva výpočtovo.

Použitie zosilnenia postupne

Pochopme zosilnenie učenia postupným zavádzaním agenta zosilnenia. V tomto príklade je našou posilňujúcou učiacou látkou Mario, ktorý sa naučí hrať samostatne:

Zdroj: https://images.app.goo.gl/Kj44uvBzWzMw1QzE9

  • Aktuálny stav herného prostredia Mario je S_0. Pretože hra sa ešte nezačala a Mario je na svojom mieste.
  • Ďalej sa spustí hra a Mario sa pohne, Mario tj RL agent podnikne a koná, povedzme A_0.
  • Teraz sa stav herného prostredia zmenil na S_1.
  • Agentovi RL, tj Marioovi, je teraz pridelený pozitívny bod odmeny R_1, pravdepodobne preto, že Mario je stále nažive a nehrozilo mu žiadne nebezpečenstvo.

Teraz bude vyššie uvedená slučka bežať, až kým Mario nebude konečne mŕtvy alebo kým Mario nedosiahne cieľové miesto. Tento model bude nepretržite vydávať akcie, odmeny a stav.

Maximalizačné odmeny

Cieľom posilňovacieho učenia je maximalizovať odmeny zohľadnením určitých ďalších faktorov, ako je napríklad zľava na odmeny; čoskoro vysvetlíme, čo znamená zľava pomocou ilustrácie.

Kumulatívny vzorec pre zľavnené odmeny je nasledovný:

Zľavové odmeny

Pochopme to na príklade:

  • Na danom obrázku je cieľom to, že myš v hre musí jesť toľko syra, aby sa mohla najesť mačkou alebo bez toho, aby bola elektricky zasiahnutá.
  • Teraz môžeme predpokladať, že čím bližšie sme k mačke alebo k elektrickému pascu, tým väčšia je pravdepodobnosť, že myš bude jesť alebo šokovaná.
  • To znamená, že aj keď máme plný syr v blízkosti bloku elektrického šoku alebo blízko mačky, čím je nebezpečnejší, že tam bude, je lepšie jesť syr, ktorý je v okolí, aby sa predišlo akémukoľvek riziku.
  • Aj keď máme jeden „blok1“ syra, ktorý je plný a je ďaleko od mačky a blok s elektrickým prúdom a druhý „blok2“, ktorý je síce plný, ale je buď blízko mačky alebo bloku elektrického šoku., neskorší syrový blok, tj „blok 2“, bude odmenený viac ako predchádzajúci.

Zdroj: https://images.app.goo.gl/8QrH78FjmRVs5Wxk8

Zdroj: https://cdn-images-1.medium.com/max/800/1*l8wl4hZvZAiLU56hT9vLlg.png.webp

Druhy zosilnenia výučby

Nižšie sú uvedené dva typy posilňovacieho učenia s ich výhodami a nevýhodami:

1. Pozitívne

Keď sa v dôsledku výskytu určitého správania zvýši sila a frekvencia správania, nazýva sa to Pozitívne posilňovanie učenia.

Výhody: Výkon je maximalizovaný a zmena zostáva dlhšiu dobu.

Nevýhody: Výsledky môžeme znížiť, ak budeme mať príliš veľa posilnenia.

2. Negatívne

Je to posilnenie správania, väčšinou kvôli negatívnemu pojmu.

Výhody: Správanie sa zvyšuje.

Nevýhody: Pomocou minimálneho správania sa modelu je možné dosiahnuť iba minimálne správanie.

Kde by sa malo používať učenie posilnenia?

Veci, ktoré sa dajú robiť s učením / príkladmi posilnenia. Nasledujú oblasti, v ktorých sa v súčasnosti využíva výučba posilnenia:

  1. Zdravotná starostlivosť
  2. vzdelanie
  3. hry
  4. Počítačové videnie
  5. Biznis manažment
  6. robotické
  7. financie
  8. NLP (spracovanie prirodzeného jazyka)
  9. preprava
  10. energie

Kariéra v oblasti posilňovacieho vzdelávania

Skutočne existuje správa zo stránky práce, pretože RL je pobočkou Strojového učenia. Podľa správy je Strojové učenie najlepšou prácou roku 2019. Nižšie je uvedený prehľad správy. Podľa súčasných trendov prichádza Strojový inžinier s neuveriteľnou priemernou mzdou 146 085 dolárov as tempom rastu 344%.

Zdroj: https://i0.wp.com/www.artificialintelligence-news.com/wp-content/uploads/2019/03/indeed-top-jobs-2019-best.jpg.webp?w=654&ssl=1

Zručnosti pre posilnenie výučby

Nižšie sú uvedené zručnosti potrebné na učenie o posilňovaní:

1. Základné zručnosti

  • pravdepodobnosť
  • štatistika
  • Modelovanie dát

2. Programovacie zručnosti

  • Základy programovania a informatiky
  • Návrh softvéru
  • Dokáže aplikovať knižnice a algoritmy strojového učenia

3. Programovacie jazyky strojového učenia

  • krajta
  • R
  • Aj keď existujú aj iné jazyky, v ktorých je možné navrhnúť modely strojového učenia, ako napríklad Java, C / C ++, ale Python a R sú najobľúbenejšie používané jazyky.

záver

V tomto článku sme začali krátkym úvodom o posilňovacom vzdelávaní a potom sme sa hlboko ponorili do práce RL a rôznych faktorov, ktoré sa podieľajú na práci RL modelov. Potom sme uviedli príklady z reálneho sveta, aby sme o tejto téme porozumeli ešte lepšie. Na konci tohto článku by mal človek dobre rozumieť fungovaniu posilňovacieho vzdelávania.

Odporúčané články

Toto je príručka k téme Čo je výučba posilnenia ?. Tu diskutujeme o funkciách a rôznych faktoroch, ktoré sa podieľajú na vývoji vzdelávacích modelov posilnenia, s príkladmi. Viac informácií nájdete aj v ďalších súvisiacich článkoch -

  1. Typy algoritmov strojového učenia
  2. Úvod do umelej inteligencie
  3. Nástroje umelej inteligencie
  4. Platforma internetu vecí
  5. Top 6 jazykov strojového programovania