Prehľad funkcií strát v strojovom učení

Rovnako ako nás učitelia vedú, či už na našich akademických pracoviskách pracujeme dobre, alebo aj funkcie Loss, vykonávajú rovnakú prácu. Je to metóda vyhodnotenia toho, ako dobre náš algoritmus modeluje údaje. Stratové funkcie sú hlavným zdrojom hodnotenia v modernom strojovom učení. Keď zmeníte svoj algoritmus s cieľom vylepšiť svoj model, hodnota funkcie straty vám povie, či robíte pokrok alebo nie. Naším prvoradým cieľom by malo byť zníženie strát optimalizáciou. V tomto článku sa budeme venovať tomu, ako fungujú stratové funkcie a rôzne typy stratových funkcií.

Ako fungujú stratové funkcie?

Slovo „strata“ označuje pokutu za nedosiahnutie očakávaného výstupu. Ak je odchýlka predpovedanej hodnoty oproti očakávanej hodnote podľa nášho modelu veľká, potom stratová funkcia dáva vyššie číslo ako výstup a ak je odchýlka malá a oveľa bližšia k očakávanej hodnote, vydá menšie číslo.

Tu je príklad, keď sa snažíme predpovedať predajnú cenu nehnuteľností v mestách metra.

predpovedal

Predajná cena (v lakh)

skutočný

Predajná cena (v lakh)

Odchýlka (strata)
Bangalore: 45 0 (Všetky predpovede sú správne)
Pune: 35
Chennai: 40
Bangalore: 40Bangalore: 45 5 lakh pre Bangalore, 2 lakh pre Chennai
Pune: 35Pune: 35
Chennai: 38Chennai: 40
Bangalore: 43 2 lakh pre Bangalore, 5 lakh pre, Pune2 lakh pre Chennai,
Pune: 30
Chennai: 45

Je dôležité poznamenať, že na miere odchýlky nezáleží, na tom, na čom záleží, je to, či hodnota predpokladaná naším modelom je správna alebo nesprávna. Stratové funkcie sa líšia podľa vášho problému, na ktorý sa strojové učenie aplikuje. Nákladová funkcia je iný pojem, ktorý sa používa zameniteľne pre stratovú funkciu, ale má trochu odlišný význam. Stratová funkcia je pre jediný príklad výcviku, zatiaľ čo nákladová funkcia je priemerná strata za celý súbor údajov o vlaku.

Druhy stratových funkcií pri strojovom učení

Nižšie sú uvedené rôzne typy strát v strojovom učení, ktoré sú nasledujúce:

1) Funkcie regresnej straty:

Lineárna regresia je základným konceptom tejto funkcie. Funkcie regresnej straty vytvárajú lineárny vzťah medzi závislou premennou (Y) a nezávislou premennou (X), preto sa snažíme, aby sa na tieto premenné hodila najlepšia čiara v priestore.

Y = X0 + X1 + X2 + X3 + X4 … + Xn

X = nezávislé premenné

Y = závislá premenná

  • Priemerná strata chyby na druhú:

MSE (chyba L2) meria priemerný štvorcový rozdiel medzi skutočnými a predpovedanými hodnotami podľa modelu. Výstupom je jedno číslo priradené k množine hodnôt. Naším cieľom je znížiť MSE, aby sa zlepšila presnosť modelu.

Zoberme lineárnu rovnicu y = mx + c, môžeme odvodiť MSE ako:

MSE = 1 / N ∑i = 1 až n (y (i) - (mx (i) + b)) 2

Tu N je celkový počet dátových bodov, 1 / N Ni = 1 až n je stredná hodnota a y (i) je skutočná hodnota a mx (i) + b je jej predpokladaná hodnota.

  • Stredná strata logaritmických chýb (MSLE):

MSLE meria pomer medzi skutočnou a predpokladanou hodnotou. Zavádza asymetriu v krivke chýb. MSLE sa stará iba o percentuálny rozdiel skutočných a predpokladaných hodnôt. Môže to byť dobrá voľba ako stratová funkcia, keď chceme predpovedať predajné ceny domov, predajné ceny pekárne a údaje sú nepretržité.

Strata sa tu môže vypočítať ako priemer pozorovaných údajov kvadratických rozdielov medzi log-transformovanými skutočnými a predpovedanými hodnotami, ktoré možno uviesť ako:

L = 1nnΣi = 1 (log (y (i) 1) -log (y (i) 1)) 2

  • Priemerná absolútna chyba (MAE):

MAE vypočíta súčet absolútnych rozdielov medzi skutočnými a predpokladanými premennými. To znamená, že meria priemernú veľkosť chýb v skupine predpokladaných hodnôt. Použitie strednej štvorcovej chyby je ľahšie vyriešiteľné, ale použitie absolútnej chyby je odolnejšie voči odľahlým hodnotám. Odľahlé hodnoty sú tie hodnoty, ktoré sa veľmi líšia od iných pozorovaných údajových bodov.

MAE sa dá vypočítať ako:

L = 1nnΣi = 1 || y (i) - y (i) ||

2) Funkcie straty binárnej klasifikácie:

Tieto straty sú určené na meranie výkonnosti klasifikačného modelu. V tomto prípade sú dátovým bodom priradené jedno z označení, tj buď 0 alebo 1. Ďalej ich možno klasifikovať ako:

  • Binárna krížová entropia

Je to predvolená funkcia straty pri problémoch s binárnou klasifikáciou. Strata krížovej entropie vypočíta výkonnosť klasifikačného modelu, ktorý dáva výstup pravdepodobnostnej hodnoty medzi 0 a 1. Strata krížovej entropie sa zvyšuje, keď sa predpokladaná hodnota pravdepodobnosti odchýli od skutočnej značky.

  • Strata závesu

Strata závesu sa môže použiť ako alternatíva k krížovej entropii, ktorá bola pôvodne vyvinutá na použitie s algoritmom podporného vektorového stroja. Strata závesu najlepšie funguje pri probléme s klasifikáciou, pretože cieľové hodnoty sú v množine (-1, 1). Umožňuje priradiť viac chýb, keď existuje rozdiel v znamienku medzi skutočnými a predpokladanými hodnotami. Výsledkom je lepší výkon ako krížová entropia.

  • Štvorcový záves

Predĺženie straty závesu, ktoré jednoducho vypočíta druhú mocninu skóre straty závesu. Znižuje chybovú funkciu a uľahčuje prácu s ňou. Nájde hranicu klasifikácie, ktorá určuje maximálny rozdiel medzi dátovými bodmi rôznych tried. Štvorcová strata závesu sa perfektne hodí pre ÁNO ALEBO NIE typ problémov pri rozhodovaní, kde nie je pravdepodobnosť odchýlkou.

3) Funkcie straty viacerých tried klasifikácie:

Viacstupňová klasifikácia je prediktívne modely, v ktorých sú údajové body priradené k viac ako dvom triedam. Každá trieda má priradenú jedinečnú hodnotu od 0 do (Number_of_class - 1). Dôrazne sa odporúča pri problémoch s klasifikáciou obrázkov alebo textov, kde jeden príspevok môže obsahovať viac tém.

  • Viacstupňová krížová entropia

V tomto prípade sú cieľové hodnoty v množine 0 až n tj (0, 1, 2, 3 … n). Vypočítava skóre, ktoré berie priemerný rozdiel medzi skutočnými a predpokladanými hodnotami pravdepodobnosti a skóre sa minimalizuje na dosiahnutie najlepšej možnej presnosti. Viactriedna krížová entropia je predvolená funkcia straty pri problémoch s klasifikáciou textu.

  • Riedka viactriedová krížová entropia

Jeden proces kódovania za horúca sťažuje manipuláciu s veľkým počtom dátových bodov s krížovou entropiou viacerých tried. Riedka krížová entropia rieši tento problém vykonaním výpočtu chyby bez použitia jednorazového kódovania.

  • Strata divergencie Kullback Leiblera

Strata divergencie KL vypočíta rozdiel medzi distribúciou pravdepodobnosti a distribúciou východiskovej hodnoty a zistí, koľko informácií sa stratí v bitoch. Výstupom je nezáporná hodnota, ktorá určuje, aké úzke sú dve rozdelenia pravdepodobnosti. Na opis divergencie KL z hľadiska pravdepodobnostného pohľadu sa používa pomer pravdepodobnosti.

V tomto článku sme spočiatku pochopili, ako fungujú stratové funkcie, a potom sme preskúmali komplexný zoznam stratových funkcií s použitými príkladmi prípadov. Pochopenie je však prakticky prospešnejšie, preto sa pokúste prečítať viac a implementovať ho. Dôkladne objasnia vaše pochybnosti.

Odporúčané články

Toto je sprievodca stratovými funkciami pri strojovom učení. Tu diskutujeme o tom, ako fungujú stratové funkcie a o typoch stratových funkcií pri strojovom učení. Ďalšie informácie nájdete aj v nasledujúcich článkoch -

  1. Metódy strojového učenia
  2. Úvod do strojového učenia
  3. Veľké dátové technológie
  4. Softvér na analýzu veľkých dát
  5. Naučte sa kategórie Hyperparameter
  6. Životný cyklus strojového učenia 8 najlepších etáp

Kategórie: