Regresia verzus klasifikácia Hlavné kľúčové rozdiely a porovnanie

Rozdiel medzi regresiou a klasifikáciou

V tomto článku si ukážeme hlavné rozdiely medzi regresiou a klasifikáciou. Strojové učenie je všeobecne rozdelené do dvoch typov: strojové učenie pod dohľadom a strojové učenie bez dozoru. V strojovom riadení pod dohľadom máme v množine údajov známu výstupnú hodnotu a na základe nich trénujeme model a používame ho na predikciu, zatiaľ čo v strojovom učení bez dozoru nemáme známu množinu výstupných hodnôt. Aby sme mohli rozlíšiť medzi klasifikáciou a regresiou, pochopme, čo to znamená táto terminológia v strojovom učení. Regresia je algoritmus pod dohľadom strojového učenia, ktorý môže byť vyškolený na predpovedanie výstupov skutočných čísel. Klasifikácia je algoritmus v strojovom učení pod dohľadom, ktorý je vyškolený na identifikáciu kategórií a predpovedanie, v ktorej kategórii spadajú do nových hodnôt.

Porovnanie vzájomných vzťahov medzi regresiou a klasifikáciou (infografika)

Nižšie je päť najlepších porovnaní medzi regresiou a klasifikáciou :

Kľúčové rozdiely medzi regresiou a klasifikáciou

Poďme diskutovať o niektorých kľúčových rozdieloch medzi regresiou a klasifikáciou v nasledujúcich bodoch:

Klasifikácia je o predpovedaní štítka alebo kategórie. Klasifikačný algoritmus klasifikuje požadované súbory údajov do jedného z dvoch alebo viacerých štítkov, algoritmus, ktorý sa zaoberá dvoma triedami alebo kategóriami, sa nazýva binárny klasifikátor a ak existujú viac ako dve triedy, potom sa môže nazývať ako viacstupňový klasifikačný algoritmus.
Regresia je o nájdení optimálnej funkcie na identifikáciu údajov spojitých reálnych hodnôt a na predpovedanie tejto veličiny. Regresia s viacerými premennými ako vstup alebo funkcie na precvičenie algoritmu je známa ako problém s mnohorozmernou regresiou. Ak sú v regresnom probléme vstupné hodnoty závislé alebo usporiadané podľa času, potom sa to nazýva problém predpovedania časových radov.
Klasifikačný model však tiež predpovedá súvislú hodnotu, ktorá je pravdepodobnosťou výskytu udalosti patriacej do príslušnej výstupnej triedy. Pravdepodobnosť udalosti tu predstavuje pravdepodobnosť daného príkladu patriaceho do určitej triedy. Predpovedaná hodnota pravdepodobnosti sa môže previesť na hodnotu triedy výberom označenia triedy, ktorá má najvyššiu pravdepodobnosť.
Pochopme to lepšie, keď uvidíme príklad, predpokladajme, že trénujeme model na predpovedanie toho, či má človek rakovinu alebo nie na základe niektorých funkcií. Ak dostaneme pravdepodobnosť, že osoba s rakovinou bude mať hodnotu 0, 8 a nebude mať rakovinu ako 0, 2, môžeme premeniť pravdepodobnosť 0, 8 na značku triedy s rakovinou, pretože má najvyššiu pravdepodobnosť.
Ako je uvedené vyššie v klasifikácii, aby sme videli, ako dobrý je klasifikačný model, vypočítavame presnosť. Pozrime sa, ako sa vykonáva výpočet, presnosť klasifikácie je možné vykonať tak, že sa pomer správnych predpovedí k celkovým predpovediam vynásobí 100. Ak je vykonaných 50 predpovedí a 10 z nich je správnych a 40 je nesprávnych, presnosť bude 20. %.

Presnosť = (Počet správnych predpovedí / Celkový počet predpovedí) * (100)

Presnosť = (10/50) * (100)
Presnosť = 20%

Ako bolo uvedené vyššie v regresii, vidieť, ako dobrý regresný model funguje najpopulárnejším spôsobom, je vypočítať priemernú štvorcovú chybu (RMSE). Pozrime sa, ako sa vykoná výpočet.

Predpovedaná hodnota regresného modelu je 4, 9, zatiaľ čo skutočná hodnota je 5, 3.

Predpovedaná hodnota regresného modelu je 2, 3, zatiaľ čo skutočná hodnota je 2, 1.

Predpovedaná hodnota regresného modelu je 3, 4, zatiaľ čo skutočná hodnota je 2, 9.

Root znamená, že štvorcová chyba sa dá vypočítať pomocou vzorca.

Štvorcová chyba je (5, 3 - 4, 9) 2 = 0, 16, (2, 1 až 2, 3) 2 = 0, 04, (2, 9 až 3, 4) 2 = 0, 25.

Priemer štvorcovej chyby = 0, 45 / 3 = 0, 15

Stredná odmocnina chyby = druhá odmocnina 0, 15 = 0, 38

To je RMSE = 0, 38. Existuje veľa ďalších metód na výpočet efektívnosti modelu, ale RMSE je najpoužívanejší, pretože RMSE ponúka skóre chyby v rovnakých jednotkách ako predpokladaná hodnota.

Príklady:

Väčšina inžinierov zaoberajúcich sa údajmi považuje za ťažké vybrať si medzi regresiou a klasifikáciou v počiatočnej fáze svojej kariéry. Aby to bolo ľahké, pozrime sa, ako vyzerajú problémy s klasifikáciou a ako vyzerajú problémy s regresiou,

klasifikácia

Predpovedanie, či zajtra prší alebo nie.
Predpovedanie osoby by si malo kúpiť toto dobro alebo neziskovať.
Predpovedanie, či má osoba chorobu alebo nie.

Ak si všimnete pre každú situáciu tu, môže byť ako predpovedaná hodnota buď Áno alebo Nie.

regresia

Predpovedanie ceny pôdy.
Predpovedanie ceny zásob.

Ak si všimnete pre každú situáciu, väčšina z nich má numerickú hodnotu ako predpokladaný výstup.

Porovnávacia tabuľka regresie verzus klasifikácia

V nasledujúcej tabuľke sú zhrnuté porovnania medzi regresiou a klasifikáciou :

parameter	regresia	klasifikácia
Typ funkcie mapovania	V týchto algoritmoch sa vyberie mapovacia funkcia typu, ktorý môže zladiť hodnoty s nepretržitým výstupom.	V týchto algoritmoch sa vyberie mapovacia funkcia typu, ktorý môže zladiť hodnoty s preddefinovanými triedami.
Zahŕňa predpoveď	Pre tento typ algoritmov predpovedané údaje patria do kategórie kontinuálnych hodnôt. (Rovnako ako 23, 34, 45, 67, 28)	Pre tento typ predpovedaných údajov algoritmu patrí do kategórie diskrétnych hodnôt. (Napríklad Áno alebo Nie, patrí do A alebo B alebo C).
Metóda výpočtu	Root Mean Square Error sa vypočíta tak, aby sa identifikovalo najlepšie prispôsobenie súboru údajov.	Presnosť sa vypočíta tak, aby sa určilo najlepšie prispôsobenie súboru údajov.
Povaha predpokladaných údajov	Povaha predpokladaných údajov je usporiadaná. (To sú predpokladané hodnoty budú v určitom poradí).	Povaha predpokladaných údajov nie je usporiadaná. (To sú predpokladané hodnoty nebudú v žiadnom poradí).
algoritmy	Podporuje vektorové regresné a regresné stromy, ktoré sa tiež nazývajú náhodné lesy, čo sú niektoré z populárnych príkladov regresných algoritmov.	Naive Bayes, rozhodovacie stromy a K Nearest Neighbors sú niektoré z populárnych príkladov klasifikačných algoritmov.

záver

Toto sú niektoré z kľúčových rozdielov medzi klasifikáciou a regresiou. V niektorých prípadoch môžu byť hodnoty priebežných výstupov predpovedané v regresii zoskupené do štítkov a zmeniť na klasifikačné modely. Preto musíme jasne pochopiť, ktorý z nich by mal byť zvolený na základe situácie a čo chceme, aby bol predpokladaný výstup.

Odporúčané články

Toto je vodítko k najvyššiemu rozdielu medzi regresiou a klasifikáciou. Tu diskutujeme aj kľúčové rozdiely medzi regresiou a klasifikáciou s infografikou a porovnávacou tabuľkou. Ďalšie informácie nájdete aj v nasledujúcich článkoch -