Prehľad modelovania lineárnej regresie

Keď sa začnete učiť o algoritmoch strojového učenia, začnete sa učiť o rôznych spôsoboch algoritmov ML, tj dozore pod dohľadom, bez dozoru, čiastočne pod dohľadom a posilňovacieho učenia. V tomto článku sa budeme zaoberať učením pod dohľadom a jedným zo základných, ale výkonných algoritmov: lineárna regresia.

Preto pod dohľadom učenia je učenie, kde školíme stroj, aby pochopil vzťah medzi vstupnými a výstupnými hodnotami uvedenými v súbore údajov o tréningu a potom pomocou toho istého modelu predpovedali výstupné hodnoty pre súbor testovacích údajov. Takže v zásade, ak už máme výstup alebo označenie uvedené v našom súbore údajov o školení a sme si istí, že poskytnutý výstup má zmysel zodpovedajúci vstupu, potom použijeme supervízované učenie. Algoritmy pod dohľadom sú klasifikované do regresie a klasifikácie.

Algoritmy regresie sa používajú, keď zistíte, že výstup je spojitá premenná, zatiaľ čo klasifikačné algoritmy sa používajú, keď je výstup rozdelený do sekcií ako Pass / Fail, Good / Average / Bad atď. Máme rôzne algoritmy na vykonanie regresie alebo klasifikácie. akcie s algoritmom lineárnej regresie, ktorý je základným algoritmom v regresii.

Pokiaľ ide o túto regresiu, skôr ako sa dostanem k algoritmu, dovoľte mi nastaviť základňu pre vás. V školstve dúfam, že si pamätáte koncept rovnice rovníc. Dovoľte mi o tom stručne uviesť. Na rovine XY ste dostali dva body, tj povedzme (x1, y1) a (x2, y2), kde y1 je výstup x1 a y2 je výstup x2, potom je lineárna rovnica, ktorá prechádza bodmi, (y- y1) = m (x-x1) kde m je sklon priamky. Po nájdení rovnice priamky, ak ste dostali bodku povedať (x3, y3), potom by ste mohli ľahko predvídať, či bod leží na priamke alebo vzdialenosť bodu od priamky. Toto bola základná regresia, ktorú som urobil pri výučbe bez toho, aby som si uvedomil, že by to malo taký veľký význam v strojovom vzdelávaní. Spravidla to robíme tak, že sa pokúsime identifikovať rovnicu alebo krivku rovnice, ktorá by mohla správne zapadať na vstup a výstup súboru údajov o vlaku, a potom použiť tú istú rovnicu na predpovedanie výstupnej hodnoty súboru testovacích údajov. Výsledkom by bola nepretržitá požadovaná hodnota.

Definícia lineárnej regresie

Lineárna regresia existuje už veľmi dlho (okolo 200 rokov). Je to lineárny model, tj predpokladá lineárny vzťah medzi vstupnými premennými (x) a jednou výstupnou premennou (y). Y je tu vypočítané lineárnou kombináciou vstupných premenných.

Máme dva typy lineárnej regresie

Jednoduchá lineárna regresia

Ak existuje jedna vstupná premenná, tj lineárna rovnica je c

považovaný za y = mx + c, potom je to jednoduchá lineárna regresia.

Viacnásobná lineárna regresia

Ak existuje viac vstupných premenných, tj lineárna rovnica sa považuje za y = ax 1 + bx 2 +… nx n, potom je to viacnásobná lineárna regresia. Na prípravu alebo trénovanie regresnej rovnice z údajov sa používajú rôzne techniky a najbežnejšia z nich sa nazýva obyčajné najmenšie štvorce. Model vytvorený pomocou uvedenej metódy sa nazýva lineárna regresia najmenších štvorcov alebo len regresia najmenších štvorcov. Model sa používa, keď vstupné hodnoty a výstupné hodnoty, ktoré sa majú určiť, sú číselné hodnoty. Ak existuje iba jeden vstup a jeden výstup, potom je vytvorená rovnica priamkovou rovnicou, tj

y = B0x+B1

kde koeficienty priamky sa určia pomocou štatistických metód.

Jednoduché modely lineárnej regresie sú v ML veľmi zriedkavé, pretože vo všeobecnosti budeme mať rôzne vstupné faktory na určenie výsledku. Ak existuje viac vstupných hodnôt a jedna výstupná hodnota, potom sa vytvorená rovnica rovná rovine alebo hyper rovine.

y = ax 1 +bx 2 +…nx n

Hlavnou myšlienkou regresného modelu je získať priamku rovnice, ktorá najlepšie vyhovuje údajom. Najpriaznivejšia čiara je tá, kde je celková chyba predikcie pre všetky údajové body považovaná za čo najmenšiu. Chyba je vzdialenosť medzi bodom v rovine a regresnou čiarou.

príklad

Začnime príkladom jednoduchej lineárnej regresie.

Vzťah medzi výškou a hmotnosťou osoby je priamo úmerný. Uskutočnila sa štúdia na dobrovoľníkoch, aby sa určila výška a ideálna hmotnosť osoby a hodnoty sa zaznamenali. Toto sa bude považovať za náš súbor údajov o školení. Použitím tréningových dát sa vypočíta regresná priamka, ktorá dá minimálnu chybu. Táto lineárna rovnica sa potom používa na vytváranie predpovedí na nové údaje. To znamená, že ak dáme výšku osoby, potom by sa podľa nami vyvinutého modelu mala predpovedať zodpovedajúca hmotnosť s minimálnou alebo nulovou chybou.

Y(pred) = b0 + b1*x

Hodnoty b0 a b1 sa musia zvoliť tak, aby minimalizovali chybu. Ak je súčet štvorcovej chyby braný ako metrika na vyhodnotenie modelu, potom cieľom je získať čiaru, ktorá chybu najlepšie redukuje.

Zarovnávame chybu, aby sa pozitívne a negatívne hodnoty navzájom nezrušili. Pre model s jedným prediktorom:

Výpočet priesečníka (b0) v lineárnej rovnici sa vykonáva pomocou:

Koeficient pre vstupnú hodnotu x sa vypočíta pomocou:

Pochopenie koeficientu b 1 :

  • Ak b 1 > 0, potom x (vstup) a y (výstup) sú priamo úmerné. To znamená, že zvýšenie x sa zvýši y, ako je zvýšenie výšky, zvýšenie hmotnosti.
  • Ak b 1 <0, potom x (prediktor) a y (cieľ) sú nepriamo úmerné. To znamená, že zvýšenie x sa zníži y, ako napríklad zvýšenie rýchlosti vozidla, čas sa zníži.

Porozumenie koeficientu b 0 :

  • Bo prijíma zostatkovú hodnotu pre model a zabezpečuje, aby predikcia nebola ovplyvnená. Ak nemáme termín B 0, potom je lineárna rovnica (y = B 1 x) nútená prejsť pôvodom, tj vstupné a výstupné hodnoty vložené do výsledku modelu sú 0. To však nikdy nebude, ak budeme mať 0 na vstupe bude potom B 0 priemer všetkých predpokladaných hodnôt, keď x = 0. Nastavenie všetkých hodnôt prediktora na 0 v prípade x = 0 bude mať za následok stratu údajov a je často nemožné.

Okrem vyššie uvedených koeficientov sa tento model dá vypočítať aj pomocou normálnych rovníc. Vo svojom nadchádzajúcom článku sa budem ďalej zaoberať používaním normálnych rovníc a navrhnutím jednoduchého / viacročného regresného modelu.

Odporúčané články

Toto je sprievodca modelovaním lineárnej regresie. Tu diskutujeme definíciu, typy lineárnej regresie, ktorá zahŕňa jednoduchú a viacnásobnú lineárnu regresiu spolu s niektorými príkladmi. Viac informácií nájdete aj v nasledujúcich článkoch -

  1. Lineárna regresia v R
  2. Lineárna regresia v Exceli
  3. Prediktívne modelovanie
  4. Ako vytvoriť GLM v R?
  5. Porovnanie lineárnej regresie s logistickou regresiou

Kategórie: