Úvod do jednoduchej lineárnej regresie

Zo slovníka : Návrat do bývalého alebo menej rozvinutého stavu.

V štatistike: Miera vzťahu medzi strednou hodnotou jednej premennej a zodpovedajúcimi hodnotami ostatných premenných.

Regresia, v ktorej sa vzťah medzi vstupnou premennou (nezávislou premennou) a cieľovou premennou (závislou premennou) považuje za lineárny, sa nazýva lineárna regresia. Jednoduchá lineárna regresia je typ lineárnej regresie, pri ktorej máme iba jednu nezávislú premennú na predpovedanie závislej premennej. Jednoduchá lineárna regresia je jedným z algoritmov strojového učenia. Jednoduchá lineárna regresia patrí do rodiny supervízovaného učenia. Regresia sa používa na predpovedanie kontinuálnych hodnôt.

Model jednoduchej lineárnej regresie

Urobme to jednoduchým. Ako to začalo?

Všetko to začalo v roku 1800 Francisom Galtonom. Študoval výškový vzťah medzi otcami a ich synmi. Zaznamenal vzorec: Buď výška syna by bola tak vysoká ako výška jeho otca, alebo výška jeho syna by mala tendenciu byť bližšie k celkovej priemernej výške všetkých ľudí. Tento jav nie je nič iné ako regresia.

Napríklad Shaq O'Neal je veľmi slávny hráč NBA a je vysoký 2, 16 metra. Jeho synovia Shaqir a Shareef O'neal majú výšku 1, 96 metra a 2, 06 metra. Priemerná výška obyvateľstva je 1, 76 metra. Synovej výšky ustupuje (posun smerom k) priemernej výške.

Ako robíme regresiu?

Vypočítanie regresie iba s dvoma dátovými bodmi:

Všetko, čo chceme urobiť, aby sme našli najlepšiu regresiu, je nakresliť čiaru, ktorá je čo najbližšie ku každej bodke. V prípade dvoch údajových bodov je ľahké nakresliť čiaru, stačí sa k nim pripojiť.

Ak teraz máme niekoľko údajových bodov, ako nakresliť čiaru, ktorá je čo najbližšie ku každému údajovému bodu.

V tomto prípade je naším cieľom minimalizovať vertikálnu vzdialenosť medzi čiarou a všetkými dátovými bodmi. Týmto spôsobom predpovedáme najlepšiu líniu pre náš lineárny regresný model.

Čo je to jednoduchá lineárna regresia?

Nižšie je uvedené podrobné vysvetlenie jednoduchej lineárnej regresie:

  • Nakreslí veľa a veľa možných čiar a potom vykoná akúkoľvek z týchto analýz.
  • Súčet druhých chýb.
  • Súčet absolútnych chýb.
  • metóda najmenších štvorcov … atď
  • Pre našu analýzu použijeme metódu najmenších štvorcov.
  • Urobíme rozdiel vo všetkých bodoch a vypočítame druhú mocninu súčtu všetkých bodov. Bez ohľadu na to, ktorý riadok zadá minimálnu sumu, bude to naše najlepšie.

Napríklad: Takto by sme mohli vziať viac mužov a výšku ich syna a robiť veci, ako napríklad povedať človeku, aký vysoký môže byť jeho syn. predtým, ako sa narodil.


Google obrázok

Vyššie uvedený obrázok ukazuje jednoduchú lineárnu regresiu. Čiara predstavuje regresnú čiaru. Udáva: y = a + b * x

Kde y je závislá premenná (DV): Napríklad, ako sa mení plat osoby v závislosti od počtu rokov skúseností, ktoré má zamestnanec. Takže tu bude závislou premennou mzda zamestnanca alebo osoby.

Závislá premenná je naša cieľová premenná, tá, ktorú chceme predpovedať pomocou lineárnej regresie.

x je naša nezávislá premenná (IV): Závislá premenná je príčinou premennej nezávislej na zmene. Vo vyššie uvedenom príklade je naša závislá premenná počet rokov praxe, pretože počet rokov praxe spôsobuje zmenu mzdy zamestnanca.

  • b je premenná koeficientu pre našu nezávislú premennú x. Tento koeficient hrá rozhodujúcu úlohu. Hovorí, ako zmena jednotky v x (IV) ovplyvní y (DV). Nazýva sa aj koeficient proporcionality. Pokiaľ ide o matematiku, je len na vás, či je sklon čiary, alebo môžete povedať strmú čiaru.
  • V našom príklade, ak je sklon (b) menší, čo znamená, že počet rokov prinesie menší prírastok platu na druhej strane, ak je sklon (b) väčší, prinesie vysoké zvýšenie platu so zvýšením počtu roky skúseností.
  • a je konštantná hodnota. Hovorí sa tiež o priesečníku, to znamená, že priamka pretína os y alebo DV. Inak povedané, keď má zamestnanec nulovú prax (x), potom bude mzda (y) tohto zamestnanca konštantná (a).

Ako funguje najmenšie námestie?

Nižšie sú uvedené body za najmenej štvorcovú prácu:

  • Nakresľuje ľubovoľnú čiaru podľa trendov v údajoch.
  • Berie údajové body a kreslí zvislé čiary. Za parameter považuje vertikálnu vzdialenosť.
  • Tieto zvislé čiary skrátia regresnú čiaru a poskytujú zodpovedajúci bod pre údajové body.
  • Potom nájde vertikálny rozdiel medzi každým dátovým bodom a jeho zodpovedajúcim údajovým bodom na regresnej priamke.
  • Vypočíta chybu, ktorá je druhou mocninou rozdielu.
  • Potom vypočíta súčet chýb.
  • Potom znova nakreslí čiaru a zopakuje vyššie uvedený postup.
  • Týmto spôsobom nakreslí niekoľko riadkov a ako najlepšia sa použije čiara, ktorá dáva najmenší súčet chýb.
  • Táto najlepšia línia je naša jednoduchá lineárna regresná línia.

Aplikácia jednoduchej lineárnej regresie

Regresná analýza sa vykonáva na predikciu spojitej premennej. Regresná analýza má širokú škálu aplikácií. Niektoré príklady sú tieto:

  • Prediktívne analýzy
  • Efektívnosť marketingu,
  • oceňovanie akéhokoľvek záznamu
  • predikcia propagácie produktu.

Tu budeme diskutovať o jednej aplikácii lineárnej regresie pre prediktívnu analýzu. Urobíme modelovanie pomocou pythonu.

Kroky, ktoré sa chystáme zostaviť, sú nasledujúce:

  • Budeme importovať knižnice a súbory údajov.
  • Údaje vopred spracujeme.
  • Dáta rozdelíme do testovacej sady a tréningovej sady.
  • Vytvoríme model, ktorý sa bude snažiť predpovedať cieľovú premennú na základe našej tréningovej sady
  • Predpovedáme cieľovú premennú pre testovaciu sadu.
  • Analyzujeme výsledky predpovedané modelom

Pre našu analýzu použijeme dátový súbor platov s údajmi 30 zamestnancov.

# Importovanie knižníc

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

# Import súboru údajov (vzorka údajov je uvedená v tabuľke)

dataset = pd.read_csv('Salary_Data.csv')

roky skúseností plat
1.5 37731
1.1 39343
2.2 39891
2 43525
1.3 46205
3.2 54445
4 55749

# Predspracovaním súboru údajov tu rozdelíme množinu údajov na závislú premennú a nezávislú premennú. x ako nezávislý a y ako závislá alebo cieľová premenná

X = dataset.iloc(:, :-1).values
y = dataset.iloc(:, 1).values

# Rozdelenie súboru údajov do tréningového a testovacieho súboru:

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 1/3, random_state = 0)

Tu testovacia veľkosť 1/3 ukazuje, že z celkových údajov je 2/3 časť určená na výcvik modelu a zvyšok 1/3 sa používa na testovanie modelu.

# Prispejme náš model jednoduchej lineárnej regresie k tréningovej sade

from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train, y_train)

Model lineárnej regresie je teraz trénovaný. Tento model sa použije na predpovedanie závislej premennej.

# Predpovedanie výsledkov testu

y_pred = regressor.predict(X_test)

# Vizualizácia výsledkov testu

plt.scatter(X_test, y_test, color = 'blue')
plt.plot(X_train, regressor.predict(X_train), color = 'red')
plt.title('Salary of Employee vs Experience (Test set)')
plt.xlabel('Years of Experience')
plt.ylabel('Salary')
plt.show()

# Parameter modelu

print(regressor.intercept_)
print(regressor.coef_)
26816.19224403119
(9345.94244312)

Hodnota interceptora (a) je 26816. Čo naznačuje, že akákoľvek čerstvejšia (nulová skúsenosť) by bola približne 26816 čiastkou ako plat.

Koeficient pre náš model vyšiel ako 9345, 94. Naznačuje, že pri zachovaní konštantnosti všetkých ostatných parametrov zmena jednej jednotky nezávislej premennej (roky exp.) Prinesie zmenu mzdy o 9345 jednotiek.

Metriky hodnotenia regresie

Pre regresnú analýzu sú v zásade k dispozícii 3 dôležité metódy hodnotenia metrík:

  • Stredná absolútna chyba (MAE): Zobrazuje strednú hodnotu absolútnych chýb, čo je rozdiel medzi predpokladanou a skutočnou.
  • Stredná kvadratická chyba (MSE): Zobrazuje priemernú hodnotu kvadratických chýb.
  • Root Mean Squared Error (RMSE): Ukazuje druhú odmocninu priemeru štvorcových chýb.

Vyššie uvedené metódy môžeme porovnať:

  • MAE: Ukazuje priemernú chybu a najjednoduchšiu zo všetkých troch metód.
  • MSE: Tento je populárnejší ako MAE, pretože zvyšuje väčšie chyby, čo vo výsledku ukazuje viac štatistík.
  • RMSE: Tento je lepší ako MSE, pretože chybu môžeme interpretovať z hľadiska y.

Toto nie sú nič iné ako stratové funkcie.

# Hodnotenie modelu

from sklearn import metrics
print('MAE:', metrics.mean_absolute_error(y_test, y_pred))
print('MSE:', metrics.mean_squared_error(y_test, y_pred))
print('RMSE:', np.sqrt(metrics.mean_squared_error(y_test, y_pred)))
MAE: 3426.4269374307123
MSE: 21026037.329511296
RMSE: 4585.4157204675885

záver

Lineárna regresná analýza je výkonný nástroj pre algoritmy strojového učenia, ktorý sa používa na predpovedanie spojitých premenných, ako sú mzdy, tržby, výkon atď. Lineárna regresia zvažuje lineárny vzťah medzi nezávislými a závislými premennými. Jednoduchá lineárna regresia má iba jednu nezávislú premennú, na základe ktorej model predpovedá cieľovú premennú. Diskutovali sme o modeli a použití lineárnej regresie s príkladom prediktívnej analýzy na predpovedanie platu zamestnancov.

Odporúčané články

Toto je sprievodca jednoduchou lineárnou regresiou. Tu diskutujeme model a aplikáciu lineárnej regresie, pričom na predpovedanie miezd zamestnancov používame príklad prediktívnej analýzy. Viac informácií nájdete aj v ďalších súvisiacich článkoch.

  1. Lineárna regresná analýza
  2. Lineárna regresia v R
  3. Lineárne regresné modelovanie
  4. Nástroje na regresné testovanie
  5. Matplotlib v Pythone | Top 14 pozemkov v Matplotlibe
  6. Slovník v Pythone Metódy a príklady
  7. Príklady Square Root v PHP
  8. Lineárna regresia vs logistická regresia Hlavné rozdiely

Kategórie: