Čo je lineárna regresia v R?
Lineárna regresia je najobľúbenejší a najpoužívanejší algoritmus v oblasti štatistiky a strojového učenia. Lineárna regresia je technika modelovania na pochopenie vzťahu medzi vstupnými a výstupnými premennými. Tu musia byť premenné číselné. Lineárna regresia vychádza zo skutočnosti, že výstupná premenná je lineárnou kombináciou vstupných premenných. Výstup je zvyčajne reprezentovaný „y“, zatiaľ čo vstup je „x“.
Lineárnu regresiu v R možno rozdeliť do dvoch skupín
-
Silná lineárna regresia
Toto je regresia, keď je výstupná premenná funkciou jedinej vstupnej premennej. Reprezentácia jednoduchej lineárnej regresie:
y = c0 + c1 * x1
-
Viacnásobná lineárna regresia
Toto je regresia, keď je výstupná premenná funkciou viacnásobnej vstupnej premennej.
y = c0 + c1 * x1 + c2 * x2
V obidvoch vyššie uvedených prípadoch c0, c1, c2 sú koeficienty, ktoré predstavujú regresné hmotnosti.
Lineárna regresia v R
R je veľmi silný štatistický nástroj. Pozrime sa, ako je možné vykonať lineárnu regresiu v R a ako možno interpretovať jej výstupné hodnoty.
Poďme pripraviť súbor údajov, aby sme teraz vykonali hĺbkovú regresiu a porozumeli jej.
Teraz máme dataset, kde nezávislá premenná sú „satisf_score“ a „year_of_Exp“. „Salary_in_lakhs“ je výstupná premenná.
Pokiaľ ide o vyššie uvedený súbor údajov, problém, ktorý tu chceme riešiť pomocou lineárnej regresie, je:
Odhad platu zamestnanca na základe jeho ročných skúseností a skóre spokojnosti v jeho spoločnosti.
R kód lineárnej regresie:
model <- lm(salary_in_Lakhs ~ satisfaction_score + year_of_Exp, data = employee.data)
summary(model)
Výstupom vyššie uvedeného kódu bude:
Vzorec regresie sa stáva
Y = 12, 29-1, 19 * satisf_score + 2, 08 × 2 * year_of_Exp
V prípade, že jeden má viac vstupov do modelu.
Potom kód R môže byť:
model <- lm (salary_in_Lakhs ~., data = zamestnanec.data)
Ak však niekto chce vybrať premennú z viacerých vstupných premenných, existuje niekoľko techník, ako napríklad „spätné vylúčenie“, „výber vpred“ atď.
Interpretácia lineárnej regresie v R
Ďalej uvádzame niektoré interpretácie lineárnej regresie r, ktoré sú nasledujúce:
1.Residuals
Vzťahuje sa to na rozdiel medzi skutočnou odpoveďou a predpokladanou odpoveďou modelu. Takže pre každý bod bude existovať jedna skutočná odpoveď a jedna predpokladaná odpoveď. Zvyšky teda budú toľko, koľko je pozorovaní. V našom prípade máme štyri pozorovania, teda štyri zvyšky.
2.Coefficients
V ďalšej časti nájdeme sekciu koeficientov, ktorá zobrazuje priesečník a sklon. Ak chce niekto predpovedať plat zamestnanca na základe jeho skúseností a skóre spokojnosti, je potrebné vyvinúť modelový vzorec založený na sklone a odpočúvaní. Tento vzorec vám pomôže pri predpovedaní platu. Odchýlka a sklon pomáhajú analytikom prísť s najlepším modelom, ktorý vyhovuje údajovým bodom.
Sklon: Zobrazuje strmosť čiary.
Priesečník: Miesto, kde čiara pretína os.
Poďme pochopiť, ako sa formuje formule na základe sklonu a odpočúvania.
Povedzme, že je 3 a sklon je 5.
Vzorec je y = 3 + 5x . To znamená, že ak sa x zvýši o jednotku, y sa zvýši o 5.
a. Efektívne - odhad
V tomto prípade priesečník označuje priemernú hodnotu výstupnej premennej, keď je všetok vstup nulový. V našom prípade teda bude mzda v jazerách predstavovať 12, 29 lakov, pretože priemerné skóre spokojnosti a skúsenosti sú nulové. Sklon predstavuje zmenu výstupnej premennej s jednotkovou zmenou vstupnej premennej.
b.Cofficient - Standard Error
Štandardná chyba je odhad chyby, ktorú môžeme získať pri výpočte rozdielu medzi skutočnou a predpokladanou hodnotou našej premennej odozvy. Na druhej strane to hovorí o spoľahlivosti súvisiacich vstupných a výstupných premenných.
c. Efektívna - hodnota t
Táto hodnota dáva dôveru v odmietnutie nulovej hypotézy. Čím väčšia je hodnota od nuly, tým väčšia je dôvera v odmietnutie nulovej hypotézy a stanovenie vzťahu medzi výstupnou a vstupnou premennou. V našom prípade je hodnota mimo nulu.
d.Cofficient - Pr (> t)
Táto skratka v podstate zobrazuje p-hodnotu. Čím bližšie je k nule, tým ľahšie môžeme odmietnuť nulovú hypotézu. Čiara, ktorú vidíme v našom prípade, táto hodnota je blízko nuly, môžeme povedať, že existuje vzťah medzi balíkom platov, skóre spokojnosti a rokom skúseností.
Zvyšková štandardná chyba
Toto zobrazuje chybu v predikcii premennej odozvy. Čím je nižšia, tým vyššia je presnosť modelu.
Viacnásobné R na druhú, Upravené na druhú
R-kvadrát je veľmi dôležité štatistické opatrenie na pochopenie toho, ako blízko sú údaje vložené do modelu. V našom prípade teda predstavuje, ako dobre predstavuje náš model, ktorým je lineárna regresia, množinu údajov.
Hodnota R-kvadrát je vždy medzi 0 a 1. Vzorec je:
Čím bližšia je hodnota 1, tým lepšie model popisuje súbory údajov a ich rozptyl.
Ak však na obrázok príde viac ako jedna vstupná premenná, uprednostňuje sa upravená hodnota R na druhú.
F-štatistika
Je to silné opatrenie na určenie vzťahu medzi premennou vstupu a odozvy. Čím väčšia je hodnota ako 1, tým vyššia je dôvera vo vzťah medzi vstupnou a výstupnou premennou.
V našom prípade je to „937, 5“, čo je vzhľadom na veľkosť údajov relatívne väčšie. Odmietnutie nulovej hypotézy sa preto uľahčí.
Ak chce niekto vidieť interval spoľahlivosti pre koeficienty modelu, takto je to možné: -
Vizualizácia regresie
R kód:
plot (salary_in_Lakhs ~ satisf_score + year_of_Exp, data = zamestnanec.data)
abline (model)
Je vždy lepšie získať viac a viac bodov, než sa prispôsobíte modelu.
Záver - Lineárna regresia v R
Lineárna regresia je jednoduchá, ľahko namontovateľná, ľahko pochopiteľná, ale veľmi výkonná. Videli sme, ako je možné vykonať lineárnu regresiu na R. Pokúsili sme sa tiež interpretovať výsledky, čo vám môže pomôcť pri optimalizácii modelu. Akonáhle sa človek dostane pohodlný s jednoduchou lineárnou regresiou, mali by ste skúsiť viacnásobnú lineárnu regresiu. Spolu s tým, pretože lineárna regresia je citlivá na odľahlé hodnoty, je potrebné sa na ňu pozrieť, a potom priamo skočiť do fitingu na lineárnu regresiu.
Odporúčané články
Toto je príručka k lineárnej regresii v R. Tu diskutujeme o tom, čo je lineárna regresia v R? kategorizácia, vizualizácia a interpretácia R. Ďalšie informácie nájdete aj v ďalších navrhovaných článkoch -
- Prediktívne modelovanie
- Logistická regresia v R
- Rozhodovací strom v R
- R Otázky na pohovor
- Hlavné rozdiely regresie v porovnaní s klasifikáciou
- Sprievodca stromom rozhodovania v strojovom vzdelávaní
- Lineárna regresia vs logistická regresia Hlavné rozdiely