Čo je to regresná analýza? - Typy a výhody regresnej analýzy

Obsah:

Anonim

Úvod do regresnej analýzy

Regresná analýza je algoritmus prediktívneho modelovania na predpovedanie výsledku premennej a identifikáciu premenných (nezávislé premenné), ktoré prispievajú k výslednej premennej (cieľová alebo závislá premenná) alebo sú od nej závislé. Jednoducho povedané, je to technika na nájdenie vzťahu medzi nezávislými a závislými premennými, aby sa dosiahol výsledok. Je jednoduché používať a interpretovať výsledok. Existuje mnoho typov regresných techník, ktoré sa bežne používajú v rôznych odvetviach. Medzi príklady regresie patrí predpovedanie mzdy zamestnanca alebo príjmu spoločnosti za rok.

Ako fungovala regresná analýza?

Existuje veľa typov regresných techník, ktoré sa používajú s ohľadom na rôzne faktory a výsledky.

  • Lineárna regresia
  • Logistická regresia
  • Laso / Ridgeova regresia
  • Polynomická regresia

Ďalej uvádzame niektoré dôležité štatistické regresné testy, ktoré sa používajú v rôznych odvetviach:

1. Lineárna regresia

Používa sa, keď je výsledná premenná lineárne závislá od nezávislých premenných. Zvyčajne sa používa, keď nemáme obrovský súbor údajov. Je tiež citlivý na odľahlé hodnoty, takže ak súbor údajov obsahuje odľahlé hodnoty, ako je lepšie, pred použitím lineárnej regresie sa s nimi zaobchádza. Existujú techniky jednoduchej a viacnásobnej regresie. Jednoduchá lineárna regresia je analýza, keď je výsledná premenná lineárne závislá od jedinej nezávislej premennej. Jednoduchá lineárna regresia sleduje rovnicu priamky, ktorá je uvedená nižšie:

Y=mx+c

Kde,

Y = Cieľová, závislá alebo kritéria premennej

x = nezávislá alebo predikčná premenná

m = sklon alebo koeficient regresie

c = konštanta

Viac variabilná lineárna regresia definuje vzťah medzi výslednou premennou a viac ako jednou nezávislou premennou. Z toho vyplýva rovnica uvedená nižšie, kde závislé premenné sú lineárnou kombináciou všetkých nezávislých premenných:

Y= m1x1+m2x2+m3x3+…mnan+c

Kde,

Y = Cieľová, závislá alebo kritéria premennej

x1, x2, x3 … xn = nezávislé alebo predikčné premenné

m1, m2, m3… mn = sklon alebo regresné koeficienty príslušných premenných

c = konštanta

Lineárna regresia sa riadi princípom metódy najmenších štvorcov. Táto metóda uvádza, že najvýhodnejšia línia sa vyberie minimalizovaním súčtu štvorcových chýb. Čiara, ktorá sa najviac hodí, sa vyberie vtedy, keď je súčet druhej chyby medzi pozorovanými údajmi a čiarou minimálny.

Pred použitím lineárnej regresie na dátový súbor by sa malo zabezpečiť niekoľko predpokladov.

  • Medzi nezávislými a závislými premennými by mal existovať lineárny vzťah.
  • Medzi nezávislými premennými by nemala byť žiadna alebo len malá multiklinearita. Multikolinearita je definovaná ako jav, pri ktorom existuje vysoká korelácia medzi nezávislými premennými. Môžeme s multicollinearitou zaobchádzať tak, že vynecháme jednu premennú, ktorá je v korelácii, alebo zaobchádza s dvoma premennými ako s jednou premennou.
  • Homoscedasticita: Je definovaná ako stav, v ktorom by sa mali chybové termíny v regresnej analýze náhodne rozdeliť cez líniu. Ak existuje nejaký identifikovaný obrazec, o ktorom sa hovorí, že údaje sú heteroscedastické, nemal by existovať žiadny vzorec.
  • Všetky premenné by sa mali normálne distribuovať, čo vidíme vynesením grafu QQ. Ak údaje nie sú bežne distribuované, môžeme na ich spracovanie použiť ľubovoľné metódy nelineárnej transformácie.

Preto je vždy vhodné otestovať predpoklady a zároveň použiť lineárnu regresiu na získanie dobrej presnosti a správneho výsledku.

2. Logistická regresia

Táto regresná technika sa používa, keď je cieľová alebo výsledná premenná kategorickej alebo binárnej povahy. Hlavný rozdiel medzi lineárnou a logistickou regresiou spočíva v cieľovej premennej, v lineárnej regresii by mal byť kontinuálny, zatiaľ čo v logistike by mal byť kategorický. Výsledná premenná by mala mať iba dve triedy, nie viac. Niektoré z príkladov sú filtre nevyžiadanej pošty v e-mailoch (nevyžiadaná pošta alebo nie), detekcia podvodov (podvody / podvody) atď. Funguje na princípe pravdepodobnosti. Nastavením prahovej hodnoty ju možno rozdeliť do dvoch kategórií.

Napríklad: Ak existujú dve kategórie A, B a nastavíme prahovú hodnotu na 0, 5, pravdepodobnosť nad 0, 5 sa bude považovať za jednu kategóriu a pod 0, 5 bude ďalšia kategória. Logistická regresia sleduje krivku tvaru S. Pred vytvorením modelu logistickej regresie musíme súbor údajov rozdeliť na výcvik a testovanie. Pretože cieľová premenná je kategorická alebo binárna, musíme sa ubezpečiť, že v tréningovej sade existuje správna rovnováha triedy. Ak existuje nerovnováha triedy, je možné ju liečiť rôznymi spôsobmi, ako je uvedené nižšie:

  • Vzorkovanie hore: Pri tejto technike sa vzorka triedy, ktorá má menej riadkov, vzorkuje, aby zodpovedala počtu riadkov väčšinovej triedy.
  • Vzorkovanie nadol: Pri tejto technike sa trieda, ktorá má viac riadkov, vzorkuje nadol, aby zodpovedala počtu riadkov triedy menšín.

Pred použitím modelu logistickej regresie na súbory údajov je potrebné porozumieť niektorým dôležitým bodom:

  • Cieľová premenná by mala byť binárnej povahy. Ak sú v cieľovej premennej viac ako 2 triedy, ako je známe ako Multinomial Logistic Regression .
  • Medzi nezávislými premennými by nemala byť žiadna alebo len malá multiklinearita.
  • Vyžaduje si to obrovskú veľkosť vzorky.
  • Medzi nezávislými premennými a logom pravdepodobnosti by mal existovať lineárny vzťah.

Výhody regresie

Regresná analýza má mnoho výhod. Namiesto toho, aby sme uvažovali o našich črevných pocitoch a predpovedali výsledok, môžeme použiť regresnú analýzu a ukázať platné body pre možné výsledky.

Niektoré z nich sú uvedené nižšie:

  • Predpovedať predaj a príjmy v ktoromkoľvek sektore na kratšie alebo dlhšie obdobia.
  • Predpovedať mieru odlivu zákazníkov v akomkoľvek odvetví a nájsť vhodné opatrenia na ich zníženie.
  • Pochopiť a predvídať úroveň zásob skladu.
  • Zistiť, či bude uvedenie nového produktu na trh úspešné alebo nie.
  • Predpovedať, či niektorý zákazník zlyhá, alebo nie.
  • Predpovedať, či niektorý zákazník kúpi produkt alebo nie.
  • Detekcia podvodov alebo spamu

záver

Po použití modelu sa zvažujú rôzne hodnotiace metriky. Aj keď existujú predpoklady, ktoré je potrebné otestovať pred použitím modelu, vždy môžeme modifikovať premenné pomocou rôznych matematických metód a zvýšiť výkonnosť modelu.

Odporúčané články

Toto je príručka k analýze regresie. Tu diskutujeme Úvod do regresnej analýzy, Ako fungovala regresná analýza a prínosy regresie. Viac informácií nájdete aj v ďalších navrhovaných článkoch -

  1. Lineárna regresná analýza
  2. Nástroje na analýzu údajov
  3. Nástroje na regresné testovanie
  4. Analýza veľkých dát
  5. Regresia verzus klasifikácia Hlavné kľúčové rozdiely