Úvod Logistická regresia v R

Logistická regresia v R známa tiež ako problémy binárnej klasifikácie. Používajú sa na predpovedanie výsledku ako (1 alebo 0 buď áno / nie) pre nezávislú premennú. Aby sme pochopili logistickú regresiu v R, je dôležité poznať základnú lineárnu regresiu, pracovať s premennou priebežného výsledku. Konkrétnejšie môžeme povedať, že ide o predĺženie lineárnej regresie. V tomto článku budeme diskutovať o rôznych metódach použitých na výpočet modelu a hodnotenia. Logistická regresia sa používa na riešenie problémov klasifikácie v strojovom učení.

Ako funguje logistická regresia v R?

Logistická regresia je technika používaná v oblasti štatistiky, ktorá meria rozdiel medzi závislou a nezávislou premennou s usmernením logistickej funkcie odhadom rozdielneho výskytu pravdepodobností. Môžu byť buď binomické (majú áno alebo žiadny výsledok) alebo multinomické (spravodlivé vs. zlé veľmi zlé). Hodnoty pravdepodobnosti sú medzi 0 a 1 a premenná by mala byť kladná (<1). Zameriava sa na závislú premennú a má nasledujúce kroky:

  1. n- č. opravených pokusov na prijatom súbore údajov
  2. s pokusom s dvoma výsledkami
  3. výsledok pravdepodobnosti by mal byť jeden od druhého nezávislý
  4. Pravdepodobnosť úspechu a neúspechu musí byť pri každej skúške rovnaká.

V tomto uvažujeme o príklade tým, že vezmeme balík ISLR, ktorý poskytuje rôzne súbory údajov na školenie. Na prispôsobenie modelu sa tu používa zovšeobecnená funkcia lineárneho modelu (glm). Na vytvorenie logistickej regresnej funkcie glm sa uprednostňuje a získava podrobnosti o nich pomocou zhrnutia pre analytickú úlohu.

Pracovné kroky:

Pracovné kroky týkajúce sa logistickej regresie sa riadia určitými pojmami ako napr

  • Modelovanie pravdepodobnosti alebo odhad pravdepodobnosti
  • predpoveď
  • Inicializácia prahovej hodnoty (vysoká alebo nízka špecifickosť)
  • Matica zámeny
  • Plocha vykreslenia pod krivkou (AUC)

Príklady

Nižšie je uvedený príklad logistickej regresie v R:

Načítanie údajov:

Inštalácia balíka ISLR.

vyžadujú (ISLR)

Načítava sa požadovaný balík: ISLR

V tomto článku použijeme súbor údajov „Týždenne“ v programe RStudio. Súbor údajov obsahuje súhrnné podrobnosti o týždenných zásobách od roku 1990 do roku 2010.

vyžadujú (ISLR)

Názvy (OJ)

Výkon:

(1) „Nákup“ „WeekofPurchase“ „StoreID“ „PriceCH“

(5) „PriceMM“ „DiscCH“ „DiscMM“ „SpecialCH“

(9) „SpecialMM“ „LoyalCH“ „SalePriceMM“ „SalePriceCH“

(13) „PriceDiff“ „Store7“ „PctDiscMM“ „PctDiscCH“

(17) ”ListPriceDiff” “STORE”

str (OJ)

Zobrazuje 1070 pozorovaní 18 premenných.

Náš súbor údajov obsahuje 1070 pozorovaní a 18 rôznych premenných. tu máme špeciálne MM a špeciálne CH má závislý výsledok. Zoberme si špeciálny atribút MM na správne pozorovanie a presnosť 84%.

tabuľka (OJ $ SpecialMM)

0 1

897 173

Ďalej nájdite pravdepodobnosť

897/1070

(1) 0, 8383178

V ďalšom kroku pre lepšiu vzorku Rozdelenie súboru údajov do tréningových a testovacích údajov je goo

knižnica (caTools)

set.seed (88)

split = sample.split (OJ $ SpecialMM, SplitRatio = 0, 84)

Vzhľadom na to, že qt má tréningovú súpravu a qs má vzorové údaje testovacej sady.

QT = podmnožina (OJ, delená == TRUE)

qs = podmnožina (OJ, delená == FALSE)

nrow (QT)

(1) 898

nrow (qs)

(1) 172

Preto máme 898 tréningových súprav a 172 testovacích vzoriek.

Ďalšie použitie Summary () poskytuje podrobnosti o odchýlok a koefektívnych tabuľkách pre regresnú analýzu.

QualityLog = glm (SpecialMM ~ SalePriceMM + WeekofPurchase, data = qt, family = binomial)

Zhrnutie (QualityLog)

Výkon:

volajte:

glm (formula = SpecialMM ~ SalePriceMM + WeekofPurchase, family = binomial,

údaje = qt)

Zvyšky Deviance:

Min. 1Q Medián 3Q Max

-1, 2790 -0, 4182 -0, 3668 -0, 2640 2, 4284

koeficienty:

Odhad Std. Chyba z hodnota Pr (> | z |)

(Intercept) 2.910774 1, 616328 1, 801 0, 07173.

PredajCenaMM -4, 538464 0, 405808 -11, 184 <2e-16 ***

Týždenný nákup 0, 01546 0, 005831 2, 666 0, 00767 **

-

Nulová odchýlka: 794, 01 pri 897 stupňoch voľnosti

Zvyšková odchýlka: 636, 13 pri 895 stupňoch voľnosti

AIC: 642, 13

Počet iterácií podľa Fishera: 5

Z vyššie uvedenej analýzy sa uvádza, že tabuľka koeficientov dáva kladné hodnoty pre WeekofPurchase a majú najmenej dve hviezdičky, z čoho vyplýva, že sú významnými kódmi modelu.

Predikčná technika:

V tomto balíku R použijeme funkciu predpovedania vlaku a poskytneme pravdepodobnosti, že používame argument s názvom type = response. Pozrime sa na predikciu aplikovanú na tréningovú množinu (qt). R predpovedá výsledok vo forme P (y = 1 | X) s hraničnou pravdepodobnosťou 0, 5.

PredictionTrain = predpovedať (QualityLog, type = ”response”)

Súhrn vedie k stredným, stredným a minimálnym, maximálnym hodnotám.

zhrnutie (PredictionTrain) Vykonanie dáva

Min. 1. Qu.Median Priemer 3. Qu.Max.

0, 02192 0, 03342 0, 07799 0, 16147 0, 25395 0, 89038

tapply (PredictionTrain, qt $ SpecialMM)

Na výpočet priemeru skutočných pravdepodobností sa používa funkcia tapply ().

tapply (predictTrain, qt $ SpecialMM, priemer)

0 1

0, 1224444 0, 36641334

Preto vo vyššie uvedenom výroku zistíme, že možnosť skutočnej špeciálnej hodnoty Špeciálna hodnotaMM je 0, 34 a pre skutočnú zlú hodnotu 0, 12.

Výpočet prahovej hodnoty:

ak P je> T– predikcia je zlá Špeciálny MM

ak P je

Klasifikačná matica:

tabuľka (qt $ SpecialMM, PredictionTrain> 0, 5)

FALSE TRUE

0 746 7

1 105 40

Na výpočet citlivosti a špecifickosti

40/145

(1) 0, 2758621

746/753

(1) 0, 9907039

Predikcia testovacej sady

PredictionTest = predpovedať (QualityLog, type = “response”, newdata = qs)

tabuľka (qs $ SpecialMM, PredictionTest> = 0, 3)

FALSE TRUE

0 130 14

1 10 18

tabuľka (qs $ SpecialMM, PredictionTest> = 0, 5)

FALSE TRUE

0 140 4

1 18 10

Výpočet presnosti

150/172

(1) 0, 872093

Existuje 172 prípadov, z ktorých 144 je dobrých a 28 je zlých.

Vynesenie krivky ROC:

Toto je posledný krok vynesením krivky ROC na meranie výkonnosti. Dobrá hodnota AUC by sa mala blížiť k 1, nie k 0, 5. Pri pravdepodobnosti 0, 5, 0, 7, 0, 2 sa predpovedá, ako sa prahová hodnota zvyšuje a znižuje. Uskutočňuje sa súčasným vynesením prahových hodnôt do krivky ROC. Dobrou voľbou je výber s ohľadom na vyššiu citlivosť.

Logistické regresné techniky

Pozrime sa na implementáciu logistiky pomocou R, pretože veľmi ľahko sa prispôsobí modelu. Existujú dva typy techník:

  • Multinomická logistická regresia
  • Ordinálna logistická regresia

Bývalý pracuje s premennými odozvy, ak má dve alebo viac tried. neskôr funguje, keď je objednávka významná.

záver

Preto sme sa naučili základnú logiku za regresiou spolu s implementáciou Logistickej regresie na konkrétny súbor údajov R. Binomická alebo binárna regresia meria kategorické hodnoty binárnych odpovedí a predikčných premenných. Zohrávajú dôležitú úlohu v analytike, kde priemyselní odborníci očakávajú poznať lineárnu a logistickú regresiu. Majú svoje vlastné výzvy av praktickom príklade sme urobili kroky týkajúce sa čistenia údajov a predbežného spracovania. Celkovo sme videli, ako logická regresia rieši problém kategorického výsledku jednoduchým a ľahkým spôsobom.

Odporúčané články

Toto bol sprievodca Logistickou regresiou v R. Tu diskutujeme prácu, rôzne techniky a všeobecné vysvetlenie rôznych metód používaných v Logistickej regresii v R. Ďalšie informácie nájdete aj v nasledujúcich článkoch -

  1. Rámce strojového učenia
  2. R vs Python
  3. Funkcie reťazca Python
  4. Je Python skriptovacím jazykom
  5. Binomické rozdelenie v syntax
  6. Regresia verzus klasifikácia

Kategórie: