Úvod Logistická regresia v R
Logistická regresia v R známa tiež ako problémy binárnej klasifikácie. Používajú sa na predpovedanie výsledku ako (1 alebo 0 buď áno / nie) pre nezávislú premennú. Aby sme pochopili logistickú regresiu v R, je dôležité poznať základnú lineárnu regresiu, pracovať s premennou priebežného výsledku. Konkrétnejšie môžeme povedať, že ide o predĺženie lineárnej regresie. V tomto článku budeme diskutovať o rôznych metódach použitých na výpočet modelu a hodnotenia. Logistická regresia sa používa na riešenie problémov klasifikácie v strojovom učení.
Ako funguje logistická regresia v R?
Logistická regresia je technika používaná v oblasti štatistiky, ktorá meria rozdiel medzi závislou a nezávislou premennou s usmernením logistickej funkcie odhadom rozdielneho výskytu pravdepodobností. Môžu byť buď binomické (majú áno alebo žiadny výsledok) alebo multinomické (spravodlivé vs. zlé veľmi zlé). Hodnoty pravdepodobnosti sú medzi 0 a 1 a premenná by mala byť kladná (<1). Zameriava sa na závislú premennú a má nasledujúce kroky:
- n- č. opravených pokusov na prijatom súbore údajov
- s pokusom s dvoma výsledkami
- výsledok pravdepodobnosti by mal byť jeden od druhého nezávislý
- Pravdepodobnosť úspechu a neúspechu musí byť pri každej skúške rovnaká.
V tomto uvažujeme o príklade tým, že vezmeme balík ISLR, ktorý poskytuje rôzne súbory údajov na školenie. Na prispôsobenie modelu sa tu používa zovšeobecnená funkcia lineárneho modelu (glm). Na vytvorenie logistickej regresnej funkcie glm sa uprednostňuje a získava podrobnosti o nich pomocou zhrnutia pre analytickú úlohu.
Pracovné kroky:
Pracovné kroky týkajúce sa logistickej regresie sa riadia určitými pojmami ako napr
- Modelovanie pravdepodobnosti alebo odhad pravdepodobnosti
- predpoveď
- Inicializácia prahovej hodnoty (vysoká alebo nízka špecifickosť)
- Matica zámeny
- Plocha vykreslenia pod krivkou (AUC)
Príklady
Nižšie je uvedený príklad logistickej regresie v R:
Načítanie údajov:
Inštalácia balíka ISLR.
vyžadujú (ISLR)
Načítava sa požadovaný balík: ISLR
V tomto článku použijeme súbor údajov „Týždenne“ v programe RStudio. Súbor údajov obsahuje súhrnné podrobnosti o týždenných zásobách od roku 1990 do roku 2010.
vyžadujú (ISLR)
Názvy (OJ)
Výkon:
(1) „Nákup“ „WeekofPurchase“ „StoreID“ „PriceCH“ (5) „PriceMM“ „DiscCH“ „DiscMM“ „SpecialCH“ (9) „SpecialMM“ „LoyalCH“ „SalePriceMM“ „SalePriceCH“ (13) „PriceDiff“ „Store7“ „PctDiscMM“ „PctDiscCH“ (17) ”ListPriceDiff” “STORE”str (OJ)
Zobrazuje 1070 pozorovaní 18 premenných.
Náš súbor údajov obsahuje 1070 pozorovaní a 18 rôznych premenných. tu máme špeciálne MM a špeciálne CH má závislý výsledok. Zoberme si špeciálny atribút MM na správne pozorovanie a presnosť 84%.
tabuľka (OJ $ SpecialMM)
0 1
897 173
Ďalej nájdite pravdepodobnosť
897/1070
(1) 0, 8383178V ďalšom kroku pre lepšiu vzorku Rozdelenie súboru údajov do tréningových a testovacích údajov je goo
knižnica (caTools)
set.seed (88)
split = sample.split (OJ $ SpecialMM, SplitRatio = 0, 84)
Vzhľadom na to, že qt má tréningovú súpravu a qs má vzorové údaje testovacej sady.
QT = podmnožina (OJ, delená == TRUE)
qs = podmnožina (OJ, delená == FALSE)
nrow (QT)
(1) 898nrow (qs)
(1) 172Preto máme 898 tréningových súprav a 172 testovacích vzoriek.
Ďalšie použitie Summary () poskytuje podrobnosti o odchýlok a koefektívnych tabuľkách pre regresnú analýzu.
QualityLog = glm (SpecialMM ~ SalePriceMM + WeekofPurchase, data = qt, family = binomial)
Zhrnutie (QualityLog)
Výkon:
volajte:
glm (formula = SpecialMM ~ SalePriceMM + WeekofPurchase, family = binomial, údaje = qt) Zvyšky Deviance: Min. 1Q Medián 3Q Max -1, 2790 -0, 4182 -0, 3668 -0, 2640 2, 4284 koeficienty: Odhad Std. Chyba z hodnota Pr (> | z |) (Intercept) 2.910774 1, 616328 1, 801 0, 07173. PredajCenaMM -4, 538464 0, 405808 -11, 184 <2e-16 *** Týždenný nákup 0, 01546 0, 005831 2, 666 0, 00767 ** - Nulová odchýlka: 794, 01 pri 897 stupňoch voľnosti Zvyšková odchýlka: 636, 13 pri 895 stupňoch voľnosti AIC: 642, 13 Počet iterácií podľa Fishera: 5 |
Z vyššie uvedenej analýzy sa uvádza, že tabuľka koeficientov dáva kladné hodnoty pre WeekofPurchase a majú najmenej dve hviezdičky, z čoho vyplýva, že sú významnými kódmi modelu.
Predikčná technika:
V tomto balíku R použijeme funkciu predpovedania vlaku a poskytneme pravdepodobnosti, že používame argument s názvom type = response. Pozrime sa na predikciu aplikovanú na tréningovú množinu (qt). R predpovedá výsledok vo forme P (y = 1 | X) s hraničnou pravdepodobnosťou 0, 5.
PredictionTrain = predpovedať (QualityLog, type = ”response”)
Súhrn vedie k stredným, stredným a minimálnym, maximálnym hodnotám.
zhrnutie (PredictionTrain) Vykonanie dáva
Min. 1. Qu.Median Priemer 3. Qu.Max.
0, 02192 0, 03342 0, 07799 0, 16147 0, 25395 0, 89038
tapply (PredictionTrain, qt $ SpecialMM)
Na výpočet priemeru skutočných pravdepodobností sa používa funkcia tapply ().
tapply (predictTrain, qt $ SpecialMM, priemer)
0 1
0, 1224444 0, 36641334
Preto vo vyššie uvedenom výroku zistíme, že možnosť skutočnej špeciálnej hodnoty Špeciálna hodnotaMM je 0, 34 a pre skutočnú zlú hodnotu 0, 12.
Výpočet prahovej hodnoty:
ak P je> T– predikcia je zlá Špeciálny MM
ak P je Klasifikačná matica: tabuľka (qt $ SpecialMM, PredictionTrain> 0, 5) FALSE TRUE 0 746 7 1 105 40 Na výpočet citlivosti a špecifickosti 40/145
746/753
(1) 0, 9907039Predikcia testovacej sady
PredictionTest = predpovedať (QualityLog, type = “response”, newdata = qs)
tabuľka (qs $ SpecialMM, PredictionTest> = 0, 3)
FALSE TRUE
0 130 14
1 10 18
tabuľka (qs $ SpecialMM, PredictionTest> = 0, 5)
FALSE TRUE
0 140 4
1 18 10
Výpočet presnosti
150/172
(1) 0, 872093Existuje 172 prípadov, z ktorých 144 je dobrých a 28 je zlých.
Vynesenie krivky ROC:
Toto je posledný krok vynesením krivky ROC na meranie výkonnosti. Dobrá hodnota AUC by sa mala blížiť k 1, nie k 0, 5. Pri pravdepodobnosti 0, 5, 0, 7, 0, 2 sa predpovedá, ako sa prahová hodnota zvyšuje a znižuje. Uskutočňuje sa súčasným vynesením prahových hodnôt do krivky ROC. Dobrou voľbou je výber s ohľadom na vyššiu citlivosť.
Logistické regresné techniky
Pozrime sa na implementáciu logistiky pomocou R, pretože veľmi ľahko sa prispôsobí modelu. Existujú dva typy techník:
- Multinomická logistická regresia
- Ordinálna logistická regresia
Bývalý pracuje s premennými odozvy, ak má dve alebo viac tried. neskôr funguje, keď je objednávka významná.
záver
Preto sme sa naučili základnú logiku za regresiou spolu s implementáciou Logistickej regresie na konkrétny súbor údajov R. Binomická alebo binárna regresia meria kategorické hodnoty binárnych odpovedí a predikčných premenných. Zohrávajú dôležitú úlohu v analytike, kde priemyselní odborníci očakávajú poznať lineárnu a logistickú regresiu. Majú svoje vlastné výzvy av praktickom príklade sme urobili kroky týkajúce sa čistenia údajov a predbežného spracovania. Celkovo sme videli, ako logická regresia rieši problém kategorického výsledku jednoduchým a ľahkým spôsobom.
Odporúčané články
Toto bol sprievodca Logistickou regresiou v R. Tu diskutujeme prácu, rôzne techniky a všeobecné vysvetlenie rôznych metód používaných v Logistickej regresii v R. Ďalšie informácie nájdete aj v nasledujúcich článkoch -
- Rámce strojového učenia
- R vs Python
- Funkcie reťazca Python
- Je Python skriptovacím jazykom
- Binomické rozdelenie v syntax
- Regresia verzus klasifikácia