Jednosmerná analýza odchýlky

Analýza rozptylu napísaná krátko ako ANOVA je postup, pomocou ktorého môžeme porovnávať priemery v troch alebo viacerých populáciách. Štatisticky sme zostavili dve hypotézy, nulovú hypotézu: „Všetky prostriedky populácie sú rovnaké“ a alternatívna hypotéza: „Nie všetky prostriedky populácie sú rovnaké“. To nám umožňuje testovať rovnosť viacerých prostriedkov v jednom teste namiesto porovnávania dvoch prostriedkov v čase, ktorý je nemožný, keď existuje niekoľko skupín. V tejto téme sa dozvieme o One Way ANOVA v R.

Jednosmerná analýza odchýlky nám pomáha pri analýze iba jedného faktora alebo premennej. Napríklad existuje päť regiónov a my chceme skontrolovať, či sú denné priemerné zrážky pre všetkých päť regiónov rovnaké alebo či sú odlišné. V tomto prípade existuje iba jeden faktor, ktorým je región, pretože musíme skontrolovať, či regionálne faktory ovplyvňujú príjem zrážok a štruktúru.

Predpoklady analýzy odchýlok

Nasledujú predpoklady, ktoré musia byť splnené pri použití jednosmernej ANOVA:

  • Populácie, z ktorých sa vzorky odoberajú, sa zvyčajne distribuujú.
  • Populácie, z ktorých sa vzorky odoberajú, majú rovnakú odchýlku alebo štandardnú odchýlku.
  • Vzorky odobraté z rôznych populácií sú náhodné a nezávislé.

Ako funguje One-Way ANOVA v R?

Na demonštráciu používame údaje, ktoré obsahujú dve premenné, viď. Značka a predaj. Existujú štyri značky - ATB, JKV, MKL a PRQ. Uvádzajú sa mesačné tržby za tieto značky. Musíme skontrolovať, či je priemerný predaj v rámci štyroch značiek rovnaký alebo či sa navzájom líšia. Na overenie použijeme jednosmernú ANOVA. Postupný postup implementácie ANOVA je nasledujúci:

  1. Najskôr importujte údaje do R. Dáta sú prítomné vo formáte CSV. Ak chcete importovať, použijeme funkciu read.csv ().

  1. Zobraziť niekoľko prvých záznamov údajov. Je dôležité skontrolovať, či boli údaje správne importované do R. Podobne použijeme funkciu Summary () na údaje, aby sme získali základné informácie o údajoch.

  1. Zakaždým, keď použijeme premenné prítomné v množine údajov, musíme explicitne uviesť názov množiny údajov, napríklad brand_sales_data $ Brand alebo brand_sales_data $ Sales. Aby sme to prekonali, použijeme funkciu pripútania. Funkcia musí byť použitá ako je uvedené nižšie.

  1. Poďme agregovať predaj podľa značky pomocou priemernej alebo štandardnej odchýlky. Agregácia nám pomáha získať základnú predstavu o údajoch.

Vyššie uvedený výsledok ukazuje, že prostriedky pre štyri rôzne skupiny nie sú rovnaké. JKV má najvyšší priemerný predaj.

Ako je vidieť vyššie, smerodajné odchýlky medzi štyrmi skupinami nevykazujú žiadny významný rozdiel a sú najvyššie pre značku MKL.

  1. Teraz použijeme ANOVA na potvrdenie, či sú prostriedky v troch populáciách rovnaké alebo či existujú nejaké rozdiely.

Z vyššie uvedených výsledkov vyplýva, že ANOVA test na značku je významný z dôvodu p <0, 0001. Môžeme interpretovať, že všetky značky nemajú na trhu rovnaké úrovne preferencie, čo ovplyvňuje predaj týchto značiek na trhu. Dôvodom môže byť veľa faktorov a obľuba ľudí pre určitú značku.

  1. Vyššie uvedený výsledok je možné vizualizovať a uľahčuje interpretáciu. Na tento účel použijeme funkciu plotmeans () v knižnici gplots (). Funguje to takto:

Ako vidíme vyššie, funkcia plotmeans () v balíku gplots nám umožňuje vizuálne porovnávať prostriedky rôznych skupín. Vidíme, že prostriedky nie sú rovnaké v rámci všetkých štyroch značiek. Prostriedky pre značky MKL a PRQ však klesajú bližšie.

  1. Uvedená analýza nám pomáha overiť, či majú značky rovnaké prostriedky alebo nie, je však ťažké urobiť párové porovnanie. Môžeme robiť párové porovnania pre rôzne značky pomocou funkcie TukeyHSD (), ktorá uľahčuje kontrolu, či sa značka výrazne líši od ostatných značiek.

Porovnania podľa párov, ako je uvedené vyššie. Rozdiel medzi akýmikoľvek dvoma skupinami je významný, ak p <0, 001. Ako vidíme vyššie, hodnota p pre pár PRQ-MKL je oveľa vyššia, čo naznačuje, že tieto dve značky sa navzájom významne nelíšia.

Na vizualizáciu párového porovnania vynesieme vyššie uvedené výsledky, ako je uvedené nižšie:

Prvá funkcia par otáča štítky osi tak, aby boli vodorovné, a druhý príkaz par upraví okraje tak, aby sa štítky správne zmestili, inak vystúpia z obrazovky.

Vyššie uvedený graf ponúka dobrý prehľad, ale výsledky môžeme vykresliť vo forme boxplotu, aby sme získali lepší prehľad pre jasnejšiu interpretáciu, ako je uvedené nižšie.

Vyššie uvedená funkcia glht () prichádza s komplexnou metódou porovnávania viacerých prostriedkov. Všimnite si, že hladina vo funkcii cld () sa týka úrovne významnosti, napr. Spoľahlivosť 0, 05 alebo 95 percent)

Na základe vyššie uvedeného grafu je ľahké porovnávať prostriedky naprieč skupinami a tiež uľahčuje systematickú interpretáciu. V hornej časti pozemku sú písmená pre každú značku. Ak dve značky majú rovnaké písmeno, potom v tomto prípade nemajú výrazne odlišné prostriedky ako značky MKL a PRQ, ktoré majú rovnaké písmeno b.

  1. Doteraz sme implementovali ANOVA a využívali sme grafy na vizualizáciu výsledkov. Rovnako je však dôležité tieto predpoklady otestovať. Najprv overíme predpoklad normality.

Balík do auta v R poskytuje funkciu qqPlot (). Vyššie uvedený graf ukazuje, že údaje spadajú do 95% spoľahlivosti. To naznačuje, že predpoklad normality bol takmer splnený.

Ďalej overíme, či sú rozdiely medzi značkami rovnaké. Na tento účel použijeme Bartlettov test

Hodnota p ukazuje, že odchýlky v skupine sa významne nelíšia

V neposlednom rade skontrolujeme, či existujú nejaké odľahlé hodnoty, ktoré ovplyvňujú výsledky ANOVA.

Z vyššie uvedeného výsledku vidíme, že v údajoch nie sú žiadne údaje o odľahlých hodnotách (NA nastane, keď p> 1)

Ak vezmeme do úvahy výsledky QQ Plot, Bartlettov test a Outlierov test, môžeme povedať, že údaje spĺňajú všetky predpoklady ANOVA a získané výsledky sú platné.

Záver - jednosmerná ANOVA v R

ANOVA je veľmi šikovná štatistická technika, ktorá sa môže použiť na porovnanie prostriedkov medzi viacerými populáciami. R ponúka komplexnú škálu balíkov na implementáciu ANOVA, odvodenie výsledkov a potvrdenie predpokladov. V prípade R môžu byť štatistické výsledky interpretované vo vizuálnych formách, ktoré poskytujú hlbšie informácie.

Odporúčané články

Toto je príručka k jednosmernej ANOVA v R. Tu diskutujeme o tom, ako jednosmerná ANOVA funguje a predpoklady analýzy odchýlok. Ďalšie informácie nájdete aj v nasledujúcich článkoch -

  1. R Programovací jazyk
  2. Regresia vs. ANOVA
  3. Ako interpretovať výsledky pomocou testu ANOVA
  4. GLM v R.

Kategórie: