Grafy v R - Typy grafov v R a príklady s implementáciou

Obsah:

Anonim

Úvod do grafov v R

Graf je nástroj, ktorý významne ovplyvňuje analýzu. Grafy sú zriedkavé, pretože pomáhajú prezentovať výsledky čo najinteraktívnejším spôsobom. R ako štatistický programovací balík ponúka rozsiahle možnosti na generovanie rôznych grafov.

Niektoré z grafov v R sú k dispozícii v základnej inštalácii, iné je však možné použiť pri inštalácii potrebných balíkov. Unikátnou črtou grafov v R je to, že prostredníctvom vizualizácií vysvetľujú zložité štatistické zistenia. V podstate je to ako presunúť sa o krok nad tradičný spôsob vizualizácie údajov. R teda ponúka prístup k analýze pohonných jednotiek hneď po vybalení.

Druhy grafov v R

R je k dispozícii celý rad grafov a ich použitie sa riadi výlučne kontextom. Prieskumná analýza si však vyžaduje použitie určitých grafov v R, ktoré sa musia použiť na analýzu údajov. Teraz sa pozrieme na niektoré z týchto dôležitých grafov v R.

Na demonštráciu rôznych máp použijeme dataset „stromov“ dostupný v základnej inštalácii. Viac podrobností o súbore údajov možno zistiť pomocou? velenie stromov v R.

1. Histogram

Histogram je grafický nástroj, ktorý pracuje s jednou premennou. Početné hodnoty premenných sú zoskupené do košov a počet hodnôt sa označuje ako frekvencia. Tento výpočet sa potom použije na vynesenie grafov frekvencie do príslušných zŕn. Výška stĺpca je vyjadrená frekvenciou.

V R môžeme na vytvorenie histogramu použiť funkciu hist (), ako je znázornené nižšie. Jednoduchý histogram výšok stromov je uvedený nižšie.

kód:

hist(trees$Height, breaks = 10, col = "orange", main = "Histogram of Tree heights", xlab = "Height Bin")

Výkon:

Aby sme pochopili trend frekvencie, môžeme do vyššie uvedeného histogramu pridať graf hustoty. Toto poskytuje ďalšie informácie o distribúcii údajov, skewness, kurtosis, atď. Nasledujúci kód to robí a výstup sa zobrazuje za kódom.

kód:

hist(trees$Height, breaks = 10, col = "orange",
+ main = "Histogram of Tree heights with Kernal Denisty plot",
+ xlab = "Height Bin", prob = TRUE)

Výkon:

2. Rozptyl

Tento graf je jednoduchý typ grafu, ale veľmi dôležitý graf, ktorý má obrovský význam. Graf poskytuje predstavu o korelácii medzi premennými a je užitočným nástrojom pri prieskumnej analýze.

Nasledujúci kód generuje jednoduchý Scatterplotov diagram. Pridali sme do neho trendovú čiaru, aby sme pochopili trend, ktorý údaje predstavujú.

kód:

attach(trees)
plot(Girth, Height, main = "Scatterplot of Girth vs Height", xlab = "Tree Girth", ylab = "Tree Height")
abline(lm(Height ~ Girth), col = "blue", lwd = 2)

Výkon:

Graf vytvorený nasledujúcim kódom ukazuje, že existuje dobrá korelácia medzi obvodom stromu a objemom stromu.

kód:

plot(Girth, Volume, main = "Scatterplot of Girth vs Volume", xlab = "Tree Girth", ylab = "Tree Volume")
abline(lm(Volume ~ Girth), col = "blue", lwd = 2)

Výkon:

Rozptylové matice

R nám umožňuje porovnávať viac premenných súčasne, pretože používa rozptýlené matice. Implementácia vizualizácie je pomerne jednoduchá a dá sa dosiahnuť pomocou funkcie párov (), ako je uvedené nižšie.

kód:

pairs(trees, main = "Scatterplot matrix for trees dataset")

Výkon:

Scatterplot3d

Umožňujú vizualizáciu v troch dimenziách, ktoré môžu pomôcť pochopiť vzťah medzi viacerými premennými. Aby ste sprístupnili bodové testy v 3d, musíte najprv nainštalovať balík scatterplot3d. Nasledujúci kód teda generuje 3d graf, ako je znázornené pod kódom.

kód:

library(scatterplot3d)
attach(trees)
scatterplot3d(Girth, Height, Volume, main = "3D Scatterplot of trees dataset")

Výkon:

Pomocou nižšie uvedeného kódu môžeme pridať čiara a farby. Teraz môžeme pohodlne rozlišovať medzi rôznymi premennými.

kód:

scatterplot3d(Girth, Height, Volume, pch = 20, highlight.3d = TRUE,
+ type = "h", main = "3D Scatterplot of trees dataset")

Výkon:

3. Boxplot

Boxplot je spôsob vizualizácie údajov prostredníctvom polí a fúzy. Najprv sa premenné hodnoty zoradia vzostupne a potom sa údaje rozdelia na štvrtiny.

Políčko v grafe je uprostred 50% údajov známych ako IQR. Čierna čiara v rámčeku predstavuje strednú hodnotu.

kód:

boxplot(trees, col = c("yellow", "red", "cyan"), main = "Boxplot for trees dataset")

Výkon:

Variant boxplot s výrezmi je uvedený nižšie.

kód:

boxplot(trees, col = "orange", notch = TRUE, main = "Boxplot for trees dataset")

Výkon:

4. Čiarový graf

Čiarové grafy sú užitočné pri porovnávaní viacerých premenných. Pomáhajú nám vzťah medzi viacerými premennými na jednom pozemku. Na nasledujúcom obrázku sa pokúsime porozumieť trendu troch funkcií stromu. Takže, ako je znázornené v nižšie uvedenom kóde, a čiarový graf pre Girth je vynesený pomocou funkcie plot (). Potom sú čiarové grafy pre výšku a objem vykreslené na rovnakom pozemku pomocou funkcie lines ().

Parameter „ylim“ v grafe () bol, aby všetky tri riadkové mapy správne vyhovovali. Dôležitá je tu legenda, pretože pomáha pochopiť, ktorá línia predstavuje ktorú premennú. V legende „lty = 1: 1“ parameter znamená, že máme rovnaký typ riadka pre všetky premenné a „cex“ predstavuje veľkosť bodov.

kód:

plot(Girth, type = "o", col = "red", ylab = "", ylim = c(0, 110),
+ main = "Comparison amongst Girth, Height, and Volume of trees")
lines(Height, type = "o", col = "blue")
lines(Volume, type = "o", col = "green")
legend(1, 110, legend = c("Girth", "Height", "Volume"),
+ col = c("red", "blue", "green"), lty = 1:1, cex = 0.9)

Výkon:

5. Bodový graf

Tento vizualizačný nástroj je užitočný, ak chceme porovnať viac kategórií s určitým opatrením. Na nižšie uvedený obrázok sa použil súbor údajov mtcars. Funkcia dotchart () vykresľuje posun pre rôzne modely automobilov, ako je uvedené nižšie.

kód:

attach(mtcars)
dotchart(disp, labels = row.names(mtcars), cex = 0.75,
+ main = "Displacement for various Car Models", xlab = "Displacement in Cubic Inches")

Výkon:

Takže teraz zoradíme množinu údajov podľa hodnôt posunu a potom pomocou grafu funkcie bodchart () vykreslíme rôzne prevody.

kód:

m <- mtcars(order(mtcars$disp), ) m$gear <- factor(m$gear)
m$color(m$gear == 3) <- "darkgreen"
m$color(m$gear == 4) <- "red"
m$color(m$gear == 5) <- "blue"
dotchart(m$disp, labels = row.names(m), groups = m$gear, color = m$color, cex = 0.75, pch = 20,
+ main = "Displacement for Car Models", xlab = "Displacement in cubic inches")

Výkon:

záver

Analytika v pravom slova zmysle sa využíva iba prostredníctvom vizualizácií. R ako štatistický nástroj ponúka silné vizualizačné schopnosti. Takže početné možnosti spojené s grafmi ich robia špeciálnymi. Každý z máp má svoju vlastnú aplikáciu a tabuľka by sa mala študovať pred použitím na problém.

Odporúčané články

Toto je príručka pre grafy v R. Tu diskutujeme o úvodu a druhoch grafov v R, ako sú histogram, bodový test, boxplot a oveľa viac spolu s príkladmi a implementáciou. Ďalšie informácie nájdete aj v nasledujúcich článkoch -

  1. R Typy údajov
  2. R Balíky
  3. Úvod do Matlabu
  4. Grafy vs grafy