Úvod do súborov R CSV

Súbory CSV sa bežne používajú na ukladanie informácií v tabuľkovom formáte, pričom každý riadok je záznamom údajov. Aby sme mohli čítať, písať alebo manipulovať s údajmi v R, musíme mať k dispozícii nejaké údaje. Údaje možno nájsť na internete alebo ich možno získať z rôznych zdrojov, napríklad z prieskumov. Pomocou R je možné čítať, zapisovať a editovať údaje, ktoré sú uložené v externom prostredí. R dokáže čítať a zapisovať údaje z rôznych formátov, ako napríklad XML, CSV a Excel. V tomto článku sa dozvieme, ako sa dá R použiť na čítanie, zápis a vykonávanie rôznych operácií so súbormi CSV.

Vytvára sa súbor CSV v R

V tejto časti si ukážeme, ako je možné vytvoriť a exportovať dátový rámec do súboru CSV v R. V prvom vytvoríme dátový rámec, ktorý bude pozostávať z premenných zamestnanca a príslušného platu.

> df <- data.frame(Employee = c('Jonny', 'Grey', 'Mouni'),
+ Salary = c(23000, 41000, 32344))
> print (df)

Po vytvorení dátového rámca je čas, aby sme použili exportnú funkciu R na vytvorenie súboru CSV v R. Aby sme mohli exportovať dátový rámec do CSV, môžeme použiť nasledujúci kód.

> write.csv(df, 'C:\\Users\\Pantar User\\Desktop\\Employee.csv', row.names = FALSE)

Vo vyššie uvedenom riadku kódu sme poskytli adresár cesty pre našu dátovú slávu a uložili dátový rámec vo formáte CSV. V uvedenom prípade bol súbor CSV uložený na moju osobnú plochu. Tento konkrétny súbor sa použije v našom návode na vykonávanie viacerých operácií.

Čítanie súborov CSV v R

Pri vykonávaní analýzy pomocou R sme v mnohých prípadoch povinní načítať údaje zo súboru CSV. R je veľmi spoľahlivý pri čítaní súborov CSV. V uvedenom príklade sme vytvorili súbor, ktorý použijeme na čítanie pomocou príkazu read.csv. Nižšie je uvedený príklad v R.

> df <- read.csv(file="C:\\Users\\Pantar User\\Desktop\\Employee.csv", header=TRUE,
sep=", ")
> df

Vyššie uvedený príkaz číta súbor Employee.csv, ktorý je k dispozícii na pracovnej ploche a zobrazuje ho v R štúdiu. Príkaz záhlavia znamená, že záhlavie je k dispozícii pre množinu údajov a príkaz sep znamená, že údaje sú oddelené čiarkami.

Zapisujte CSV súbory do R

Zápis do súboru CSV je jednou z najužitočnejších funkcií dostupných v R pre analytika údajov. To sa dá použiť na zápis upraveného súboru CSV do nového súboru CSV s cieľom analyzovať údaje. Príkaz Write.csv sa používa na zápis súboru do súboru CSV.

V nižšie uvedenom kóde df v dátovom rámci, v ktorom sú naše údaje k dispozícii, sa pomocou pripojenia uvádza, že nový súbor sa vytvorí namiesto pridávania alebo prepisovania v starom súbore. Pripojiť false naznačuje, že sa vytvorí nový súbor CSV. Sep predstavuje pole oddelené čiarkou.

# Writing CSV file in R
write.csv(df, 'C:\\Users\\Pantar User\\Desktop\\Employee.csv' append = FALSE, sep = “, ”)

Operácie CSV

Operácie CSV sú potrebné na kontrolu údajov po ich načítaní do systému. R má niekoľko vstavaných funkcií na overenie a kontrolu údajov. Tieto operácie poskytujú úplné informácie týkajúce sa súboru údajov.

Jedným z najčastejšie používaných príkazov je súhrn.

> summary(df)

Príkaz Summary nám poskytuje štatistiku stĺpcov. Numerická premenná je opísaná štatistickým spôsobom, ktorý zahŕňa štatistické výsledky, ako je priemer, min, medián a max. V uvedenom príklade sú dve premenné, ktorými sú Zamestnanec a Mzda, segregované a sú nám ukázané štatistické údaje týkajúce sa číselnej premennej, ktorou je Mzda.

Príkaz View () sa používa na otvorenie množiny údajov na inej karte a na manuálne overenie.

> View(df)

Funkcia Str poskytne používateľom ďalšie podrobnosti týkajúce sa stĺpca množiny údajov. V nižšie uvedenom príklade vidíme, že zamestnanecká premenná má ako typ údajov faktor ako mzdový faktor a premenná mzda má ako typ údajov int (integer).

> str(df)

V mnohých prípadoch budeme musieť vidieť celkový počet dostupných riadkov v prípade veľkého množiny údajov, pre ktoré môžeme použiť príkaz nrow (). Pozrite si nasledujúci príklad.

> # to show the total number of rows in the dataset
> nrow(df)

Podobným spôsobom, ako zobraziť celkový počet stĺpcov, môžeme použiť príkaz ncol ()

> ncol(df)

R nám umožňuje zobraziť požadovaný počet riadkov pomocou príkazu nižšie. Keď je ich počet riadkov k dispozícii v množine údajov, môžeme určiť rozsah riadkov, ktoré sa majú zobraziť.

> # to display first 2 rows of the data
> df(1:2, )

Operácia údajov sa vykonáva na veľkom súbore údajov. Pre ilustráciu som si stiahol datový súbor s otvoreným zdrojovým kódom NI z internetu.

> NiPostCode <- read.csv("NIPostcodes.csv", na.strings="", header=FALSE)

Vo vyššie uvedenom súbore údajov vidíme, že chýbajú názvy hlavičiek a existuje veľa nulových hodnôt. Aby bol súbor údajov pripravený na analýzu, je potrebné vyčistiť súbor údajov. V ďalšom kroku budú hlavičky zodpovedajúcim spôsobom pomenované.

> # adding headers/title
> names(NiPostCode)(1) <-"OrganisationName"
> names(NiPostCode)(2) <-"Sub-buildingName"
> names(NiPostCode)(3) <-"BuildingName"
> names(NiPostCode)(4) <-"Number"
> names(NiPostCode)(5) <-"Location"
> names(NiPostCode)(6) <-"Alt Thorfare"
> names(NiPostCode)(7) <-"Secondary Thorfare"
> names(NiPostCode)(8) <-"Locality"
> names(NiPostCode)(9) <-"Townland"
> names(NiPostCode)(10) <-"Town"
> names(NiPostCode)(11) <-"County"
> names(NiPostCode)(12) <-"Postcode"
> names(NiPostCode)(13) <-"x-coordinates"
> names(NiPostCode)(14) <-"y-coordinates"
> names(NiPostCode)(15) <-"Primary Key"

Teraz spočítajme počet chýbajúcich hodnôt v dátovom rámci a potom ich zodpovedajúcim spôsobom odstráňte.

> # count of all missing values
> table(is.na (NiPostCode))

Z vyššie uvedeného príkazu vidíme, že celkový počet medzier alebo NA v údajovom rámci je blízko 5445148. Odstránenie všetkých nulových hodnôt bude mať za následok stratu obrovského množstva údajov, preto je rozumné odstrániť stĺpce, v ktorých je viac ako polovica 50% údajov chýba.

> # delete columns with more than 50% missing values
> NiPostcodes 0.5)) > (NiPostcodes)

záver

V tomto návode sme videli, ako je možné vytvárať, čítať a pridávať súbory CSV pomocou operácií v R. Naučili sme sa, ako vytvoriť nový dataset v R a potom ho importovať do formátu CSV. Ďalej sme videli viac operácií, napríklad premenovanie hlavičky a počítanie počtu riadkov a stĺpcov.

Odporúčané články

Toto je príručka k súborom R CSV. Tu diskutujeme o vytváraní, čítaní a zápise súboru CSV v R s operáciami CSV. Viac informácií nájdete aj v nasledujúcom článku -

  1. JSON vs CSV
  2. Proces získavania údajov
  3. Kariéra v analýze údajov
  4. Excel verzus CSV

Kategórie: