Úvod do súborov R CSV
Súbory CSV sa bežne používajú na ukladanie informácií v tabuľkovom formáte, pričom každý riadok je záznamom údajov. Aby sme mohli čítať, písať alebo manipulovať s údajmi v R, musíme mať k dispozícii nejaké údaje. Údaje možno nájsť na internete alebo ich možno získať z rôznych zdrojov, napríklad z prieskumov. Pomocou R je možné čítať, zapisovať a editovať údaje, ktoré sú uložené v externom prostredí. R dokáže čítať a zapisovať údaje z rôznych formátov, ako napríklad XML, CSV a Excel. V tomto článku sa dozvieme, ako sa dá R použiť na čítanie, zápis a vykonávanie rôznych operácií so súbormi CSV.
Vytvára sa súbor CSV v R
V tejto časti si ukážeme, ako je možné vytvoriť a exportovať dátový rámec do súboru CSV v R. V prvom vytvoríme dátový rámec, ktorý bude pozostávať z premenných zamestnanca a príslušného platu.
> df <- data.frame(Employee = c('Jonny', 'Grey', 'Mouni'),
+ Salary = c(23000, 41000, 32344))
> print (df)
Po vytvorení dátového rámca je čas, aby sme použili exportnú funkciu R na vytvorenie súboru CSV v R. Aby sme mohli exportovať dátový rámec do CSV, môžeme použiť nasledujúci kód.
> write.csv(df, 'C:\\Users\\Pantar User\\Desktop\\Employee.csv', row.names = FALSE)
Vo vyššie uvedenom riadku kódu sme poskytli adresár cesty pre našu dátovú slávu a uložili dátový rámec vo formáte CSV. V uvedenom prípade bol súbor CSV uložený na moju osobnú plochu. Tento konkrétny súbor sa použije v našom návode na vykonávanie viacerých operácií.
Čítanie súborov CSV v R
Pri vykonávaní analýzy pomocou R sme v mnohých prípadoch povinní načítať údaje zo súboru CSV. R je veľmi spoľahlivý pri čítaní súborov CSV. V uvedenom príklade sme vytvorili súbor, ktorý použijeme na čítanie pomocou príkazu read.csv. Nižšie je uvedený príklad v R.
> df <- read.csv(file="C:\\Users\\Pantar User\\Desktop\\Employee.csv", header=TRUE,
sep=", ")
> df
Vyššie uvedený príkaz číta súbor Employee.csv, ktorý je k dispozícii na pracovnej ploche a zobrazuje ho v R štúdiu. Príkaz záhlavia znamená, že záhlavie je k dispozícii pre množinu údajov a príkaz sep znamená, že údaje sú oddelené čiarkami.
Zapisujte CSV súbory do R
Zápis do súboru CSV je jednou z najužitočnejších funkcií dostupných v R pre analytika údajov. To sa dá použiť na zápis upraveného súboru CSV do nového súboru CSV s cieľom analyzovať údaje. Príkaz Write.csv sa používa na zápis súboru do súboru CSV.
V nižšie uvedenom kóde df v dátovom rámci, v ktorom sú naše údaje k dispozícii, sa pomocou pripojenia uvádza, že nový súbor sa vytvorí namiesto pridávania alebo prepisovania v starom súbore. Pripojiť false naznačuje, že sa vytvorí nový súbor CSV. Sep predstavuje pole oddelené čiarkou.
# Writing CSV file in R
write.csv(df, 'C:\\Users\\Pantar User\\Desktop\\Employee.csv' append = FALSE, sep = “, ”)
Operácie CSV
Operácie CSV sú potrebné na kontrolu údajov po ich načítaní do systému. R má niekoľko vstavaných funkcií na overenie a kontrolu údajov. Tieto operácie poskytujú úplné informácie týkajúce sa súboru údajov.
Jedným z najčastejšie používaných príkazov je súhrn.
> summary(df)
Príkaz Summary nám poskytuje štatistiku stĺpcov. Numerická premenná je opísaná štatistickým spôsobom, ktorý zahŕňa štatistické výsledky, ako je priemer, min, medián a max. V uvedenom príklade sú dve premenné, ktorými sú Zamestnanec a Mzda, segregované a sú nám ukázané štatistické údaje týkajúce sa číselnej premennej, ktorou je Mzda.
Príkaz View () sa používa na otvorenie množiny údajov na inej karte a na manuálne overenie.
> View(df)
Funkcia Str poskytne používateľom ďalšie podrobnosti týkajúce sa stĺpca množiny údajov. V nižšie uvedenom príklade vidíme, že zamestnanecká premenná má ako typ údajov faktor ako mzdový faktor a premenná mzda má ako typ údajov int (integer).
> str(df)
V mnohých prípadoch budeme musieť vidieť celkový počet dostupných riadkov v prípade veľkého množiny údajov, pre ktoré môžeme použiť príkaz nrow (). Pozrite si nasledujúci príklad.
> # to show the total number of rows in the dataset
> nrow(df)
Podobným spôsobom, ako zobraziť celkový počet stĺpcov, môžeme použiť príkaz ncol ()
> ncol(df)
R nám umožňuje zobraziť požadovaný počet riadkov pomocou príkazu nižšie. Keď je ich počet riadkov k dispozícii v množine údajov, môžeme určiť rozsah riadkov, ktoré sa majú zobraziť.
> # to display first 2 rows of the data
> df(1:2, )
Operácia údajov sa vykonáva na veľkom súbore údajov. Pre ilustráciu som si stiahol datový súbor s otvoreným zdrojovým kódom NI z internetu.
> NiPostCode <- read.csv("NIPostcodes.csv", na.strings="", header=FALSE)
Vo vyššie uvedenom súbore údajov vidíme, že chýbajú názvy hlavičiek a existuje veľa nulových hodnôt. Aby bol súbor údajov pripravený na analýzu, je potrebné vyčistiť súbor údajov. V ďalšom kroku budú hlavičky zodpovedajúcim spôsobom pomenované.
> # adding headers/title
> names(NiPostCode)(1) <-"OrganisationName"
> names(NiPostCode)(2) <-"Sub-buildingName"
> names(NiPostCode)(3) <-"BuildingName"
> names(NiPostCode)(4) <-"Number"
> names(NiPostCode)(5) <-"Location"
> names(NiPostCode)(6) <-"Alt Thorfare"
> names(NiPostCode)(7) <-"Secondary Thorfare"
> names(NiPostCode)(8) <-"Locality"
> names(NiPostCode)(9) <-"Townland"
> names(NiPostCode)(10) <-"Town"
> names(NiPostCode)(11) <-"County"
> names(NiPostCode)(12) <-"Postcode"
> names(NiPostCode)(13) <-"x-coordinates"
> names(NiPostCode)(14) <-"y-coordinates"
> names(NiPostCode)(15) <-"Primary Key"
Teraz spočítajme počet chýbajúcich hodnôt v dátovom rámci a potom ich zodpovedajúcim spôsobom odstráňte.
> # count of all missing values
> table(is.na (NiPostCode))
Z vyššie uvedeného príkazu vidíme, že celkový počet medzier alebo NA v údajovom rámci je blízko 5445148. Odstránenie všetkých nulových hodnôt bude mať za následok stratu obrovského množstva údajov, preto je rozumné odstrániť stĺpce, v ktorých je viac ako polovica 50% údajov chýba.
> # delete columns with more than 50% missing values
> NiPostcodes 0.5)) > (NiPostcodes)
záver
V tomto návode sme videli, ako je možné vytvárať, čítať a pridávať súbory CSV pomocou operácií v R. Naučili sme sa, ako vytvoriť nový dataset v R a potom ho importovať do formátu CSV. Ďalej sme videli viac operácií, napríklad premenovanie hlavičky a počítanie počtu riadkov a stĺpcov.
Odporúčané články
Toto je príručka k súborom R CSV. Tu diskutujeme o vytváraní, čítaní a zápise súboru CSV v R s operáciami CSV. Viac informácií nájdete aj v nasledujúcom článku -
- JSON vs CSV
- Proces získavania údajov
- Kariéra v analýze údajov
- Excel verzus CSV