Úvod do spracovania dát v strojovom vzdelávaní

Spracovanie dát v strojovom vzdelávaní je spôsob, ako previesť údaje zo surovej formy na oveľa viac formátovanú, nepoužiteľnú alebo požadovanú formu. Je to neoddeliteľná úloha strojového učenia, ktorú vykonáva vedec údajov. Keďže zozbierané údaje sú v nespracovanom formáte, nie je možné trénovať model, ktorý ich používa. Je dôležité tieto nespracované údaje starostlivo spracovať, aby sa z nich urobila správna interpretácia a aby sa predišlo negatívnym výsledkom predpovede. Stručne povedané, kvalita nášho výučbového algoritmu vo veľkej miere závisí od typu súboru údajov, ktorý sme použili na podávanie modelu, takže na udržanie tejto kvality sa používa predspracovanie údajov.

Dáta zhromaždené na účely školenia modelu pochádzajú z rôznych zdrojov. Tieto zozbierané údaje sú zvyčajne v surovom formáte, tj môžu mať zvuky ako chýbajúce hodnoty a príslušné informácie, čísla vo formáte reťazca atď. Alebo môžu byť neštruktúrované. Predbežné spracovanie údajov zvyšuje účinnosť a presnosť modelov strojového učenia. Pretože pomáha pri odstraňovaní týchto zvukov zo súboru údajov a zo súboru údajov a dáva tomuto súboru údajov zmysel

Šesť rôznych krokov zapojených do strojového učenia

Nasleduje šesť rôznych krokov zapojených do strojového učenia na vykonanie predbežného spracovania údajov:

Krok 1: Importujte knižnice

Krok 2: Importujte údaje

Krok 3: Kontrola chýbajúcich hodnôt

Krok 4: Kontrola kategorických údajov

Krok 5: Zmena mierky

Krok 6: Rozdelenie údajov do výcvikových, validačných a hodnotiacich súborov

Pochopme podrobne každý z týchto krokov:

1. Importujte knižnice

Prvým krokom je importovanie niekoľkých dôležitých knižníc potrebných na predspracovanie údajov. Knižnica je zbierka modulov, ktoré je možné volať a používať. V Pythone máme veľa knižníc, ktoré sú užitočné pri predbežnom spracovaní údajov.

Niektoré z nasledujúcich dôležitých knižníc v pythone sú:

  • Numpy: Knižnica sa väčšinou používa na implementáciu alebo použitie zložitých matematických výpočtov strojového učenia. Je užitočný pri vykonávaní operácie na viacrozmerných poliach.
  • Pandas : Ide o knižnicu opensource, ktorá poskytuje vysoký výkon a ľahko použiteľné nástroje na analýzu a analýzu dát v pythone. Je navrhnutý tak, aby práca so vzťahom a označenými údajmi bola jednoduchá a intuitívna.
  • Matplotlib: Ide o vizualizačnú knižnicu, ktorú poskytuje python pre 2D grafy v poli. Je postavený na numpy poli a je navrhnutý pre prácu so širším stackom Scipy. Vizualizácia súborov údajov je užitočná v prípade, keď sú k dispozícii veľké údaje. Grafy dostupné v matplot lib sú čiara, stĺpec, rozptyl, histogram atď.
  • Seaborn: Je to tiež vizualizačná knižnica, ktorú poskytuje python. Poskytuje rozhranie na vysokej úrovni na kreslenie atraktívnych a informatívnych štatistických grafov.

2. Importujte množinu údajov

Po importovaní knižníc je ďalším krokom načítanie zhromaždených údajov. Knižnica Pandas sa používa na import týchto súborov údajov. Väčšinou sú súbory údajov k dispozícii vo formátoch CSV, pretože majú malú veľkosť, čo umožňuje rýchle spracovanie. Načítanie súboru csv pomocou funkcie read_csv z knižnice panda. Viditeľné sú rôzne ďalšie formáty súboru údajov

Po načítaní súboru údajov ho musíme skontrolovať a vyhľadať akýkoľvek hluk. Aby sme to dosiahli, musíme vytvoriť funkčnú maticu X a pozorovací vektor Y vzhľadom na X.

3. Kontrola chýbajúcich hodnôt

Po vytvorení matice funkcií môžete nájsť nejaké chýbajúce hodnoty. Ak to nezvládneme, môže to spôsobiť problém v čase tréningu.

Existujú dva spôsoby zaobchádzania s chýbajúcimi hodnotami:

  1. Odstránením celého riadku, ktorý obsahuje chýbajúcu hodnotu, môže dôjsť k strate niektorých dôležitých informácií. Toto môže byť dobrý prístup, ak je veľkosť súboru údajov veľká.
  2. Ak číselný stĺpec nemá chýbajúcu hodnotu, môžete ju odhadnúť pomocou priemeru, mediánu, režimu atď.

4. Kontrola kategorických údajov

Údaje v súbore údajov musia byť v číselnej podobe, aby sa na nich mohli vykonať výpočty. Pretože modely strojového učenia obsahujú zložité matematické výpočty, nemôžeme im poskytnúť nečíselnú hodnotu. Preto je dôležité previesť všetky textové hodnoty na číselné hodnoty. Trieda naučených LabelEncoder () sa používa na zakrytie týchto kategorických hodnôt do číselných hodnôt.

5. Zmena mierky

Hodnoty nespracovaných údajov sa veľmi líšia a môžu mať za následok neobjektívne školenie modelu alebo môžu viesť k zvýšeniu výpočtových nákladov. Preto je dôležité ich normalizovať. Zmena mierky je technika, ktorá sa používa na dosiahnutie menšej hodnoty údajov.

Metódy používané na úpravu mierky sú:

  • Zmena mierky (minimálna normalizácia)
  • Priemerná normalizácia
  • Štandardizácia (normalizácia Z-skóre)
  • Prispôsobenie veľkosti jednotky

6. Rozdelenie údajov do výcvikových, validačných a hodnotiacich súborov

Nakoniec musíme rozdeliť naše údaje do troch rôznych súprav, tréningového súboru na trénovanie modelu, validačného súboru na overenie presnosti nášho modelu a nakoniec testovacieho súboru na testovanie výkonnosti nášho modelu na generických údajoch. Pred rozdelením množiny údajov je dôležité zamiešať množinu údajov, aby sa predišlo prípadným predsudkom. Ideálny pomer na rozdelenie súboru údajov je 60:20:20, tj 60% ako sada školení, 20% ako sada testov a validácií. Na rozdelenie súboru údajov použite train_test_split of sklearn.model_selection dvakrát. Raz rozdeliť súbor údajov do vlaku a validačnej sady a potom rozdeliť zostávajúci súbor údajov o vlaku do vlaku a skúšobnej sady.

Záver - Spracovanie dát v strojovom učení

Spracovanie údajov je niečo, čo si vyžaduje prax. Nie je to ako jednoduchá dátová štruktúra, v ktorej sa učíte a aplikujete priamo na riešenie problému. Ak chcete získať dobré vedomosti o tom, ako vyčistiť množinu údajov alebo ako vizualizovať množinu údajov, musíte pracovať s rôznymi množinami údajov.

Čím viac budete používať tieto techniky, tým lepšie porozumenie získate. Toto bola všeobecná myšlienka o tom, ako spracovanie údajov hrá dôležitú úlohu v strojovom vzdelávaní. Spolu s tým sme tiež videli kroky potrebné na predbežné spracovanie údajov. Takže nabudúce predtým, ako pôjdete trénovať model pomocou zozbieraných údajov, nezabudnite použiť predspracovanie údajov.

Odporúčané články

Toto je príručka k spracovaniu údajov v strojovom vzdelávaní. Tu diskutujeme úvod, Šesť rôznych krokov zapojených do strojového učenia. Viac informácií nájdete aj v ďalších navrhovaných článkoch -

  1. Dôležitosť umelej inteligencie
  2. Technológia internetu vecí
  3. Údajové typy PL / SQL
  4. Typy úľa
  5. R Typy údajov

Kategórie: