Čo je NLP v Pythone?

Umelé spravodajské služby sa v poslednom desaťročí vyvíjali ohromne a je to aj jedno z jeho podpoli - Spracovanie prirodzeného jazyka. Pokrok v AI je výsledkom obrovskej výpočtovej kapacity moderných systémov a veľkého množstva neštruktúrovaných údajov, ktoré sa generujú z množstva zdrojov. Spracovanie v prirodzenom jazyku alebo NLP je štúdium umelej inteligencie, ktoré počítačom umožňuje spracovať surové neštruktúrované textové údaje a extrahovať z nich skryté informácie.

definícia

Na rozdiel od ľudí nie sú počítače dostatočne inteligentné na spracovanie neštruktúrovaných údajov. Ľudské bytosti mohli odvodiť z týchto údajov významy, zatiaľ čo počítače to mohli urobiť iba so štruktúrovanými údajmi uloženými v databázach. Na nájdenie vzorov a odvodenie významu z prírodných údajov používajú počítače nástroje a techniky, ktoré sú súčasťou NLP, na spracovanie takýchto údajov.

Ako funguje NLP v Pythone?

Čítať a porozumieť anglicky je veľmi zložité. Nižšie uvedená veta je jedným z príkladov, keď je pre počítač skutočne ťažké pochopiť skutočnú myšlienku tejto vety.

V strojovom učení sa potrubie zostavuje pre každý problém, kde sa každý problém rieši samostatne pomocou ML. Konečným výsledkom by bola kombinácia niekoľkých modelov strojového učenia prepojených dohromady. Spracovanie prirodzeného jazyka funguje podobne ako v prípade, keď je anglická veta rozdelená na kúsky.

V tomto odseku je niekoľko skutočností. Veci by boli ľahké, keby samotné počítače pochopili, čo je Londýn, ale na to je potrebné počítače naučiť základné pojmy písaného jazyka.

1. Segmentácia vety - Korpus je rozdelený na niekoľko viet, ako je uvedené nižšie.

To by náš život uľahčilo, pretože je lepšie spracovať jednu vetu ako odsek ako celok. Rozdelenie sa môže vykonať na základe interpunkčných znamienok alebo niekoľkých ďalších komplikovaných techník, ktoré pracujú aj na nečistených údajoch.

2. Tokenizácia slov - Vetu možno ďalej rozdeliť na token slov, ako je uvedené nižšie.

Po tokenizácii sa vyššie uvedená veta rozdelí na -

3. Časti predpovede reči - tento proces je o generovaní častí reči pre každý token. To by nám umožnilo pochopiť význam vety a tému, o ktorej sa veta hovorí.

4. Lemmatizácia - slovo vo vete sa môže objaviť v rôznych formách. Lemmatizácia sleduje slovo späť do jeho koreňa, tj lemmu každého slova.

5. Identifikácia stop slov - Vo vete je veľa výplňových slov, ako napríklad „, “ a, a. Tieto slová pôsobia ako text v texte, ktorého význam sa snažíme extrahovať. Preto je potrebné odfiltrovať tieto stopové slová, aby sa vytvoril lepší model.

Na základe aplikácie sa môžu slová zastávky líšiť. Existuje však preddefinovaný zoznam zastavovacích prác, na ktoré by sa mohol odkazovať.

6. Uznanie menovanej entity - NER je proces zisťovania entít, ako sú meno, miesto, osoba, organizácia atď., Z vety.

Používa sa tu kontext vzhľadu slova vo vete. Na získanie štruktúrovaných údajov z textu majú systémy NER veľa využití.

Príklad NLP v Pythone

Väčšina spoločností je teraz ochotná spracovať neštruktúrované údaje pre rast svojho podnikania. NLP má širokú škálu použitia a najbežnejším prípadom použitia je klasifikácia textu.

Klasifikácia textu do rôznych kategórií sa automaticky nazýva klasifikácia textu. Detekcia spamu alebo šunky v e-maile, kategorizácia spravodajských článkov, sú niektoré z bežných príkladov klasifikácie textu. Údaje použité na tento účel musia byť označené.

Niekoľko krokov v potrubí na klasifikáciu textu, ktoré je potrebné dodržiavať, je -

  • Načítanie a predbežné spracovanie údajov je prvým krokom, potom by bolo rozdelené do vlaku a sada validácie.
  • Krok Feature Engineering zahŕňa extrahovanie užitočných funkcií alebo vytvorenie ďalších zmysluplných prvkov, ktoré by pomohli pri vývoji lepšieho prediktívneho modelu.
  • Na zostavenie modelu sa na trénovanie modelu používa označená množina údajov.

Pandy, Scikit-learn, XGBoost, TextBlog, Keras sú niektoré z nevyhnutných knižníc, ktoré potrebujeme nainštalovať. Potom by sme importovali knižnice na prípravu množiny údajov, vývoj funkcií, atď.

Údaje sú obrovské a odtiaľto je možné stiahnuť takmer 3, 6 milióna recenzií. Používa sa zlomok údajov. Stiahne sa a prečíta sa do dátového rámca Pandas.

Cieľová premenná je kódovaná a údaje sú rozdelené do vlaku a testovacích súborov.

Funkčné inžinierstvo sa vykonáva pomocou nižšie uvedených rôznych metód.

1. Počítacie vektory - Reprezentácia dokumentu, pojmu a jeho frekvencie z korpusu sa dosiahne pomocou počítacích vektorov.

2. Vektory TF-IDF - V dokumente je relatívna dôležitosť pojmu reprezentovaná termínom Frekvencia (TF) a skóre inverznej frekvencie dokumentu (IDF). TF-IDF sa dá vypočítať pomocou -

Vektory TF-IDF by mohli byť generované na úrovni Wordu, ktorá predstavuje skóre každého termínu, a N-gramovej úrovne, ktorá je kombináciou n-termínov.

3. Vkladanie slov - Reprezentácia dokumentov a slov vo forme hustého vektora sa označuje ako vkladanie slov. Existujú vopred zaškolené vloženia, ako sú rukavice, Word2Vec, ktoré by sa dali použiť alebo by sa dali tiež trénovať.

4. Tematické modely - Je to skupina slov z dokumentu, ktorá obsahuje najviac informácií. Na modelovanie tém sa tu používa rozdelenie latentných dirichletov.

Režim sa vytvorí po dokončení inžinierstva prvkov a po extrahovaní príslušných funkcií.

5. Naivné Bayes - Je založený na Bayesovej vete a algoritmus sa domnieva, že medzi prvkami v súbore údajov nie je žiadny vzťah.


6. Logistická regresia - meria lineárny vzťah medzi znakmi a cieľová premenná sa meria na základe sigmoidovej funkcie, ktorá odhaduje pravdepodobnosti.


7. Podporný vektorový stroj - hyperplán delí dve triedy v SVM.


8. Náhodný lesný model - model súboru, v ktorom sa zmenšuje rozptyl a spája viacero rozhodovacích stromov dohromady.


9. XG Boost - skreslenie je znížené a slabí študenti sa premenia na silných.

Ako vám NLP pomôže vo vašej kariére?

Prírodné jazykové spracovanie je na trhu na vzostupe a takmer každá organizácia potrebuje NLP Engineera, ktorý im pomôže spracovať prvotné údaje. Preto je nevyhnutné ovládať požadované zručnosti, pretože na trhu by nemal byť nedostatok pracovných miest.

Záver: NLP v Pythone

V tomto článku sme začali úvodom do NLP v Pythone a potom sme implementovali jeden prípad použitia v Pythone, aby sme ukázali, ako pracovať s NLP v Pythone.

Odporúčané články

Toto bol sprievodca NLP v Pythone. Tu sme diskutovali o príklade, prípadoch použitia a o tom, ako pracovať s NLP v Pythone. Viac informácií nájdete aj v ďalších navrhovaných článkoch -

  1. Použitie Pythonu
  2. Čo je to WBS?
  3. Python vs Scala
  4. Čo je Tableau?

Kategórie: