Rozdiely medzi ťažbou textu a analýzou textu

Štruktúrované údaje existujú už od začiatku 20. storočia, ale vďaka čomu je textová ťažba a textová analýza taká špeciálna, je to, že využíva informácie z neštruktúrovaných údajov (spracovanie prirodzeného jazyka). Len čo dokážeme previesť tento neštruktúrovaný text na pološtrukturované alebo štruktúrované údaje, bude možné použiť všetky algoritmy dolovania dát napr. Štatistické a strojové algoritmy učenia.

Dokonca aj Donald Trump dokázal tieto údaje využiť a previesť ich na informácie, ktoré mu pomohli zvíťaziť v prezidentských voľbách v USA, no v podstate to neurobil svojim podriadeným. Tam je veľmi dobrý článok tam http://fivethirtyeight.com/features/the-real-story-of-2016/ môžete prejsť.

Mnoho firiem začalo využívať ťažbu textu na využívanie hodnotných vstupov z dostupného textu. Napríklad spoločnosť založená na produkte môže použiť údaje Twitter / Facebook na to, aby vedela, ako dobre alebo zle ich produkt na svete robí pomocou Sentimental. analýza. V počiatočných dňoch spracovanie vyžadovalo veľa času, dní, v skutočnosti, spracovania alebo implementovania algoritmov strojového učenia, ale so zavedením nástrojov ako Hadoop, Azure, KNIME a ďalších veľkých softvérov na spracovanie údajov ťažba textu získala na trhu obrovskú popularitu. Jedným z najlepších príkladov textovej analýzy využívajúcich združenie dolovania je Amazonov model odporúčaní, v ktorom automaticky dáva svojim zákazníkom odporúčania, čo si ostatní kupujú pri kúpe konkrétneho produktu.

Jednou z najväčších výziev pri aplikácii nástrojov na dolovanie textu na niečo, čo nie je v digitálnom formáte / na počítačovej jednotke, je proces jeho výroby. Staré archívy a mnoho dôležitých dokumentov, ktoré sú dostupné iba na papieroch, sa niekedy prečíta prostredníctvom OCR (Optical Character Recognition), ktoré majú veľa chýb a niekedy sa údaje vkladajú manuálne, čo je náchylné k ľudským chybám. Dôvod, prečo to chceme, je, že môžeme odvodiť ďalšie postrehy, ktoré nie sú viditeľné z tradičného čítania.

Niektoré kroky ťažby textu sú uvedené nižšie

  • Získavanie informácií
  • Príprava a čistenie údajov
  • segmentácia
  • tokenizácia
  • Odstránenie čísiel stopových slov a interpunkcie
  • vyplývajúce
  • Premeniť na malé písmená
  • Označovanie POS
  • Vytvorte textový korpus
  • Matica termínovaného dokumentu

Nižšie sú uvedené kroky v textovej analýze, ktoré sa uplatňujú po príprave matice termínovaných dokumentov

  • Modelovanie (Môže to zahŕňať inferenciálne modely, prediktívne modely alebo normatívne modely)
  • Školenie a hodnotenie modelov
  • Aplikácia týchto modelov
  • Vizualizácia modelov

Jediná vec, ktorú si musíte vždy pamätať, je to, že dolovanie textu vždy predchádza textovej analýze.

Porovnanie porovnávania medzi ťažbou textu a analýzou textu (infografika)

Nižšie je 5 Porovnanie prediktívnej ťažby textu s textovou analýzou

Kľúčové rozdiely medzi ťažbou textu a analýzou textu

Poďme rozlišovať dolovanie textu a analýzu textu na základe krokov, ktoré sa podieľajú na niekoľkých aplikáciách, v ktorých sa tieto ťažby aj analýza textu používajú:

• Klasifikácia dokumentov
Kroky, ktoré sú súčasťou dolovania textu, sú tokenizácia, stopovanie a lemmatizácia, odstránenie zastávok a interpunkcie a nakoniec výpočet frekvenčnej matice alebo frekvenčnej matice dokumentu.

Tokenizácia - Proces rozdelenia celých údajov (korpusu) na menšie kúsky alebo menšie slová, obvykle sa jednotlivé slová označujú ako tokenizácia (model N-Gram alebo model s vreckami slov).

Stemming a Lemmatizácia - Napríklad slová veľké, väčšie a väčšie znamenajú to isté a vytvoria duplicitné údaje, aby sme zachovali redundanciu údajov, urobíme lemmatizáciu, spojenie slov s koreňovým slovom.
Odstránenie stop slov - Stop slová nie sú užitočné v analytike, ktorá bude obsahovať slová ako is, the a atď.

Frekvencie termínov - Toto je matica, ktorá má hlavičky riadkov ako názvy dokumentov a stĺpce ako výrazy (slová) a údaje sú frekvenciou slov vyskytujúcich sa v týchto konkrétnych dokumentoch. Nasleduje ukážka snímky obrazovky.

Na obrázku vyššie máme atribúty v riadkoch (slovách) a číslo dokumentu ako stĺpce a frekvenciu slova ako dáta.

Teraz prichádzame k textovej analýze máme nasledujúce kroky, ktoré je potrebné zvážiť

Klastrovanie - Použitím K-znamená klastrovanie / Neurónové siete / KARTA (klasifikačné a regresné stromy) alebo ľubovoľného iného algoritmu klastrovania môžeme teraz klastrovať dokumenty na základe funkcií, ktoré boli vygenerované (znaky sú tu slová).

Vyhodnotenie a vizualizácia - Dodávame klaster do dvoch dimenzií a pozeráme sa, ako sa tieto klastre navzájom líšia, a ak model drží dobré údaje o testoch, môžeme ho nasadiť do výroby a bude to dobrý klasifikátor dokumentov, ktorý klasifikuje všetky nové dokumenty, ktoré sú uvedené ako vstup, a iba by pomenovalo klaster, do ktorého bude spadať.

• Analýza sentimentu

Jeden z najmocnejších nástrojov na trhu, ktorý pomáha pri spracovaní twitterových dát / údajov z Facebooku alebo akýchkoľvek iných údajov, ktoré sa dajú použiť na odvodenie sentimentu z toho, či je sentiment dobrý, zlý alebo neutrálny pre určitý proces / produkt. alebo osoba je analýza sentimentu.
Zdroj údajov môže byť ľahko dostupný pomocou twitter API / Facebook API na získanie tweetov / komentárov / hodnotení atď. Na tweetu alebo na post spoločnosti. Hlavným problémom je, že tieto údaje je ťažké štruktúrovať. Údaje by tiež obsahovali rôzne reklamy a vedec údajov, ktorý pracuje pre spoločnosť, sa musí ubezpečiť, že výber údajov sa vykonáva správnym spôsobom, aby iba vybrané tweety / príspevky prešli fázami predbežného spracovania.
Medzi ďalšie nástroje patrí Web Scraping, jedná sa o časť dolovania textu, v ktorej zošrotujete údaje z webových stránok pomocou prehľadávačov.
Proces dolovania textu zostáva rovnaký ako tokenizácia, stopovanie a lemmatizácia, odstránenie zastávok a interpunkcie a na poslednom výpočte termín frekvenčná matica alebo frekvenčná matica dokumentu, ale jediný rozdiel nastane pri použití analýzy sentimentu.
Zvyčajne dávame skóre každému príspevku alebo tweetu. Zvyčajne, keď si kúpite produkt a recenziu, ak máte tiež možnosť dať hviezdy na kontrolu a vložiť komentár. Google, Amazon a ďalšie webové stránky používajú hviezdičky na hodnotenie komentára, a to nielen to, že berú tweety / príspevky a dávajú ich ľuďom, aby ich hodnotili ako dobré / zlé / neutrálne, a pri česaní týchto dvoch skóre generujú nové skóre na konkrétny tweet / príspevok.
Vizualizáciu analýzy sentimentu je možné vykonať pomocou slovného cloudu, stĺpcových grafov frekvenčnej termíny.

• Asociácia analýzy baníctva

Jednou z aplikácií, na ktorých niektorí chlapci pracovali, bol „Pravdepodobný model nežiaducich účinkov liekov“, v rámci ktorého je možné zistiť, ktoré nežiaduce účinky môžu spôsobiť ďalšie nežiaduce účinky, ak vezme konkrétny liek.
Dolovanie textu zahŕňalo nasledujúci pracovný tok

Z vyššie uvedeného obrázka vidíme, že až do získania údajov patria všetky kroky k dolovaniu textu, ktorý identifikuje zdroj údajov, extrahuje ich a potom ich pripravuje na analýzu.

Po použití ťažby združení máme nižšie uvedený model
Ako vidíme, niektoré šípky ukazujú na oranžový kruh a potom jedna šípka na ľubovoľný konkrétny ADE (nežiaduca drogová udalosť). Ak urobíme príklad na ľavej spodnej strane obrázka, zistíme, že apatia, asténia a abnormálne pocity vedú k pocitu viny, je možné povedať, že je to zrejmé, je to zrejmé, pretože ako človek môžete interpretovať a vzťahovať sa, ale tu stroj interpretuje to a dáva nám ďalšiu nepriaznivú drogovú udalosť.

Príklad slova cloud je uvedený nižšie

Porovnávacia tabuľka medzi ťažbou textu a analýzou textu

Nižšie sú uvedené zoznamy bodov, opíšte porovnania medzi textovou ťažbou a textovou analýzou:

Základ pre porovnanieŤažba textuTextová analýza

zmysel

Dolovanie textu je v podstate vyčistenie údajov, ktoré majú byť k dispozícii pre textovú analýzuTextová analýza využíva štatistické techniky a techniky strojového učenia, aby bola schopná predpovedať / predpísať alebo odvodiť akékoľvek informácie z textovo ťažených údajov.

pojem

Dolovanie textu je nástroj, ktorý pomáha pri čistení údajov.Textová analýza je proces uplatňovania algoritmov

rámec

Ak hovoríme o rámci, dolovanie textu je podobné ETL (Extract Transform Load), čo znamená, že je možné vkladať údaje do databázy, tieto kroky sa vykonávajúV textovej analýze sa tieto údaje používajú na pridávanie hodnôt do podniku, napríklad na vytváranie slovných mrakov, bigramových frekvenčných diagramov, v niektorých prípadoch N-gramov

Jazyk

Python a R sú najznámejšie nástroje na dolovanie textu, ktoré sa používajú na dolovanie textuPre textovú analýzu, akonáhle sú údaje k dispozícii na úrovni databázy, potom môžeme použiť akýkoľvek analytický softvér tam, vrátane pythonu a R. K ďalším softvérom patrí Power BI, Azure, KNIME atď.

Príklady

  • kategorizácia textu
  • zoskupovanie textov
  • extrakcia koncepcie / entity
  • analýza sentimentu
  • zhrnutie dokumentov
  • výroba podrobných taxonómií
  • Modelovanie vzťahov entít
  • Analýza asociácie
  • vizualizácia
  • prediktívna analytika
  • získavanie informácií
  • lexikálna analýza
  • rozpoznávanie vzorov
  • tagging / anotácie

Záver - Textová ťažba verzus textová analýza

Budúcnosť textovej ťažby a textovej analýzy sa netýka iba angličtiny, ale došlo k neustálemu pokroku a používanie jazykových nástrojov nielen pre angličtinu, ale aj iné jazyky sa zvažujú na analýzu.

Rozsah a budúcnosť ťažby textu sa bude rozširovať, pretože na analýzu iných jazykov sú obmedzené zdroje.

Textová analýza má veľmi široký rozsah, v ktorom sa dá použiť. Medzi príklady odvetví, v ktorých sa dá použiť, patria:

  • Monitorovanie sociálnych médií
  • Pharma / Biotech Applications
  • Obchodné a marketingové aplikácie

Odporúčaný článok

Toto bol sprievodca rozdielom medzi ťažbou textu verzus textovou analýzou, ich významom, porovnaním medzi dvoma hlavami, kľúčovými rozdielmi, porovnávacími tabuľkami a závermi. Ďalšie informácie nájdete aj v nasledujúcich článkoch -

  1. Azure Paas vs Iaas - zistite rozdiely
  2. Najlepšie 3 veci, ktoré by ste sa mali dozvedieť o dolovaní dát verzus dolovaní textu
  3. Spoznajte najlepší rozdiel medzi analýzou údajov o ťažbe dát z Vs
  4. Business Intelligence vs Machine Learning - ktorý z nich je lepší
  5. Prediktívna analýza v porovnaní s dolovaním údajov - ktorá je užitočnejšia

Kategórie: