Ťažba textu vs analýza textu - ktorý z nich je lepší

Rozdiely medzi ťažbou textu a analýzou textu

Štruktúrované údaje existujú už od začiatku 20. storočia, ale vďaka čomu je textová ťažba a textová analýza taká špeciálna, je to, že využíva informácie z neštruktúrovaných údajov (spracovanie prirodzeného jazyka). Len čo dokážeme previesť tento neštruktúrovaný text na pološtrukturované alebo štruktúrované údaje, bude možné použiť všetky algoritmy dolovania dát napr. Štatistické a strojové algoritmy učenia.

Dokonca aj Donald Trump dokázal tieto údaje využiť a previesť ich na informácie, ktoré mu pomohli zvíťaziť v prezidentských voľbách v USA, no v podstate to neurobil svojim podriadeným. Tam je veľmi dobrý článok tam http://fivethirtyeight.com/features/the-real-story-of-2016/ môžete prejsť.

Mnoho firiem začalo využívať ťažbu textu na využívanie hodnotných vstupov z dostupného textu. Napríklad spoločnosť založená na produkte môže použiť údaje Twitter / Facebook na to, aby vedela, ako dobre alebo zle ich produkt na svete robí pomocou Sentimental. analýza. V počiatočných dňoch spracovanie vyžadovalo veľa času, dní, v skutočnosti, spracovania alebo implementovania algoritmov strojového učenia, ale so zavedením nástrojov ako Hadoop, Azure, KNIME a ďalších veľkých softvérov na spracovanie údajov ťažba textu získala na trhu obrovskú popularitu. Jedným z najlepších príkladov textovej analýzy využívajúcich združenie dolovania je Amazonov model odporúčaní, v ktorom automaticky dáva svojim zákazníkom odporúčania, čo si ostatní kupujú pri kúpe konkrétneho produktu.

Jednou z najväčších výziev pri aplikácii nástrojov na dolovanie textu na niečo, čo nie je v digitálnom formáte / na počítačovej jednotke, je proces jeho výroby. Staré archívy a mnoho dôležitých dokumentov, ktoré sú dostupné iba na papieroch, sa niekedy prečíta prostredníctvom OCR (Optical Character Recognition), ktoré majú veľa chýb a niekedy sa údaje vkladajú manuálne, čo je náchylné k ľudským chybám. Dôvod, prečo to chceme, je, že môžeme odvodiť ďalšie postrehy, ktoré nie sú viditeľné z tradičného čítania.

Niektoré kroky ťažby textu sú uvedené nižšie

Získavanie informácií
Príprava a čistenie údajov
segmentácia
tokenizácia
Odstránenie čísiel stopových slov a interpunkcie
vyplývajúce
Premeniť na malé písmená
Označovanie POS
Vytvorte textový korpus
Matica termínovaného dokumentu

Nižšie sú uvedené kroky v textovej analýze, ktoré sa uplatňujú po príprave matice termínovaných dokumentov

Modelovanie (Môže to zahŕňať inferenciálne modely, prediktívne modely alebo normatívne modely)
Školenie a hodnotenie modelov
Aplikácia týchto modelov
Vizualizácia modelov

Jediná vec, ktorú si musíte vždy pamätať, je to, že dolovanie textu vždy predchádza textovej analýze.

Porovnanie porovnávania medzi ťažbou textu a analýzou textu (infografika)

Nižšie je 5 Porovnanie prediktívnej ťažby textu s textovou analýzou

Kľúčové rozdiely medzi ťažbou textu a analýzou textu

Poďme rozlišovať dolovanie textu a analýzu textu na základe krokov, ktoré sa podieľajú na niekoľkých aplikáciách, v ktorých sa tieto ťažby aj analýza textu používajú:

• Klasifikácia dokumentov
Kroky, ktoré sú súčasťou dolovania textu, sú tokenizácia, stopovanie a lemmatizácia, odstránenie zastávok a interpunkcie a nakoniec výpočet frekvenčnej matice alebo frekvenčnej matice dokumentu.

Tokenizácia - Proces rozdelenia celých údajov (korpusu) na menšie kúsky alebo menšie slová, obvykle sa jednotlivé slová označujú ako tokenizácia (model N-Gram alebo model s vreckami slov).

Stemming a Lemmatizácia - Napríklad slová veľké, väčšie a väčšie znamenajú to isté a vytvoria duplicitné údaje, aby sme zachovali redundanciu údajov, urobíme lemmatizáciu, spojenie slov s koreňovým slovom.
Odstránenie stop slov - Stop slová nie sú užitočné v analytike, ktorá bude obsahovať slová ako is, the a atď.

Frekvencie termínov - Toto je matica, ktorá má hlavičky riadkov ako názvy dokumentov a stĺpce ako výrazy (slová) a údaje sú frekvenciou slov vyskytujúcich sa v týchto konkrétnych dokumentoch. Nasleduje ukážka snímky obrazovky.

Na obrázku vyššie máme atribúty v riadkoch (slovách) a číslo dokumentu ako stĺpce a frekvenciu slova ako dáta.

Teraz prichádzame k textovej analýze máme nasledujúce kroky, ktoré je potrebné zvážiť

Klastrovanie - Použitím K-znamená klastrovanie / Neurónové siete / KARTA (klasifikačné a regresné stromy) alebo ľubovoľného iného algoritmu klastrovania môžeme teraz klastrovať dokumenty na základe funkcií, ktoré boli vygenerované (znaky sú tu slová).

Vyhodnotenie a vizualizácia - Dodávame klaster do dvoch dimenzií a pozeráme sa, ako sa tieto klastre navzájom líšia, a ak model drží dobré údaje o testoch, môžeme ho nasadiť do výroby a bude to dobrý klasifikátor dokumentov, ktorý klasifikuje všetky nové dokumenty, ktoré sú uvedené ako vstup, a iba by pomenovalo klaster, do ktorého bude spadať.

• Analýza sentimentu

Jeden z najmocnejších nástrojov na trhu, ktorý pomáha pri spracovaní twitterových dát / údajov z Facebooku alebo akýchkoľvek iných údajov, ktoré sa dajú použiť na odvodenie sentimentu z toho, či je sentiment dobrý, zlý alebo neutrálny pre určitý proces / produkt. alebo osoba je analýza sentimentu.
Zdroj údajov môže byť ľahko dostupný pomocou twitter API / Facebook API na získanie tweetov / komentárov / hodnotení atď. Na tweetu alebo na post spoločnosti. Hlavným problémom je, že tieto údaje je ťažké štruktúrovať. Údaje by tiež obsahovali rôzne reklamy a vedec údajov, ktorý pracuje pre spoločnosť, sa musí ubezpečiť, že výber údajov sa vykonáva správnym spôsobom, aby iba vybrané tweety / príspevky prešli fázami predbežného spracovania.
Medzi ďalšie nástroje patrí Web Scraping, jedná sa o časť dolovania textu, v ktorej zošrotujete údaje z webových stránok pomocou prehľadávačov.
Proces dolovania textu zostáva rovnaký ako tokenizácia, stopovanie a lemmatizácia, odstránenie zastávok a interpunkcie a na poslednom výpočte termín frekvenčná matica alebo frekvenčná matica dokumentu, ale jediný rozdiel nastane pri použití analýzy sentimentu.
Zvyčajne dávame skóre každému príspevku alebo tweetu. Zvyčajne, keď si kúpite produkt a recenziu, ak máte tiež možnosť dať hviezdy na kontrolu a vložiť komentár. Google, Amazon a ďalšie webové stránky používajú hviezdičky na hodnotenie komentára, a to nielen to, že berú tweety / príspevky a dávajú ich ľuďom, aby ich hodnotili ako dobré / zlé / neutrálne, a pri česaní týchto dvoch skóre generujú nové skóre na konkrétny tweet / príspevok.
Vizualizáciu analýzy sentimentu je možné vykonať pomocou slovného cloudu, stĺpcových grafov frekvenčnej termíny.

• Asociácia analýzy baníctva

Jednou z aplikácií, na ktorých niektorí chlapci pracovali, bol „Pravdepodobný model nežiaducich účinkov liekov“, v rámci ktorého je možné zistiť, ktoré nežiaduce účinky môžu spôsobiť ďalšie nežiaduce účinky, ak vezme konkrétny liek.
Dolovanie textu zahŕňalo nasledujúci pracovný tok

Z vyššie uvedeného obrázka vidíme, že až do získania údajov patria všetky kroky k dolovaniu textu, ktorý identifikuje zdroj údajov, extrahuje ich a potom ich pripravuje na analýzu.

Po použití ťažby združení máme nižšie uvedený model
Ako vidíme, niektoré šípky ukazujú na oranžový kruh a potom jedna šípka na ľubovoľný konkrétny ADE (nežiaduca drogová udalosť). Ak urobíme príklad na ľavej spodnej strane obrázka, zistíme, že apatia, asténia a abnormálne pocity vedú k pocitu viny, je možné povedať, že je to zrejmé, je to zrejmé, pretože ako človek môžete interpretovať a vzťahovať sa, ale tu stroj interpretuje to a dáva nám ďalšiu nepriaznivú drogovú udalosť.

Príklad slova cloud je uvedený nižšie

Porovnávacia tabuľka medzi ťažbou textu a analýzou textu

Nižšie sú uvedené zoznamy bodov, opíšte porovnania medzi textovou ťažbou a textovou analýzou:

Základ pre porovnanie	Ťažba textu	Textová analýza
zmysel	Dolovanie textu je v podstate vyčistenie údajov, ktoré majú byť k dispozícii pre textovú analýzu	Textová analýza využíva štatistické techniky a techniky strojového učenia, aby bola schopná predpovedať / predpísať alebo odvodiť akékoľvek informácie z textovo ťažených údajov.
pojem	Dolovanie textu je nástroj, ktorý pomáha pri čistení údajov.	Textová analýza je proces uplatňovania algoritmov
rámec	Ak hovoríme o rámci, dolovanie textu je podobné ETL (Extract Transform Load), čo znamená, že je možné vkladať údaje do databázy, tieto kroky sa vykonávajú	V textovej analýze sa tieto údaje používajú na pridávanie hodnôt do podniku, napríklad na vytváranie slovných mrakov, bigramových frekvenčných diagramov, v niektorých prípadoch N-gramov
Jazyk	Python a R sú najznámejšie nástroje na dolovanie textu, ktoré sa používajú na dolovanie textu	Pre textovú analýzu, akonáhle sú údaje k dispozícii na úrovni databázy, potom môžeme použiť akýkoľvek analytický softvér tam, vrátane pythonu a R. K ďalším softvérom patrí Power BI, Azure, KNIME atď.
Príklady	kategorizácia textu zoskupovanie textov extrakcia koncepcie / entity analýza sentimentu zhrnutie dokumentov výroba podrobných taxonómií Modelovanie vzťahov entít	Analýza asociácie vizualizácia prediktívna analytika získavanie informácií lexikálna analýza rozpoznávanie vzorov tagging / anotácie

Záver - Textová ťažba verzus textová analýza

Budúcnosť textovej ťažby a textovej analýzy sa netýka iba angličtiny, ale došlo k neustálemu pokroku a používanie jazykových nástrojov nielen pre angličtinu, ale aj iné jazyky sa zvažujú na analýzu.

Rozsah a budúcnosť ťažby textu sa bude rozširovať, pretože na analýzu iných jazykov sú obmedzené zdroje.

Textová analýza má veľmi široký rozsah, v ktorom sa dá použiť. Medzi príklady odvetví, v ktorých sa dá použiť, patria:

Monitorovanie sociálnych médií
Pharma / Biotech Applications
Obchodné a marketingové aplikácie

Odporúčaný článok

Toto bol sprievodca rozdielom medzi ťažbou textu verzus textovou analýzou, ich významom, porovnaním medzi dvoma hlavami, kľúčovými rozdielmi, porovnávacími tabuľkami a závermi. Ďalšie informácie nájdete aj v nasledujúcich článkoch -

Azure Paas vs Iaas - zistite rozdiely
Najlepšie 3 veci, ktoré by ste sa mali dozvedieť o dolovaní dát verzus dolovaní textu
Spoznajte najlepší rozdiel medzi analýzou údajov o ťažbe dát z Vs
Business Intelligence vs Machine Learning - ktorý z nich je lepší
Prediktívna analýza v porovnaní s dolovaním údajov - ktorá je užitočnejšia

Ťažba textu vs analýza textu - ktorý z nich je lepší

Obsah:

Rozdiely medzi ťažbou textu a analýzou textu

Porovnanie porovnávania medzi ťažbou textu a analýzou textu (infografika)

Kľúčové rozdiely medzi ťažbou textu a analýzou textu

• Analýza sentimentu

• Asociácia analýzy baníctva

Porovnávacia tabuľka medzi ťažbou textu a analýzou textu

Záver - Textová ťažba verzus textová analýza

Odporúčaný článok

Ako používať Content-Aware Crop vo Photoshope CC

Ako používať inteligentné filtre vo Photoshope

Orezanie obrázkov vo Photoshope CS6

Režim prelínavosti vo Photoshope

Ako čítať histogram obrázkov vo Photoshope

Prepínanie stĺpcov v Exceli Ako prepínať stĺpce v Exceli?

Vyhlásenie o prepnutí v C ++ - Ako to funguje Syntax a príklady

Symetrické šifrovanie kľúčov Kompletný sprievodca šifrovaním symetrických kľúčov

Symetrické algoritmy Druhy symetrických algoritmov

Vyhlásenie o prepnutí v R - Komplexný sprievodca prehlásením o zmene dodávateľa v R

10 Kľúčové zručnosti a techniky projektového riadenia eduCBA

Top 10 rozdaných mýtov o riadení projektu edu CBA

Nástroje na riadenie projektov zadarmo Hlavné funkcie nástrojov na správu

Top 10 úžasných nástrojov a softvéru na riadenie projektov

Pridružený projektový manažér 10 najlepších zručností pre spolupracovníka projektového manažéra