Rozdiely medzi ťažbou textu a analýzou textu
Štruktúrované údaje existujú už od začiatku 20. storočia, ale vďaka čomu je textová ťažba a textová analýza taká špeciálna, je to, že využíva informácie z neštruktúrovaných údajov (spracovanie prirodzeného jazyka). Len čo dokážeme previesť tento neštruktúrovaný text na pološtrukturované alebo štruktúrované údaje, bude možné použiť všetky algoritmy dolovania dát napr. Štatistické a strojové algoritmy učenia.
Dokonca aj Donald Trump dokázal tieto údaje využiť a previesť ich na informácie, ktoré mu pomohli zvíťaziť v prezidentských voľbách v USA, no v podstate to neurobil svojim podriadeným. Tam je veľmi dobrý článok tam http://fivethirtyeight.com/features/the-real-story-of-2016/ môžete prejsť.
Mnoho firiem začalo využívať ťažbu textu na využívanie hodnotných vstupov z dostupného textu. Napríklad spoločnosť založená na produkte môže použiť údaje Twitter / Facebook na to, aby vedela, ako dobre alebo zle ich produkt na svete robí pomocou Sentimental. analýza. V počiatočných dňoch spracovanie vyžadovalo veľa času, dní, v skutočnosti, spracovania alebo implementovania algoritmov strojového učenia, ale so zavedením nástrojov ako Hadoop, Azure, KNIME a ďalších veľkých softvérov na spracovanie údajov ťažba textu získala na trhu obrovskú popularitu. Jedným z najlepších príkladov textovej analýzy využívajúcich združenie dolovania je Amazonov model odporúčaní, v ktorom automaticky dáva svojim zákazníkom odporúčania, čo si ostatní kupujú pri kúpe konkrétneho produktu.
Jednou z najväčších výziev pri aplikácii nástrojov na dolovanie textu na niečo, čo nie je v digitálnom formáte / na počítačovej jednotke, je proces jeho výroby. Staré archívy a mnoho dôležitých dokumentov, ktoré sú dostupné iba na papieroch, sa niekedy prečíta prostredníctvom OCR (Optical Character Recognition), ktoré majú veľa chýb a niekedy sa údaje vkladajú manuálne, čo je náchylné k ľudským chybám. Dôvod, prečo to chceme, je, že môžeme odvodiť ďalšie postrehy, ktoré nie sú viditeľné z tradičného čítania.
Niektoré kroky ťažby textu sú uvedené nižšie
- Získavanie informácií
- Príprava a čistenie údajov
- segmentácia
- tokenizácia
- Odstránenie čísiel stopových slov a interpunkcie
- vyplývajúce
- Premeniť na malé písmená
- Označovanie POS
- Vytvorte textový korpus
- Matica termínovaného dokumentu
Nižšie sú uvedené kroky v textovej analýze, ktoré sa uplatňujú po príprave matice termínovaných dokumentov
- Modelovanie (Môže to zahŕňať inferenciálne modely, prediktívne modely alebo normatívne modely)
- Školenie a hodnotenie modelov
- Aplikácia týchto modelov
- Vizualizácia modelov
Jediná vec, ktorú si musíte vždy pamätať, je to, že dolovanie textu vždy predchádza textovej analýze.
Porovnanie porovnávania medzi ťažbou textu a analýzou textu (infografika)
Nižšie je 5 Porovnanie prediktívnej ťažby textu s textovou analýzou
Kľúčové rozdiely medzi ťažbou textu a analýzou textu
Poďme rozlišovať dolovanie textu a analýzu textu na základe krokov, ktoré sa podieľajú na niekoľkých aplikáciách, v ktorých sa tieto ťažby aj analýza textu používajú:
• Klasifikácia dokumentov
Kroky, ktoré sú súčasťou dolovania textu, sú tokenizácia, stopovanie a lemmatizácia, odstránenie zastávok a interpunkcie a nakoniec výpočet frekvenčnej matice alebo frekvenčnej matice dokumentu.
Tokenizácia - Proces rozdelenia celých údajov (korpusu) na menšie kúsky alebo menšie slová, obvykle sa jednotlivé slová označujú ako tokenizácia (model N-Gram alebo model s vreckami slov).
Stemming a Lemmatizácia - Napríklad slová veľké, väčšie a väčšie znamenajú to isté a vytvoria duplicitné údaje, aby sme zachovali redundanciu údajov, urobíme lemmatizáciu, spojenie slov s koreňovým slovom.
Odstránenie stop slov - Stop slová nie sú užitočné v analytike, ktorá bude obsahovať slová ako is, the a atď.
Frekvencie termínov - Toto je matica, ktorá má hlavičky riadkov ako názvy dokumentov a stĺpce ako výrazy (slová) a údaje sú frekvenciou slov vyskytujúcich sa v týchto konkrétnych dokumentoch. Nasleduje ukážka snímky obrazovky.
Na obrázku vyššie máme atribúty v riadkoch (slovách) a číslo dokumentu ako stĺpce a frekvenciu slova ako dáta.
Teraz prichádzame k textovej analýze máme nasledujúce kroky, ktoré je potrebné zvážiť
Klastrovanie - Použitím K-znamená klastrovanie / Neurónové siete / KARTA (klasifikačné a regresné stromy) alebo ľubovoľného iného algoritmu klastrovania môžeme teraz klastrovať dokumenty na základe funkcií, ktoré boli vygenerované (znaky sú tu slová).
Vyhodnotenie a vizualizácia - Dodávame klaster do dvoch dimenzií a pozeráme sa, ako sa tieto klastre navzájom líšia, a ak model drží dobré údaje o testoch, môžeme ho nasadiť do výroby a bude to dobrý klasifikátor dokumentov, ktorý klasifikuje všetky nové dokumenty, ktoré sú uvedené ako vstup, a iba by pomenovalo klaster, do ktorého bude spadať.
• Analýza sentimentu
Jeden z najmocnejších nástrojov na trhu, ktorý pomáha pri spracovaní twitterových dát / údajov z Facebooku alebo akýchkoľvek iných údajov, ktoré sa dajú použiť na odvodenie sentimentu z toho, či je sentiment dobrý, zlý alebo neutrálny pre určitý proces / produkt. alebo osoba je analýza sentimentu.
Zdroj údajov môže byť ľahko dostupný pomocou twitter API / Facebook API na získanie tweetov / komentárov / hodnotení atď. Na tweetu alebo na post spoločnosti. Hlavným problémom je, že tieto údaje je ťažké štruktúrovať. Údaje by tiež obsahovali rôzne reklamy a vedec údajov, ktorý pracuje pre spoločnosť, sa musí ubezpečiť, že výber údajov sa vykonáva správnym spôsobom, aby iba vybrané tweety / príspevky prešli fázami predbežného spracovania.
Medzi ďalšie nástroje patrí Web Scraping, jedná sa o časť dolovania textu, v ktorej zošrotujete údaje z webových stránok pomocou prehľadávačov.
Proces dolovania textu zostáva rovnaký ako tokenizácia, stopovanie a lemmatizácia, odstránenie zastávok a interpunkcie a na poslednom výpočte termín frekvenčná matica alebo frekvenčná matica dokumentu, ale jediný rozdiel nastane pri použití analýzy sentimentu.
Zvyčajne dávame skóre každému príspevku alebo tweetu. Zvyčajne, keď si kúpite produkt a recenziu, ak máte tiež možnosť dať hviezdy na kontrolu a vložiť komentár. Google, Amazon a ďalšie webové stránky používajú hviezdičky na hodnotenie komentára, a to nielen to, že berú tweety / príspevky a dávajú ich ľuďom, aby ich hodnotili ako dobré / zlé / neutrálne, a pri česaní týchto dvoch skóre generujú nové skóre na konkrétny tweet / príspevok.
Vizualizáciu analýzy sentimentu je možné vykonať pomocou slovného cloudu, stĺpcových grafov frekvenčnej termíny.
• Asociácia analýzy baníctva
Jednou z aplikácií, na ktorých niektorí chlapci pracovali, bol „Pravdepodobný model nežiaducich účinkov liekov“, v rámci ktorého je možné zistiť, ktoré nežiaduce účinky môžu spôsobiť ďalšie nežiaduce účinky, ak vezme konkrétny liek.
Dolovanie textu zahŕňalo nasledujúci pracovný tok
Z vyššie uvedeného obrázka vidíme, že až do získania údajov patria všetky kroky k dolovaniu textu, ktorý identifikuje zdroj údajov, extrahuje ich a potom ich pripravuje na analýzu.
Po použití ťažby združení máme nižšie uvedený model
Ako vidíme, niektoré šípky ukazujú na oranžový kruh a potom jedna šípka na ľubovoľný konkrétny ADE (nežiaduca drogová udalosť). Ak urobíme príklad na ľavej spodnej strane obrázka, zistíme, že apatia, asténia a abnormálne pocity vedú k pocitu viny, je možné povedať, že je to zrejmé, je to zrejmé, pretože ako človek môžete interpretovať a vzťahovať sa, ale tu stroj interpretuje to a dáva nám ďalšiu nepriaznivú drogovú udalosť.
Príklad slova cloud je uvedený nižšie
Porovnávacia tabuľka medzi ťažbou textu a analýzou textu
Nižšie sú uvedené zoznamy bodov, opíšte porovnania medzi textovou ťažbou a textovou analýzou:
Základ pre porovnanie | Ťažba textu | Textová analýza |
zmysel | Dolovanie textu je v podstate vyčistenie údajov, ktoré majú byť k dispozícii pre textovú analýzu | Textová analýza využíva štatistické techniky a techniky strojového učenia, aby bola schopná predpovedať / predpísať alebo odvodiť akékoľvek informácie z textovo ťažených údajov. |
pojem | Dolovanie textu je nástroj, ktorý pomáha pri čistení údajov. | Textová analýza je proces uplatňovania algoritmov |
rámec | Ak hovoríme o rámci, dolovanie textu je podobné ETL (Extract Transform Load), čo znamená, že je možné vkladať údaje do databázy, tieto kroky sa vykonávajú | V textovej analýze sa tieto údaje používajú na pridávanie hodnôt do podniku, napríklad na vytváranie slovných mrakov, bigramových frekvenčných diagramov, v niektorých prípadoch N-gramov |
Jazyk | Python a R sú najznámejšie nástroje na dolovanie textu, ktoré sa používajú na dolovanie textu | Pre textovú analýzu, akonáhle sú údaje k dispozícii na úrovni databázy, potom môžeme použiť akýkoľvek analytický softvér tam, vrátane pythonu a R. K ďalším softvérom patrí Power BI, Azure, KNIME atď. |
Príklady |
|
|
Záver - Textová ťažba verzus textová analýza
Budúcnosť textovej ťažby a textovej analýzy sa netýka iba angličtiny, ale došlo k neustálemu pokroku a používanie jazykových nástrojov nielen pre angličtinu, ale aj iné jazyky sa zvažujú na analýzu.
Rozsah a budúcnosť ťažby textu sa bude rozširovať, pretože na analýzu iných jazykov sú obmedzené zdroje.
Textová analýza má veľmi široký rozsah, v ktorom sa dá použiť. Medzi príklady odvetví, v ktorých sa dá použiť, patria:
- Monitorovanie sociálnych médií
- Pharma / Biotech Applications
- Obchodné a marketingové aplikácie
Odporúčaný článok
Toto bol sprievodca rozdielom medzi ťažbou textu verzus textovou analýzou, ich významom, porovnaním medzi dvoma hlavami, kľúčovými rozdielmi, porovnávacími tabuľkami a závermi. Ďalšie informácie nájdete aj v nasledujúcich článkoch -
- Azure Paas vs Iaas - zistite rozdiely
- Najlepšie 3 veci, ktoré by ste sa mali dozvedieť o dolovaní dát verzus dolovaní textu
- Spoznajte najlepší rozdiel medzi analýzou údajov o ťažbe dát z Vs
- Business Intelligence vs Machine Learning - ktorý z nich je lepší
- Prediktívna analýza v porovnaní s dolovaním údajov - ktorá je užitočnejšia