Definitívna príručka o tom, ako funguje ťažba textu eduCBA

Obsah:

Anonim

Úvod do ťažby textu

Textová ťažba - text je v dnešnom kontexte najbežnejším spôsobom výmeny informácií. Pochopenie významu textu však vôbec nie je ľahkou úlohou. Potrebujeme dobrý nástroj business intelligence, ktorý pomôže pochopiť informácie jednoduchým spôsobom.

Čo je textová ťažba

Textová ťažba je známa aj ako Text Analytics. Je to proces pochopenia informácií zo súboru textov. Text Mining je navrhnutý tak, aby pomohol podniku nájsť cenné znalosti z textového obsahu. Tento obsah môže mať formu textového dokumentu, e-mailu alebo príspevkov na sociálnych médiách.

Textová ťažba je použitie automatizovaných metód na porozumenie poznatkov dostupných v textových dokumentoch.

Textová ťažba sa dá použiť aj na to, aby počítač pochopil štruktúrované alebo neštruktúrované údaje. Kvalitatívne údaje alebo neštruktúrované údaje sú údaje, ktoré sa nedajú merať z hľadiska počtu. Tieto údaje zvyčajne obsahujú informácie ako farba, textúra a text. Kvantitatívne údaje alebo štruktúrované údaje sú údaje, ktoré je možné ľahko merať.

Dolovanie textu je interdisciplinárne pole, ktoré zahŕňa získavanie informácií, získavanie údajov, strojové učenie, štatistiku a ďalšie. Ťažba textu je mierne odlišné pole od ťažby údajov.

Výhody ťažby textu

Použitie textovej ťažby má mnoho výhod. Sú uvedené nižšie

  • Šetrí čas a zdroje a pracuje efektívne ako ľudské mozgy.
  • Pomáha sledovať názory v priebehu času
  • Text Mining pomáha zhrnúť dokumenty
  • Textová analýza pomáha extrahovať koncepty z textu a prezentovať ho jednoduchším spôsobom
  • Text, ktorý sa indexuje pomocou dolovania textu, sa môže použiť v prediktívnej analýze
  • Ak chcete používať terminológiu vo svojej oblasti záujmu, môžete pripojiť akékoľvek slovníky

Použitie textovej ťažby

  • Názvy rôznych entít a vzťahy medzi textom možno ľahko nájsť pomocou rôznych techník.
  • Pomáha extrahovať vzory z veľkého množstva neštruktúrovaných údajov
  • Systematické preskúmanie literatúry - Môže ísť o hĺbkový výskum textu, nájsť kľúčové témy a zdôrazniť opakované termíny alebo text a populárne témy v určitom časovom období.
  • Testovanie hypotézy - Prostredníctvom dolovania textu je možné otestovať konkrétnu hypotézu, aby sa zistilo, či dokument hypotézu potvrdí alebo zamietne. Najprv sa v dokumente najprv overí preukázané presvedčenie.
Poznámka:
Efektívne vyvíjať riešenia obchodných problémov. Naučte sa definovať, analyzovať a dokumentovať obchodné požiadavky. Preskúmajte obchodné činnosti, aby boli efektívnejšie.

Dôležitosť ťažby textu

  • Text Mining umožňuje lepšie a inteligentnejšie rozhodovanie
  • Pomáha riešiť problémy objavovania vedomostí v rôznych oblastiach podnikania
  • Prostredníctvom dolovania textu môžete ľahko vizualizovať údaje mnohými spôsobmi, ako sú html tabuľky, grafy, grafy a ďalšie
  • Je to skvelý nástroj produktivity. Poskytuje lepšie výsledky rýchlejšie ako akýkoľvek iný nástroj.
  • Nástroj na ťažbu textu používajú veľké aj malé organizácie, ktoré sú organizáciami založenými na znalostiach.

Aplikácie textovej ťažby

  • Analýza odpovedí z prieskumov na konci obdobia

Otvorené prieskumné otázky pomôžu respondentom vyjadriť svoj názor alebo názor bez akýchkoľvek obmedzení. To pomôže dozvedieť sa viac o názoroch zákazníkov, ako sa spoliehať na štruktúrované dotazníky. Textová ťažba sa môže použiť na analýzu takýchto informácií vo forme textu.

  • Automatické spracovanie správ, e-mailov

Textová ťažba sa používa hlavne na klasifikáciu textu. Textová ťažba sa dá použiť na filtrovanie nepotrebnej pošty pomocou určitých slov alebo fráz. Takéto správy automaticky zahodia také správy ako spam. Takýto automatický systém klasifikácie a filtrovania vybraných e-mailov a ich odoslania na príslušné oddelenie sa vykonáva pomocou systému textovej ťažby. Textová ťažba tiež pošle upozornenie e-mailovému používateľovi, aby odstránil e-maily s takýmito urážlivými slovami alebo obsahom.

  • Analýza záručných alebo poistných nárokov

Vo väčšine obchodných organizácií sa informácie zbierajú hlavne vo forme textu. Napríklad v nemocnici sa rozhovory s pacientmi môžu krátko rozprávať v textovej podobe a správy sú aj vo forme textu. Tieto poznámky sa teraz zhromažďujú elektronicky každý deň, aby sa dali ľahko preniesť do algoritmov dolovania textu. Tieto záznamy sa potom môžu použiť na diagnostikovanie skutočnej situácie.

  • Vyšetrovanie konkurentov indexovým prehľadávaním ich webových stránok

Ďalšou dôležitou oblasťou aplikácie Text Mining je spracovanie obsahu webových stránok v konkrétnej doméne. Týmto spôsobom systém na vyhľadávanie textu automaticky nájde zoznam výrazov, ktoré sa používajú na webe. Týmto spôsobom je možné nájsť najdôležitejšie pojmy používané na webových stránkach. Týmto spôsobom môžete poznať schopnosti konkurentov, ktoré vám môžu pomôcť efektívne podnikať.

Medzi ďalšie aplikácie textovej ťažby patria nasledujúce

  • Obchodné spravodajstvo
  • E Discovery
  • Bioinformatics
  • Správa záznamov
  • Práce na národnej bezpečnosti alebo spravodajských službách
  • Monitorovanie sociálnych médií

Techniky používané pri ťažbe textov

V systéme ťažby textov sa používa päť základných technológií. Podrobne sa o nich hovorí nižšie

  1. Extrakcia informácií

Používa sa na analýzu neštruktúrovaného textu zistením dôležitých slov a nájdením vzťahov medzi nimi. V tejto technike sa proces párovania vzorov používa na zistenie poradia v texte. Pomáha pri transformácii neštruktúrovaného textu na štruktúrovanú formu. Technika extrakcie informácií zahŕňa moduly spracovania jazyka. Väčšinou sa používa tam, kde je veľké množstvo údajov. Proces extrakcie informácií je vysvetlený na nasledujúcom obrázku.

  1. kategorizácia

Technika kategorizácie klasifikuje textový dokument do jednej alebo viacerých kategórií. Klasifikácia je založená na príkladoch vstupných výstupov. Proces kategorizácie zahŕňa predbežné spracovanie, indexovanie, zmenšenie rozmerov a klasifikáciu. Text je možné kategorizovať pomocou techník ako Naive Bayesovský klasifikátor, Rozhodovací strom, Klasifikátor najbližšieho suseda a Podporné predajné zariadenia.

  1. clustering

Metóda zoskupovania sa používa na zoskupovanie textových dokumentov, ktoré majú podobný obsah. Má oddiely nazývané klastre a každá oblasť bude mať niekoľko dokumentov s podobným obsahom. Zoskupovanie zabezpečuje, že pri vyhľadávaní nebude vynechaný žiadny dokument, a odvodí všetky dokumenty, ktoré majú podobný obsah. K-prostriedky sú často používanou technikou klastrovania. Táto technika tiež porovnáva každý klaster a zisťuje, ako dobre sú dokumenty navzájom prepojené. Spoločnosti používajú túto techniku ​​na vytvorenie databázy s tisíckami podobných dokumentov.

  1. vizualizácia

Vizualizačná technika sa používa na zjednodušenie procesu vyhľadávania relevantných informácií. Táto technika používa na označenie dokumentov alebo skupiny dokumentov textové príznaky a na označenie kompaktnosti používa farby. Vizualizačná technika pomáha atraktívnejšie zobrazovať textové informácie. Nižšie uvedený obrázok predstavuje vizualizačnú techniku

  1. sumarizácie

Sumarizačná technika pomôže skrátiť dĺžku dokumentu a stručne zhrnúť podrobnosti o dokumentoch. Vďaka tomu bude dokument pre používateľov čítať a na prvý pohľad porozumieť obsahu. Zhrnutie nahrádza celú skupinu dokumentov. Ľahko a rýchlo zhŕňa veľké textové dokumenty. Ľudia si prečítajú a zosumarizujú dokument viac času, ale táto technika je veľmi rýchla. Pomáha zvýrazniť hlavné body v dokumente. Zhrnutie je znázornené na obrázku nižšie.

Metódy a modely používané pri ťažbe textov

Na základe získavania informácií má textová ťažba štyri hlavné metódy

  1. Metóda založená na termíne (TBM)

Pojem v dokumente znamená slovo, ktoré má sémantický význam. V tejto metóde sa celý súbor dokumentov analyzuje na základe termínu. Jednou z hlavných nevýhod tejto metódy je problém synonómie a polysémie. Synonymom sa rozumie viac slov s rovnakým významom. Polysémia je miesto, kde má jedno slovo viac významov.

  1. Metóda založená na frázach (PBM)

V tejto metóde sa dokument analyzuje na základe viet, ktoré sú menej zrejmé pre viac významov a viac diskriminačné. Nevýhody tohto spôsobu zahŕňajú

  • Majú nižšie štatistické vlastnosti ako termíny
  • Majú nízku frekvenciu výskytu
  • Majú veľký počet hlučných fráz
  1. Metóda založená na koncepcii (CBM)

V tejto metóde sa dokument analyzuje na základe vety a úrovne dokumentu. V tejto metóde existujú tri hlavné zložky. Prvá zložka skúma zmysluplnú časť viet. Druhá zložka vytvára koncepčný ontologický graf na vysvetlenie štruktúr. Tretia zložka extrahuje najlepšie koncepcie založené na prvých dvoch zložkách. Táto metóda dokáže rozlíšiť dôležité a nedôležité slová.

  1. Metóda vzorovej taxonómie (PTM)

V tejto metóde sa dokument analyzuje na základe vzorov. Vzory v dokumente sa dajú nájsť pomocou techník dolovania dát, ako je napríklad ťažba asociačných pravidiel, postupná ťažba vzorov, častá ťažba množín položiek a ťažba uzavretých vzoriek. Táto metóda využíva dva procesy - zavádzanie a vývoj vzorov. Táto metóda preukázala lepšiu výkonnosť ako všetky ostatné modely alebo metódy.

Ako funguje dolovanie textu

Teraz by ste mali pochopiť, že dolovanie textu umožňuje lepšie porozumieť textu ako čokoľvek iné. Systém textovej ťažby umožňuje výmenu slov z neštruktúrovaných údajov do číselných hodnôt. Dolovanie textu pomáha identifikovať vzory a vzťahy, ktoré existujú vo veľkom množstve textu. Dolovanie textu často používa výpočtové algoritmy na čítanie a analýzu textových informácií. Bez ťažby textu bude ťažké porozumieť textu ľahko a rýchlo. Text je možné ťažiť systematickejším a komplexnejším spôsobom a informácie o firme sa môžu zachytávať automaticky. Kroky v procese ťažby textu sú uvedené nižšie.

  • Krok 1: Získavanie informácií

Toto je prvý krok v procese získavania údajov. Tento krok spočíva v pomoci vyhľadávacieho nástroja na zistenie zbierky textu známeho tiež ako korpus textov, ktorý si môže vyžadovať určitú konverziu. Tieto texty by sa mali tiež spájať v osobitnom formáte, ktorý bude pre používateľov užitočný. XML je zvyčajne štandardom pre dolovanie textu

  • Krok 2: Spracovanie prirodzeného jazyka

Tento krok umožňuje systému vykonať gramatickú analýzu vety na prečítanie textu. Analyzuje tiež text v štruktúrach.

  • Krok 3: Extrakcia informácií

Toto je druhá etapa, v ktorej sa vykonáva identifikácia významu konkrétneho označovania textu. V tejto fáze sa do databázy pridajú metaúdaje o texte. Zahŕňa to tiež pridanie mien alebo miest do textu. Tento krok umožňuje vyhľadávaciemu nástroju získať informácie a zistiť vzťahy medzi textami pomocou ich metadát.

  • Krok 4: Ťažba dát

Poslednou fázou je dolovanie dát pomocou rôznych nástrojov. Tento krok nájde podobnosti medzi informáciami, ktoré majú rovnaký význam, ktorý bude inak ťažké nájsť. Textová ťažba je nástroj, ktorý zvyšuje výskumný proces a pomáha testovať otázky.

Dolovanie textu obsahuje nasledujúci zoznam prvkov

  • Kategorizácia textu
  • Zoskupovanie textu
  • Extrakcia koncepcie / subjektu
  • Granulárne taxonómie
  • Analýza sentimentu
  • Zhrnutie dokumentu
  • Modelovanie vzťahov entít

Výzvy v ťažbe textu

Hlavnou výzvou, ktorej čelí systém textovej ťažby, je prirodzený jazyk. Prírodný jazyk čelí problému nejednoznačnosti. Dvojznačnosť znamená jeden pojem, ktorý má niekoľko významov, jedna veta sa interpretuje rôznymi spôsobmi a výsledkom sú rôzne významy.

Ďalším obmedzením je, že pri používaní systému extrakcie informácií zahŕňa sémantickú analýzu. Z tohto dôvodu nie je uvedený celý text, používateľom sa prezentuje iba obmedzená časť textu. V týchto dňoch je však potrebné lepšie porozumieť textu.

Textová ťažba má tiež obmedzenia z hľadiska právnych predpisov o autorských právach. Pri dolovaní textu je veľa obmedzení. Väčšinou zahŕňa práva držiteľov autorských práv. Väčšina textov sa nenájde ako otvorený zdroj av takom prípade sa vyžaduje povolenie od príslušných autorov, vydavateľov a ďalších súvisiacich strán.

Ďalším obmedzením je dolovanie textu, ktoré negeneruje nové fakty a nie je to koniec procesu.

záver

Dolovanie textu alebo analýza textu je prosperujúca technológia, ale výsledky a hĺbka analýzy sa v jednotlivých podnikoch líšia. Organizácia môže pomocou ťažby textu získať vedomosti o hodnotách špecifických pre obsah.