Úvod do veľkých dát
Big Data, ako už názov napovedá, súvisí s údajmi, z ktorých veľká znamená veľké alebo veľké. Zjednodušene povedané, veľké dáta sa týkajú veľkého množstva údajov (pokiaľ ide o objem), ktoré nemožno účinne stráviť (spracovať) tradičnými aplikáciami na spracovanie údajov. Ako sa údaje zväčšujú, stáva sa tiež zložitejšími a vyžaduje si pokročilejšie a robustnejšie matematické a štatistické techniky na získanie toho, čo od údajov požadujeme.
Pokúsme sa pochopiť úvod k veľkým dátam pomocou príkladu: previnúť späť do 40. rokov 20. storočia, žiadne počítače, mobilné telefóny, internet, digitálny život, žiadne údaje, nie? Existovali údaje, ale neboli digitálne. V tom čase neexistovalo žiadne internetové bankovníctvo, ale boli tu banky a banky mali zákazníkov a transakcie uskutočňované zákazníkom, ktoré sa nezaznamenávali digitálne, ale na papieri, účtovníctve a financiách a všetky sa uskutočňovali na papieri a perách.
Už v 90-tych rokoch 20. storočia vstúpili na trh technológie, počítače a mobilné telefóny. Výkazy ziskov a strát a súvahy, ktoré sa robili na papieri a boli uložené v registroch, v ktorých boli uložené údaje približne 500 zákazníkov, sa teraz excelovali a ukladali na disky, ktoré dokáže uložiť viac ako tisíce údajov o zákazníkoch. V úvode k veľkým údajom sa dozvieme, že keď sa údaje exponenciálne zvyšovali, organizácie sa vybavili väčším množstvom sily na efektívnejšie spracovanie údajov. Teraz sa v jeden deň vygeneruje 2, 5 miliárd bajtov (2 500 000 terabajtov) údajov. To je obrovské, však? Vďaka pokrokovej technológii v blízkej budúcnosti vygeneruje takmer každá položka v našom okolí nejaké údaje. Už máme k dispozícii inteligentné topánky, inteligentné svetlá, inteligentné vankúše a ďalšie pomôcky, ktoré generujú údaje každý deň. Preto je úvod do veľkých dát jednou z životne dôležitých technológií, ktoré budú hrať hlavnú úlohu pri formovaní budúceho sveta.
Hlavné komponenty veľkých dát
Ako sme diskutovali vyššie v úvode veľkých dát, že to, čo sú veľké dáta, teraz ideme vpred s hlavnými komponentmi veľkých dát.
-
Strojové učenie
Je to veda, že počítače sa učia veci samy. Pri strojovom učení sa očakáva, že počítač použije algoritmy a štatistické modely na vykonávanie konkrétnych úloh bez akýchkoľvek explicitných pokynov. Aplikácie strojového učenia poskytujú výsledky založené na minulých skúsenostiach. Napríklad v súčasnosti existujú niektoré mobilné aplikácie, ktoré vám poskytnú zhrnutie vašich financií, účtov, pripomenú vám vaše platby faktúr a tiež vám môžu dať návrhy na sporenie. Tieto funkcie sa vykonávajú čítaním e-mailov a textových správ.
-
Spracovanie prirodzeného jazyka (NLP)
Je to schopnosť počítača porozumieť ľudskému jazyku ako hovorenému. Najzreteľnejšími príkladmi, ktoré môžu ľudia v dnešnej dobe súvisieť, je domov Google a Amazon Alexa. Obaja používajú NLP a ďalšie technológie, aby nám zážitok virtuálneho asistenta. NLP je všade okolo nás bez toho, aby sme si to uvedomovali. Pri písaní e-mailových správ sa automaticky opravuje a v súčasnosti poskytuje automatické návrhy na vyplnenie e-mailov a automaticky nás zastrašuje, keď sa pokúšame odoslať e-mail bez prílohy, na ktorú sme odkazovali v texte e-mailu, toto je súčasť aplikácií na spracovanie prirodzeného jazyka, ktoré sú spustené na pozadí.
-
Obchodné spravodajstvo
Business Intelligence (BI) je metóda alebo proces, ktorý je technológiou zameranou na získavanie prehľadov analýzou údajov a ich prezentáciou tak, aby koncoví používatelia (zvyčajne vedúci pracovníci na vysokej úrovni), ako sú manažéri a vedúci pracovníci spoločností, mohli získať informácie, ktoré je možné uplatniť, a robiť o tom informované obchodné rozhodnutia.
-
Cloud computing
Ak pôjdeme podľa mena, malo by sa to robiť na oblakoch, je pravda, že tu nehovoríme o skutočných oblakoch, cloud tu predstavuje odkaz na internet. Môžeme teda definovať cloud computing ako poskytovanie počítačových služieb - serverov, úložísk, databáz, sietí, softvéru, analýz, spravodajských informácií a ďalších - prostredníctvom internetu („cloud“), aby sme ponúkli rýchlejšie inovácie, flexibilné zdroje a úspory z rozsahu.,
Charakteristiky veľkých dát
V tejto téme Úvod do veľkých dát vám tiež ukážeme charakteristiky veľkých dát.
-
objem:
Na určenie hodnoty z údajov je potrebné zohľadniť veľkosť, ktorá zohráva rozhodujúcu úlohu. Tiež, aby sa zistilo, či určitý typ údajov spadá do úvodu do kategórie veľkých dát alebo nie, závisí od objemu.
-
variety:
Odroda znamená rôzne typy údajov podľa ich povahy (štruktúrované a neštruktúrované). Doteraz boli jediným zdrojom údajov, ktoré zvažovala väčšina aplikácií, riadky a stĺpce, ktoré sa zvyčajne dodávali v tabuľkách a databázach. V súčasnosti však údaje prichádzajú vo všetkých formách, ktoré si vieme predstaviť, ako sú e-maily, fotografie, videá, zvuk a mnoho ďalších.
-
rýchlosť:
Rýchlosť ako názov naznačuje rýchlosť generovania údajov. Potenciál údajov určuje zo zdroja, ako rýchlo sa dajú generovať údaje a ako rýchlo sa dajú spracovať.
-
variabilita:
Údaje môžu byť variabilné, čo znamená, že môžu byť nekonzistentné, nie v toku, čo narúša alebo sa stáva prekážkou účinného zaobchádzania s údajmi a ich spravovania.
Aplikácia veľkých dát
Analýza veľkých dát sa používa nasledujúcimi spôsobmi
-
Zdravotná starostlivosť:
V súčasnosti máme nositeľné zariadenia a senzory, ktoré poskytujú aktualizácie zdravotného stavu pacienta v reálnom čase.
-
vzdelanie:
Pokrok študenta sa dá sledovať a zlepšovať vhodnou analýzou pomocou analýzy veľkých dát.
-
Počasie:
Meteorologické senzory a satelity, ktoré boli rozmiestnené po celom svete, zhromažďujú obrovské množstvo údajov a tieto údaje používajú na monitorovanie poveternostných a environmentálnych podmienok a tiež na predpovedanie alebo predpovedanie poveternostných podmienok na nasledujúcich niekoľko dní.
Výhody a nevýhody veľkých dát
Keď sme študovali úvod do veľkých dát, teraz pochopíme výhody a nevýhody veľkých údajov :
výhody | nevýhody |
Lepšie rozhodovanie | Kvalita údajov: kvalita údajov musí byť dobrá a usporiadaná, aby mohla pokračovať s analýzou veľkých údajov. |
Zvýšená produktivita | Hardvérové potreby: Úložný priestor, ktorý musí byť k dispozícii na uloženie údajov, šírku pásma siete na jeho prenos do az analytických systémov, je drahý na nákup a údržbu prostredia veľkých dát. |
Znížte náklady | Riziká kybernetickej bezpečnosti: Uložením citlivých a veľkého množstva údajov sa môžu spoločnosti stať atraktívnejším cieľom pre kybernetických útočníkov, ktorí môžu tieto údaje použiť na výkupné alebo na iné nesprávne účely. |
Vylepšený zákaznícky servis | Škytavka pri integrácii so starými systémami: Mnoho starých podnikov, ktoré už dlhodobo podnikajú, uložilo údaje v rôznych aplikáciách a systémoch v rôznych architektúrach a prostrediach. To spôsobuje problémy s integráciou zastaraných zdrojov údajov a pohyblivých údajov, čo ďalej zvyšuje čas a náklady na prácu s veľkými dátami. |
Odporúčané články
Toto bol sprievodca Úvodom do veľkých dát. Tu sme diskutovali Úvod do veľkých dát s hlavnými komponentmi, charakteristikami, výhodami a nevýhodami veľkých dát. Môžete sa tiež pozrieť na nasledujúce články:
- Softvér na analýzu veľkých dát
- Data Scientist vs Big Data
- Úlohy na analýzu veľkých dát