Úvod do veľkých dátových technológií

Veľké dátové technológie a Hadoop je veľké bzučiak, ako by to mohlo znieť. Keďže došlo k obrovskému nárastu v oblasti údajov a informácií zo všetkých odvetví a oblastí, je veľmi dôležité zaviesť a zaviesť účinnú techniku, ktorá sa postará o všetky potreby a požiadavky klientov a veľkých odvetví zodpovedných za generovanie údajov., Doteraz boli údaje spracovávané bežnými programovacími jazykmi a jednoduchým štruktúrovaným dopytovacím jazykom, ale teraz sa zdá, že tieto systémy a nástroje sa v prípade veľkých údajov príliš nedarí. Technológia veľkých dát je definovaná ako technológia a softvérový nástroj, ktorý je určený na analýzu, spracovanie a extrakciu informácií z veľkého súboru mimoriadne zložitej štruktúry a veľkých súborov údajov, čo je pre tradičné systémy veľmi ťažké zvládnuť. Technológia veľkých dát sa používa na spracovanie údajov v reálnom čase aj v dávkach. Strojové učenie sa stalo veľmi kritickou súčasťou každodenného života a každého odvetvia, a preto sa stáva veľmi dôležitá správa údajov prostredníctvom veľkých dát.

Typy veľkých dátových technológií

Predtým, ako začneme so zoznamom technológií, pozrime sa najprv na širokú klasifikáciu všetkých týchto technológií. Môžu sa klasifikovať hlavne do 4 domén.

  1. Úložisko dát
  2. analytika
  3. Dolovanie dát
  4. vizualizácia

Poďme najprv pokryť všetky technológie, ktoré spadajú pod skladovací dáždnik.

1. Hadoop : Pokiaľ ide o veľké dáta, Hadoop je prvá technológia, ktorá prichádza do hry. Je založená na architektúre redukcie máp a pomáha pri spracovaní úloh súvisiacich s dávkami a spracovania informácií o dávkach. Bol navrhnutý na ukladanie a spracovanie údajov v distribuovanom prostredí na spracovanie údajov spolu s komoditným hardvérom a jednoduchým modelom vykonávania programu. Môže sa použiť na ukladanie a analýzu údajov prítomných v rôznych strojoch s veľkým ukladacím priestorom, rýchlosťou a nízkymi nákladmi. Toto je jedna z hlavných hlavných zložiek veľkých dátových technológií, ktorá bola vyvinutá softvérovou nadáciou Apache v roku 2011 a je napísaná v jazyku Java.

2. MongoDB : Ďalšou veľmi dôležitou a kľúčovou súčasťou technológie veľkých dát z hľadiska ukladania údajov je databáza MongoDB NoSQL. Je to databáza NoSQL, čo znamená, že sa na ňu nevzťahujú relačné vlastnosti a ďalšie vlastnosti súvisiace s RDBMS. Odlišuje sa od tradičných databáz RDBMS, ktoré využívajú štruktúrovaný dopytovací jazyk. Využíva dokumenty schémy a štruktúra ukladania údajov je tiež odlišná, a preto sú užitočné pri uchovávaní veľkého množstva údajov. Je to multiplatformový dokumentovo-orientovaný návrhový a databázový program, ktorý využíva dokumenty podobné JSON spolu so schémou. To sa stáva veľmi užitočným prípadom použitia prevádzkových údajov vo väčšine finančných inštitúcií, čím sa snaží nahradiť tradičné mainframy. MongoDB zvláda flexibilitu a tiež širokú škálu typov údajov pri vysokých objemoch a medzi distribuovanými architektúrami.

3. Hunk : Je užitočný pri prístupe k údajom prostredníctvom vzdialených klastrov Hadoop využívaním virtuálnych indexov a tiež používa jazyk spracovania spracúvaného vyhľadávania, ktorý sa môže použiť na analýzu údajov. Kus môže byť použitý na hlásenie a vizualizáciu obrovského množstva údajov z databáz a zdrojov Hadoop a NoSQL. Bol vyvinutý tímom Splunk v roku 2013, ktorý bol napísaný v Jave.

4. Cassandra : Cassandra je najlepšou voľbou zo zoznamu populárnych databáz NoSQL, čo je bezplatná a otvorená databáza, ktorá je distribuovaná a má široký stĺpcový úložný priestor a dokáže efektívne spracovať údaje o veľkých komoditných zoskupeniach, tj používa sa na poskytujú vysokú dostupnosť spolu so žiadnym bodom zlyhania. Medzi hlavné funkcie patrí distribuovaná povaha, škálovateľnosť, mechanizmus odolný voči chybám, podpora MapReduce, laditeľná konzistencia, vlastnosť jazyka dotazu, replikácia viacerých dátových centier a prípadná konzistencia.

Ďalej nám umožňuje hovoriť o rôznych oblastiach veľkých dátových technológií, tj o ťažbe dát.

5. Presto : Je to populárny distribuovaný vyhľadávací stroj s otvoreným zdrojovým kódom a založený na SQL, ktorý sa používa na spúšťanie interaktívnych dopytov proti zdrojom údajov v každom meradle a rozsah veľkosti sa pohybuje od Gigabajtov do Petabytov. S jeho pomocou môžeme vyhľadávať údaje v systémoch Cassandra, Hive, proprietárnych skladoch údajov a systémoch ukladania relačných databáz. Toto je vyhľadávací stroj založený na jave, ktorý vyvinula nadácia Apache v roku 2013. Niekoľko skupín spoločností, ktoré tento nástroj Presto dobre využívajú, sú Netflix, Airbnb, Checkr, Repro a facebook.

6. ElasticSearch : Toto je dnes veľmi dôležitý nástroj, pokiaľ ide o vyhľadávanie. Toto tvorí podstatnú súčasť súboru ELK, tj elastické vyhľadávanie, Logstash a Kibana. ElasticSearch je vyhľadávací nástroj založený na knižnici Lucene, ktorý je podobný riešeniu spoločnosti Solr a používa sa na poskytovanie čisto distribuovaného fulltextového vyhľadávacieho nástroja, ktorý je schopný viacerých nájomcov. Má zoznam dokumentov JSON bez schém a webové rozhranie HTTP. Je napísaný v jazyku JAVA a je vyvinutý spoločnosťou Elastic v spoločnosti 2012. Názvy niekoľkých spoločností, ktoré využívajú elasticsearch, sú: LinkedIn, StackOverflow, Netflix, facebook, google, Accenture atď.

Teraz si prečítame o všetkých tých veľkých dátových technológiách, ktoré sú súčasťou analýzy údajov:

7. Apache Kafka : Známy pre svoje publikovanie-predplatné alebo pub-sub, pretože je všeobecne známe ako systém sprostredkovania správ, asynchrónny sprostredkovateľ správ, ktorý sa používa na príjem a spracovanie údajov v streamingových dátach v reálnom čase. Poskytuje tiež ustanovenie o období uchovávania a údaje sa môžu usmerňovať prostredníctvom mechanizmu výrobca - spotrebiteľ. Je to jedna z najpopulárnejších streamingových platforiem, ktorá je veľmi podobná systému podnikových správ alebo frontu správ. Spoločnosť Kafka do dnešného dňa uviedla na trh mnoho vylepšení. Jedným z významných druhov je sútok Kafka, ktorý poskytuje spoločnosti Kafka ďalšiu úroveň vlastností, ako sú napríklad Schema register, Ktables, KSql atď. Vyvinula ju komunita softvéru Apache v roku 2011 a je napísaný v jazyku Java. Spoločnosti, ktoré využívajú túto technológiu, zahŕňajú Twitter, Spotify, Netflix, Linkedin, Yahoo atď.

8. Splunk : Splunk sa používa na zachytávanie, koreláciu a indexovanie streamovaných údajov v reálnom čase z prehľadávateľného úložiska, odkiaľ môže generovať správy, grafy, dashboardy, výstrahy a vizualizácie údajov. Používa sa tiež na zabezpečenie, dodržiavanie predpisov a správu aplikácií a tiež na webovú analýzu, vytváranie obchodných prehľadov a podnikových analýz. Bol vyvinutý spoločnosťou Splunk v Pythone, XML, Ajax.

9. Apache Spark : Teraz prichádza najdôležitejšia a najočakávanejšia technológia v oblasti veľkých dátových technológií, tj Apache Spark. Patrí k tým, ktoré sú dnes najviac žiadané a na ich spracovanie využíva Java, Scala alebo Python. Používa sa na spracovanie a spracovanie údajov v reálnom čase pomocou technológie Spark Streaming, ktorá na dosiahnutie tohto cieľa používa dávkové a okenné operácie. Spark SQL sa používa na vytváranie dátových rámcov, dátových súborov nad RDD, a tým poskytuje dobrú chuť transformácií a akcií, ktoré tvoria neoddeliteľnú súčasť Apache Spark Core. Ostatné komponenty, ako Spark Mllib, R a graphX, sú užitočné aj v prípade analýzy a strojového učenia a vedy o údajoch. Technika výpočtov v pamäti je tým, čo ju odlišuje od iných nástrojov a komponentov a podporuje širokú škálu aplikácií. Bol vyvinutý nadáciou Apache Software predovšetkým v jazyku Java.

10. Jazyk R : R je programovací jazyk a prostredie slobodného softvéru, ktoré sa používa na štatistické výpočty a tiež na grafiku v jednom z najdôležitejších jazykov v R. Je to jeden z najpopulárnejších jazykov medzi vedcami údajov, údajovými baníkmi a odborníci na údaje na vývoj štatistického softvéru a hlavne na analýzu údajov.

Poďme teraz diskutovať o technológiách týkajúcich sa vizualizácie dát.

11. Tableau: Je to najrýchlejší a najvýkonnejší nástroj vizualizácie rastúcich údajov, ktorý sa používa v oblasti business intelligence. Analýza dát je veľmi rýchly stroj, ktorý je možné pomocou Tableau a vizualizácie sa vytvárajú vo forme pracovných hárkov a dashboardov. Je vyvinutý spoločnosťou tableau v roku 2013 a je napísaný v jazyku Python, C ++, Java a C. Spoločnosti, ktoré využívajú Tableau, sú: QlikQ, Oracle Hyperion, Cognos, atď.

12. Plotly : Plotly sa používa hlavne na zrýchlenie a zefektívnenie grafov a súvisiacich komponentov. Má bohatšiu množinu knižníc a rozhraní API, ako sú MATLAB, Python, R, Arduino, Julia atď. Toto sa dá interaktívne použiť v poznámkovom bloku Jupyter a Pycharm a môže sa použiť na úpravu interaktívnych grafov. Bol prvýkrát vyvinutý v roku 2012 a napísaný v jazyku Javascript. Málo spoločností, ktoré používajú Plotly, sú paladíny, bitbank atď.

záver

V tomto príspevku sme študovali špičkové veľké dátové technológie, ktoré sa dnes široko používajú. Dúfam, že sa vám to páčilo. Pokračujte v sledovaní ďalších príspevkov, ako sú tieto.

Odporúčané články

Toto je príručka pre veľké dátové technológie. Tu diskutujeme o úvodu a druhoch technológií veľkých dát. Viac informácií nájdete aj v ďalších navrhovaných článkoch -

  1. Čo je to Splunk Tool?
  2. R vs Python
  3. Čo je Matlab?
  4. Čo je MongoDB?
  5. Kroky, ktoré je potrebné dodržiavať pri testovaní mainframe
  6. Typy pripojení v programe Spark SQL (príklady)
  7. Naučte sa rôzne typy nástrojov Kafka

Kategórie: