Rozdiel medzi Malé a veľké dáta

Small Data, nie sú nič iné ako údaje, ktoré sú dostatočne malé pre človeka v zväzku a tiež na formátovanie, vďaka čomu sú prístupné, informatívne a použiteľné. Tradičné spracovanie údajov sa nemôže zaoberať veľkými alebo komplexnými údajmi, tieto údaje sa označujú ako veľké údaje. Keď objem údajov rastie nad určitý limit, tradičné systémy a metodiky nestačia na spracovanie údajov alebo ich transformáciu do užitočného formátu. To je dôvod, prečo sú údaje všeobecne rozdelené do dvoch kategórií - malé údaje verzus veľké údaje

Porovnanie medzi jednotlivými údajmi medzi malými a veľkými údajmi (Infographics)

Nižšie je uvedený 10 najlepších rozdielov medzi malými a veľkými údajmi

Kľúčové rozdiely medzi malými a veľkými dátami

  • Zber údajov - obvykle malé údaje sú súčasťou systémov OLTP a zhromažďujú sa kontrolovanejším spôsobom a potom sa vkladajú do vyrovnávacej vrstvy alebo databázy. Databázy budú mať repliky na čítanie, ktoré v prípade potreby podporia okamžité analytické dotazy. Potrubie na zhromažďovanie veľkých údajov bude obsahovať fronty ako AWS Kinesis alebo Google Pub / Sub na vyváženie vysokorýchlostných údajov. Po prúde bude mať streamingové potrubia pre analytiku v reálnom čase a dávkové úlohy pre spracovanie studených údajov.
  • Spracovanie dát - Keďže väčšina malých údajov vytvorených prostredníctvom transakčného systému bude mať analytika nad nimi väčšinu času dávkovo orientovanú. V zriedkavých prípadoch sa analytické dotazy spúšťajú priamo na transakčných systémoch. Prostredie veľkých dát budú mať spracované dávkové aj prúdové potrubia. Tok sa používa na analýzu v reálnom čase, ako je napríklad zisťovanie podvodov s kreditnými kartami alebo predikcia ceny akcií. Dávkové spracovanie používané na implementáciu komplexnej obchodnej logiky s údajmi a pokročilými algoritmami.
  • Škálovateľnosť - malé dátové systémy sa zvyčajne zväčšujú vertikálne. Vertikálne škálovanie zvyšuje kapacitu systému pridaním ďalších zdrojov do toho istého počítača. Vertikálna škálovateľnosť je nákladná, ale spravidla menšia. Systémy veľkých dát väčšinou závisia od horizontálne škálovateľnej architektúry, ktorá poskytuje vyššiu pohyblivosť pri nižších nákladoch. Preventívne virtuálne stroje dostupné v cloude robia horizontálne škálovateľné systémy ešte dostupnejšie.
  • Modelovanie dát - malé údaje generované z transakčných systémov budú v normalizovanej forme. Dátové potrubiaETL (Extract Transform Load) ich konvertujú do schémy hviezd alebo snehových vločiek v dátovom sklade. Tu sa schéma vynucuje pri písaní údajov, ktoré sú relatívne ľahké, pretože dáta sú štruktúrovanejšie. Ako je uvedené vyššie, tabuľkové údaje sú iba zlomkom veľkých dát. Tu sa dáta replikujú omnoho viac z rôznych dôvodov, ako je odovzdanie zlyhania alebo kvôli určitému obmedzeniu základného databázového nástroja (Napríklad, niektoré databázy podporujú iba jeden sekundárny index na množinu údajov). Pri písaní sa schéma nevynucuje. Namiesto toho sa schéma overuje pri čítaní údajov.
  • Ukladanie dát a výpočtov - v tradičných databázach, ktoré väčšinou spracúvajú malé údaje, sú úložisko a výpočty pevne spojené. Vkladanie a získavanie údajov do az databázy je možné iba prostredníctvom daného rozhrania. Dáta nemôžu byť vložené priamo do databázového súborového systému, alebo existujúce dáta nemôžu byť vyžiadané pomocou iných DB motorov. Táto architektúra skutočne veľmi pomáha zaistiť integritu údajov. Systémy Big Data majú veľmi voľné spojenie medzi úložiskom a výpočtom. Zvyčajne sa údaje ukladajú v distribuovanom systéme na ukladanie údajov, ako sú HDFS, AWS S3 alebo Google GCS, a vypočítajú modul na zisťovanie údajov alebo výber ETL neskôr. Interaktívne dotazy môžu byť napríklad vykonávané pomocou Presto (Link) a ETL pomocou Apache Hive na rovnakých údajoch.
  • Data Science - Algoritmy strojového učenia si vyžadujú vstupné údaje v dobre štruktúrovanom a správne kódovanom formáte a väčšina vstupných dát bude väčšinou z transakčných systémov, ako je dátový sklad, a veľkých dátových úložísk ako dátové jazero. Algoritmy strojového učenia, ktoré bežia výhradne na malých údajoch, budú ľahké, pretože fáza prípravy údajov je úzka. Príprava a obohatenie údajov v prostredí veľkých dát si vyžaduje oveľa viac času. Aplikácia Big Data ponúka veľa možností experimentovania v oblasti vedy o údajoch v dôsledku veľkého množstva a rozmanitosti údajov.
  • Zabezpečenie údajov - bezpečnostné postupy pre malé dáta, ktoré sa nachádzajú v podnikovom dátovom sklade alebo transakčných systémoch poskytovaných príslušnými poskytovateľmi databáz, ktoré môžu zahŕňať oprávnenia používateľov, šifrovanie údajov, hashovanie atď. Zabezpečenie veľkých dátových systémov je oveľa komplikovanejšie a náročnejšie. Medzi osvedčené postupy zabezpečenia patrí šifrovanie údajov v pokoji a pri tranzite, izolácia klastrovej siete, prísne pravidlá kontroly prístupu atď.

Tabuľka porovnania malých údajov a veľkých údajov

Základ porovnaniaMalé údajeVeľké dáta
definíciaDáta, ktoré sú „malé“ dosť pre ľudské porozumenie.V zväzku a formáte, ktorý ich robí prístupnými, informačnými a použiteľnýmiSúbory údajov, ktoré sú také veľké alebo zložité, že s nimi tradičné aplikácie na spracovanie údajov nemôžu pracovať
Dátový zdroj● Údaje z tradičných podnikových systémov, napr
Planning Plánovanie podnikových zdrojov
Management Riadenie vzťahov so zákazníkmi (CRM)
● Finančné údaje, ako sú údaje hlavnej knihy
● Údaje o platobných transakciách z webovej stránky
● Nákup údajov z miesta predaja
● Údaje po kliknutí z webových stránok
● GPS stream data - Údaje o mobilite odoslané na server
● Sociálne médiá - facebook, twitter
objemVäčšina prípadov v rozsahu desiatok alebo stoviek GB.Niektoré prípady málo TB (1 TB = 1 000 GB)Viac ako niekoľko terabajtov (TB)
Rýchlosť (rýchlosť, pri ktorej sa údaje zobrazujú)● Kontrolovaný a stabilný tok údajov
● Zhromažďovanie údajov je pomalé
● Dáta môžu prísť veľmi vysokými rýchlosťami.
● Obrovské údaje sa môžu akumulovať vo veľmi krátkom časovom období
odrodaŠtruktúrované údaje v tabuľkovom formáte s pevnou schémou a semi-štruktúrované údaje vo formáte JSON alebo XMLVysoko rozmanité súbory údajov, ktoré zahŕňajú tabuľkové údaje, textové súbory, obrázky, video, audio, XML, JSON, záznamy, údaje senzorov atď.
Pravdivosť (kvalita údajov)Obsahuje menej hluku ako údaje zhromažďované kontrolovaným spôsobom.Kvalita údajov obvykle nie je zaručená. Pred spracovaním sa vyžaduje dôkladné overenie údajov.
hodnotaBusiness Intelligence, Analysis and ReportingKomplexné získavanie údajov na predikciu, odporúčanie, vyhľadávanie vzorov atď.
Časová odchýlkaHistorické údaje rovnako platné ako údaje predstavujú solídne obchodné interakcieV niektorých prípadoch údaje čoskoro starnú (napr. Zisťovanie podvodov).
Umiestnenie údajovDatabázy v rámci podniku, lokálne servery atď.Väčšinou v distribuovaných úložiskách v cloude alebo v externých súborových systémoch.
infraštruktúraPredvídateľné rozdelenie prostriedkov. Najčastejšie vertikálne škálovateľný hardvérAgilnejšia infraštruktúra s horizontálne škálovateľnou architektúrou. Zaťaženie systému sa veľmi líši.

Záver - Malé dáta vs Veľké dáta

Konečným cieľom analýzy údajov je získať včasný prehľad o podpore rozhodovania. Rozdelenie údajov na malé a veľké pomáha pri riešení problémov pri samostatnej analýze údajov z každého sveta pomocou vhodných nástrojov. Hranica medzi dvoma kategóriami sa líši v závislosti od vznikajúcich vyspelých systémov spracovania údajov, vďaka ktorým je dopytovanie veľkých dát oveľa rýchlejšie a menej zložité.

Odporúčané články:

Toto bol sprievodca pre malé dáta verzus veľké dáta, ich význam, porovnanie medzi dvoma hlavami, kľúčové rozdiely, porovnávacie tabuľky a závery. Tento článok obsahuje všetky dôležité rozdiely medzi malými a veľkými údajmi. Ďalšie informácie nájdete aj v nasledujúcich článkoch -

  1. Big Data vs Data Science - Ako sa líšia?
  2. Veľké dáta: dôležitý súlad technológie a obchodnej analýzy
  3. Top 5 veľkých dátových trendov, ktoré spoločnosti budú musieť zvládnuť
  4. 16 zaujímavých tipov, ako premeniť veľké dáta na veľký úspech

Kategórie: