Preskočiť na obsah

Aké veľké sú Veľké dáta?

V posledných rokoch sa čoraz viac hovorí o Veľkých dátach. Z každej strany počujeme ako každá väčšia a častokrát aj menšia firma zbiera, ukladá a analyzuje dáta. Z tohto je jasné, že dáta zohrávajú v našej spoločnosti čím ďalej tým väčšiu úlohu.

Keď som prvýkrát počul pojem Big Data alebo Veľké dáta, ako prvá mi napadla otázka: „Aké veľké sú také Veľké dáta? 1GB, 100GB alebo 1000TB?“. V skutočnosti ale neexistuje presná hranica, kedy považujeme dáta za veľké. Môže to byť zoznam faktúr za posledný rok alebo zoznam všetkých predaných produktov od založenia firmy. Okrem toho, veľkosť nie je jediná vlastnosť Veľkých dát. Je pomerne jednoduché spracovať obrovské množstvo dát. Môže to síce chvíľu trvať, ale výsledok skôr či neskôr určite dostaneme. Čo však v prípade, že dáta prichádzajú či sa menia rýchlejšie ako ich stíhame spracovávať? Dobrým príkladom môžu byť objednávky darčekov dva týždne pred Vianocami. Na zisťovanie obľúbenosti produktov a stavu na sklade môže byť na konci mesiaca pomerne neskoro. A čo v prípade, že nás okrem objednávok zaujímajú aj ďalšie veci: kto si čo pozrel, kto si čo pridal do zoznamu prianí, ktorý produkt sa najviac zdieľa na sociálnych sieťach…

Veľké dáta sú dáta, ktoré majú veľkosť, variablitiu a/alebo rýchlosť zmien takú, že ich nie je možné spracovávať v požadovanom čase bežnými prostriedkami.

Je vidieť, že môžeme zbierať a analyzovať obrovské množstvo dát a na základe toho sa rozhodovať. Dôležité je vedieť či a akú hodnotu pre nás dané dáta majú. Spracovávať všetky dáta bez toho, aby sme sa nad ich hodnotou aspoň trochu zamysleli môže byť pre nás veľmi drahé. Potrebujeme zaplatiť programátorov, ktorý nám vyrobia takýto systém, dáta potrebujeme niekam ukladať a rovnako tak potrebujeme výpočtový výkon, ktorý bude dáta analyzovať.

Okrem dát generovaných naším systémom môžeme spracovávať aj dáta tretích strán. Zoberme si napríklad situáciu, kedy pripravujeme svoj obchod na predvianočné nákupy. Chceme vedieť, ktorý produkt bude hitom tohtoročných Vianoc. Takéto dáta môžeme nakúpiť, napríklad od spoločnosti venujúcej sa prieskumom alebo mám výrobca určitého produktu môže poskytnúť výsledky svojho vlastného prieskumu. Na nás je však otázka: „Môžeme mu veriť?“

Z toho, čo sme si povedali je jasné, že Veľké dáta majú päť charakteristických vlatností:

  • Objem (angl. Volume)
  • Rýchlosť (angl. Velocity)
  • Rôznorodosť (angl. Variety)
  • Hodnota (angl. Value)
  • Vierohodnosť (angl. Veracity)

Z iného uhla pohľadu sa však pod pojmom Veľké dáta nerozumejú samotné dáta, ale nástroje a technológie, ktoré umožňujú s týmito dátami pracovať. Na prvom mieste stoja veľké (cloudové) úložiska, takzvané dátové sklady alebo dátové jazerá, ako napríklad AWS S3 alebo Azure Data Lake Storage. Ďalej tu sú integračné nástroje, ktoré prepájajú rôzne zdroje dát (Azure Data Factory, Apache Kafka), nástroje, ktoré dáta upravujú a analyzujú (Apache Spark) a nakoniec vizualizačné nástroje, ktorých úlohou je zobraziť výsledok jednoduchým spôsobom pre ďalšie rozhodovanie (Tableau, Kibana). Práve týmto technológiam sa budeme venovať v ďalších článkoch.

1 názor na “Aké veľké sú Veľké dáta?”

  1. Pingback: Ľahký úvod do Databricks – Poznámky z cesty Veľkými dátami.

Komentáre sú uzavreté.