Dzisiaj jest: 23.11.2024, imieniny: Adeli, Felicyty, Klemensa

Tableau i Snowflake jako narzędzia przygotowane do pracy z Big

Dodano: 03.12.2020 Czytane: 19

Różnorodność i zmienność dynamicznie przyrastających danych jest również ogromna, informacje w postaci tekstu, danych geograficznych, liczb, powoduje że otrzymujemy szansę pełniejszych odpowiedzi na pytania biznesowe, z tym że do tego potrzebujemy właściwych narzędzi. Wielowymiarowa analiza danych w tej różnorodności jest właściwie niezbędna. Prędkość, z jaką przyrastają dane Big Data, jest ogromna, jak również szybko mija ich aktualność. W takiej sytuacji szybkie przetwarzanie danych ma ogromne znaczenie.
Aby mieć pełny obraz tego przyrostu, możemy spojrzeć na wykres:


https://www.statista.com/statistics/871513/worldwide-data-created/

Prognoza na 2020 rok to 59 Zettabajtów danych. Aby zrozumieć, jak wielki jest to wolumen, Cisco podaje, że 1 Zettabajt danych byłoby filmem w jakości HD, trwającym ok 36 mln lat. Jest to ekwiwalent 250 miliardów płyt DVD. Ułożone jedna na drugiej osiągnęłyby absurdalną wysokość 3,5mln km. Oczywiście, gdyby nie chmura, nie mielibyśmy gdzie tych danych przechowywać.
Big data w chmurze jest więc kolejnym etapem gromadzenia danych. Wolumen (Volume), to pierwsza podstawowa cecha Big Data.

Szybkość, z jaką dane powstają, oraz z jaką potrafią stawać się nieaktualne, jest również ogromna.
Każdego dnia sami użytkownicy Facebooka wrzucają 900mln zdjęć. Ta prędkość (Velocity) jest drugim podstawowym czynnikiem definiującym Big Data.
Prognozy na 2023 rok pokazują, że 66% populacji światowej będzie używać Internetu. W porównaniu, w 2018 roku było to 51%. Przy 3,6 urządzeń korzystających z Internetu na osobę (wzrost z 2,4 w 2018), jest to ogromny wzrost, pokazujący ile nowych danych będzie generowane każdego dnia.
 


https://www.cisco.com/c/en/us/solutions/executive-perspectives/annual-internet-report/infographic-c82-741491.html

Trzecim czynnikiem podstawowym, który definiuje Big Data, jest zmienność (Variety).
Dane, które powstają każdego dnia, są zarówno ustrukturyzowane, jak również niestrukturyzowane. Przy pomocy narzędzi do analizy Big Data, możemy takie dane usystematyzować, aby móc analizować je właściwie.

Big Data w chmurze oznacza więc możliwość analizowania ogromnych wolumenów danych, charakteryzujących się dużą zmiennością, częstym przyrostem i różnorodną strukturą. To właśnie słynne 3V, definiujące Big Data.
W kolejnych latach dodano kolejne dwie litery V – Veracity, czyli jakość i pochodzenie danych, oraz Value – jako końcowy produkt, wynikający z czterech poprzednich warunków.

W jaki sposób możemy korzystać z Big Data w chmurze? Jak eksplorować dane, przy pomocy jakich narzędzi będzie to najbardziej efektywne?
Chciałbym przedstawić dwa przykłady aplikacji, które są bardzo pomocnymi narzędziami przy czytaniu dużych wolumenów zróżnicowanych danych, przyrastających z ogromną prędkością.
Ważne, aby aplikacje użyte do analizy danych były adekwatne do specyfiki Big Data, używały wizualizacji w celu przyspieszenia procesu wyciągania wniosków. Tradycyjne narzędzia BI przypominają bowiem w tym wypadku czytanie przy świecy.

Jeśli chcemy podłączyć się do danych Big Data, dobrym wyborem jest aplikacja Tableau, która w prosty sposób pozwala na podłączenie się do Big Data w chmurze, a następnie pozwoli nam zwizualizować dane. Do podłączenia się do danych wystarczy nam jeden z konektorów, znajdujących się w interfejsie aplikacji, np. Cloudera czy Google Big Query:
 

W przypadku Google Big Query możemy podłączyć się na przykład do ogólnodostępnej bazy GDELT, gromadzącej informacje z całego świata. GDELT oferuje połączenie poprzez Google Big Query.
W bardzo łatwy sposób możemy połączyć się z bazą Gdelt, dzięki połączeniu przez interfejs Tableau:
 

Po przejściu na worksheet łatwo możemy zauważyć, że Tableau bez problemu procesuje ponad 600mln rekordów:
 

Tableau, oprócz szybkich metod analizy danych i ich procesowania, oferuje również zaawansowaną analitykę wizualną. W roku 2013, przeprowadzono badania, z których wynika, że w przypadku użycia narzędzi analizy wizualnej, 48% użytkowników Business Intelligence potrafi znaleźć potrzebne informacje bez pomocy personelu IT. W przypadku, gdy analiza wizualna nie jest dostępna, odsetek ten spada do 23%. Taki wynik oznacza, że użycie analityki wizualnej jest czynnikiem niezbędnym do efektywnej analizy danych. Użycie więc aplikacji Tableau do analizy Big Data w chmurze pozwoli na zwiększenie efektywności właściwego odczytywania informacji biznesowej, oraz do szybkiego reagowania na dynamicznie zmieniające się otoczenie. Dzięki tym możliwościom, Tableau przynosi wartość (Value), przy pomocy czterech pozostałych V.

Jak już wspominałem wyżej, dane Big Data w chmurze są zróżnicowane, co oznacza między innymi, że są to dane ustrukturyzowane, ale również częściowo strukturyzowane oraz w ogóle nie ustrukturyzowane, jak np. zdjęcia, posty czy e-maile.

Snowflake jest platformą działającą całkowicie w chmurze, kolejnym etapem w ewolucji platform obsługujących Big Data. Platforma Snowflake jest w stanie obsługiwać wielu użytkowników, przy ogromnych wolumenach danych, a jednocześnie błyskawicznie procesuje dane i ma dostępną bazę SQL. Poprzednia generacja platform, takich jak Hadoop czy Data Lake, tylko częściowo adresowały problem nieustrukturyzowanych danych, których obróbka była skomplikowana, ale również sama platforma była zbyt skomplikowana w obsłudze, oraz niestety ma ograniczenia w jednoczesnej obsłudze wielu zapytań lub dużych wolumenów danych.

Snowflake jest platformą opartą całkowicie w chmurze, dostępną w trzech głównych chmurach jak Azure, AWS i Google Cloud. Platforma potrafi wspierać każdą aktywność, od przechowywania danych, poprzez data lake i data science, i pozwala dostarczyć każdy wolumen danych, jaki jest w danym momencie niezbędny do analizy, dla dowolnej liczby użytkowników.

Tym, co stanowi o unikalności platformy jest możliwość przydzielania zasobów do każdej operacji, niezależnie od już zasobów już zajmowanych. Dane nie są replikowane, dostępne dla każdego użytkownika. Dzięki takiemu rozwiązaniu organizacja przygotowana jest na każde wyzwanie związane z analityką Big Data w chmurze.
 

Polecane
Zapisz się do newslettera:
Wyrażam zgodę na przetwarzanie moich danych osobowych w celach marketingu usług i produktów partnerów właściciela serwisów.