Big data w (nie) małym biznesie

Dzisiejsza technologia pozwala na zbieranie ogromnych ilości danych o użytkownikach portali społecznościowych. Zdaniem Krzysztofa Sobieszka z NK.pl big data to nie tyle trend technologiczny, co nowy model budowania biznesu, a największym wyzwaniem jest umiejętność odpowiedniego segregowania danych i wykorzystanie ich przy podejmowaniu decyzji biznesowych. Krzysztof Sobieszek przedstawił podczas konferencji Internet 2k12 prezentację na temat big data.

Big data w (nie) małym biznesie

Od kiedy data jest big?

Big data zależy od ilości i różnorodności gromadzonych danych. Przyjęło się, że są to dane w ilości uniemożliwiającej sprawne przetwarzanie tradycyjnymi metodami, liczone w petabajtach. W takim kontekście na myśl przychodzą takie firmy jak Google czy Facebook lub instytucje publiczne gromadzące na przykład dane opieki zdrowotnej.

Przy podejmowaniu tematyki big data IBM użył tak zwanej zasady trzech V: Volume (wolumen), Velocity (prędkość) oraz Variety (różnorodność). Dostęp do danych jest w tej chwili znacznie łatwiejszy niż dawniej, zwłaszcza w branży cyfrowej, gdzie można w stosunkowo prosty sposób gromadzić i kopiować dane. Portale społecznościowe oferują możliwość przejrzenia historii wpisów od danej osoby na wiele lat wstecz, łącznie ze zdjęciami, linkami oraz innymi treściami, które zamieszczała w serwisie.

Krzysztof Sobieszek zwrócił uwagę, że nie ma teraz danych, których nie da się zgromadzić. Jest to kwestia dokupienia kolejnej macierzy oraz zapewnienia jej prądu i infrastruktury, co obecnie nie jest stosunkowo wielkim problemem. Kilkanaście lat temu możliwe było zebranie wyłącznie danych o przeszłości. W wypadku big data możliwa jest analiza w czasie rzeczywistym.

Wyzwaniem jest selekcja tych danych i znalezienie potrzebnych w danym momencie informacji. Na tym etapie pojawia się pytanie, które dane są potrzebne teraz, a które mogą być przydatne w przyszłości. Firmy na wszelki wypadek gromadzą wszystko, co uda im się uzyskać. Według publikacji O’Reilly Radar na temat big data złotą myślą towarzyszącą tej doktrynie jest "Jeśli możesz, trzymaj wszystko", gdyż skasowanych lub utraconych danych źródłowych najczęściej nie da się odtworzyć lub jest to bardzo skomplikowane i kosztowne.

W praktyce oznacza to niebywały bałagan panujący pośród zbieranych danych, które stanowią na przykład strumień informacji ze ściany na portalu społecznościowym lub historię zakupów konkretnego klienta. Dane klienta sklepu internetowego mogą obejmować jego profil demograficzny, rodzaj używanej przeglądarki, specyfikację komputera z jakiego korzysta i setki innych zmiennych, które same w sobie nie stanowią wartości.

Dlatego kluczowa jest prędkość operacji na danych tak, aby stały się użyteczne dla przedsiębiorstwa. W biznesie ważna jest szybkość uzyskania informacji. Jak to dowcipnie stwierdziła reklama IBM "Czy odważyłbyś się przejść przez ulicę pełną samochodów na podstawie fotografii zrobionej pięć minut wcześniej?"


IBM Commercial The Road: Intelligent Data... przez IBMVideo

Z punktu widzenia technicznego do analizy big data stosuje się standardowe bazy danych, choć różnorodność i rozmiar gromadzonych informacji w połączeniu z potrzebą szybkiego ich zanalizowania owocuje powstaniem nowych rozwiązań. "Dane to jeszcze nie jest wiedza" podkreślał Sobieszek.

Aby efektywniej zarządzać ogromną ilością danych z różnych źródeł powstał szereg rozwiązań. Przykładem jest rozwijany aktywnie w ramach bazy danych Apache projekt Hadoop. W zależności od rodzaju gromadzonych danych dostarczane są także rozwiązania do ich przechowywania czy szybkiej analizy. Przykładowo: przechowywanie i późniejsze analizowanie dokumentów XML jest efektywniejsze w bazie danych MarkLogic, ze względu na zastosowany tam sposób indeksowania treści, który przyspiesza przeszukiwanie zbiorów.