Big data to szerokie pojęcie określające niekonwencjonalne strategie i technologie potrzebne do gromadzenia, organizowania i przetwarzania informacji z dużych zbiorów danych. Chociaż problem pracy z danymi większymi niż moc obliczeniowa lub możliwości przechowywania danych w pojedynczym komputerze nie są niczym nowym, w ostatnich latach zakres i wartość tego typu obliczeń znacznie się rozszerzyła.

W tym artykule omówiono podstawowe pojęcia, z którymi możesz się spotkać podczas eksploracji dużych zbiorów danych. Omówiono także niektóre procesy i technologie, które są obecnie stosowane w tym obszarze.

Co to są duże dane?

Dokładna definicja „dużych zbiorów danych” jest trudna do sformułowania, ponieważ projekty, dostawcy, praktycy i profesjonaliści biznesowi wykorzystują je na bardzo różne sposoby. Mając to na uwadze, duże zbiory danych można zdefiniować jako:

  • Duże zbiory danych.
  • Kategoria strategii i technologii obliczeniowych używanych do przetwarzania dużych zbiorów danych.

W tym kontekście „duży zbiór danych” oznacza zbiór danych, który jest zbyt duży, aby można go było przetwarzać lub przechowywać przy użyciu tradycyjnych narzędzi lub na jednym komputerze. Oznacza to, że ogólna skala dużych zbiorów danych stale się zmienia i może znacznie różnić się w zależności od przypadku.

Systemy Big Data

Podstawowe wymagania dotyczące pracy z dużymi zbiorami danych są takie same, jak w przypadku każdego innego zbioru danych. Jednak ogromna skala, szybkość przetwarzania i charakterystyka danych napotykane na każdym etapie procesu stwarzają nowe, znaczące wyzwania w rozwoju narzędzi. Celem większości systemów big data jest zrozumienie i komunikowanie się z dużymi ilościami heterogenicznych danych, co nie byłoby możliwe przy użyciu konwencjonalnych metod.

W 2001 roku Doug Laney z Gartnera wprowadził „trzy V dużych zbiorów danych”, aby opisać niektóre cechy odróżniające przetwarzanie dużych zbiorów danych od innych rodzajów przetwarzania danych:

  1. Wolumen (objętość danych).
  2. Prędkość (szybkość gromadzenia i przetwarzania danych).
  3. Różnorodność (różnorodność typów przetwarzanych danych).

Ilość danych

Już sama skala przetwarzanych informacji pomaga zdefiniować systemy big data. Te zbiory danych mogą być o rząd wielkości większe niż tradycyjne zbiory danych, co wymaga większej uwagi na każdym etapie przetwarzania i przechowywania.

Ponieważ wymagania przekraczają możliwości pojedynczego komputera, często pojawia się problem łączenia, dystrybucji i koordynacji zasobów z grup komputerów. Zarządzanie klastrami i algorytmy, które potrafią podzielić zadania na mniejsze części, stają się coraz ważniejsze w tym obszarze.

Szybkość akumulacji i przetwarzania

Drugą cechą znacząco odróżniającą big data od innych systemów danych jest prędkość, z jaką informacje przepływają przez system. Dane często trafiają do systemu z wielu źródeł i muszą być przetwarzane w czasie rzeczywistym, aby zaktualizować bieżący stan systemu.

Ten nacisk na natychmiastowość informacja zwrotna zmusiło wielu praktyków do porzucenia podejścia zorientowanego na pakiety i preferowania systemu przesyłania strumieniowego w czasie rzeczywistym. Dane są stale dodawane, przetwarzane i analizowane, aby nadążać za napływem nowych informacji i dostarczać cennych spostrzeżeń na wczesnym etapie, kiedy są najbardziej istotne. Wymaga to solidnych systemów z wysoce dostępnymi komponentami w celu ochrony przed awariami w potoku danych.

Różnorodność przetwarzanych typów danych

Big Data wiąże się z wieloma wyjątkowymi wyzwaniami ze względu na szeroki zakres przetwarzanych źródeł i ich względną jakość.

Dane mogą pochodzić z systemów wewnętrznych, takich jak dzienniki aplikacji i serwerów, z mediów społecznościowych i innych zewnętrznych interfejsów API, z czujników urządzeń fizycznych oraz z innych źródeł. Celem systemów big data jest przetwarzanie potencjalnie przydatnych danych, niezależnie od ich pochodzenia, poprzez połączenie wszystkich informacji w jeden system.

Formaty i typy multimediów również mogą się znacznie różnić. Pliki multimedialne (zdjęcia, wideo i audio) są łączone pliki tekstowe, uporządkowane dzienniki itp. Bardziej tradycyjne systemy przetwarzania danych oczekują, że dane trafią do potoku już oznaczone, sformatowane i zorganizowane, ale systemy dużych zbiorów danych zazwyczaj przyjmują i przechowują dane, próbując je zachować stan początkowy. W idealnym przypadku wszelkie przekształcenia lub zmiany w surowych danych będą miały miejsce w pamięci podczas przetwarzania.

Inne cechy

Z biegiem czasu praktycy i organizacje proponowali rozwinięcie pierwotnych „trzech V”, chociaż innowacje te zwykle opisują problemy, a nie cechy dużych zbiorów danych.

  • Prawdziwość: Różnorodność źródeł i złożoność przetwarzania mogą prowadzić do problemów w ocenie jakości danych (a tym samym jakości wynikowej analizy).
  • Zmienność: Zmiany danych prowadzą do dużych różnic w jakości. Do identyfikacji, przetwarzania lub filtrowania danych o niskiej jakości w celu poprawy jakości danych mogą być wymagane dodatkowe zasoby.
  • Wartość: ostatecznym celem dużych zbiorów danych jest wartość. Czasami systemy i procesy są bardzo złożone, co utrudnia wykorzystanie danych i wyodrębnienie rzeczywistych wartości.

Cykl życia dużych danych

Jak zatem właściwie przetwarzane są duże zbiory danych? Istnieje kilka różnych podejść do wdrażania, ale istnieją podobieństwa w strategiach i oprogramowaniu.

  • Wprowadzanie danych do systemu
  • Zapisywanie danych w pamięci
  • Obliczanie i analiza danych
  • Wizualizacja wyników

Zanim szczegółowo przyjrzymy się tym czterem kategoriom przepływów pracy, porozmawiajmy o przetwarzaniu klastrowym, ważnej strategii stosowanej w wielu narzędziach Big Data. Konfigurowanie klastra obliczeniowego jest podstawową technologią stosowaną na każdym etapie cyklu życia.

Obliczenia klastrowe

Ze względu na jakość dużych zbiorów danych pojedyncze komputery nie nadają się do ich przetwarzania. Klastry są do tego bardziej odpowiednie, ponieważ mogą sprostać potrzebom związanym z przechowywaniem i przetwarzaniem dużych zbiorów danych.

Oprogramowanie do klastrowania Big Data łączy w sobie zasoby wielu małych maszyn, mając na celu zapewnienie szeregu korzyści:

  • Łączenie zasobów: przetwarzanie dużych zbiorów danych wymaga dużej ilości zasobów procesora i pamięci, a także dużej ilości dostępnej przestrzeni dyskowej.
  • Wysoka dostępność: klastry mogą zapewniać różne poziomy odporności na awarie i dostępności, dzięki czemu awarie sprzętu lub oprogramowania nie mają wpływu na dostęp do danych i ich przetwarzanie. Jest to szczególnie ważne w przypadku analiz w czasie rzeczywistym.
  • Skalowalność: klastry obsługują szybkie skalowanie poziome (dodawanie nowych maszyn do klastra).

Do pracy w klastrze potrzebne są narzędzia do zarządzania członkostwem w klastrze, koordynowania dystrybucji zasobów i planowania pracy z poszczególnymi węzłami. Członkostwem w klastrze i alokacją zasobów można zarządzać za pomocą programów takich jak Hadoop YARN (Yet Another Resource Negotiator) lub Apache Mesos.

Prefabrykowany klaster obliczeniowy często pełni rolę szkieletu, z którym inne oprogramowanie współdziała w celu przetwarzania danych. Maszyny uczestniczące w klastrze obliczeniowym są również zwykle kojarzone z zarządzaniem rozproszonym systemem pamięci masowej.

Odbieranie danych

Pozyskiwanie danych to proces dodawania surowych danych do systemu. Złożoność tej operacji w dużej mierze zależy od formatu i jakości źródeł danych oraz stopnia, w jakim dane spełniają wymogi przetwarzania.

Big data możesz dodawać do systemu za pomocą specjalnych narzędzi. Technologie takie jak Apache Sqoop mogą pobierać istniejące dane z relacyjnych baz danych i dodawać je do systemu big data. Możesz także skorzystać z Apache Flume i Apache Chukwa - projektów przeznaczonych do agregowania i importowania logów aplikacji i serwerów. Brokerzy komunikatów, tacy jak Apache Kafka, mogą służyć jako interfejs między różnymi generatorami danych a systemem dużych zbiorów danych. Frameworki takie jak Gobblin mogą łączyć i optymalizować wydajność wszystkich narzędzi na końcu potoku.

Podczas pozyskiwania danych zwykle przeprowadza się analizę, sortowanie i etykietowanie. Proces ten jest czasami nazywany ETL (wyodrębnij, przekształć, załaduj), co oznacza wyodrębnienie, przekształcenie i załadowanie. Chociaż termin ten zwykle odnosi się do starszych procesów hurtowni danych, czasami jest stosowany w odniesieniu do systemów dużych zbiorów danych. Typowe operacje obejmują modyfikowanie przychodzących danych w celu formatowania, kategoryzacji i etykietowania, filtrowania lub sprawdzania danych pod kątem zgodności.

W idealnym przypadku otrzymane dane podlegają minimalnemu formatowaniu.

Przechowywanie danych

Po otrzymaniu dane są przesyłane do komponentów zarządzających pamięcią masową.

Zazwyczaj do przechowywania surowych danych używane są rozproszone systemy plików. Rozwiązania takie jak HDFS od Apache Hadoop umożliwiają zapisywanie dużych ilości danych do wielu węzłów w klastrze. System ten zapewnia dostęp do zasobów obliczeniowych danych, może ładować dane do pamięci RAM klastra w celu wykonywania operacji na pamięci i obsługiwać awarie komponentów. Zamiast HDFS można używać innych rozproszonych systemów plików, w tym Ceph i GlusterFS.

Dane można również importować do innych systemów rozproszonych, aby uzyskać bardziej uporządkowany dostęp. Rozproszone bazy danych, zwłaszcza bazy danych NoSQL, dobrze nadają się do tej roli, ponieważ mogą obsługiwać heterogeniczne dane. Istnieje wiele różnych typów rozproszonych baz danych, wybór zależy od tego, jak chcesz zorganizować i zaprezentować swoje dane.

Obliczanie i analiza danych

Gdy dane będą dostępne, system może rozpocząć przetwarzanie. Warstwa obliczeniowa jest prawdopodobnie najbardziej swobodną częścią systemu, ponieważ wymagania i podejścia tutaj mogą się znacznie różnić w zależności od rodzaju informacji. Dane są często przetwarzane wielokrotnie, przy użyciu jednego narzędzia lub wielu narzędzi do przetwarzania różnych typów danych.

Przetwarzanie wsadowe jest jedną z metod obliczeniowych w duże zestawy dane. Proces ten polega na dzieleniu danych na mniejsze części, planowaniu przetwarzania każdej części na osobnej maszynie, porządkowaniu danych w oparciu o wyniki pośrednie, a następnie obliczaniu i zbieraniu wyniku końcowego. MapReduce Apache Hadoop wykorzystuje tę strategię. Przetwarzanie wsadowe jest najbardziej przydatne podczas pracy z bardzo dużymi zbiorami danych, które wymagają sporo obliczeń.

Inne obciążenia wymagają przetwarzania w czasie rzeczywistym. Informacje muszą być jednak przetwarzane i przygotowywane natychmiast, a system musi reagować w odpowiednim czasie, gdy tylko pojawią się nowe informacje. Jednym ze sposobów wdrożenia przetwarzania w czasie rzeczywistym jest przetwarzanie ciągłego strumienia danych składających się z poszczególnych elementów. Inny ogólna charakterystyka Procesory czasu rzeczywistego obliczają dane w pamięci klastra, eliminując konieczność zapisywania ich na dysku.

Apache Storm, Apache Flink i Apache Spark oferują różne sposoby implementowania przetwarzania w czasie rzeczywistym. Te elastyczne technologie pozwalają wybrać najlepsze podejście do każdego indywidualnego problemu. Ogólnie rzecz biorąc, przetwarzanie w czasie rzeczywistym najlepiej nadaje się do analizowania małych fragmentów danych, które zmieniają się lub są szybko dodawane do systemu.

Wszystkie te programy to frameworki. Istnieje jednak wiele innych sposobów obliczania lub analizowania danych w systemie dużych zbiorów danych. Narzędzia te często łączą się z powyższymi strukturami i zapewniają dodatkowe interfejsy do interakcji z podstawowymi warstwami. Na przykład Apache Hive zapewnia interfejs hurtowni danych dla Hadoop, Apache Pig zapewnia interfejs zapytań, a interakcje z danymi SQL są zapewniane przez Apache Drill, Apache Impala, Apache Spark SQL i Presto. Uczenie maszynowe wykorzystuje Apache SystemML, Apache Mahout i MLlib z Apache Spark. Do bezpośredniego programowania analitycznego, które jest szeroko wspierane przez ekosystem danych, wykorzystywane są R i Python.

Wizualizacja wyników

Często rozpoznawanie trendów lub zmian danych w czasie jest ważniejsze niż uzyskane wartości. Wizualizacja danych to jeden z najbardziej przydatnych sposobów identyfikowania trendów i organizowania dużej liczby punktów danych.

Przetwarzanie w czasie rzeczywistym służy do wizualizacji metryk aplikacji i serwera. Dane zmieniają się często, a duże różnice w metrykach zwykle wskazują na znaczący wpływ na kondycję systemów lub organizacji. Projekty takie jak Prometheus można wykorzystać do przetwarzania strumieni danych i szeregów czasowych oraz wizualizacji tych informacji.

Jednym z popularnych sposobów wizualizacji danych jest stos elastyczny, wcześniej znany jako stos ELK. Logstash służy do gromadzenia danych, Elasticsearch do indeksowania danych, a Kibana do wizualizacji. Stos Elastic może pracować z dużymi zbiorami danych, wizualizować wyniki obliczeń lub wchodzić w interakcję z surowymi metrykami. Podobny stos można uzyskać łącząc Apache Solr do indeksowania z forkiem Kibany zwanym Banana do wizualizacji. Ten stos nazywa się Jedwabiem.

Kolejną technologią wizualizacji służącą do interakcji z danymi są dokumenty. Projekty tego typu pozwalają na interaktywną eksplorację i wizualizację danych w dogodnym dla nich formacie dzielenie się i prezentacja danych. Popularnymi przykładami tego typu interfejsu są Jupyter Notebook i Apache Zeppelin.

Słowniczek Big Data

  • Big data to szerokie pojęcie określające zbiory danych, których nie można prawidłowo przetworzyć za pomocą konwencjonalnych komputerów lub narzędzi ze względu na ich objętość, szybkość i różnorodność. Termin ten jest również powszechnie stosowany do technologii i strategii pracy z takimi danymi.
  • Przetwarzanie wsadowe to strategia obliczeniowa polegająca na przetwarzaniu danych w dużych zestawach. Zazwyczaj ta metoda jest idealna do pracy z danymi, które nie są pilne.
  • Przetwarzanie klastrowe to praktyka polegająca na łączeniu zasobów wielu maszyn i zarządzaniu ich wspólnymi możliwościami w celu wykonywania zadań. W tym przypadku wymagana jest warstwa zarządzania klastrem, która obsługuje komunikację pomiędzy poszczególnymi węzłami.
  • Jezioro danych to duże repozytorium zebranych danych w stosunkowo surowym stanie. Termin ten jest często używany w odniesieniu do nieustrukturyzowanych i często zmieniających się dużych zbiorów danych.
  • Eksploracja danych to szerokie pojęcie określające różne praktyki znajdowania wzorców w dużych zbiorach danych. Jest to próba uporządkowania masy danych w bardziej zrozumiały i spójny zestaw informacji.
  • Hurtownia danych to duże, zorganizowane repozytorium służące do analiz i raportowania. W przeciwieństwie do jeziora danych hurtownia składa się ze sformatowanych i dobrze zorganizowanych danych zintegrowanych z innymi źródłami. Hurtownie danych są często wymieniane w odniesieniu do dużych zbiorów danych, ale często są one elementami konwencjonalnych systemów przetwarzania danych.
  • ETL (wyodrębnij, przekształć i załaduj) – wyodrębnianie, przekształcanie i ładowanie danych. Jest to proces pozyskiwania i przygotowania surowych danych do wykorzystania. Jest to związane z hurtowniami danych, ale cechy tego procesu można znaleźć także w potokach systemów big data.
  • Hadoop to projekt Apache o otwartym kodzie źródłowym kod źródłowy dla dużych zbiorów danych. Składa się z rozproszonego system plików o nazwie HDFS oraz harmonogram klastrów i zasobów o nazwie YARN. Możliwości przetwarzanie wsadowe dostarczane przez silnik obliczeniowy MapReduce. Nowoczesne wdrożenia Hadoop mogą równolegle z MapReduce uruchamiać inne systemy obliczeniowe i analityczne.
  • Przetwarzanie w pamięci to strategia polegająca na przenoszeniu całych roboczych zbiorów danych do pamięci klastrowej. Obliczenia pośrednie nie są zapisywane na dysku; zamiast tego są przechowywane w pamięci. Daje to systemom ogromną przewagę szybkości w porównaniu z systemami związanymi z we/wy.
  • Uczenie maszynowe to nauka i praktyka projektowania systemów, które mogą się uczyć, dostosowywać i ulepszać w oparciu o dostarczone im dane. Zwykle oznacza to wdrożenie algorytmów predykcyjnych i statystycznych.
  • Map redukcja (nie mylić z MapReduce z Hadoop) to algorytm planowania klastra obliczeniowego. Proces polega na podzieleniu zadania pomiędzy węzły i uzyskaniu wyników pośrednich, przetasowaniu, a następnie wygenerowaniu pojedynczej wartości dla każdego zestawu.
  • NoSQL to szeroki termin odnoszący się do baz danych zaprojektowanych poza tradycyjnym modelem relacyjnym. Bazy danych NoSQL doskonale nadają się do obsługi dużych zbiorów danych ze względu na ich elastyczność i rozproszoną architekturę.
  • Przetwarzanie strumieniowe to praktyka polegająca na obliczaniu poszczególnych fragmentów danych przemieszczających się przez system. Umożliwia to analizę danych w czasie rzeczywistym i nadaje się do przetwarzania transakcji wrażliwych na czas przy użyciu szybkich metryk.
Tagi: ,

Na podstawie materiałów z badań i trendów

Duże dane„Big Data” to temat, o którym mówi prasa informatyczna i marketingowa od kilku lat. I jasne: technologie cyfrowe przeniknął życie współczesnego człowieka, „wszystko jest napisane”. Ilość danych na najbardziej różne stronyżycie rośnie, a jednocześnie rosną możliwości przechowywania informacji.

Globalne technologie przechowywania informacji

Źródło: Hilbert i Lopez, „Światowe możliwości technologiczne w zakresie przechowywania, komunikowania i obliczania informacji”, Science, 2011, świat.

Większość ekspertów zgadza się, że przyspieszenie wzrostu ilości danych jest obiektywną rzeczywistością. Sieci społecznościowe, urządzenia mobilne, dane z urządzeń pomiarowych, informacje biznesowe – to tylko kilka rodzajów źródeł, które potrafią generować gigantyczne wolumeny informacji. Według badania IDCCyfrowy Wszechświat, opublikowanego w 2012 roku, w ciągu najbliższych 8 lat ilość danych na świecie osiągnie 40 ZB (zetabajtów), co odpowiada 5200 GB na każdego mieszkańca planety.

Rozwój cyfrowego gromadzenia informacji w USA


Źródło: IDC

Większość informacji nie jest tworzona przez ludzi, ale przez roboty współdziałające zarówno ze sobą, jak i z innymi sieciami danych, takimi jak czujniki i inteligentne urządzenia. Zdaniem badaczy przy takim tempie wzrostu ilość danych na świecie będzie się co roku podwajać. Liczba serwerów wirtualnych i fizycznych na świecie wzrośnie dziesięciokrotnie w związku z rozbudową i tworzeniem nowych centrów danych. W rezultacie rośnie potrzeba efektywnego wykorzystania tych danych i monetyzacji. Ponieważ wykorzystanie Big Data w biznesie wymaga znacznych inwestycji, należy dokładnie zrozumieć sytuację. A w zasadzie jest to proste: możesz zwiększyć efektywność biznesu poprzez redukcję kosztów i/lub zwiększenie wolumenu sprzedaży.

Dlaczego potrzebujemy Big Data?

Paradygmat Big Data definiuje trzy główne typy problemów.

  • Przechowywanie i zarządzanie setkami terabajtów lub petabajtów danych, których konwencjonalne relacyjne bazy danych nie są w stanie efektywnie wykorzystać.
  • Organizuj nieuporządkowane informacje składające się z tekstów, obrazów, filmów i innych typów danych.
  • Analiza Big Data, która rodzi pytanie o sposoby pracy z informacjami nieustrukturyzowanymi, generowanie raportów analitycznych, a także wdrażanie modeli predykcyjnych.

Rynek projektów Big Data krzyżuje się z rynkiem analityki biznesowej (BA), którego globalny wolumen według ekspertów w 2012 roku wyniósł około 100 miliardów dolarów. Obejmuje komponenty technologii sieciowych, serwery, oprogramowanie i usługi techniczne.

Użyj również Duże technologie Dane mają znaczenie dla rozwiązań klasy Income Assurance (RA), mających na celu automatyzację działań firm. Nowoczesne systemy Revenue Assurance obejmuje narzędzia do wykrywania niespójności i dogłębnej analizy danych, umożliwiające szybkie wykrywanie możliwe straty lub wprowadzenia w błąd w informacjach, które mogłoby skutkować pogorszeniem wyników finansowych. Na tym tle rosyjskie firmy, potwierdzając obecność popytu na technologie Big Data na rynku krajowym, zauważają, że czynnikami stymulującymi rozwój Big Data w Rosji jest przyrost danych, przyspieszenie podejmowania decyzji zarządczych i poprawa ich jakości.

Co uniemożliwia Ci pracę z Big Data

Dziś analizuje się jedynie 0,5% zgromadzonych danych cyfrowych, mimo że istnieją obiektywnie ogólnobranżowe problemy, które można rozwiązać stosując rozwiązania analityczne klasy Big Data. Rozwinięte rynki IT dysponują już wynikami, które można wykorzystać do oceny oczekiwań związanych z gromadzeniem i przetwarzaniem dużych zbiorów danych.

Uwzględnia się jeden z głównych czynników spowalniających realizację projektów Big Data, oprócz wysokich kosztów problem selekcji przetwarzanych danych: czyli określenie, które dane należy odzyskać, przechowywać i analizować, a które należy zignorować.

Wielu przedstawicieli biznesu zauważa, że ​​trudności we wdrażaniu projektów Big Data wiążą się z brakiem specjalistów – marketerów i analityków. Szybkość zwrotu inwestycji w Big Data zależy bezpośrednio od jakości pracy pracowników zajmujących się dogłębną i predykcyjną analityką. Ogromny potencjał danych już istniejących w organizacji często nie może być skutecznie wykorzystany przez samych marketerów ze względu na przestarzałe procesy biznesowe lub wewnętrzne regulacje. Dlatego projekty Big Data są często postrzegane przez przedsiębiorstwa jako trudne nie tylko do wdrożenia, ale i oceny rezultatów: wartości zebranych danych. Specyfika pracy z danymi wymaga od marketerów i analityków przeniesienia uwagi z technologii i tworzenia raportów na rozwiązywanie konkretnych problemów biznesowych.

Ze względu na dużą objętość i dużą prędkość przepływu danych, proces gromadzenia danych odbywa się w trybie ETL w czasie rzeczywistym. Na przykład:ETL - zjęzyk angielskiWyciąg, Przekształcać, Obciążenie- dosłownie „wydobywanie, przekształcanie, ładowanie”) - jeden z głównych procesów w zarządzaniu hurtownie danych, co obejmuje: pobieranie danych z źródeł zewnętrznych, ich transformacja i sprzątanie według potrzeb ETL należy postrzegać nie tylko jako proces przenoszenia danych z jednej aplikacji do drugiej, ale także jako narzędzie przygotowania danych do analizy.

A wtedy kwestie zapewnienia bezpieczeństwa danych pochodzących ze źródeł zewnętrznych muszą mieć rozwiązania odpowiadające wolumenie gromadzonych informacji. Ponieważ metody analizy Big Data rozwijają się dopiero wraz ze wzrostem wolumenu danych, dużą rolę odgrywa zdolność platform analitycznych do wykorzystania nowych metod przygotowywania i agregowania danych. Sugeruje to, że np. dane o potencjalnych nabywcach czy potężna hurtownia danych z historią kliknięć w witrynach zakupów online mogą okazać się przydatne przy rozwiązywaniu różnych problemów.

Trudności się nie kończą

Pomimo wszystkich trudności z wdrożeniem Big Data, biznes zamierza zwiększyć inwestycje w tym obszarze. Jak wynika z danych Gartnera, w 2013 roku 64% największych firm na świecie zainwestowało lub planuje zainwestować we wdrożenie technologii Big Data w swoim biznesie, podczas gdy w 2012 roku było to 58%. Jak wynika z badań Gartnera, liderami branż inwestujących w Big Data są firmy medialne, telekomunikacyjne, bankowe i usługowe. Pomyślne rezultaty z wdrożenia Big Data osiągnęło już wielu liczących się graczy w branży retail w zakresie wykorzystania danych uzyskanych za pomocą narzędzi identyfikacji radiowej, systemów logistycznych i relokacyjnych. uzupełnienie- akumulacja, uzupełnianie - R&T), a także z programów lojalnościowych. Udane doświadczenia w handlu detalicznym zachęcają inne sektory rynku do poszukiwania nowych skuteczne sposoby monetyzacja dużych zbiorów danych w celu przekształcenia ich analiz w zasoby przydatne w rozwoju biznesu. Dzięki temu, zdaniem ekspertów, w okresie do 2020 roku inwestycje w zarządzanie i przechowywanie danych spadną z 2 do 0,2 dolara na gigabajt danych, ale na badanie i analizę właściwości technologicznych Big Data wzrosną zaledwie o 40%.

Koszty prezentowane w różnych projektach inwestycyjnych z zakresu Big Data mają różny charakter. Pozycje kosztowe zależą od rodzaju produktów wybieranych na podstawie określonych decyzji. Zdaniem ekspertów największa część kosztów w projektach inwestycyjnych przypada na produkty związane z gromadzeniem, strukturowaniem danych, czyszczeniem i zarządzaniem informacją.

Jak to jest zrobione

Istnieje wiele kombinacji oprogramowania i sprzętu, które pozwalają na tworzenie skutecznych rozwiązań Big Data dla różnych dyscyplin biznesowych: od mediów społecznościowych i aplikacji mobilnych, po inteligentną analizę i wizualizację danych biznesowych. Istotną zaletą Big Data jest kompatybilność nowych narzędzi z bazami danych szeroko stosowanymi w biznesie, co jest szczególnie ważne przy pracy z projektami interdyscyplinarnymi, takimi jak organizacja sprzedaży wielokanałowej i obsługa klienta.

Sekwencja pracy z Big Data polega na zbieraniu danych, strukturowaniu otrzymanych informacji za pomocą raportów i dashboardów, tworzeniu wniosków i kontekstów oraz formułowaniu rekomendacji działań. Ponieważ praca z Big Data wiąże się z dużymi kosztami gromadzenia danych, których wynik przetwarzania nie jest z góry znany, głównym zadaniem jest jasne zrozumienie, do czego dane służą, a nie ile ich jest. Gromadzenie danych zamienia się w tym przypadku w proces pozyskiwania informacji wyłącznie niezbędnych do rozwiązania konkretnego problemu.

Przykładowo dostawcy telekomunikacyjni agregują ogromną ilość danych, w tym geolokalizacji, która jest na bieżąco aktualizowana. Informacje te mogą mieć znaczenie komercyjne dla agencji reklamowych, które mogą je wykorzystywać do dostarczania ukierunkowanych i lokalnych reklam, a także dla sprzedawców detalicznych i banków. Takie dane mogą odegrać ważną rolę przy podejmowaniu decyzji o otwarciu punktu sprzedaży detalicznej w określonej lokalizacji w oparciu o dane o obecności silnego ukierunkowanego przepływu osób. Istnieje przykład pomiaru skuteczności reklamy na billboardach zewnętrznych w Londynie. Teraz zasięg takiej reklamy można zmierzyć jedynie poprzez umieszczenie ludzi specjalne urządzenie licząc przechodniów. W porównaniu do tego rodzaju pomiaru skuteczności reklamy operator komórkowy ma znacznie więcej możliwości - zna dokładnie lokalizację swoich abonentów, zna ich cechy demograficzne, płeć, wiek, stan cywilny itp.

Na podstawie takich danych istnieje możliwość w przyszłości zmiany treści przekazu reklamowego, wykorzystując preferencje konkretnej osoby przechodzącej obok billboardu. Jeśli z danych wynika, że ​​przechodzącej obok osobie dużo podróżuje, wówczas może wyświetlić się jej reklama ośrodka wypoczynkowego. Organizatorzy meczu piłkarskiego mogą jedynie oszacować liczbę kibiców przychodzących na mecz. Gdyby jednak mogli poprosić swojego operatora telefonii komórkowej o informacje na temat tego, gdzie byli goście na godzinę, dzień lub miesiąc przed meczem, dałoby to organizatorom możliwość zaplanowania spotów reklamowych na przyszłe mecze.

Innym przykładem jest to, jak banki mogą wykorzystać Big Data do zapobiegania oszustwom. Jeżeli klient zgłosi utratę karty, a dokonując przy jej pomocy zakupu, bank w czasie rzeczywistym widzi lokalizację telefonu klienta w obszarze zakupów, w którym odbywa się transakcja, bank może sprawdzić tę informację na wniosku klienta żeby zobaczyć, czy nie próbuje go oszukać. Lub sytuacja odwrotna, gdy klient dokonuje zakupu w sklepie, bank widzi, że karta użyta do transakcji i telefon klienta znajdują się w tym samym miejscu, bank może stwierdzić, że właściciel karty z niej korzysta. Dzięki takim zaletom Big Data poszerzają się granice tradycyjnych hurtowni danych.

Aby skutecznie podjąć decyzję o wdrożeniu rozwiązań Big Data, firma musi obliczyć przypadek inwestycyjny, a to powoduje duże trudności ze względu na wiele nieznanych elementów. Paradoksem analityki w takich przypadkach jest przewidywanie przyszłości na podstawie przeszłości, o której często brakuje danych. W tym przypadku ważnym czynnikiem jest jasne zaplanowanie początkowych działań:

  • W pierwszej kolejności konieczne jest określenie jednego konkretnego problemu biznesowego, dla którego zostaną wykorzystane technologie Big Data i to zadanie stanie się podstawą określenia poprawności wybranej koncepcji. Trzeba skupić się na zbieraniu danych związanych z tym konkretnym zadaniem, a podczas weryfikacji koncepcji można skorzystać z różnych narzędzi, procesów i technik zarządzania, które pozwolą na podejmowanie w przyszłości bardziej świadomych decyzji.
  • Po drugie, jest mało prawdopodobne, aby firma bez umiejętności i doświadczenia w zakresie analityki danych była w stanie z sukcesem wdrożyć projekt Big Data. Niezbędna wiedza zawsze wynika z wcześniejszych doświadczeń analitycznych, które są głównym czynnikiem wpływającym na jakość pracy z danymi. Kultura danych jest ważna, ponieważ często analiza danych ujawnia twarde prawdy o firmie, a zaakceptowanie tych prawd i praca z nimi wymaga praktyk związanych z danymi.
  • Po trzecie, wartość technologii Big Data polega na dostarczaniu spostrzeżeń.Na rynku wciąż brakuje dobrych analityków. Nazywa się ich zwykle specjalistami, którzy doskonale rozumieją komercyjne znaczenie danych i wiedzą, jak je poprawnie wykorzystać. Analiza danych jest środkiem do osiągnięcia celów biznesowych, a aby zrozumieć wartość Big Data, trzeba się odpowiednio zachowywać i rozumieć swoje działania. W tym przypadku big data dostarczy wielu przydatnych informacji o konsumentach, na podstawie których można będzie podejmować decyzje przydatne dla biznesu.

Chociaż Rynek rosyjski Big Data dopiero zaczyna nabierać kształtu, indywidualne projekty w tym obszarze są już realizowane z dużym sukcesem. Niektóre z nich odnoszą sukcesy w zakresie gromadzenia danych, jak projekty dla Federalnej Służby Podatkowej i Tinkoff Credit Systems Bank, inne - w zakresie analizy danych i praktycznego zastosowania ich wyników: to projekt Synqera.

Tinkoff Credit Systems Bank zrealizował projekt wdrożenia platformy EMC2 Greenplum będącej narzędziem do obliczeń masowo równoległych. W ostatnich latach bank zwiększył wymagania w zakresie szybkości przetwarzania zgromadzonych informacji i analizowania danych w czasie rzeczywistym, co jest spowodowane dużą dynamiką wzrostu liczby użytkowników kart kredytowych. Bank ogłosił plany rozszerzenia wykorzystania technologii Big Data, w szczególności do przetwarzania danych nieustrukturyzowanych i pracy z informacjami korporacyjnymi pozyskiwanymi z różnych źródeł.

W Federalnej Służbie Podatkowej Rosji w obecnie Trwa tworzenie warstwy analitycznej federalnej hurtowni danych. Na jego podstawie tworzona jest ujednolicona przestrzeń informacyjna oraz technologia dostępu do danych podatkowych w celu przetwarzania statystycznego i analitycznego. W trakcie realizacji projektu prowadzone są prace nad centralizacją informacji analitycznych z ponad 1200 źródeł na poziomie lokalnym Federalnej Służby Skarbowej.

Innym ciekawym przykładem analizy big data w czasie rzeczywistym jest rosyjski startup Synqera, który opracował platformę Simplate. Rozwiązanie opiera się na przetwarzaniu dużej ilości danych, program analizuje informacje o klientach, ich historii zakupów, wieku, płci, a nawet nastroju. Przy kasach w sieci sklepów kosmetycznych zainstalowano ekrany dotykowe z czujnikami rozpoznającymi emocje klientów. Program określa nastrój danej osoby, analizuje informacje na jej temat, określa porę dnia oraz skanuje bazę rabatów sklepu, po czym wysyła do kupującego ukierunkowane komunikaty o promocjach i ofertach specjalnych. Rozwiązanie to zwiększa lojalność klientów i zwiększa sprzedaż detalistów.

Jeśli mówimy o zagranicznych przypadkach zakończonych sukcesem, to ciekawe pod tym względem są doświadczenia wykorzystania technologii Big Data w firmie Dunkin`Donuts, która wykorzystuje dane w czasie rzeczywistym do sprzedaży produktów. Cyfrowe wyświetlacze w sklepach wyświetlają oferty zmieniające się co minutę, w zależności od pory dnia i dostępności produktów. Za pomocą wpływów gotówkowych firma otrzymuje dane, które oferty spotkały się z największym odzewem klientów. To podejście przetwarzanie danych umożliwiło zwiększenie zysków i rotacji towarów w magazynie.

Jak pokazuje doświadczenie realizacji projektów Big Data, obszar ten ma na celu skuteczne rozwiązywanie współczesnych problemów biznesowych. Jednocześnie ważnym czynnikiem osiągania celów komercyjnych podczas pracy z Big Data jest wybór właściwej strategii, która obejmuje analitykę identyfikującą potrzeby konsumentów, a także wykorzystanie innowacyjnych technologii z zakresu Big Data.

Jak wynika z globalnego badania prowadzonego corocznie od 2012 roku przez Econsultancy i Adobe wśród marketerów korporacyjnych, „big data”, charakteryzujące działania ludzi w Internecie, może wiele zdziałać. Potrafią zoptymalizować procesy biznesowe offline i pomóc zrozumieć sposób działania właścicieli urządzenia mobilne wykorzystać je do wyszukiwania informacji lub po prostu „robić lepiej marketing”, czyli np. bardziej wydajny. Co więcej, ta ostatnia funkcja z roku na rok staje się coraz bardziej popularna, co widać na przedstawionym przez nas schemacie.

Główne obszary pracy marketerów internetowych w zakresie relacji z klientami


Źródło: Econsultancy i Adobe, opublikowano– emarketer.com

Należy zwrócić uwagę na narodowość respondentów wielkie znaczenie nie ma. Jak wynika z badania przeprowadzonego przez KPMG w 2013 roku, udział „optymistów”, czyli tzw. tych, którzy wykorzystują Big Data przy opracowywaniu strategii biznesowej, wynosi 56%, a różnice w zależności od regionu są niewielkie: od 63% w krajach Ameryki Północnej do 50% w regionie EMEA.

Wykorzystanie Big Data w różnych regionach świata


Źródło: KPMG, opublikowano– emarketer.com

Tymczasem stosunek marketerów do takich „trendów w modzie” przypomina nieco znany dowcip:

Powiedz mi, Vano, lubisz pomidory?
- Lubię jeść, ale nie w ten sposób.

Pomimo tego, że marketerzy werbalnie „kochają” Big Data i wydaje się, że nawet z niego korzystają, w rzeczywistości „wszystko jest skomplikowane”, gdy piszą o swoich serdecznych uczuciach na portalach społecznościowych.

Jak wynika z badania przeprowadzonego przez Circle Research w styczniu 2014 roku wśród europejskich marketerów, 4 na 5 respondentów nie korzysta z Big Data (choć oczywiście „uwielbia to”). Powody są różne. Zagorzałych sceptyków jest niewielu - 17% i dokładnie tyle samo, co ich antypody, tj. tych, którzy z przekonaniem odpowiadają: „Tak”. Reszta waha się i wątpi, „bagno”. Unikają bezpośredniej odpowiedzi pod wiarygodnymi pretekstami, takimi jak „jeszcze nie, ale wkrótce” lub „poczekamy, aż inni zaczną”.

Wykorzystanie Big Data przez marketerów, Europa, styczeń 2014


Źródło:dnx, opublikowany –emarketer.kom

Co ich dezorientuje? Czysty nonsens. Część (dokładnie połowa z nich) po prostu nie wierzy w te dane. Innym (jest ich też całkiem sporo – 55%) trudno jest powiązać ze sobą zbiory „danych” i „użytkowników”. Niektórzy po prostu mają (ujmując to politycznie poprawnie) wewnętrzny bałagan w firmie: dane wędrują bez nadzoru pomiędzy działami marketingu a strukturami IT. Dla innych oprogramowanie nie jest w stanie poradzić sobie z napływem pracy. I tak dalej. Ponieważ łączne udziały znacznie przekraczają 100%, jasne jest, że sytuacja „wielu barier” nie jest rzadkością.

Bariery wykorzystania Big Data w marketingu


Źródło:dnx, opublikowany –emarketer.kom

Trzeba zatem przyznać, że na razie „Big Data” to ogromny potencjał, który trzeba jeszcze wykorzystać. Swoją drogą, może to jest powód, dla którego Big Data traci aurę „modnego trendu”, o czym świadczy badanie przeprowadzone przez firmę Econsultancy, o którym już wspominaliśmy.

Najważniejsze trendy w marketingu cyfrowym 2013-2014


Źródło: Econsultancy i Adobe

Zastępuje je inny król – content marketing. Jak długo?

Nie można powiedzieć, że Big Data jest jakimś zjawiskiem zasadniczo nowym. Od wielu lat istnieją duże źródła danych: bazy danych o zakupach klientów, historiach kredytowych, stylu życia. Przez lata naukowcy wykorzystywali te dane, aby pomóc firmom oceniać ryzyko i przewidywać przyszłe potrzeby klientów. Jednak dzisiaj sytuacja uległa zmianie w dwóch aspektach:

Pojawiły się bardziej wyrafinowane narzędzia i techniki umożliwiające analizowanie i łączenie różnych zbiorów danych;

Uzupełnieniem tych narzędzi analitycznych jest lawina nowych źródeł danych wynikająca z cyfryzacji praktycznie wszystkich metod gromadzenia i pomiaru danych.

Zakres dostępnych informacji jest zarówno inspirujący, jak i zniechęcający dla badaczy wychowanych w ustrukturyzowanych środowiskach badawczych. Nastroje konsumentów są rejestrowane przez strony internetowe i wszelkiego rodzaju media społecznościowe. Fakt obejrzenia reklamy jest rejestrowany nie tylko dekodery, ale także za pomocą tagów cyfrowych i urządzeń mobilnych komunikujących się z telewizorem.

Dane behawioralne (takie jak liczba połączeń, nawyki zakupowe i zakupy) są teraz dostępne w czasie rzeczywistym. W związku z tym wiele z tego, co można było wcześniej uzyskać w drodze badań, można obecnie poznać, korzystając ze źródeł dużych zbiorów danych. Wszystkie te zasoby informacyjne są generowane w sposób ciągły, niezależnie od jakichkolwiek procesów badawczych. Zmiany te każą nam zastanawiać się, czy big data może zastąpić klasyczne badania rynkowe.

Tu nie chodzi o dane, ale o pytania i odpowiedzi.

Zanim ogłosimy dzwonek pogrzebowy dla klasycznych badań, musimy sobie przypomnieć, że to nie obecność określonych zasobów danych jest najważniejsza, ale coś innego. Co dokładnie? Nasza zdolność do odpowiadania na pytania, ot co. Zabawną rzeczą w nowym świecie dużych zbiorów danych jest to, że wyniki uzyskane z nowych zasobów danych prowadzą do jeszcze większej liczby pytań, a na te pytania zwykle najlepiej odpowiadają tradycyjne badania. Zatem wraz ze wzrostem big data obserwujemy równoległy wzrost dostępności i zapotrzebowania na „małe dane”, które mogą dostarczyć odpowiedzi na pytania ze świata big data.

Rozważmy sytuację: duży reklamodawca na bieżąco monitoruje ruch w sklepie i wielkość sprzedaży w czasie rzeczywistym. Istniejące metodologie badawcze (w ramach których przeprowadzamy ankiety z panelistami na temat ich motywacji zakupowych i zachowań w punktach sprzedaży) pomagają nam lepiej docierać do określonych segmentów nabywców. Techniki te można rozszerzyć, aby objąć szerszy zakres dużych zbiorów danych, do tego stopnia, że ​​duże zbiory danych staną się środkiem biernej obserwacji, a badania staną się metodą ciągłego, wąsko ukierunkowanego badania zmian lub zdarzeń wymagających badania. W ten sposób big data może uwolnić badania od niepotrzebnej rutyny. Badania podstawowe nie muszą już koncentrować się na tym, co się dzieje (robią to duże zbiory danych). Zamiast tego badania pierwotne mogą skupić się na wyjaśnieniu, dlaczego obserwujemy określone trendy lub odchylenia od trendów. Badacz będzie mógł mniej myśleć o pozyskiwaniu danych, a więcej o tym, jak je analizować i wykorzystywać.

Jednocześnie widzimy, że duże zbiory danych mogą rozwiązać jeden z naszych największych problemów: problem zbyt długich badań. Analiza samych badań wykazała, że ​​nadmiernie zawyżone instrumenty badawcze mają negatywny wpływ na jakość danych. Chociaż wielu ekspertów od dawna przyznawało się do tego problemu, niezmiennie odpowiadali stwierdzeniem: „Ale potrzebuję tych informacji dla wyższej kadry kierowniczej” i kontynuowano długie wywiady.

W świecie big data, gdzie metryki ilościowe można uzyskać poprzez pasywną obserwację, kwestia ta staje się dyskusyjna. Zastanówmy się jeszcze raz nad tymi wszystkimi badaniami dotyczącymi konsumpcji. Jeśli big data daje nam wgląd w konsumpcję poprzez pasywną obserwację, to podstawowe badania ankietowe nie muszą już zbierać tego rodzaju informacji i w końcu możemy poprzeć naszą wizję krótkich ankiet czymś więcej niż tylko myśleniem życzeniowym.

Big Data potrzebuje Twojej pomocy

Wreszcie „duże” to tylko jedna z cech dużych zbiorów danych. Charakterystyczne „duże” odnosi się do rozmiaru i skali danych. Jest to oczywiście główna cecha, ponieważ ilość tych danych przekracza wszystko, z czym pracowaliśmy wcześniej. Ale inne cechy tych nowych strumieni danych są również ważne: są one często źle sformatowane, pozbawione struktury (lub w najlepszym razie częściowo ustrukturyzowane) i pełne niepewności. Wyłaniająca się dziedzina zarządzania danymi, trafnie nazwana analityką jednostek, rozwiązuje problem przebijania się przez szum w dużych zbiorach danych. Jego zadaniem jest analiza tych zbiorów danych i ustalenie, ile obserwacji dotyczy tej samej osoby, które są aktualne, a które przydatne.

Ten rodzaj czyszczenia danych jest konieczny, aby usunąć szum lub błędne dane podczas pracy z dużymi lub małymi zasobami danych, ale nie jest wystarczający. Musimy także stworzyć kontekst wokół zasobów dużych zbiorów danych w oparciu o nasze wcześniejsze doświadczenia, analizy i wiedzę na temat kategorii. W rzeczywistości wielu analityków wskazuje na możliwość zarządzania niepewnością związaną z dużymi zbiorami danych jako źródłem przewaga konkurencyjna, ponieważ pozwala podejmować skuteczniejsze decyzje.

W tym miejscu badania pierwotne nie tylko zostają wyzwolone przez duże zbiory danych, ale także przyczyniają się do tworzenia i analizy treści w ramach dużych zbiorów danych.

Doskonałym tego przykładem jest zastosowanie naszych nowych, zasadniczo odmiennych ram wartości marki w mediach społecznościowych (mówimy o opracowanym wMillward brązowynowe podejście do pomiaru wartości markiThe Sensownie Różny Struktura– „Paradygmat znaczącej różnicy” –R & T ). Model jest testowany behawioralnie na konkretnych rynkach, wdrażany standardowo i można go łatwo zastosować w innych pionach marketingu i systemach informatycznych wspomagających podejmowanie decyzji. Innymi słowy, nasz model wartości marki, oparty na badaniach ankietowych (choć nie wyłącznie na nich), ma wszystkie cechy potrzebne do przezwyciężenia nieustrukturyzowanego, chaotycznego i niepewnego charakteru dużych zbiorów danych.

Weź pod uwagę dane na temat nastrojów konsumentów dostarczane przez media społecznościowe. W surowej formie szczyty i spadki nastrojów konsumentów są bardzo często minimalnie skorelowane z miarami wartości i zachowań marki offline: w danych jest po prostu za dużo szumu. Możemy jednak zredukować ten szum, stosując nasze modele znaczenia konsumentów, zróżnicowania, dynamiki i odrębności marki do surowych danych na temat nastrojów konsumentów – jest to sposób przetwarzania i agregowania danych z mediów społecznościowych według tych wymiarów.

Po uporządkowaniu danych zgodnie z naszymi ramami zidentyfikowane trendy zazwyczaj pokrywają się z wartością marki offline i miarami behawioralnymi. Zasadniczo dane z mediów społecznościowych nie mogą mówić same za siebie. Wykorzystanie ich w tym celu wymaga naszego doświadczenia i modeli zbudowanych wokół marek. Kiedy media społecznościowe dostarczają nam unikalnych informacji wyrażonych w języku, którego konsumenci używają do opisu marek, musimy używać tego języka podczas tworzenia naszych badań, aby badania podstawowe były znacznie bardziej skuteczne.

Korzyści z badań zwolnionych

To prowadzi nas z powrotem do tego, jak duże zbiory danych nie tyle zastępują badania, ile je wyzwalają. Naukowcy zostaną uwolnieni od konieczności tworzenia nowego badania dla każdego nowego przypadku. Stale rosnące zasoby dużych zbiorów danych można wykorzystać do różnych tematów badawczych, umożliwiając w kolejnych badaniach podstawowych głębsze zgłębienie tematu i wypełnienie istniejących luk. Naukowcy uwolnią się od konieczności polegania na zawyżonych ankietach. Zamiast tego mogą skorzystać z krótkich ankiet i skupić się na najważniejszych parametrach, co poprawia jakość danych.

Dzięki temu wyzwoleniu badacze będą mogli wykorzystać swoje ustalone zasady i pomysły, aby dodać precyzję i znaczenie dużym zbiorom danych, co doprowadzi do nowych obszarów badań ankietowych. Cykl ten powinien prowadzić do lepszego zrozumienia szeregu kwestii strategicznych, a ostatecznie do skierowania się w stronę tego, co zawsze powinno być naszym głównym celem – informowania i poprawy jakości decyzji dotyczących marki i komunikacji.

Julia Sergeevna Volkova, studentka czwartego roku Rządowego Uniwersytetu Finansowego Federacja Rosyjska, Oddział w Kałudze, Kaługa [e-mail chroniony]

Big Data we współczesnym świecie

Streszczenie Artykuł poświęcony jest wdrażaniu technologii Big Data we współczesnym społeczeństwie. Badane są główne cechy Big Data, rozważane są główne obszary zastosowań, takie jak bankowość, handel detaliczny, sektor prywatny i publiczny, a nawet życie codzienne. Badanie ujawniło wady stosowania technologii Big Data. Zarysowano potrzebę opracowania regulacji regulacyjnych wykorzystania Big Data Słowa kluczowe: Big Data, banki, sektor bankowy, handel detaliczny, sektor prywatny, sektor publiczny.

Wraz ze wzrostem stopnia integracji narzędzi technologii informatycznych z różnymi obszarami współczesnego społeczeństwa, rosną także wymagania dotyczące ich zdolności adaptacyjnych do rozwiązywania nowych problemów wymagających ogromnych ilości danych. Istnieją wolumeny informacji, których nie można przetworzyć w tradycyjny sposób, w tym dane strukturalne, dane medialne i przypadkowe obiekty. I jeśli istniejące dziś technologie mniej więcej radzą sobie z analizą pierwszego, to analiza drugiego i trzeciego praktycznie pozostaje zadaniem przytłaczającym. Badania pokazują, że z roku na rok zwiększa się ilość danych medialnych, takich jak monitoring wideo, zdjęcia lotnicze, cyfrowe informacje zdrowotne czy przypadkowe obiekty przechowywane w licznych archiwach i chmurach.Ogromna ilość danych stała się procesem globalnym i nazywa się Duże dane. Badaniu Big Data poświęcone są prace naukowców zagranicznych i rosyjskich: James Manyika, Michael Chui, Toporkov V.V., Budzko V.I. Duże globalne firmy, takie jak McKinsey& Company, СNews Analytics, SAP, Oracle, IBM, Microsoft, Teradata i wiele innych, wnoszą znaczący wkład w badania tej technologii. Zajmują się przetwarzaniem i analizą danych oraz tworzeniem systemów oprogramowania i sprzętu w oparciu o Big Data.Według raportu Instytutu McKinsey: „Big Data to zbiór danych, których wielkość przekracza możliwości typowe bazy danych narzędzia programowe służące do przechwytywania, przechowywania, zarządzania i analizowania danych.” W istocie koncepcja big data zakłada pracę z informacjami o ogromnej objętości i zróżnicowanym składzie, stale aktualizowanymi i lokowanymi w różnych źródłach w celu zwiększenia efektywności operacyjnej, tworzenia nowych produktów i zwiększania konkurencyjności. Firma konsultingowa Forrester podaje krótkie i dość jasne sformułowanie: „Big Data łączy w sobie techniki i technologie, które wydobywają znaczenie z danych na granicy praktyczności”. zgromadzona baza danych reprezentuje dużą ilość informacji .Velocity – prędkość, atrybut ten wskazuje na rosnące tempo gromadzenia danych (90% informacji zostało zebranych w ciągu ostatnich 2 lat) Variety – różnorodność, tj. możliwość jednoczesnego przetwarzania informacji ustrukturyzowanych i nieustrukturyzowanych w różnych formatach. Eksperci ds. marketingu uwielbiają dodawać tutaj swoje „V”. Jedni mówią też o prawdziwości, inni dodają, że technologie big data z pewnością muszą przynieść korzyści biznesowi (wartość).Oczekuje się, że do 2020 roku ilość informacji zgromadzonych na planecie będzie się podwajać co dwa lata. Obfitość danych sprawia, że ​​chce się je wykorzystywać do analiz i prognozowania. Ogromne wolumeny wymagają odpowiednich technologii. Dziś firmy muszą przetwarzać kolosalne ilości danych w wolumenach, które trudno sobie wyobrazić, powoduje to, że tradycyjne bazy danych nie są w stanie sprostać takiemu zadaniu, a to rodzi konieczność wdrażania technologii Big Data. Tabela przedstawia charakterystykę porównawczą Big Data i tradycyjnych baz danych. Podstawą do powstania tej tabeli były badania V. I. Budzko i Giełdy Moskiewskiej.Tabela 1 Charakterystyka porównawcza big data i tradycyjne dane

Tradycyjne bazy danychBig Data Obszar zastosowań

Jeden lub więcej obszarów tematycznych zastosowania Zakres technologii Big Data jest ogromny. Od identyfikacji preferencji klienta po analizę ryzyka Charakterystyka danych Tylko dane strukturalne Ogromne ilości informacji o złożonej heterogenicznej i/lub niepewnej strukturze Metoda przechowywania danych Scentralizowany Zdecentralizowany Model przechowywania i przetwarzania danych Model pionowy Model poziomy Ilość informacji do przetworzenia Od gigabajtów (109 bajtów) ) do terabajtów (1012 bajtów) Od petabajtów (1015 bajtów) do eksabajtów (1018 bajtów) Zatem zakres tradycyjnych baz danych obejmuje tylko jedną lub kilka, a obszary takie powinny zawierać wyłącznie dane strukturalne. Jeśli chodzi o Big Data, zakres jego zastosowania jest rozległy, z ogromną ilością informacji o złożonej strukturze.Według wyników badania CNews Analytics przedstawionych na rysunku 1, rynek rosyjski zbliża się do takiego zjawiska jak Big Data, które wskazuje na wzrost poziomu dojrzałości przedsiębiorstw. Wiele firm przechodzi na technologie Big Data ze względu na ilość przetwarzanych danych – już ponad 44% generuje około 100 terabajtów, a 13% ma wolumen danych przekraczający 500 terabajtów.

Ryc.1. Ilości informacji przetwarzanych w firmach

Takich wolumenów nie da się przetworzyć tradycyjnymi bazami danych, dlatego takie firmy postrzegają rozwiązanie przejścia na Big Data nie tylko jako przetwarzanie ogromnych wolumenów, ale także jako zwiększenie konkurencyjności, zwiększenie lojalności klientów wobec swojego produktu i pozyskanie nowych. Najbardziej aktywnymi klientami tego typu rozwiązań są banki, telekomunikacja i handel detaliczny, ich udział procentowy przedstawiono na rysunku 2. Mniej zauważalna jest liczba firm, które korzystają lub są gotowe do wykorzystania big data w sektorach transportowym, energetycznym i przemysłowym. Pierwsze przykłady wykorzystania big data pojawiły się także w sektorze publicznym.

Ryc.2. Struktura branżowa wykorzystania Big Data

Jeśli chodzi o rząd zachodni, według różnych szacunków gospodarka cyfrowa stanowi od 3% do 21% PKB krajów G20. Rosyjski sektor publiczny nie osiągnął jeszcze znaczących wyników w pracy z dużymi zbiorami danych. Dziś w Rosji takimi technologiami zainteresowane są głównie przedsiębiorstwa komercyjne: sieci handlowe, banki, firmy telekomunikacyjne.Według Rosyjskiego Stowarzyszenia Komunikacji Elektronicznej wielkość gospodarki cyfrowej w Federacji Rosyjskiej wynosi zaledwie 1 bilion. pocierać. -około 1,5% PKB. Jednak Federacja Rosyjska ma ogromny potencjał wzrostu w gospodarce cyfrowej.Pomimo krótkiego istnienia sektora Big Data, już pojawiają się oceny efektywności wykorzystania tych technologii na podstawie prawdziwe przykłady. Banki przetwarzają dziś średnio około 3,8 petobajtów danych, wykorzystują technologie Big Data do realizacji określonych zadań:  zbierania danych o użytkowaniu kart kredytowych,  zbierania danych o zabezpieczeniach,  zbierania danych o kredytach, 44% 16% 13% 7% 20%BankiTelekomunikacjaDetalSektorPublicInne gromadzenie danych o profilu klienta; gromadzenie danych o oszczędnościach klientów.Banki twierdzą, że odkąd zaczęły korzystać z technologii Big Data, potrafią pozyskać nowych klientów, lepiej współdziałać zarówno z nowymi, jak i starymi klientami i utrzymać ich lojalność. W 2015 roku CNews Analytics przeprowadziło ankietę wśród trzydziestu największych rosyjskich banków pod względem sumy aktywów, aby dowiedzieć się, z jakich technologii big data korzystają i do jakich celów. W porównaniu z badaniem z 2014 roku wzrosła liczba 30 największych banków raportujących wykorzystanie technologii big data, jednak zmiana ta jest bardziej prawdopodobna ze względu na zmianę składu pierwszej 30. Rycina 3 przedstawia porównanie badania z 2015 r. z badaniem z 2014 r. na podstawie badania A. Kiryanovej.

Ryż. 3. Wykorzystanie Big Data przez 30 największych rosyjskich banków

Według szacunków firmy IBS, 80% banków, które odpowiedziały pozytywnie, wdraża Big Data Appliance – oprogramowanie i sprzęt do przechowywania i przetwarzania danych. Rozwiązania te pełnią zazwyczaj funkcję magazynu analitycznego lub transakcyjnego, którego główną zaletą jest wysoka wydajność przy pracy z dużymi wolumenami danych, jednak praktyka wykorzystywania big data w rosyjskich bankach jest w powijakach. Przyczyną tak powolnej adaptacji w Rosji jest ostrożne podejście specjalistów IT klientów do nowych technologii. Nie mają pewności, czy technologie big data pomogą w pełni rozwiązać problemy, ale jeśli chodzi o rynek amerykański, tamtejsze banki zgromadziły już 1 eksabajt danych, co można porównać do 275 miliardów nagrań mp3. Liczba źródeł, z których pochodzą informacje, jest ogromna, spośród których można wyróżnić klasyczne:  wizyty w placówkach klientów banku,  nagrania rozmów telefonicznych,  zachowania klientów na portalach społecznościowych,  informacje o transakcjach kartami kredytowymi  i inne. Handel offline wykorzystuje duże zbiory danych do analizy zachowań klientów, projektowania tras po hali sprzedaży, prawidłowego rozmieszczania towarów, planowania zakupów i ostatecznie zwiększania sprzedaży. W handlu internetowym sam mechanizm sprzedaży opiera się na big data: użytkownikom oferowane są produkty na podstawie wcześniejszych zakupów i ich osobistych preferencji, o których informacje zbierane są np. w sieciach społecznościowych. W obu przypadkach analiza big data pomaga obniżyć koszty, zwiększyć lojalność klientów i dotrzeć do szerszego grona odbiorców.W miarę rozwoju potencjału handlowego firmy tradycyjne bazy danych nie spełniają już rosnących wymagań biznesowych, przez co system nie jest w stanie dostarczyć niezbędnych szczegółów rachunkowość zarządcza . Dzięki przejściu na big data nowe technologie umożliwiają optymalizację zarządzania dystrybucją produktów, osiągnięcie trafności danych i szybkości ich przetwarzania dla oceny konsekwencji decyzji zarządczych oraz szybkie generowanie raportowania zarządczego. Całkowita objętość zgromadzonych danych wynosi ponad 100 eksabajtów, podczas gdy sam Walmart przetwarza 2,5 petabajta danych na godzinę przy użyciu dużych zbiorów danych. Co więcej, dzięki zastosowaniu technologii Big Data rentowność operacyjna wzrasta o 60%, a także, jak wynika ze statystyk Hadoop, po wdrożeniu Big Data wzrasta wydajność analityki do przetwarzania 120 algorytmów, a zyski rosną o 710%. jeśli weźmiemy pod uwagę rosyjski handel detaliczny, to Big Data dopiero zaczyna nabierać tempa, ponieważ luka w przetwarzaniu informacji jest bardzo zróżnicowana. Na przykład sprzedaż detaliczna online jest 18 razy mniejsza niż w Chinach, a cały obrót danymi wytwarzany w handlu detalicznym internetowym jest 4,5 razy mniejszy niż w jednym sklepie Amazon. Jednocześnie liczba sklepów internetowych w Rosji korzystających z Big Data to niecałe 40 tys., podczas gdy w Europie jest ich ponad 550 tys. Co charakteryzuje rosyjski rynek detaliczny jako wciąż rozwijający się i nie w pełni ukształtowany. W życiu codziennym wykorzystywane są tu technologie Big Data, o których nawet nie myśleliśmy. Codziennie 15 milionów utworów, czyli około 1,5~2 petabajtów, jest przetwarzanych na całym świecie przez serwis muzyczny Shazam i w oparciu o na Następnie producenci muzyczni przewidują popularność artysty. Duże zbiory danych są również wykorzystywane do przetwarzania informacji o kartach kredytowych, takich jak MasterCard i Visa. W ten sposób 65 miliardów transakcji rocznie przy użyciu 1,9 miliarda kart u 32 milionów sprzedawców jest przetwarzanych przez kartę MasterCard w celu przewidywania trendów handlowych. Każdego dnia ludzie na całym świecie zamieszczają 19 terabajtów danych w sieciach społecznościowych, takich jak Twitter i Facebook. Pobierają i przetwarzają zdjęcia, piszą, wysyłają wiadomości i tak dalej. Infrastruktura wykorzystuje również technologie Big Data, od trolejbusów po samoloty i rakiety. I tak w londyńskim metrze kołowroty rejestrują dziennie około 20 milionów przejść, a w wyniku analizy przeprowadzonej w oparciu o technologie Big Data zidentyfikowano 10 możliwych epicentrów, co jest również brane pod uwagę w dalszym rozwoju kolei metro. Bez wątpienia różnorodność i ilość danych powstałych w wyniku wszelkiego rodzaju interakcji stanowi dla biznesu potężną podstawę do tworzenia i udoskonalania prognoz, identyfikowania wzorców, oceny wyników itp. Jednak wszystko ma swoje wady, które również trzeba dokładnie wziąć pod uwagę.Pomimo oczywistych i potencjalnych zalet wykorzystania Big Data, ich wykorzystanie ma również swoje wady, które związane są przede wszystkim z dużą ilością informacji, różnymi sposobami dostępu do nich i często niewystarczające funkcje wsparcia zasobów bezpieczeństwo informacji w organizacjach. Problemy związane z wykorzystaniem technologii Big Data przedstawiono na rysunku 4.

Ryż. 4. Problemy wykorzystania Big Data

Wszystkie te problemy powodują, że wiele firm z obawą podchodzi do wprowadzania technologii big data, gdyż współpracując z podmiotami trzecimi same mają problem z ujawnieniem informacji poufnych, których firma nie mogłaby ujawnić wykorzystując jedynie własne zasoby. najważniejszy krok Na drodze do pełnego wdrożenia technologii opartych na big data musi pojawić się aspekt legislacyjny. Istnieją już przepisy ograniczające gromadzenie, wykorzystywanie i przechowywanie niektórych rodzajów danych osobowych, ale nie ograniczają one całkowicie dużych zbiorów danych, dlatego muszą istnieć w tym zakresie specjalne przepisy. Aby dostosować się do szybko zmieniających się i nowych przepisów, firmy muszą przeprowadzić wstępną inwentaryzację odpowiednich przepisów i na bieżąco aktualizować tę listę.Jednak pomimo wszystkich powyższych mankamentów, jak pokazują doświadczenia przedstawicieli Zachodu, technologie Big Data pomagają skutecznie rozwiązywać zarówno zadania współczesnego biznesu i rosnącej konkurencyjności, jak i zadania związane bezpośrednio z życiem ludzi. Rosyjskie firmy są już na drodze wdrażania technologii Big Data zarówno w sferze produkcyjnej, jak i w sferze publicznej, gdyż ilość informacji co roku niemal się podwaja. Z biegiem czasu Big Data zmieni wiele obszarów naszego życia.

Linki do źródeł 1. BudzkoV. I. Systemy wysokiej dostępności i Big Data // Big Data w Gospodarce Narodowej 2013. P. 1619.2 Korotkova T. „EMC Data Lake 2.0 – sposób na przejście do analityki big data i gospodarki cyfrowej” http://bigdata. cnews.ru/news/line/20151203_emc_data_lake_20_pomozhet_perejti_k_analitike.3.Kiryanova A. „Big data nie weszło do głównego nurtu w rosyjskich bankach” http://www.cnews.ru/news/top/bolshie_dannye_ne_stali_mejnstrimom.4.CNews „Infografiki: Big data przybył do Rosji” http://bigdata.cnews.ru/articles/infografika_bolshie_dannye_prishli_v_rossiyu.5.CNews „Infografiki: Jak handel detaliczny wykorzystuje duże zbiory danych” http://bigdata.cnews.ru/articles/infografika_kak_roznitsa_ispolzuet nie ma specjalnych przepisów prawnych przepisy na świecie dotyczące Big Dane muszą być maskowane w celu ochrony oryginalnych źródeł danych Firmy muszą zapewnić monitorowanie wszystkich wymogów bezpieczeństwa danych oraz wsparcie Wdrożenie rozwiązań Big Data może skutkować powstaniem lub odkryciem informacji wcześniej poufnych Zarządzanie danymi Zachowanie wymogów bezpieczeństwa danych Regulacje prawne Identyfikacja ryzyka 6.CNews « Infografiki: Technologie BigData” http://bigdata.cnews.ru/articles/big_data_v_zhizni_cheloveka.7.CNews„Infografiki: Co duże dane mogą zrobić w bankach” http://bigdata.cnews.ru/articles/infografika_chto_mogut_bolshie_dannye.8. Moskiewska Giełda „Analityczny przegląd rynku BigData” http://habrahabr.ru/company/moex/blog/256747/9 Big Data. http://www.tadviser.ru/index.php/Article:Big_Data_(Big_Data).10.BigData – energia elektryczna XXI wieku http://bit.samag.ru/archive/article/1463.11.McKinsey Global Institute „ Bigdata: kolejna granica innowacji, konkurencji i produktywności” (czerwiec 2011).

Termin „Big Data” może być dziś rozpoznawalny, jednak nadal panuje wokół niego sporo zamieszania co do jego faktycznego znaczenia. Prawdę mówiąc, koncepcja ta stale ewoluuje i jest poddawana rewizji, ponieważ pozostaje siłą napędową wielu trwających fal transformacja cyfrowa, w tym sztuczna inteligencja, nauka o danych i internet rzeczy. Czym jednak jest technologia Big-Data i jak zmienia nasz świat? Spróbujmy w prostych słowach zrozumieć istotę technologii Big Data i co ona oznacza.

Niesamowity rozwój Big Data

Wszystko zaczęło się od eksplozji ilości danych, które stworzyliśmy od zarania ery cyfrowej. Dzieje się tak w dużej mierze dzięki rozwojowi komputerów, Internetu i technologii, które potrafią „wyrywać” dane z otaczającego nas świata. Dane same w sobie nie są nowym wynalazkiem. Jeszcze przed erą komputerów i baz danych korzystaliśmy z papierowych zapisów transakcji, rejestrów klientów i plików archiwalnych stanowiących dane. Komputery, zwłaszcza arkusze kalkulacyjne i bazy danych, ułatwiły nam przechowywanie i organizowanie danych na dużą skalę. Nagle informacje stały się dostępne za pomocą jednego kliknięcia.

Jednak przebyliśmy długą drogę od oryginalnych tabel i baz danych. Dziś co dwa dni tworzymy tyle danych, ile otrzymaliśmy od samego początku aż do roku 2000. Zgadza się, co dwa dni. A ilość tworzonych przez nas danych stale rośnie wykładniczo; do 2020 r. ilość dostępnej informacji cyfrowej wzrośnie z około 5 zettabajtów do 20 zettabajtów.

W dzisiejszych czasach niemal każde nasze działanie pozostawia ślad. Generujemy dane za każdym razem, gdy korzystamy z Internetu, gdy mamy przy sobie smartfony wyposażone w funkcję wyszukiwania lub gdy rozmawiamy ze znajomymi za pośrednictwem Media społecznościowe lub czaty itp. Ponadto szybko rośnie ilość danych generowanych maszynowo. Dane są generowane i udostępniane, gdy nasze inteligentne urządzenia domowe komunikują się ze sobą lub ze swoimi serwerami domowymi. Urządzenia przemysłowe w zakładach i fabrykach są coraz częściej wyposażane w czujniki gromadzące i przesyłające dane.

Termin „Big-Data” odnosi się do gromadzenia wszystkich tych danych i naszej możliwości wykorzystania ich na swoją korzyść w wielu obszarach, w tym w biznesie.

Jak działa technologia Big Data?

Big Data działa na zasadzie: im więcej wiesz na dany temat lub zjawisko, tym pewniej możesz osiągnąć nowe zrozumienie i przewidzieć, co wydarzy się w przyszłości. W miarę porównywania większej liczby punktów danych wyłaniają się relacje, które wcześniej były ukryte, a relacje te pozwalają nam się uczyć i podejmować lepsze decyzje. Najczęściej odbywa się to poprzez proces polegający na budowaniu modeli w oparciu o dane, które możemy zebrać, a następnie przeprowadzaniu symulacji, które za każdym razem modyfikują wartości punktów danych i śledzą, jak wpływają one na nasze wyniki. Proces ten jest zautomatyzowany — nowoczesna technologia analityczna przeprowadzi miliony takich symulacji, modyfikując każdą możliwą zmienną, aż znajdą model — lub pomysł — który pomoże rozwiązać problem, nad którym pracują.

Bill Gates wisi nad papierową zawartością jednej płyty CD

Do niedawna dane ograniczały się do arkuszy kalkulacyjnych lub baz danych – a wszystko było bardzo zorganizowane i schludne. Wszystko, czego nie można było łatwo uporządkować w wiersze i kolumny, uznawano za zbyt skomplikowane w obsłudze i ignorowano. Jednak postęp w zakresie przechowywania i analityki oznacza, że ​​możemy przechwytywać, przechowywać i przetwarzać duże ilości danych różne rodzaje. W rezultacie „dane” mogą dziś oznaczać wszystko, od baz danych po zdjęcia, filmy, nagrania dźwiękowe, teksty pisane i dane z czujników.

Aby nadać sens tym wszystkim chaotycznym danym, projekty oparte na Big Data często korzystają z najnowocześniejszych analiz wykorzystujących sztuczną inteligencję i uczenie komputerowe. Ucząc maszyny komputerowe określania, czym są konkretne dane — na przykład poprzez rozpoznawanie wzorców lub przetwarzanie języka naturalnego — możemy nauczyć je identyfikowania wzorców znacznie szybciej i bardziej niezawodnie niż sami.

Jak wykorzystywane są Big Data?

Stale rosnący przepływ danych z czujników, tekstu, głosu, zdjęć i filmów oznacza, że ​​możemy teraz wykorzystywać dane w sposób, który byłby niewyobrażalny jeszcze kilka lat temu. Przynosi to rewolucyjne zmiany w świecie biznesu w niemal każdej branży. Dziś firmy potrafią z niewiarygodną dokładnością przewidzieć, które konkretne kategorie klientów będą chciały dokonać zakupu i kiedy. Big Data pomaga także firmom znacznie efektywniej prowadzić swoją działalność.

Nawet poza biznesem projekty związane z Big Data już pomagają zmieniać nasz świat na różne sposoby:

  • Poprawa opieki zdrowotnej – medycyna oparta na danych ma możliwość analizowania ogromnych ilości informacji medycznych i obrazów w modele, które mogą pomóc wykryć chorobę na wczesnym etapie i opracować nowe leki.
  • Przewidywanie i reagowanie na klęski żywiołowe i katastrofy spowodowane przez człowieka. Dane z czujników można analizować, aby przewidzieć, gdzie prawdopodobne jest wystąpienie trzęsień ziemi, a wzorce zachowań ludzkich dostarczają wskazówek, które pomagają organizacjom zapewnić pomoc ocalałym. Technologia Big Data jest również wykorzystywana do śledzenia i ochrony przepływu uchodźców ze stref wojennych na całym świecie.
  • Zapobieganie przestępczości. Siły policyjne w coraz większym stopniu korzystają ze strategii opartych na danych, które uwzględniają informacje wywiadowcze oraz informacje publicznie dostępne, aby efektywniej wykorzystywać zasoby i w razie potrzeby podejmować działania odstraszające.

Najlepsze książki o technologii Big-Data

  • Wszyscy kłamią. Wyszukiwarki, Big Data i Internet wiedzą o Tobie wszystko.
  • DUŻE DANE. Cała technologia w jednej książce.
  • Przemysł szczęścia. Jak Big Data i nowe technologie dodają emocji produktom i usługom.
  • Rewolucja w analityce. Jak usprawnić swój biznes w dobie Big Data wykorzystując analitykę operacyjną.

Problemy z Big Data

Big Data daje nam niespotykane dotąd pomysły i możliwości, ale także rodzi problemy i pytania, którymi należy się zająć:

  • Prywatność danych – Big Data, które dzisiaj generujemy, zawiera wiele informacji o naszym życiu osobistym, do prywatności, do których mamy pełne prawo. Coraz częściej jesteśmy proszeni o zrównoważenie ilości ujawnianych przez nas danych osobowych z wygodą, jaką oferują aplikacje i usługi oparte na Big Data.
  • Bezpieczeństwo danych — nawet jeśli uznamy, że jesteśmy zadowoleni, że ktoś ma nasze dane w określonym celu, czy możemy zaufać tej osobie, że zapewni bezpieczeństwo naszych danych?
  • Dyskryminacja danych – czy po poznaniu wszystkich informacji dopuszczalna będzie dyskryminacja osób na podstawie danych z ich życia osobistego? Korzystamy już z ocen kredytowych, aby decydować, kto może pożyczyć pieniądze, a ubezpieczenia również w dużym stopniu opierają się na danych. Powinniśmy spodziewać się bardziej szczegółowej analizy i oceny, należy jednak zadbać o to, aby nie utrudniło to życia osobom o mniejszych zasobach i ograniczonym dostępie do informacji.

Wykonywanie tych zadań jest ważnym elementem Big Data i musi się nim zająć organizacje, które chcą korzystać z takich danych. Niezastosowanie się do tego może narazić firmę na niebezpieczeństwo nie tylko pod względem reputacji, ale także pod względem prawnym i finansowym.

Patrząc w przyszłość

Dane zmieniają nasz świat i nasze życie w niespotykanym dotąd tempie. Jeśli Big Data jest w stanie to wszystko dzisiaj, wyobraź sobie, do czego będzie zdolny jutro. Ilość dostępnych nam danych będzie tylko rosła, a technologia analityczna stanie się jeszcze bardziej zaawansowana.

W nadchodzących latach dla przedsiębiorstw możliwość zastosowania Big Data będzie coraz bardziej krytyczna. Tylko te firmy, które postrzegają dane jako zasób strategiczny, przetrwają i prosperują. Ci, którzy ignorują tę rewolucję, ryzykują, że pozostaną w tyle.



Duże dane- Język angielski „duże dane”. Termin pojawił się jako alternatywa dla DBMS i stał się jednym z głównych trendów w infrastrukturze IT, kiedy większość gigantów branży – IBM, Microsoft, HP, Oracle i inni, zaczęła wykorzystywać tę koncepcję w swoich strategiach. Big Data to ogromny (setki terabajtów) zbiór danych, którego nie da się przetworzyć tradycyjnymi metodami; czasami – narzędzia i metody przetwarzania tych danych.

Przykładowe źródła Big Data: zdarzenia RFID, komunikaty na portalach społecznościowych, statystyki meteorologiczne, informacje o lokalizacji abonentów mobilnych sieci komórkowych oraz dane z urządzeń rejestrujących audio/wideo. Dlatego też „big data” znajduje szerokie zastosowanie w produkcji, służbie zdrowia, administracji rządowej i biznesie internetowym – w szczególności przy analizie grupy docelowej.

Charakterystyka

Znaki big data definiuje się jako „trzy V”: Wolumen – wolumen (naprawdę duży); odmiana – niejednorodność, zbiór; prędkość – prędkość (konieczność bardzo szybkiego przetwarzania).

Big data najczęściej nie jest ustrukturyzowana, a do jej przetwarzania potrzebne są specjalne algorytmy. Metody analizy dużych zbiorów danych obejmują:

  • („data mining”) – zestaw podejść do odkrywania ukrytej, przydatnej wiedzy, której nie można uzyskać standardowymi metodami;
  • Crowdsourcing (crowd – „tłum”, sourcing – wykorzystanie jako źródło) – rozwiązywanie istotnych problemów poprzez wspólne wysiłki wolontariuszy nie będących w przymusowej umowie o pracę lub stosunku pracy, koordynowanie działań z wykorzystaniem narzędzi informatycznych;
  • Data Fusion & Integration („miksowanie i implementacja danych”) – zestaw metod łączenia wielu źródeł w ramach pogłębionej analizy;
  • Uczenie maszynowe („uczenie maszynowe”) to podsekcja badań nad sztuczną inteligencją, która bada metody wykorzystania analizy statystycznej i dokonywania prognoz na podstawie podstawowych modeli;
  • rozpoznawanie obrazu (na przykład rozpoznawanie twarzy w wizjerze aparatu lub kamery wideo);
  • analiza przestrzenna - wykorzystanie topologii, geometrii i geografii do konstruowania danych;
  • wizualizacja danych – wyprowadzenie informacji analitycznych w formie ilustracji i diagramów z wykorzystaniem narzędzia interaktywne oraz animacje umożliwiające śledzenie wyników i budowanie podstaw do dalszego monitorowania.

Informacje są przechowywane i analizowane na dużej liczbie serwerów o wysokiej wydajności. Kluczową technologią jest Hadoop, który jest oprogramowaniem typu open source.

Ponieważ ilość informacji będzie z czasem wzrastać, trudność nie polega na zdobyciu danych, ale na tym, jak je przetworzyć z maksymalnymi korzyściami. Najogólniej proces pracy z Big Data obejmuje: zbieranie informacji, ich strukturyzację, tworzenie spostrzeżeń i kontekstów, opracowywanie rekomendacji działań. Już przed pierwszym etapem ważne jest jasne określenie celu pracy: do czego dokładnie potrzebne są dane, np. do określenia docelowej grupy odbiorców produktu. W przeciwnym razie istnieje ryzyko otrzymania wielu informacji bez zrozumienia, jak dokładnie można je wykorzystać.