Τα μεγάλα δεδομένα είναι ένας ευρύς όρος για τις καινοτόμες στρατηγικές και τεχνολογίες που απαιτούνται για τη συλλογή, την οργάνωση και την επεξεργασία πληροφοριών από μεγάλα σύνολα δεδομένων. Αν και το πρόβλημα της αντιμετώπισης δεδομένων που υπερβαίνουν την υπολογιστική ισχύ ή την ικανότητα αποθήκευσης ενός μόνο υπολογιστή δεν είναι νέο, η κλίμακα και η αξία αυτού του τύπου υπολογιστών έχει επεκταθεί σημαντικά τα τελευταία χρόνια.

Σε αυτό το άρθρο, θα βρείτε τις κύριες έννοιες που μπορεί να συναντήσετε κατά την εξερεύνηση μεγάλων δεδομένων. Συζητά επίσης ορισμένες από τις διαδικασίες και τις τεχνολογίες που χρησιμοποιούνται επί του παρόντος σε αυτόν τον τομέα.

Τι είναι τα μεγάλα δεδομένα;

Ένας ακριβής ορισμός των "μεγάλων δεδομένων" είναι δύσκολο να οριστεί επειδή τα έργα, οι πωλητές, οι επαγγελματίες και οι επαγγελματίες των επιχειρήσεων το χρησιμοποιούν με πολύ διαφορετικούς τρόπους. Έχοντας αυτό υπόψη, τα μεγάλα δεδομένα μπορούν να οριστούν ως:

  • Μεγάλα σύνολα δεδομένων.
  • Μια κατηγορία υπολογιστικών στρατηγικών και τεχνολογιών που χρησιμοποιούνται για την επεξεργασία μεγάλων συνόλων δεδομένων.

Σε αυτό το πλαίσιο, "μεγάλο σύνολο δεδομένων" σημαίνει ένα σύνολο δεδομένων που είναι πολύ μεγάλο για να υποβληθεί σε επεξεργασία ή αποθήκευση με χρήση παραδοσιακών εργαλείων ή σε έναν μόνο υπολογιστή. Αυτό σημαίνει ότι η συνολική κλίμακα μεγάλων συνόλων δεδομένων αλλάζει συνεχώς και μπορεί να διαφέρει σημαντικά από περίπτωση σε περίπτωση.

Συστήματα μεγάλων δεδομένων

Οι βασικές απαιτήσεις για την εργασία με μεγάλα δεδομένα είναι οι ίδιες όπως και για οποιοδήποτε άλλο σύνολο δεδομένων. Ωστόσο, η τεράστια κλίμακα, η ταχύτητα επεξεργασίας και τα χαρακτηριστικά δεδομένων που συναντώνται σε κάθε βήμα της διαδικασίας παρουσιάζουν σοβαρές νέες προκλήσεις στην ανάπτυξη εργαλείων. Ο στόχος των περισσότερων συστημάτων μεγάλων δεδομένων είναι να κατανοήσουν και να επικοινωνήσουν με μεγάλες ποσότητες ετερογενών δεδομένων με τρόπο που δεν θα ήταν δυνατός χρησιμοποιώντας συμβατικές μεθόδους.

Το 2001, ο Doug Laney της Gartner εισήγαγε τα «τρία εναντίον μεγάλων δεδομένων» για να περιγράψει μερικά από τα χαρακτηριστικά που κάνουν την επεξεργασία μεγάλων δεδομένων διαφορετική από άλλους τύπους επεξεργασίας δεδομένων:

  1. Όγκος (όγκος δεδομένων).
  2. Ταχύτητα (ταχύτητα συσσώρευσης και επεξεργασίας δεδομένων).
  3. Ποικιλία (ποικιλία τύπων επεξεργασμένων δεδομένων).

Όγκος δεδομένων

Η εξαιρετική κλίμακα των πληροφοριών που υποβάλλονται σε επεξεργασία βοηθά στον καθορισμό συστημάτων μεγάλων δεδομένων. Αυτά τα σύνολα δεδομένων μπορεί να είναι τάξεις μεγέθους μεγαλύτερες από τα παραδοσιακά σύνολα δεδομένων, που απαιτούν περισσότερη προσοχή σε κάθε στάδιο επεξεργασίας και αποθήκευσης.

Επειδή οι απαιτήσεις υπερβαίνουν τη χωρητικότητα ενός μεμονωμένου υπολογιστή, το πρόβλημα συχνά προκύπτει από τη συγκέντρωση, τη διανομή και τον συντονισμό πόρων από ομάδες υπολογιστών. Η διαχείριση συμπλεγμάτων και οι αλγόριθμοι που μπορούν να αναλύουν εργασίες σε μικρότερα μέρη γίνονται όλο και πιο σημαντικοί σε αυτόν τον τομέα.

Ταχύτητα συσσώρευσης και επεξεργασίας

Το δεύτερο χαρακτηριστικό που κάνει τα μεγάλα δεδομένα σημαντικά διαφορετικά από άλλα συστήματα δεδομένων είναι η ταχύτητα με την οποία οι πληροφορίες κινούνται μέσα στο σύστημα. Τα δεδομένα εισέρχονται συχνά στο σύστημα από πολλές πηγές και πρέπει να υποβληθούν σε επεξεργασία σε πραγματικό χρόνο για την ενημέρωση της τρέχουσας κατάστασης του συστήματος.

Αυτή η έμφαση στην στιγμιαία ανατροφοδότηση οδήγησε πολλούς επαγγελματίες να εγκαταλείψουν την προσέγγιση προσανατολισμένη σε παρτίδες υπέρ ενός συστήματος ροής σε πραγματικό χρόνο. Τα δεδομένα προστίθενται, επεξεργάζονται και αναλύονται συνεχώς για να συμβαδίζουν με την εισροή νέων πληροφοριών και να λαμβάνετε πολύτιμα δεδομένα σε πρώιμο στάδιο, όταν είναι πιο σχετικά. Αυτό απαιτεί στιβαρά συστήματα με εξαιρετικά διαθέσιμα εξαρτήματα για προστασία από αστοχίες κατά μήκος του αγωγού δεδομένων.

Ποικιλία τύπων επεξεργασμένων δεδομένων

Υπάρχουν πολλές μοναδικές προκλήσεις στα μεγάλα δεδομένα που σχετίζονται με το ευρύ φάσμα των πηγών που υποβάλλονται σε επεξεργασία και τη σχετική ποιότητά τους.

Τα δεδομένα μπορεί να προέρχονται από εσωτερικά συστήματα, όπως αρχεία καταγραφής εφαρμογών και διακομιστή, ροές δεδομένων μέσων κοινωνικής δικτύωσης και άλλα εξωτερικά API, αισθητήρες φυσικών συσκευών και άλλες πηγές. Ο στόχος των συστημάτων μεγάλων δεδομένων είναι η επεξεργασία δυνητικά χρήσιμων δεδομένων, ανεξαρτήτως προέλευσης, συνδυάζοντας όλες τις πληροφορίες σε ένα ενιαίο σύστημα.

Οι μορφές και οι τύποι πολυμέσων μπορεί επίσης να διαφέρουν σημαντικά. Τα αρχεία πολυμέσων (εικόνες, βίντεο και ήχος) συνδυάζονται με αρχεία κειμένου, δομημένα αρχεία καταγραφής, κ.λπ. Τα πιο παραδοσιακά συστήματα επεξεργασίας δεδομένων αναμένουν ότι τα δεδομένα θα εισέλθουν στη διοχέτευση ήδη επισημασμένα, μορφοποιημένα και οργανωμένα, αλλά τα συστήματα μεγάλων δεδομένων συνήθως λαμβάνουν και αποθηκεύουν δεδομένα. προσπαθώντας να διατηρήσουν την αρχική τους κατάσταση. Στην ιδανική περίπτωση, τυχόν μετασχηματισμοί ή τροποποιήσεις στα πρωτογενή δεδομένα θα συμβούν στη μνήμη κατά την επεξεργασία.

Άλλα χαρακτηριστικά

Με την πάροδο του χρόνου, άτομα και οργανισμοί έχουν προτείνει την επέκταση του αρχικού «τρεις εναντίον», αν και αυτές οι καινοτομίες τείνουν να περιγράφουν προβλήματα και όχι χαρακτηριστικά μεγάλων δεδομένων.

  • Αλήθεια: Η ποικιλία των πηγών και η πολυπλοκότητα της επεξεργασίας μπορεί να οδηγήσει σε προβλήματα στην αξιολόγηση της ποιότητας των δεδομένων (και συνεπώς της ποιότητας της ανάλυσης που προκύπτει).
  • Μεταβλητότητα (data variability): η αλλαγή των δεδομένων οδηγεί σε μεγάλες αλλαγές στην ποιότητα. Ο εντοπισμός, η επεξεργασία ή το φιλτράρισμα δεδομένων χαμηλής ποιότητας ενδέχεται να απαιτήσει πρόσθετους πόρους για τη βελτίωση της ποιότητας των δεδομένων.
  • Αξία: Ο τελικός στόχος των μεγάλων δεδομένων είναι η αξία. Μερικές φορές τα συστήματα και οι διαδικασίες είναι πολύ περίπλοκα, γεγονός που καθιστά δύσκολη τη χρήση δεδομένων και την εξαγωγή πραγματικών τιμών.

Κύκλος ζωής μεγάλων δεδομένων

Πώς αντιμετωπίζονται, λοιπόν, τα μεγάλα δεδομένα; Υπάρχουν πολλές διαφορετικές προσεγγίσεις υλοποίησης, αλλά υπάρχουν κοινά σημεία μεταξύ στρατηγικών και λογισμικού.

  • Εισαγωγή δεδομένων στο σύστημα
  • Αποθήκευση δεδομένων στην αποθήκευση
  • Υπολογισμός και ανάλυση δεδομένων
  • Οπτικοποίηση των αποτελεσμάτων

Πριν εξετάσουμε λεπτομερώς αυτές τις τέσσερις κατηγορίες ροών εργασίας, ας μιλήσουμε για τον υπολογισμό συμπλέγματος, μια σημαντική στρατηγική που χρησιμοποιείται από πολλά εργαλεία επεξεργασίας μεγάλων δεδομένων. Η δημιουργία ενός συμπλέγματος υπολογιστών είναι η ραχοκοκαλιά της τεχνολογίας που χρησιμοποιείται σε κάθε στάδιο του κύκλου ζωής.

Cluster Computing

Λόγω της ποιότητας των μεγάλων δεδομένων, οι μεμονωμένοι υπολογιστές δεν είναι κατάλληλοι για επεξεργασία δεδομένων. Τα συμπλέγματα είναι πιο κατάλληλα για αυτό, καθώς μπορούν να χειριστούν τις ανάγκες αποθήκευσης και υπολογισμού μεγάλων δεδομένων.

Το λογισμικό ομαδοποίησης μεγάλων δεδομένων συγκεντρώνει τους πόρους πολλών μικρών μηχανών, με στόχο να παρέχει μια σειρά από οφέλη:

  • Συγκέντρωση πόρων: Η επεξεργασία μεγάλων συνόλων δεδομένων απαιτεί μεγάλη ποσότητα πόρων CPU και μνήμης, καθώς και πολύ διαθέσιμο χώρο αποθήκευσης.
  • Υψηλή διαθεσιμότητα: Τα συμπλέγματα μπορούν να παρέχουν διαφορετικά επίπεδα ανθεκτικότητας και διαθεσιμότητας, έτσι ώστε η πρόσβαση και η επεξεργασία δεδομένων να μην επηρεάζονται από αστοχίες υλικού ή λογισμικού. Αυτό είναι ιδιαίτερα σημαντικό για την ανάλυση σε πραγματικό χρόνο.
  • Επεκτασιμότητα: Τα συμπλέγματα υποστηρίζουν γρήγορη οριζόντια κλιμάκωση (προσθήκη νέων μηχανημάτων στο σύμπλεγμα).

Για να εργαστείτε σε ένα σύμπλεγμα, χρειάζεστε εργαλεία για τη διαχείριση της ιδιότητας μέλους στο σύμπλεγμα, τον συντονισμό της κατανομής πόρων και τον προγραμματισμό της εργασίας με μεμονωμένους κόμβους. Η συνδρομή σε συμπλέγματα και η κατανομή πόρων μπορούν να αντιμετωπιστούν με προγράμματα όπως το Hadoop YARN (Ένας άλλος Διαπραγματευτής Πόρων) ή το Apache Mesos.

Ένα προκατασκευασμένο σύμπλεγμα υπολογιστών λειτουργεί συχνά ως η ραχοκοκαλιά με την οποία άλλο λογισμικό αλληλεπιδρά για την επεξεργασία δεδομένων. Οι μηχανές που συμμετέχουν σε ένα σύμπλεγμα υπολογιστών συνδέονται επίσης τυπικά με τη διαχείριση κατανεμημένης αποθήκευσης.

Λήψη δεδομένων

Η απορρόφηση δεδομένων είναι η διαδικασία προσθήκης ακατέργαστων δεδομένων στο σύστημα. Η πολυπλοκότητα αυτής της λειτουργίας εξαρτάται σε μεγάλο βαθμό από τη μορφή και την ποιότητα των πηγών δεδομένων και από τον τρόπο με τον οποίο τα δεδομένα πληρούν τις απαιτήσεις για επεξεργασία.

Μπορείτε να προσθέσετε μεγάλα δεδομένα στο σύστημα χρησιμοποιώντας ειδικά εργαλεία. Τεχνολογίες όπως το Apache Sqoop μπορούν να πάρουν υπάρχοντα δεδομένα από σχεσιακές βάσεις δεδομένων και να τα προσθέσουν σε ένα σύστημα μεγάλων δεδομένων. Μπορείτε επίσης να χρησιμοποιήσετε το Apache Flume και το Apache Chukwa - έργα που έχουν σχεδιαστεί για τη συγκέντρωση και εισαγωγή αρχείων καταγραφής εφαρμογών και διακομιστή. Οι μεσίτες μηνυμάτων όπως ο Apache Kafka μπορούν να χρησιμοποιηθούν ως διεπαφή μεταξύ διαφόρων παραγωγών δεδομένων και ενός συστήματος μεγάλων δεδομένων. Πλαίσια όπως το Gobblin μπορούν να συνδυάσουν και να βελτιστοποιήσουν την έξοδο όλων των εργαλείων στο τέλος του αγωγού.

Κατά τη λήψη δεδομένων, συνήθως πραγματοποιείται ανάλυση, ταξινόμηση και επισήμανση. Αυτή η διαδικασία αναφέρεται μερικές φορές ως ETL (εξαγωγή, μετασχηματισμός, φόρτωση), που σημαίνει εξαγωγή, μετασχηματισμός και φόρτωση. Ενώ ο όρος αναφέρεται συνήθως σε διαδικασίες αποθήκευσης παλαιού τύπου, μερικές φορές εφαρμόζεται και σε μεγάλα συστήματα δεδομένων. Οι τυπικές λειτουργίες περιλαμβάνουν την τροποποίηση των εισερχόμενων δεδομένων για μορφοποίηση, κατηγοριοποίηση και επισήμανση, φιλτράρισμα ή επικύρωση δεδομένων.

Στην ιδανική περίπτωση, τα εισερχόμενα δεδομένα υφίστανται ελάχιστη μορφοποίηση.

Αποθήκευση δεδομένων

Μόλις ληφθούν, τα δεδομένα περνούν στα στοιχεία που διαχειρίζονται την αποθήκευση.

Συνήθως, τα κατανεμημένα συστήματα αρχείων χρησιμοποιούνται για την αποθήκευση ακατέργαστων δεδομένων. Λύσεις όπως το HDFS του Apache Hadoop σάς επιτρέπουν να γράφετε μεγάλες ποσότητες δεδομένων σε πολλούς κόμβους σε ένα σύμπλεγμα. Αυτό το σύστημα παρέχει υπολογιστικούς πόρους με πρόσβαση σε δεδομένα, μπορεί να φορτώσει δεδομένα στη μνήμη RAM συμπλέγματος για λειτουργίες μνήμης και να χειριστεί αστοχίες στοιχείων. Άλλα κατανεμημένα συστήματα αρχείων μπορούν να χρησιμοποιηθούν αντί για HDFS, συμπεριλαμβανομένων των Ceph και GlusterFS.

Τα δεδομένα μπορούν επίσης να εισαχθούν σε άλλα κατανεμημένα συστήματα για πιο δομημένη πρόσβαση. Οι κατανεμημένες βάσεις δεδομένων, ειδικά οι βάσεις δεδομένων NoSQL, είναι κατάλληλες για αυτόν τον ρόλο, επειδή μπορούν να χειριστούν ετερογενή δεδομένα. Υπάρχουν πολλοί διαφορετικοί τύποι κατανεμημένων βάσεων δεδομένων, ανάλογα με το πώς θέλετε να οργανώσετε και να παρουσιάσετε δεδομένα.

Υπολογισμός και ανάλυση δεδομένων

Μόλις τα δεδομένα είναι διαθέσιμα, το σύστημα μπορεί να ξεκινήσει την επεξεργασία. Το υπολογιστικό επίπεδο είναι ίσως το πιο ελεύθερο μέρος του συστήματος, καθώς οι απαιτήσεις και οι προσεγγίσεις εδώ μπορεί να διαφέρουν σημαντικά ανάλογα με τον τύπο της πληροφορίας. Τα δεδομένα συχνά υποβάλλονται σε επανεπεξεργασία, είτε με ένα μόνο εργαλείο είτε με μια σειρά εργαλείων για την επεξεργασία διαφορετικών τύπων δεδομένων.

Η επεξεργασία παρτίδων είναι μία από τις μεθόδους υπολογισμού σε μεγάλα σύνολα δεδομένων. Αυτή η διαδικασία περιλαμβάνει τη διάσπαση των δεδομένων σε μικρότερα κομμάτια, τον προγραμματισμό επεξεργασίας κάθε τεμαχίου σε ξεχωριστό μηχάνημα, την αναδιάταξη των δεδομένων με βάση τα ενδιάμεσα αποτελέσματα και στη συνέχεια τον υπολογισμό και τη συλλογή του τελικού αποτελέσματος. Αυτή η στρατηγική χρησιμοποιεί το MapReduce από το Apache Hadoop. Η ομαδική επεξεργασία είναι πιο χρήσιμη όταν εργάζεστε με πολύ μεγάλα σύνολα δεδομένων που απαιτούν αρκετό υπολογισμό.

Άλλοι φόρτοι εργασίας απαιτούν επεξεργασία σε πραγματικό χρόνο. Ταυτόχρονα, οι πληροφορίες πρέπει να υποβάλλονται σε επεξεργασία και να προετοιμάζονται αμέσως, και το σύστημα πρέπει να ανταποκρίνεται έγκαιρα καθώς νέες πληροφορίες γίνονται διαθέσιμες. Ένας τρόπος για την υλοποίηση της επεξεργασίας σε πραγματικό χρόνο είναι η επεξεργασία μιας συνεχούς ροής δεδομένων που αποτελείται από μεμονωμένα στοιχεία. Ένα άλλο κοινό χαρακτηριστικό των επεξεργαστών σε πραγματικό χρόνο είναι ότι υπολογίζουν δεδομένα στη μνήμη του συμπλέγματος, γεγονός που αποφεύγει την ανάγκη εγγραφής στο δίσκο.

Το Apache Storm, το Apache Flink και το Apache Spark προσφέρουν διάφορους τρόπους υλοποίησης επεξεργασίας σε πραγματικό χρόνο. Αυτές οι ευέλικτες τεχνολογίες σας επιτρέπουν να επιλέξετε την καλύτερη προσέγγιση για κάθε μεμονωμένο πρόβλημα. Γενικά, η επεξεργασία σε πραγματικό χρόνο είναι η καταλληλότερη για την ανάλυση μικρών τμημάτων δεδομένων που αλλάζουν ή προστίθενται γρήγορα στο σύστημα.

Όλα αυτά τα προγράμματα είναι πλαίσια. Ωστόσο, υπάρχουν πολλοί άλλοι τρόποι υπολογισμού ή ανάλυσης δεδομένων σε ένα σύστημα μεγάλων δεδομένων. Αυτά τα εργαλεία συχνά συνδέονται στα παραπάνω πλαίσια και παρέχουν πρόσθετες διεπαφές για αλληλεπίδραση με τα υποκείμενα επίπεδα. Για παράδειγμα, το Apache Hive παρέχει μια διεπαφή αποθήκης δεδομένων στο Hadoop, το Apache Pig παρέχει μια διεπαφή ερωτήματος και οι αλληλεπιδράσεις δεδομένων SQL παρέχονται μέσω των Apache Drill, Apache Impala, Apache Spark SQL και Presto. Η μηχανική εκμάθηση χρησιμοποιεί Apache SystemML, Apache Mahout και MLlib από το Apache Spark. Για τον άμεσο αναλυτικό προγραμματισμό, ο οποίος υποστηρίζεται ευρέως από το οικοσύστημα δεδομένων, χρησιμοποιούνται τα R και Python.

Οπτικοποίηση των αποτελεσμάτων

Συχνά, η αναγνώριση των τάσεων ή των αλλαγών στα δεδομένα με την πάροδο του χρόνου είναι πιο σημαντική από τις τιμές που λαμβάνονται. Η οπτικοποίηση δεδομένων είναι ένας από τους πιο χρήσιμους τρόπους αναγνώρισης τάσεων και οργάνωσης μεγάλου αριθμού σημείων δεδομένων.

Η επεξεργασία σε πραγματικό χρόνο χρησιμοποιείται για την οπτικοποίηση των μετρήσεων εφαρμογών και διακομιστή. Τα δεδομένα αλλάζουν συχνά και οι μεγάλες αποκλίσεις στις μετρήσεις συνήθως υποδεικνύουν σημαντικό αντίκτυπο στην υγεία συστημάτων ή οργανισμών. Έργα όπως το Prometheus μπορούν να χρησιμοποιηθούν για την επεξεργασία ροών δεδομένων και χρονοσειρών και την οπτικοποίηση αυτών των πληροφοριών.

Ένας δημοφιλής τρόπος οπτικοποίησης δεδομένων είναι η στοίβα Elastic, παλαιότερα γνωστή ως στοίβα ELK. Το Logstash χρησιμοποιείται για συλλογή δεδομένων, το Elasticsearch για ευρετηρίαση δεδομένων και το Kibana για οπτικοποίηση. Η στοίβα Elastic μπορεί να λειτουργήσει με μεγάλα δεδομένα, να οπτικοποιήσει τα αποτελέσματα των υπολογισμών ή να αλληλεπιδράσει με ακατέργαστες μετρήσεις. Μια παρόμοια στοίβα μπορεί να ληφθεί με τη συγχώνευση του Apache Solr για την ευρετηρίαση ενός πιρουνιού Kibana που ονομάζεται Banana για οπτικοποίηση. Μια τέτοια στοίβα ονομάζεται Silk.

Τα έγγραφα είναι μια άλλη τεχνολογία οπτικοποίησης για διαδραστική εργασία δεδομένων. Αυτά τα έργα επιτρέπουν τη διαδραστική εξερεύνηση και οπτικοποίηση δεδομένων σε μια μορφή που είναι εύκολη στην κοινή χρήση και παρουσίαση. Δημοφιλή παραδείγματα αυτού του τύπου διεπαφής είναι το Jupyter Notebook και το Apache Zeppelin.

Γλωσσάρι μεγάλων δεδομένων

  • Τα μεγάλα δεδομένα είναι ένας ευρύς όρος για σύνολα δεδομένων που δεν μπορούν να υποστούν σωστή επεξεργασία από συμβατικούς υπολογιστές ή εργαλεία λόγω του μεγέθους, της ταχύτητας και της ποικιλίας τους. Ο όρος χρησιμοποιείται επίσης συνήθως σε τεχνολογίες και στρατηγικές για την αντιμετώπιση τέτοιων δεδομένων.
  • Η μαζική επεξεργασία είναι μια υπολογιστική στρατηγική που περιλαμβάνει την επεξεργασία δεδομένων σε μεγάλα σύνολα. Αυτή η μέθοδος είναι συνήθως ιδανική για την αντιμετώπιση μη επειγόντων δεδομένων.
  • Ο Clustered Computing είναι η πρακτική της συγκέντρωσης των πόρων πολλών μηχανών και της διαχείρισης των συνδυασμένων δυνατοτήτων τους για την εκτέλεση εργασιών. Αυτό απαιτεί ένα επίπεδο διαχείρισης συμπλέγματος που χειρίζεται την επικοινωνία μεταξύ μεμονωμένων κόμβων.
  • Μια λίμνη δεδομένων είναι μια μεγάλη αποθήκη συλλεγόμενων δεδομένων σε σχετικά ακατέργαστη κατάσταση. Ο όρος χρησιμοποιείται συχνά για να αναφέρεται σε μη δομημένα και συχνά μεταβαλλόμενα μεγάλα δεδομένα.
  • Η εξόρυξη δεδομένων είναι ένας ευρύς όρος για τις διάφορες πρακτικές εύρεσης προτύπων σε μεγάλα σύνολα δεδομένων. Είναι μια προσπάθεια να οργανωθεί μια μάζα δεδομένων σε ένα πιο κατανοητό και συνεκτικό σύνολο πληροφοριών.
  • Η αποθήκη δεδομένων είναι μια μεγάλη, οργανωμένη αποθήκη για ανάλυση και αναφορά. Σε αντίθεση με μια λίμνη δεδομένων, μια αποθήκη αποτελείται από μορφοποιημένα και καλά οργανωμένα δεδομένα που είναι ενσωματωμένα με άλλες πηγές. Οι αποθήκες δεδομένων αναφέρονται συχνά σε σχέση με μεγάλα δεδομένα, αλλά συχνά αποτελούν στοιχεία συμβατικών συστημάτων επεξεργασίας δεδομένων.
  • ETL (εξαγωγή, μετασχηματισμός και φόρτωση) - εξαγωγή, μετατροπή και φόρτωση δεδομένων. Έτσι μοιάζει η διαδικασία λήψης και προετοιμασίας ακατέργαστων δεδομένων για χρήση. Συνδέεται με αποθήκες δεδομένων, αλλά τα χαρακτηριστικά αυτής της διαδικασίας εντοπίζονται επίσης στους αγωγούς των συστημάτων μεγάλων δεδομένων.
  • Το Hadoop είναι ένα έργο Apache ανοιχτού κώδικα για μεγάλα δεδομένα. Αποτελείται από ένα κατανεμημένο σύστημα αρχείων που ονομάζεται HDFS και ένα σύμπλεγμα και προγραμματιστή πόρων που ονομάζεται YARN. Οι δυνατότητες επεξεργασίας κατά παρτίδες παρέχονται από τη μηχανή υπολογισμού MapReduce. Με το MapReduce, οι σύγχρονες αναπτύξεις Hadoop μπορούν να τρέξουν άλλα συστήματα υπολογιστών και αναλυτικών στοιχείων.
  • Ο υπολογισμός στη μνήμη είναι μια στρατηγική που περιλαμβάνει τη μεταφορά των λειτουργικών συνόλων δεδομένων εξ ολοκλήρου στη μνήμη του συμπλέγματος. Οι ενδιάμεσοι υπολογισμοί δεν εγγράφονται στο δίσκο, αντίθετα αποθηκεύονται στη μνήμη. Αυτό δίνει στα συστήματα ένα τεράστιο πλεονέκτημα ταχύτητας έναντι των συστημάτων I/O-bound.
  • Η μηχανική μάθηση είναι η μελέτη και η πρακτική του σχεδιασμού συστημάτων που μπορούν να μάθουν, να συντονιστούν και να βελτιωθούν με βάση τα δεδομένα που τροφοδοτούνται. Συνήθως, αυτό σημαίνει την εφαρμογή προγνωστικών και στατιστικών αλγορίθμων.
  • Το Map Reduce (δεν πρέπει να συγχέεται με το MapReduce του Hadoop) είναι ένας υπολογιστικός αλγόριθμος προγραμματισμού συμπλέγματος. Η διαδικασία περιλαμβάνει τη διαίρεση της εργασίας μεταξύ κόμβων και τη λήψη ενδιάμεσων αποτελεσμάτων, την ανακάτεμα και, στη συνέχεια, την έξοδο μιας ενιαίας τιμής για κάθε σύνολο.
  • Το NoSQL είναι ένας ευρύς όρος για βάσεις δεδομένων που έχουν σχεδιαστεί εκτός του παραδοσιακού σχεσιακού μοντέλου. Οι βάσεις δεδομένων NoSQL είναι κατάλληλες για μεγάλα δεδομένα λόγω της ευελιξίας και της κατανεμημένης αρχιτεκτονικής τους.
  • Η ροή είναι η πρακτική του υπολογισμού μεμονωμένων στοιχείων δεδομένων καθώς κινούνται μέσα στο σύστημα. Αυτό επιτρέπει την ανάλυση δεδομένων σε πραγματικό χρόνο και είναι κατάλληλο για την επεξεργασία κρίσιμων για το χρόνο συναλλαγών χρησιμοποιώντας μετρήσεις υψηλής ταχύτητας.
Ετικέτες: ,

Σύμφωνα με έρευνες & τάσεις

Τα Big Data, τα "Big Data" έχουν γίνει το talk of the town στον Τύπο πληροφορικής και μάρκετινγκ εδώ και αρκετά χρόνια. Και είναι σαφές: οι ψηφιακές τεχνολογίες έχουν διαποτίσει τη ζωή ενός σύγχρονου ανθρώπου, «όλα είναι γραμμένα». Ο όγκος των δεδομένων για διάφορες πτυχές της ζωής αυξάνεται και ταυτόχρονα αυξάνονται οι δυνατότητες αποθήκευσης πληροφοριών.

Παγκόσμιες τεχνολογίες αποθήκευσης πληροφοριών

Πηγή: Hilbert και Lopez, «Η τεχνολογική ικανότητα του κόσμου να αποθηκεύει, να επικοινωνεί και να υπολογίζει πληροφορίες», Science, 2011 Global.

Οι περισσότεροι ειδικοί συμφωνούν ότι η επιτάχυνση της ανάπτυξης δεδομένων είναι μια αντικειμενική πραγματικότητα. Τα κοινωνικά δίκτυα, οι κινητές συσκευές, τα δεδομένα από συσκευές μέτρησης, οι επιχειρηματικές πληροφορίες είναι μόνο μερικοί τύποι πηγών που μπορούν να δημιουργήσουν τεράστιες ποσότητες πληροφοριών. Σύμφωνα με έρευνα IDCΨηφιακό σύμπαν, που δημοσιεύτηκε το 2012, τα επόμενα 8 χρόνια η ποσότητα δεδομένων στον κόσμο θα φτάσει τα 40 Zb (zettabytes), που ισοδυναμεί με 5200 GB ανά κάτοικο του πλανήτη.

Αύξηση των συλλεγόμενων ψηφιακών πληροφοριών στις Η.Π.Α


Πηγή: IDC

Ένα σημαντικό μέρος των πληροφοριών δεν δημιουργείται από ανθρώπους, αλλά από ρομπότ που αλληλεπιδρούν τόσο μεταξύ τους όσο και με άλλα δίκτυα δεδομένων, όπως, για παράδειγμα, αισθητήρες και έξυπνες συσκευές. Με αυτόν τον ρυθμό ανάπτυξης, ο όγκος των δεδομένων στον κόσμο, σύμφωνα με τους ερευνητές, θα διπλασιάζεται κάθε χρόνο. Ο αριθμός των εικονικών και φυσικών διακομιστών στον κόσμο θα δεκαπλασιαστεί λόγω της επέκτασης και της δημιουργίας νέων κέντρων δεδομένων. Από αυτή την άποψη, υπάρχει αυξανόμενη ανάγκη για αποτελεσματική χρήση και δημιουργία εσόδων από αυτά τα δεδομένα. Δεδομένου ότι η χρήση Big Data στις επιχειρήσεις απαιτεί σημαντικές επενδύσεις, είναι απαραίτητο να κατανοήσουμε με σαφήνεια την κατάσταση. Και είναι, στην ουσία, απλό: μπορείτε να αυξήσετε την αποτελεσματικότητα της επιχείρησης μειώνοντας το κόστος ή/και αυξάνοντας τις πωλήσεις.

Σε τι χρησιμεύουν τα Big Data;

Το παράδειγμα Big Data ορίζει τρεις κύριους τύπους εργασιών.

  • Αποθήκευση και διαχείριση εκατοντάδων terabyte ή petabyte δεδομένων που οι συμβατικές σχεσιακές βάσεις δεδομένων δεν μπορούν να χρησιμοποιήσουν αποτελεσματικά.
  • Οργάνωση αδόμητων πληροφοριών που αποτελούνται από κείμενα, εικόνες, βίντεο και άλλα είδη δεδομένων.
  • Ανάλυση Μεγάλων Δεδομένων, η οποία θέτει το ερώτημα πώς να εργαστείτε με μη δομημένες πληροφορίες, τη δημιουργία αναλυτικών αναφορών και την εφαρμογή προγνωστικών μοντέλων.

Η αγορά έργων Big Data διασταυρώνεται με την αγορά επιχειρηματικής ευφυΐας (BA), ο όγκος της οποίας στον κόσμο, σύμφωνα με τους ειδικούς, το 2012 ανήλθε σε περίπου 100 δισεκατομμύρια δολάρια. Περιλαμβάνει στοιχεία τεχνολογίας δικτύου, διακομιστές, λογισμικό και τεχνικές υπηρεσίες.

Επίσης, η χρήση τεχνολογιών Big Data σχετίζεται με λύσεις κλάσης διασφάλισης εισοδήματος (RA) που έχουν σχεδιαστεί για να αυτοματοποιούν τις δραστηριότητες των εταιρειών. Τα σύγχρονα συστήματα διασφάλισης εισοδήματος περιλαμβάνουν εργαλεία για τον εντοπισμό ασυνεπειών και εις βάθος ανάλυση δεδομένων που επιτρέπουν τον έγκαιρο εντοπισμό πιθανών απωλειών ή παραμόρφωσης των πληροφοριών που μπορεί να οδηγήσει σε μείωση των οικονομικών αποτελεσμάτων. Σε αυτό το πλαίσιο, οι ρωσικές εταιρείες, επιβεβαιώνοντας τη ζήτηση για τεχνολογίες Big Data στην εγχώρια αγορά, σημειώνουν ότι οι παράγοντες που τονώνουν την ανάπτυξη των Big Data στη Ρωσία είναι η ανάπτυξη των δεδομένων, η επιτάχυνση της λήψης αποφάσεων διαχείρισης και η βελτίωση των ποιότητα.

Τι εμποδίζει την εργασία με Big Data

Σήμερα, αναλύεται μόνο το 0,5% των συσσωρευμένων ψηφιακών δεδομένων, παρά το γεγονός ότι αντικειμενικά υπάρχουν εργασίες σε ολόκληρη τη βιομηχανία που θα μπορούσαν να επιλυθούν χρησιμοποιώντας αναλυτικές λύσεις της κατηγορίας Big Data. Οι ανεπτυγμένες αγορές πληροφορικής έχουν ήδη αποτελέσματα που μπορούν να χρησιμοποιηθούν για την αξιολόγηση των προσδοκιών που σχετίζονται με τη συσσώρευση και την επεξεργασία μεγάλων δεδομένων.

Ένας από τους κύριους παράγοντες που επιβραδύνει την υλοποίηση έργων Big Data, εκτός από το υψηλό κόστος, είναι το πρόβλημα της επιλογής των προς επεξεργασία δεδομένων: δηλαδή ο ορισμός του ποια δεδομένα πρέπει να εξαχθούν, να αποθηκευτούν και να αναλυθούν και ποια δεν πρέπει να λαμβάνονται υπόψη.

Πολλοί εκπρόσωποι επιχειρήσεων σημειώνουν ότι οι δυσκολίες στην υλοποίηση έργων Big Data συνδέονται με την έλλειψη ειδικών - μάρκετινγκ και αναλυτών. Το ποσοστό απόδοσης της επένδυσης σε Big Data εξαρτάται άμεσα από την ποιότητα της εργασίας των εργαζομένων που εμπλέκονται σε βαθιά και προγνωστικά analytics. Οι τεράστιες δυνατότητες των δεδομένων που υπάρχουν ήδη σε έναν οργανισμό συχνά δεν μπορούν να χρησιμοποιηθούν αποτελεσματικά από τους ίδιους τους επαγγελματίες του μάρκετινγκ λόγω ξεπερασμένων επιχειρηματικών διαδικασιών ή εσωτερικών κανονισμών. Ως εκ τούτου, τα έργα Big Data συχνά θεωρούνται από τις επιχειρήσεις ως δύσκολα όχι μόνο στην υλοποίηση, αλλά και στην αξιολόγηση των αποτελεσμάτων: την αξία των δεδομένων που συλλέγονται. Οι ιδιαιτερότητες της εργασίας με δεδομένα απαιτούν από τους εμπόρους και τους αναλυτές να στρέψουν την προσοχή τους από την τεχνολογία και την αναφορά στην επίλυση συγκεκριμένων επιχειρηματικών προβλημάτων.

Λόγω του μεγάλου όγκου και της υψηλής ταχύτητας ροής δεδομένων, η διαδικασία συλλογής δεδομένων περιλαμβάνει διαδικασίες ETL σε πραγματικό χρόνο. Για αναφορά:ETL - απόΑγγλικάΕκχύλισμα, Μεταμορφώνω, φορτώνω- κυριολεκτικά "εξαγωγή, μετασχηματισμός, φόρτωση") - μία από τις κύριες διαδικασίες στη διαχείριση αποθήκες δεδομένων, που περιλαμβάνει: εξαγωγή δεδομένων από εξωτερικές πηγές, μετατροπή τους και καθαρισμός για την κάλυψη αναγκών Το ETL θα πρέπει να θεωρείται όχι μόνο ως μια διαδικασία μεταφοράς δεδομένων από μια εφαρμογή σε άλλη, αλλά και ως εργαλείο προετοιμασίας δεδομένων για ανάλυση.

Και τότε τα θέματα διασφάλισης της ασφάλειας των δεδομένων που προέρχονται από εξωτερικές πηγές θα πρέπει να έχουν λύσεις που να αντιστοιχούν στον όγκο των πληροφοριών που συλλέγονται. Δεδομένου ότι οι μέθοδοι ανάλυσης μεγάλων δεδομένων αναπτύσσονται μέχρι στιγμής μόνο μετά την αύξηση του όγκου των δεδομένων, η ικανότητα των αναλυτικών πλατφορμών να χρησιμοποιούν νέες μεθόδους προετοιμασίας και συγκέντρωσης δεδομένων παίζει σημαντικό ρόλο. Αυτό υποδηλώνει ότι, για παράδειγμα, δεδομένα σχετικά με πιθανούς αγοραστές ή μια τεράστια αποθήκη δεδομένων με ιστορικό κλικ σε ιστότοπους διαδικτυακών καταστημάτων μπορεί να είναι ενδιαφέροντα για την επίλυση διαφόρων προβλημάτων.

Οι δυσκολίες δεν σταματούν

Παρά όλες τις δυσκολίες με την εφαρμογή των Big Data, η επιχείρηση σκοπεύει να αυξήσει τις επενδύσεις σε αυτόν τον τομέα. Όπως προκύπτει από τα στοιχεία της Gartner, το 2013, το 64% των μεγαλύτερων εταιρειών του κόσμου έχουν ήδη επενδύσει ή έχουν σχέδια να επενδύσουν στην ανάπτυξη τεχνολογιών Big Data για την επιχείρησή τους, ενώ το 2012 υπήρχαν το 58% τέτοιων εταιρειών. Σύμφωνα με μελέτη της Gartner, οι ηγέτες των βιομηχανιών που επενδύουν σε Big Data είναι οι εταιρείες μέσων ενημέρωσης, οι τηλεπικοινωνίες, ο τραπεζικός τομέας και οι εταιρείες παροχής υπηρεσιών. Επιτυχή αποτελέσματα της εφαρμογής Big Data έχουν ήδη επιτευχθεί από πολλούς σημαντικούς παίκτες στον κλάδο του λιανικού εμπορίου όσον αφορά τη χρήση δεδομένων που λαμβάνονται με χρήση εργαλείων RFID, logistics και συστημάτων μετεγκατάστασης (από τα αγγλικά. αναπλήρωση- συσσώρευση, αναπλήρωση - Ε&Τ), καθώς και από προγράμματα επιβράβευσης. Η επιτυχημένη εμπειρία λιανικής υποκινεί άλλους τομείς της αγοράς να βρουν νέους αποτελεσματικούς τρόπους δημιουργίας εσόδων από μεγάλα δεδομένα, προκειμένου να μετατρέψουν την ανάλυσή τους σε πόρο που λειτουργεί για την ανάπτυξη της επιχείρησης. Χάρη σε αυτό, σύμφωνα με ειδικούς, την περίοδο έως το 2020, οι επενδύσεις στη διαχείριση και αποθήκευση θα μειωθούν για κάθε gigabyte δεδομένων από $2 σε $0,2, αλλά για τη μελέτη και ανάλυση των τεχνολογικών ιδιοτήτων των Big Data θα αυξηθούν μόνο κατά 40 %.

Τα κόστη που παρουσιάζονται σε διάφορα επενδυτικά έργα στον τομέα των Big Data είναι διαφορετικής φύσης. Τα στοιχεία κόστους εξαρτώνται από τους τύπους προϊόντων που επιλέγονται βάσει συγκεκριμένων αποφάσεων. Το μεγαλύτερο μέρος του κόστους σε επενδυτικά έργα, σύμφωνα με τους ειδικούς, πέφτει σε προϊόντα που σχετίζονται με τη συλλογή, τη δομή δεδομένων, τον καθαρισμό και τη διαχείριση πληροφοριών.

Πώς γίνεται

Υπάρχουν πολλοί συνδυασμοί λογισμικού και υλικού που σας επιτρέπουν να δημιουργήσετε αποτελεσματικές λύσεις Big Data για διάφορους επιχειρηματικούς κλάδους: από τα μέσα κοινωνικής δικτύωσης και τις εφαρμογές για κινητές συσκευές, μέχρι την εξόρυξη και οπτικοποίηση επιχειρηματικών δεδομένων. Ένα σημαντικό πλεονέκτημα του Big Data είναι η συμβατότητα νέων εργαλείων με βάσεις δεδομένων που χρησιμοποιούνται ευρέως στις επιχειρήσεις, κάτι που είναι ιδιαίτερα σημαντικό όταν εργάζεστε με διεπιστημονικά έργα, όπως η οργάνωση πολυκαναλικών πωλήσεων και η υποστήριξη πελατών.

Η αλληλουχία εργασίας με Big Data αποτελείται από τη συλλογή δεδομένων, τη δομή των πληροφοριών που λαμβάνονται χρησιμοποιώντας αναφορές και πίνακες εργαλείων (dashboard), τη δημιουργία πληροφοριών και πλαισίων και τη διαμόρφωση προτάσεων για δράση. Δεδομένου ότι η εργασία με Big Data συνεπάγεται υψηλό κόστος για τη συλλογή δεδομένων, το αποτέλεσμα της επεξεργασίας των οποίων δεν είναι γνωστό εκ των προτέρων, το κύριο καθήκον είναι να κατανοήσουμε ξεκάθαρα σε τι χρησιμεύουν τα δεδομένα και όχι πόσο από αυτά είναι διαθέσιμα. Σε αυτή την περίπτωση, η συλλογή δεδομένων μετατρέπεται σε μια διαδικασία απόκτησης πληροφοριών που είναι εξαιρετικά απαραίτητες για την επίλυση συγκεκριμένων προβλημάτων.

Για παράδειγμα, οι πάροχοι τηλεπικοινωνιών συγκεντρώνουν τεράστιο όγκο δεδομένων, συμπεριλαμβανομένου του γεωγραφικού εντοπισμού, ο οποίος ενημερώνεται συνεχώς. Αυτές οι πληροφορίες ενδέχεται να παρουσιάζουν εμπορικό ενδιαφέρον για διαφημιστικές εταιρείες, οι οποίες ενδέχεται να τις χρησιμοποιήσουν για την εξυπηρέτηση στοχευμένων και τοπικών διαφημίσεων, καθώς και σε εμπόρους λιανικής και τράπεζες. Τέτοια δεδομένα μπορούν να διαδραματίσουν σημαντικό ρόλο στην απόφαση για το αν θα ανοίξετε ένα κατάστημα λιανικής σε μια συγκεκριμένη τοποθεσία με βάση δεδομένα σχετικά με την παρουσία μιας ισχυρής στοχευμένης ροής ανθρώπων. Υπάρχει ένα παράδειγμα μέτρησης της αποτελεσματικότητας της διαφήμισης σε εξωτερικές διαφημιστικές πινακίδες στο Λονδίνο. Τώρα η κάλυψη τέτοιων διαφημίσεων μπορεί να μετρηθεί μόνο με την τοποθέτηση ατόμων κοντά σε διαφημιστικές δομές με μια ειδική συσκευή που μετράει τους περαστικούς. Σε σύγκριση με αυτόν τον τύπο μέτρησης της αποτελεσματικότητας της διαφήμισης, ο πάροχος κινητής τηλεφωνίας έχει πολύ περισσότερες ευκαιρίες - γνωρίζει ακριβώς την τοποθεσία των συνδρομητών του, γνωρίζει τα δημογραφικά χαρακτηριστικά, το φύλο, την ηλικία, την οικογενειακή κατάσταση κ.λπ.

Με βάση τέτοια δεδομένα, στο μέλλον ανοίγεται η προοπτική αλλαγής του περιεχομένου του διαφημιστικού μηνύματος, χρησιμοποιώντας τις προτιμήσεις ενός συγκεκριμένου ατόμου που περνάει από την διαφημιστική πινακίδα. Εάν τα δεδομένα δείχνουν ότι το άτομο που περνάει ταξιδεύει πολύ, τότε μπορεί να του εμφανιστεί μια διαφήμιση για το θέρετρο. Οι διοργανωτές ενός ποδοσφαιρικού αγώνα μπορούν μόνο να εκτιμήσουν τον αριθμό των φιλάθλων όταν έρχονται στον αγώνα. Αλλά αν μπορούσαν να ζητήσουν από την εταιρεία κινητής τηλεφωνίας πληροφορίες σχετικά με το πού βρίσκονταν οι επισκέπτες μια ώρα, μια μέρα ή ένα μήνα πριν από τον αγώνα, τότε αυτό θα έδινε στους διοργανωτές την ευκαιρία να σχεδιάσουν θέσεις για τη διαφήμιση των επόμενων αγώνων.

Ένα άλλο παράδειγμα είναι πώς οι τράπεζες μπορούν να χρησιμοποιήσουν Big Data για να αποτρέψουν την απάτη. Εάν ο πελάτης αναφέρει την απώλεια της κάρτας και όταν πραγματοποιεί μια αγορά χρησιμοποιώντας αυτήν, η τράπεζα βλέπει σε πραγματικό χρόνο τη θέση του τηλεφώνου του πελάτη στην περιοχή αγοράς όπου πραγματοποιείται η συναλλαγή, η τράπεζα μπορεί να ελέγξει τις πληροφορίες στην εφαρμογή του πελάτη , αν προσπάθησε να τον εξαπατήσει. Ή το αντίθετο, όταν ένας πελάτης κάνει μια αγορά σε ένα κατάστημα, η τράπεζα βλέπει ότι η κάρτα στην οποία πραγματοποιείται η συναλλαγή και το τηλέφωνο του πελάτη βρίσκονται στο ίδιο σημείο, η τράπεζα μπορεί να συμπεράνει ότι ο ιδιοκτήτης της χρησιμοποιεί την κάρτα. Χάρη σε αυτά τα πλεονεκτήματα των Big Data, διευρύνονται τα όρια με τα οποία είναι προικισμένα οι παραδοσιακές αποθήκες δεδομένων.

Για μια επιτυχημένη απόφαση εφαρμογής λύσεων Big Data, μια εταιρεία πρέπει να υπολογίσει μια περίπτωση επένδυσης και αυτό προκαλεί μεγάλες δυσκολίες λόγω πολλών άγνωστων στοιχείων. Το παράδοξο της ανάλυσης σε τέτοιες περιπτώσεις είναι να προβλέπει το μέλλον με βάση το παρελθόν, πληροφορίες για το οποίο συχνά λείπουν. Σε αυτή την περίπτωση, ένας σημαντικός παράγοντας είναι ο ξεκάθαρος σχεδιασμός των αρχικών σας ενεργειών:

  • Πρώτον, είναι απαραίτητο να προσδιοριστεί ένα συγκεκριμένο επιχειρηματικό πρόβλημα, για το οποίο θα χρησιμοποιηθούν τεχνολογίες Big Data, αυτή η εργασία θα γίνει ο πυρήνας του προσδιορισμού της ορθότητας της επιλεγμένης ιδέας. Πρέπει να εστιάσετε στη συλλογή δεδομένων που σχετίζονται με τη συγκεκριμένη εργασία και κατά τη διάρκεια της απόδειξης της ιδέας θα μπορείτε να χρησιμοποιήσετε διάφορα εργαλεία, διαδικασίες και μεθόδους διαχείρισης που θα σας επιτρέψουν να λάβετε πιο ενημερωμένες αποφάσεις στο μέλλον.
  • Δεύτερον, είναι απίθανο μια εταιρεία χωρίς τις δεξιότητες και την εμπειρία της ανάλυσης δεδομένων να μπορέσει να υλοποιήσει με επιτυχία ένα έργο Big Data. Οι απαραίτητες γνώσεις προέρχονται πάντα από προηγούμενη εμπειρία στα analytics, που είναι ο κύριος παράγοντας που επηρεάζει την ποιότητα της εργασίας με δεδομένα. Σημαντικό ρόλο παίζει η κουλτούρα της χρήσης δεδομένων, καθώς συχνά η ανάλυση των πληροφοριών αποκαλύπτει τη σκληρή αλήθεια για την επιχείρηση και για να αποδεχθεί αυτή την αλήθεια και να εργαστεί μαζί της, χρειάζονται αναπτυγμένες μέθοδοι εργασίας με δεδομένα.
  • Τρίτον, η αξία των τεχνολογιών Big Data έγκειται στην παροχή πληροφοριών.Οι καλοί αναλυτές παραμένουν σε έλλειψη στην αγορά. Ονομάζονται ειδικοί που έχουν βαθιά κατανόηση της εμπορικής σημασίας των δεδομένων και ξέρουν πώς να τα εφαρμόζουν σωστά. Η ανάλυση δεδομένων είναι ένα μέσο για την επίτευξη των επιχειρηματικών στόχων και για να κατανοήσετε την αξία των Μεγάλων Δεδομένων, χρειάζεστε ένα κατάλληλο μοντέλο συμπεριφοράς και κατανόηση των ενεργειών σας. Σε αυτήν την περίπτωση, τα μεγάλα δεδομένα θα παρέχουν πολλές χρήσιμες πληροφορίες για τους καταναλωτές, βάσει των οποίων μπορείτε να πάρετε χρήσιμες επιχειρηματικές αποφάσεις.

Παρά το γεγονός ότι η ρωσική αγορά Big Data μόλις αρχίζει να διαμορφώνεται, ορισμένα έργα σε αυτόν τον τομέα υλοποιούνται ήδη με αρκετά επιτυχία. Μερικά από αυτά είναι επιτυχημένα στον τομέα της συλλογής δεδομένων, όπως έργα για την Ομοσπονδιακή Φορολογική Υπηρεσία και την Tinkoff Credit Systems, άλλα όσον αφορά την ανάλυση δεδομένων και την πρακτική εφαρμογή των αποτελεσμάτων τους: αυτό είναι το έργο Synqera.

Η Tinkoff Credit Systems Bank υλοποίησε ένα έργο για την υλοποίηση της πλατφόρμας EMC2 Greenplum, η οποία είναι ένα εργαλείο για μαζικά παράλληλους υπολογιστές. Τα τελευταία χρόνια, η τράπεζα έχει αυξήσει τις απαιτήσεις της για ταχύτητα επεξεργασίας των συσσωρευμένων πληροφοριών και ανάλυση δεδομένων σε πραγματικό χρόνο, που προκαλούνται από τον υψηλό ρυθμό αύξησης του αριθμού των χρηστών πιστωτικών καρτών. Η Τράπεζα ανακοίνωσε σχέδια για επέκταση της χρήσης τεχνολογιών Big Data, ιδίως για την επεξεργασία μη δομημένων δεδομένων και την εργασία με εταιρικές πληροφορίες που λαμβάνονται από διάφορες πηγές.

Η Ομοσπονδιακή Φορολογική Υπηρεσία της Ρωσίας δημιουργεί επί του παρόντος ένα αναλυτικό επίπεδο της ομοσπονδιακής αποθήκης δεδομένων. Στη βάση του, δημιουργείται ένας ενιαίος χώρος πληροφοριών και τεχνολογία για την πρόσβαση σε φορολογικά δεδομένα για στατιστική και αναλυτική επεξεργασία. Κατά την υλοποίηση του έργου, εκτελούνται εργασίες για τη συγκέντρωση αναλυτικών πληροφοριών με περισσότερες από 1200 πηγές τοπικού επιπέδου της Ομοσπονδιακής Φορολογικής Υπηρεσίας.

Ένα άλλο ενδιαφέρον παράδειγμα ανάλυσης μεγάλων δεδομένων σε πραγματικό χρόνο είναι η ρωσική startup Synqera, η οποία ανέπτυξε την πλατφόρμα Simplate. Η λύση βασίζεται στην επεξεργασία μεγάλων συστοιχιών δεδομένων, το πρόγραμμα αναλύει πληροφορίες για τους πελάτες, το ιστορικό αγορών τους, την ηλικία, το φύλο, ακόμη και τη διάθεσή τους. Στα ταμεία του δικτύου καταστημάτων καλλυντικών τοποθετήθηκαν οθόνες αφής με αισθητήρες που αναγνωρίζουν τα συναισθήματα των πελατών. Το πρόγραμμα καθορίζει τη διάθεση ενός ατόμου, αναλύει πληροφορίες γι 'αυτόν, καθορίζει την ώρα της ημέρας και σαρώνει τη βάση δεδομένων εκπτώσεων του καταστήματος, μετά την οποία στέλνει στοχευμένα μηνύματα στον αγοραστή σχετικά με προσφορές και ειδικές προσφορές. Αυτή η λύση βελτιώνει την αφοσίωση των πελατών και αυξάνει τις πωλήσεις λιανικής.

Αν μιλάμε για ξένες επιτυχημένες περιπτώσεις, τότε από αυτή την άποψη, η εμπειρία χρήσης τεχνολογιών Big Data στη Dunkin` Donuts, η οποία χρησιμοποιεί δεδομένα σε πραγματικό χρόνο για την πώληση προϊόντων, είναι ενδιαφέρουσα. Οι ψηφιακές οθόνες στα καταστήματα εμφανίζουν προσφορές που αλλάζουν κάθε λεπτό, ανάλογα με την ώρα της ημέρας και τη διαθεσιμότητα των προϊόντων. Σύμφωνα με τις εισπράξεις μετρητών, η εταιρεία λαμβάνει στοιχεία για το ποιες προσφορές έλαβαν τη μεγαλύτερη ανταπόκριση από τους αγοραστές. Αυτή η προσέγγιση επεξεργασίας δεδομένων επέτρεψε την αύξηση των κερδών και του κύκλου εργασιών των αγαθών στην αποθήκη.

Όπως δείχνει η εμπειρία της υλοποίησης έργων Big Data, αυτός ο τομέας έχει σχεδιαστεί για να επιλύει με επιτυχία σύγχρονα επιχειρηματικά προβλήματα. Ταυτόχρονα, σημαντικός παράγοντας για την επίτευξη εμπορικών στόχων κατά την εργασία με μεγάλα δεδομένα είναι η επιλογή της σωστής στρατηγικής, η οποία περιλαμβάνει αναλυτικά στοιχεία που εντοπίζουν τις ανάγκες των καταναλωτών, καθώς και τη χρήση καινοτόμων τεχνολογιών στον τομέα των Big Data.

Σύμφωνα με μια παγκόσμια έρευνα που διεξάγεται ετησίως από την Econsultancy και την Adobe από το 2012 μεταξύ των εμπόρων εταιρειών, τα «μεγάλα δεδομένα», που χαρακτηρίζουν τις ενέργειες των ανθρώπων στο Διαδίκτυο, μπορούν να κάνουν πολλά. Μπορούν να βελτιστοποιήσουν τις επιχειρηματικές διαδικασίες εκτός σύνδεσης, να βοηθήσουν στην κατανόηση του τρόπου με τον οποίο οι κάτοχοι κινητών συσκευών τις χρησιμοποιούν για να αναζητήσουν πληροφορίες ή απλώς να «κάνουν καλύτερο το μάρκετινγκ», π.χ. πιο αποτελεσματικό. Επιπλέον, η τελευταία συνάρτηση γίνεται όλο και πιο δημοφιλής από χρόνο σε χρόνο, όπως προκύπτει από το διάγραμμά μας.

Οι κύριοι τομείς εργασίας των εμπόρων Διαδικτύου όσον αφορά τις σχέσεις με τους πελάτες


Πηγή: Econsultancy and Adobe, δημοσιεύτηκεemarketer.com

Σημειώστε ότι η εθνικότητα των ερωτηθέντων δεν έχει μεγάλη σημασία. Σύμφωνα με έρευνα που διεξήγαγε η KPMG το 2013, το ποσοστό των «αισιόδοξων», δηλ. από αυτούς που χρησιμοποιούν Big Data κατά την ανάπτυξη μιας επιχειρηματικής στρατηγικής είναι 56%, και οι διακυμάνσεις από περιοχή σε περιοχή είναι μικρές: από 63% στις χώρες της Βόρειας Αμερικής έως 50% στην EMEA.

Χρήση μεγάλων δεδομένων σε διάφορες περιοχές του κόσμου


Πηγή: KPMG, δημοσίευσηemarketer.com

Εν τω μεταξύ, η στάση των εμπόρων σε τέτοιες «τάσεις της μόδας» θυμίζει κάπως ένα γνωστό ανέκδοτο:

Πες μου, Βάνο, σου αρέσουν οι ντομάτες;
- Μου αρέσει να τρώω, αλλά όχι.

Παρά το γεγονός ότι οι έμποροι λένε ότι «αγαπούν» τα Μεγάλα Δεδομένα και μάλιστα φαίνεται να τα χρησιμοποιούν, στην πραγματικότητα, «όλα είναι περίπλοκα», όπως γράφουν για τις εγκάρδιες προσκολλήσεις τους στα κοινωνικά δίκτυα.

Σύμφωνα με έρευνα που διεξήγαγε η Circle Research τον Ιανουάριο του 2014 μεταξύ Ευρωπαίων marketers, 4 στους 5 ερωτηθέντες δεν χρησιμοποιούν Big Data (παρά το γεγονός ότι, φυσικά, τα «αγαπούν»). Οι λόγοι είναι διαφορετικοί. Λίγοι είναι οι ακραιφνείς σκεπτικιστές - 17% και ακριβώς ο ίδιος αριθμός με τους αντίποδές τους, δηλ. όσοι απαντούν με σιγουριά «Ναι». Οι υπόλοιποι διστάζουν και αμφιβάλλουν, το «βάλτο». Αποφεύγουν μια άμεση απάντηση με εύλογες δικαιολογίες όπως «όχι ακόμα, αλλά σύντομα» ή «θα περιμένουμε να ξεκινήσουν οι άλλοι».

Χρήση μεγάλων δεδομένων από εμπόρους, Ευρώπη, Ιανουάριος 2014


Πηγή:dnx, δημοσίευσε -πωλητής.com

Τι τους μπερδεύει; Σκέτη ανοησία. Κάποιοι (ακριβώς οι μισοί) απλά δεν πιστεύουν αυτά τα δεδομένα. Άλλοι (υπάρχουν επίσης πολλοί - 55%) δυσκολεύονται να συσχετίσουν τα σύνολα «δεδομένων» και «χρηστών» μεταξύ τους. Κάποιος απλώς (ας το πούμε πολιτικά ορθός) έχει ένα εσωτερικό εταιρικό χάος: τα δεδομένα κινούνται χωρίς ιδιοκτήτη μεταξύ τμημάτων μάρκετινγκ και δομών πληροφορικής. Για άλλους, το λογισμικό δεν μπορεί να αντιμετωπίσει την εισροή εργασίας. Και ούτω καθεξής. Δεδομένου ότι το σύνολο των μετοχών είναι πολύ πάνω από το 100%, είναι σαφές ότι η κατάσταση των «πολλαπλών φραγμών» δεν είναι ασυνήθιστη.

Εμπόδια που εμποδίζουν τη χρήση Big Data στο μάρκετινγκ


Πηγή:dnx, δημοσίευσε -πωλητής.com

Έτσι, πρέπει να παραδεχτούμε ότι μέχρι στιγμής τα «Big Data» είναι ένα μεγάλο δυναμικό που πρέπει ακόμα να αξιοποιηθεί. Παρεμπιπτόντως, αυτός μπορεί να είναι ο λόγος που τα Big Data χάνουν το φωτοστέφανο της «τάσης της μόδας», όπως αποδεικνύεται από τα στοιχεία της έρευνας που διεξήγαγε η εταιρεία Econsultancy που έχουμε ήδη αναφέρει.

Οι πιο σημαντικές τάσεις στο ψηφιακό μάρκετινγκ 2013-2014


Πηγή: Consultancy και Adobe

Αντικαθίστανται από έναν άλλο βασιλιά - το μάρκετινγκ περιεχομένου. Πόσο καιρό?

Δεν μπορεί να ειπωθεί ότι τα Big Data είναι ένα θεμελιωδώς νέο φαινόμενο. Οι μεγάλες πηγές δεδομένων υπάρχουν εδώ και χρόνια: βάσεις δεδομένων αγορών πελατών, πιστωτικά ιστορικά, τρόποι ζωής. Και για χρόνια, οι επιστήμονες χρησιμοποιούσαν αυτά τα δεδομένα για να βοηθήσουν τις εταιρείες να αξιολογήσουν τον κίνδυνο και να προβλέψουν τις μελλοντικές ανάγκες των πελατών. Ωστόσο, σήμερα η κατάσταση έχει αλλάξει σε δύο πτυχές:

Έχουν προκύψει πιο εξελιγμένα εργαλεία και μέθοδοι για την ανάλυση και το συνδυασμό διαφορετικών συνόλων δεδομένων.

Αυτά τα αναλυτικά εργαλεία συμπληρώνονται από μια χιονοστιβάδα νέων πηγών δεδομένων που οδηγούνται από την ψηφιοποίηση σχεδόν κάθε μεθόδου συλλογής και μέτρησης δεδομένων.

Το εύρος των διαθέσιμων πληροφοριών είναι ταυτόχρονα εμπνευσμένο και εκφοβιστικό για ερευνητές που μεγάλωσαν σε ένα δομημένο ερευνητικό περιβάλλον. Το καταναλωτικό συναίσθημα καταγράφεται από ιστότοπους και όλα τα είδη των μέσων κοινωνικής δικτύωσης. Το γεγονός της προβολής διαφημίσεων καταγράφεται όχι μόνο από αποκωδικοποιητές, αλλά και με τη βοήθεια ψηφιακών ετικετών και φορητών συσκευών που επικοινωνούν με την τηλεόραση.

Τα δεδομένα συμπεριφοράς (όπως ο αριθμός των κλήσεων, οι συνήθειες αγορών και οι αγορές) είναι πλέον διαθέσιμα σε πραγματικό χρόνο. Έτσι, πολλά από αυτά που προηγουμένως μπορούσαν να μάθουν μέσω της έρευνας μπορούν τώρα να μαθευτούν μέσω πηγών μεγάλων δεδομένων. Και όλα αυτά τα πληροφοριακά στοιχεία παράγονται συνεχώς, ανεξάρτητα από τυχόν ερευνητικές διαδικασίες. Αυτές οι αλλαγές μας κάνουν να αναρωτιόμαστε εάν τα μεγάλα δεδομένα μπορούν να αντικαταστήσουν την κλασική έρευνα αγοράς.

Δεν πρόκειται για δεδομένα, είναι για ερωτήσεις και απαντήσεις

Πριν παραγγείλουμε ένα νεκροταφείο για την κλασική έρευνα, πρέπει να υπενθυμίσουμε στον εαυτό μας ότι δεν είναι η παρουσία του ενός ή του άλλου στοιχείου δεδομένων, αλλά κάτι άλλο που είναι καθοριστικό. Τι ακριβώς? Η ικανότητά μας να απαντάμε σε ερωτήσεις, αυτό είναι. Ένα αστείο πράγμα σχετικά με τον νέο κόσμο των μεγάλων δεδομένων είναι ότι τα αποτελέσματα από νέα στοιχεία δεδομένων οδηγούν σε ακόμη περισσότερες ερωτήσεις και αυτές οι ερωτήσεις τείνουν να απαντώνται καλύτερα από την παραδοσιακή έρευνα. Έτσι, καθώς τα μεγάλα δεδομένα αυξάνονται, βλέπουμε μια παράλληλη αύξηση της διαθεσιμότητας και της ζήτησης για «μικρά δεδομένα» που μπορούν να δώσουν απαντήσεις σε ερωτήσεις από τον κόσμο των μεγάλων δεδομένων.

Ας εξετάσουμε μια κατάσταση: ένας μεγάλος διαφημιστής παρακολουθεί συνεχώς την επισκεψιμότητα στα καταστήματα και τους όγκους πωλήσεων σε πραγματικό χρόνο. Οι υπάρχουσες μεθοδολογίες έρευνας (στις οποίες ρωτάμε τους συμμετέχοντες σε ερευνητικά πάνελ σχετικά με τα αγοραστικά τους κίνητρα και τη συμπεριφορά τους στο σημείο πώλησης) μας βοηθούν να στοχεύσουμε καλύτερα συγκεκριμένα τμήματα πελατών. Αυτές οι μεθοδολογίες μπορούν να επεκταθούν για να συμπεριλάβουν ένα ευρύτερο φάσμα περιουσιακών στοιχείων μεγάλων δεδομένων, στο σημείο όπου τα μεγάλα δεδομένα γίνονται εργαλείο παθητικής παρατήρησης και η έρευνα μια μέθοδος συνεχούς, στενά εστιασμένης έρευνας αλλαγών ή γεγονότων που πρέπει να μελετηθούν. Αυτός είναι ο τρόπος με τον οποίο τα μεγάλα δεδομένα μπορούν να απαλλάξουν την έρευνα από την περιττή ρουτίνα. Η πρωτογενής έρευνα δεν θα πρέπει πλέον να επικεντρώνεται σε αυτό που συμβαίνει (τα μεγάλα δεδομένα θα το κάνουν). Αντίθετα, η πρωτογενής έρευνα μπορεί να επικεντρωθεί στην εξήγηση γιατί βλέπουμε ορισμένες τάσεις ή αποκλίσεις από τις τάσεις. Ο ερευνητής θα μπορεί να σκέφτεται λιγότερο για τη λήψη δεδομένων και περισσότερο για το πώς να τα αναλύσει και να τα χρησιμοποιήσει.

Ταυτόχρονα, βλέπουμε ότι τα μεγάλα δεδομένα λύνουν ένα από τα μεγαλύτερα προβλήματά μας, το πρόβλημα των υπερβολικά μακρών μελετών. Η εξέταση των ίδιων των μελετών έδειξε ότι τα υπερβολικά φουσκωμένα ερευνητικά εργαλεία έχουν αρνητικό αντίκτυπο στην ποιότητα των δεδομένων. Αν και πολλοί ειδικοί αναγνώρισαν αυτό το πρόβλημα για μεγάλο χρονικό διάστημα, απάντησαν πάντα με τη φράση: «Αλλά χρειάζομαι αυτές τις πληροφορίες για τα ανώτερα στελέχη» και συνεχίστηκαν οι μεγάλες συνεντεύξεις.

Στον κόσμο των μεγάλων δεδομένων, όπου μπορούν να ληφθούν ποσοτικοί δείκτες μέσω παθητικής παρατήρησης, αυτό το ζήτημα γίνεται επίκαιρο. Και πάλι, ας αναλογιστούμε όλη αυτή την έρευνα κατανάλωσης. Εάν τα μεγάλα δεδομένα μας δίνουν πληροφορίες για την κατανάλωση μέσω παθητικής παρατήρησης, τότε η πρωτογενής έρευνα με τη μορφή ερευνών δεν χρειάζεται πλέον να συλλέγει αυτού του είδους τις πληροφορίες και μπορούμε τελικά να υποστηρίξουμε το όραμά μας για σύντομες έρευνες όχι μόνο με καλές ευχές, αλλά και με κάτι αληθινό.

Τα Big Data χρειάζονται τη βοήθειά σας

Τέλος, το "big" είναι μόνο ένα από τα χαρακτηριστικά των μεγάλων δεδομένων. Το χαρακτηριστικό «μεγάλο» αναφέρεται στο μέγεθος και την κλίμακα των δεδομένων. Φυσικά, αυτό είναι το κύριο χαρακτηριστικό, αφού ο όγκος αυτών των δεδομένων ξεφεύγει από όλα όσα έχουμε δουλέψει στο παρελθόν. Αλλά και άλλα χαρακτηριστικά αυτών των νέων ροών δεδομένων είναι επίσης σημαντικά: είναι συχνά κακώς μορφοποιημένα, μη δομημένα (ή, στην καλύτερη περίπτωση, μερικώς δομημένα) και γεμάτα αβεβαιότητα. Το αναδυόμενο πεδίο της διαχείρισης δεδομένων, που εύστοχα ονομάζεται «entity analytics», στοχεύει να λύσει το πρόβλημα της υπέρβασης του θορύβου στα μεγάλα δεδομένα. Το καθήκον του είναι να αναλύσει αυτά τα σύνολα δεδομένων και να ανακαλύψει πόσες παρατηρήσεις είναι για το ίδιο άτομο, ποιες παρατηρήσεις είναι τρέχουσες και ποιες από αυτές μπορούν να χρησιμοποιηθούν.

Αυτό το είδος καθαρισμού δεδομένων είναι απαραίτητο για την αφαίρεση θορύβου ή λανθασμένων δεδομένων κατά την εργασία με μεγάλα ή μικρά στοιχεία δεδομένων, αλλά δεν είναι αρκετό. Χρειάζεται επίσης να δημιουργήσουμε πλαίσιο γύρω από τα περιουσιακά στοιχεία μεγάλων δεδομένων με βάση την προηγούμενη εμπειρία μας, τα αναλυτικά στοιχεία και τις γνώσεις κατηγοριών. Στην πραγματικότητα, πολλοί αναλυτές επισημαίνουν την ικανότητα διαχείρισης της αβεβαιότητας που ενυπάρχει στα μεγάλα δεδομένα ως πηγή ανταγωνιστικού πλεονεκτήματος, καθώς επιτρέπει καλύτερη λήψη αποφάσεων.

Και εδώ είναι όπου η πρωτογενής έρευνα όχι μόνο απαλλάσσεται από τη ρουτίνα χάρη στα μεγάλα δεδομένα, αλλά συμβάλλει επίσης στη δημιουργία και ανάλυση περιεχομένου στα μεγάλα δεδομένα.

Ένα χαρακτηριστικό παράδειγμα αυτού είναι η εφαρμογή του ολοκαίνουργιου πλαισίου επωνυμίας μας στα μέσα κοινωνικής δικτύωσης. (μιλάμε για αυτό που αναπτύχθηκε σεMillward καφέμια νέα προσέγγιση για τη μέτρηση της αξίας της επωνυμίαςο Με νόημα Διαφορετικός Δομή- "Το παράδειγμα των σημαντικών διαφορών" -R & Τ ). Αυτό το μοντέλο ελέγχεται για τη συμπεριφορά σε συγκεκριμένες αγορές, εφαρμόζεται σε τυπική βάση και μπορεί εύκολα να εφαρμοστεί σε άλλους κλάδους μάρκετινγκ και πληροφοριακά συστήματα υποστήριξης αποφάσεων. Με άλλα λόγια, το μοντέλο μας για την επωνυμία, που βασίζεται σε (αν και όχι αποκλειστικά) έρευνα έρευνας, έχει όλες τις ιδιότητες που απαιτούνται για να ξεπεραστεί η αδόμητη, ασυνάρτητη και αβέβαιη φύση των μεγάλων δεδομένων.

Λάβετε υπόψη τα δεδομένα των καταναλωτικών συναισθημάτων που παρέχονται από τα μέσα κοινωνικής δικτύωσης. Στην ακατέργαστη μορφή τους, οι κορυφές και οι κοιλάδες στο συναίσθημα των καταναλωτών συσχετίζονται πολύ συχνά ελάχιστα με μετρήσεις εκτός σύνδεσης της αξίας της επωνυμίας και της συμπεριφοράς: απλώς υπάρχει υπερβολικός θόρυβος στα δεδομένα. Ωστόσο, μπορούμε να μειώσουμε αυτόν τον θόρυβο εφαρμόζοντας τα μοντέλα μας καταναλωτικής σημασίας, διαφοροποίησης επωνυμίας, δυναμικής και ταυτότητας σε ακατέργαστα δεδομένα καταναλωτικού συναισθήματος, που είναι ένας τρόπος επεξεργασίας και συγκέντρωσης δεδομένων κοινωνικών μέσων σε αυτές τις διαστάσεις.

Μόλις τα δεδομένα οργανωθούν σύμφωνα με το μοντέλο πλαισίου μας, οι τάσεις που προσδιορίζονται συνήθως ταιριάζουν με τις μετρήσεις αξίας επωνυμίας και συμπεριφοράς που λαμβάνονται εκτός σύνδεσης. Στην πραγματικότητα, τα δεδομένα των μέσων κοινωνικής δικτύωσης δεν μπορούν να μιλήσουν από μόνα τους. Για να τα χρησιμοποιήσουμε για αυτό το σκοπό απαιτεί την εμπειρία μας και τα μοντέλα μας που χτίζονται γύρω από τις μάρκες. Όταν τα μέσα κοινωνικής δικτύωσης μάς δίνουν μοναδικές πληροφορίες που εκφράζονται στη γλώσσα που χρησιμοποιούν οι καταναλωτές για να περιγράψουν τις επωνυμίες, πρέπει να χρησιμοποιούμε αυτήν τη γλώσσα κατά τη δημιουργία της έρευνάς μας για να κάνουμε την πρωτογενή έρευνα πολύ πιο αποτελεσματική.

Οφέλη από Εξαιρούμενες Σπουδές

Αυτό μας φέρνει πίσω στο γεγονός ότι τα μεγάλα δεδομένα δεν αντικαθιστούν τόσο την έρευνα όσο την απελευθερώνουν. Οι ερευνητές θα ανακουφιστούν από την ανάγκη να δημιουργήσουν μια νέα μελέτη για κάθε νέα περίπτωση. Τα συνεχώς αυξανόμενα περιουσιακά στοιχεία των μεγάλων δεδομένων μπορούν να χρησιμοποιηθούν για διαφορετικά ερευνητικά θέματα, επιτρέποντας στην επόμενη πρωτογενή έρευνα να εμβαθύνει στο θέμα και να καλύψει τα κενά. Οι ερευνητές θα απαλλαγούν από την ανάγκη να βασίζονται σε υπερβολικά διογκωμένες έρευνες. Αντίθετα, θα μπορούν να χρησιμοποιούν σύντομες έρευνες και να επικεντρώνονται στις πιο σημαντικές παραμέτρους, γεγονός που βελτιώνει την ποιότητα των δεδομένων.

Με αυτήν την έκδοση, οι ερευνητές θα μπορούν να χρησιμοποιήσουν τις καθιερωμένες αρχές και τις γνώσεις τους για να προσθέσουν ακρίβεια και νόημα στα περιουσιακά στοιχεία μεγάλων δεδομένων, οδηγώντας σε νέους τομείς για έρευνα έρευνας. Αυτός ο κύκλος θα πρέπει να οδηγήσει σε μια βαθύτερη κατανόηση μιας σειράς στρατηγικών θεμάτων και, τελικά, σε μια κίνηση προς αυτό που πρέπει πάντα να είναι ο κύριος στόχος μας - η ενημέρωση και η βελτίωση της ποιότητας των αποφάσεων επωνυμίας και επικοινωνίας.

Volkova Yulia Sergeevna, φοιτήτρια 4ου έτους, Οικονομικό Πανεπιστήμιο υπό την κυβέρνηση της Ρωσικής Ομοσπονδίας, παράρτημα Kaluga, Kaluga [email προστατευμένο]

Big Data στον σύγχρονο κόσμο

Σχολιασμός Το άρθρο είναι αφιερωμένο στην εισαγωγή τεχνολογιών Big Data στη σύγχρονη κοινωνία μας. Διερευνώνται τα κύρια χαρακτηριστικά των Big Data, εξετάζονται οι κύριοι τομείς εφαρμογής, όπως ο τραπεζικός, το λιανεμπόριο, ο ιδιωτικός και δημόσιος τομέας, ακόμη και η καθημερινή ζωή. Η μελέτη αποκάλυψε τα μειονεκτήματα της χρήσης τεχνολογιών Big Data. Επισημαίνεται η ανάγκη ανάπτυξης ρυθμιστικών ρυθμίσεων για τη χρήση Big Data Λέξεις κλειδιά: Big Data, τράπεζες, τραπεζικές εργασίες, λιανικό εμπόριο, ιδιωτικός τομέας, δημόσιος τομέας.

Καθώς ο βαθμός ενσωμάτωσης των εργαλείων της πληροφορικής σε διάφορους τομείς της σύγχρονης κοινωνίας αυξάνεται, τόσο αυξάνονται οι απαιτήσεις για την προσαρμοστικότητά τους στην επίλυση νέων προβλημάτων που περιλαμβάνουν τεράστιες ποσότητες δεδομένων. Υπάρχουν όγκοι πληροφοριών που δεν μπορούν να υποστούν επεξεργασία με παραδοσιακούς τρόπους, συμπεριλαμβανομένων δομημένων δεδομένων, δεδομένων πολυμέσων και τυχαίων αντικειμένων. Και αν οι τεχνολογίες που υπάρχουν σήμερα αντεπεξέρχονται λίγο πολύ στην ανάλυση της πρώτης, τότε η ανάλυση της δεύτερης και της τρίτης παραμένει πρακτικά συντριπτική δουλειά. Μελέτες δείχνουν ότι ο όγκος των δεδομένων μέσων, όπως τα αποτελέσματα της βιντεοπαρακολούθησης, η αεροφωτογραφία, οι ψηφιακές ιατρικές πληροφορίες και τα τυχαία αντικείμενα που είναι αποθηκευμένα σε πολυάριθμα αρχεία και σύννεφα, αυξάνεται χρόνο με το χρόνο. Ο τεράστιος όγκος δεδομένων έχει γίνει μια παγκόσμια διαδικασία και έχει οριστεί ως Big Data. Η μελέτη των Big Data είναι αφιερωμένη στα έργα τόσο ξένων όσο και Ρώσων επιστημόνων: James Manyika, Michael Chui, Toporkov V.V., Budzko V.I. Σημαντική συμβολή στη μελέτη αυτής της τεχνολογίας έχουν μεγάλες παγκόσμιες εταιρείες όπως: McKinsey & Company, СNews Analytics, SAP, Oracle, IBM, Microsoft, Teradata και πολλές άλλες. Επεξεργάζονται και αναλύουν δεδομένα και δημιουργούν συστήματα λογισμικού και υλικού που βασίζονται σε Big Data.Σύμφωνα με την έκθεση του Ινστιτούτου McKinsey: «Τα μεγάλα δεδομένα είναι ένα σύνολο δεδομένων των οποίων το μέγεθος υπερβαίνει τις δυνατότητες τυπικών εργαλείων λογισμικού βάσης δεδομένων για καταγραφή, αποθήκευση, διαχείριση και ανάλυση δεδομένα." Ουσιαστικά, η έννοια των μεγάλων δεδομένων συνεπάγεται εργασία με πληροφορίες τεράστιου όγκου και ποικίλης σύνθεσης, που ενημερώνονται συνεχώς και βρίσκονται σε διαφορετικές πηγές, προκειμένου να αυξηθεί η αποδοτικότητα της εργασίας, να δημιουργηθούν νέα προϊόντα και να αυξηθεί η ανταγωνιστικότητα. Η εταιρεία συμβούλων Forrester δίνει μια σύντομη και αρκετά κατανοητή διατύπωση: «Τα μεγάλα δεδομένα συνδυάζουν τεχνικές και τεχνολογίες που εξάγουν νόημα από δεδομένα στο ακραίο όριο πρακτικότητας». Μέχρι σήμερα, ο τομέας των Μεγάλων Δεδομένων χαρακτηρίζεται από τα ακόλουθα χαρακτηριστικά: Όγκος – όγκος , η συσσωρευμένη βάση δεδομένων είναι ένας μεγάλος όγκος πληροφοριών. Ταχύτητα–ταχύτητα, αυτή η δυνατότητα υποδηλώνει αυξανόμενο ρυθμό συσσώρευσης δεδομένων (το 90% των πληροφοριών συλλέχθηκαν τα τελευταία 2 χρόνια). τη δυνατότητα ταυτόχρονης επεξεργασίας δομημένων και αδόμητων πληροφοριών πολλαπλών μορφών. Οι ειδικοί έμποροι λατρεύουν να προσθέτουν τα V τους εδώ. Κάποιος άλλος μιλάει για αξιοπιστία (αλήθεια), άλλοι προσθέτουν ότι οι τεχνολογίες μεγάλων δεδομένων πρέπει σίγουρα να ωφελήσουν την επιχείρηση (αξία). Αναμένεται ότι μέχρι το 2020 η συσσωρευμένη ποσότητα πληροφοριών στον πλανήτη θα διπλασιάζεται κάθε δύο χρόνια. Η αφθονία των δεδομένων προκαλεί την επιθυμία να χρησιμοποιηθούν για ανάλυση και πρόβλεψη. Οι τεράστιοι όγκοι απαιτούν κατάλληλες τεχνολογίες. Οι εταιρείες σήμερα πρέπει να επεξεργάζονται κολοσσιαία ποσότητα δεδομένων σε τόμους που είναι δύσκολο να φανταστεί κανείς, αυτό οδηγεί στο γεγονός ότι οι παραδοσιακές βάσεις δεδομένων δεν μπορούν να αντεπεξέλθουν σε μια τέτοια εργασία και αυτό οδηγεί στην ανάγκη εφαρμογής τεχνολογιών Big Data. Ο πίνακας παρουσιάζει μια συγκριτική περιγραφή των Big Data και των παραδοσιακών βάσεων δεδομένων. Βάση για τον σχηματισμό αυτού του πίνακα ήταν η έρευνα του Budzko V. I. και του Exchange Exchange της Μόσχας Πίνακας 1 Συγκριτικά χαρακτηριστικά μεγάλων δεδομένων και παραδοσιακών δεδομένων

Παραδοσιακές βάσεις δεδομένων Big DataScope

Ένας ή περισσότεροι θεματικοί τομείς εφαρμογής Το πεδίο εφαρμογής των τεχνολογιών Big Data είναι εκτεταμένο. Από τον προσδιορισμό των προτιμήσεων των πελατών έως την ανάλυση κινδύνου Χαρακτηριστικά δεδομένωνΜόνο δομημένα δεδομένα Τεράστιοι πίνακες πληροφοριών με πολύπλοκη ετερογενή ή/και ακαθόριστη δομή Μέθοδος αποθήκευσης δεδομένωνCentralizedDecentralized Data αποθήκευσης και επεξεργασίας μοντέλοΚάθετο μοντέλοΟριζόντιο μοντέλοΠοσότητα πληροφοριών προς διεργασίαΑπό gigabyte (109byte) έως e120byte (1010byte) τε (1018bytes) ) Έτσι, το εύρος των παραδοσιακών βάσεων δεδομένων καλύπτει μόνο μία ή λίγες, ενώ τέτοιες περιοχές θα πρέπει να περιέχουν μόνο δομημένα δεδομένα. Όσον αφορά τα Big Data, το πεδίο εφαρμογής τους είναι εκτεταμένο με τεράστιες ποσότητες πληροφοριών με πολύπλοκη δομή.Σύμφωνα με τα αποτελέσματα της μελέτης CNews Analytics που παρουσιάζεται στο Σχήμα 1, η ρωσική αγορά έρχεται σε ένα τέτοιο φαινόμενο όπως το Big Data, το οποίο παρουσιάζει αύξηση του επιπέδου ωριμότητας των επιχειρήσεων. Πολλές εταιρείες κινούνται προς τις τεχνολογίες Big Data λόγω του όγκου των επεξεργασμένων δεδομένων τους, ήδη τώρα περισσότερο από το 44% παράγει περίπου 100 terabyte και το 13% αυτών των όγκων δεδομένων υπερβαίνει τα 500 terabyte.

Εικ.1. Όγκοι πληροφοριών που επεξεργάζονται σε εταιρείες

Τέτοιοι όγκοι δεν μπορούν να υποβληθούν σε επεξεργασία από παραδοσιακές βάσεις δεδομένων, επομένως τέτοιες εταιρείες βλέπουν τη λύση για τη μετάβαση σε Big Data όχι μόνο ως επεξεργασία τεράστιων όγκων, αλλά και ως αύξηση της ανταγωνιστικότητας, αύξηση της αφοσίωσης των πελατών στο προϊόν τους και προσέλκυση νέων. Οι πιο ενεργοί πελάτες τέτοιων λύσεων είναι οι τράπεζες, οι τηλεπικοινωνίες και το λιανικό εμπόριο, το ποσοστό τους φαίνεται στο Σχήμα 2. Ο αριθμός των εταιρειών που χρησιμοποιούν ή είναι έτοιμες να χρησιμοποιήσουν μεγάλα δεδομένα στις βιομηχανίες μεταφορών και ενέργειας είναι λιγότερο αξιοσημείωτος. Τα πρώτα παραδείγματα χρήσης μεγάλων δεδομένων εμφανίστηκαν στον δημόσιο τομέα.

Εικ.2. Δομή βιομηχανίας χρήσης μεγάλων δεδομένων

Όσον αφορά τη δυτική κυβέρνηση, η ψηφιακή οικονομία εκτιμάται ότι κυμαίνεται μεταξύ 3% και 21% του ΑΕΠ των χωρών της G20. Ο ρωσικός δημόσιος τομέας δεν έχει ακόμη επιτύχει σημαντικά αποτελέσματα στην εργασία με μεγάλα δεδομένα. Σήμερα στη Ρωσία, τέτοιες τεχνολογίες ενδιαφέρονται κυρίως για εμπορικές επιχειρήσεις: αλυσίδες λιανικής, τράπεζες, εταιρείες τηλεπικοινωνιών.Σύμφωνα με τη Ρωσική Ένωση για Ηλεκτρονικές Επικοινωνίες, ο όγκος της ψηφιακής οικονομίας στη Ρωσική Ομοσπονδία είναι μόνο 1 τρισ. τρίψιμο. -περίπου 1,5% του ΑΕΠ. Ωστόσο, το URF έχει τεράστιες δυνατότητες για την ανάπτυξη της ψηφιακής οικονομίας.Παρά τη σύντομη ύπαρξη του τομέα Big Data, υπάρχουν ήδη εκτιμήσεις για την αποτελεσματική χρήση αυτών των τεχνολογιών με βάση πραγματικά παραδείγματα. Οι τράπεζες σήμερα, κατά μέσο όρο, επεξεργάζονται περίπου 3,8 petobyte δεδομένων, χρησιμοποιούν τεχνολογίες Big Data για να επιτύχουν ορισμένες εργασίες:  συλλογή δεδομένων χρήσης πιστωτικών καρτών,  συλλογή δεδομένων ασφάλειας,  συλλογή δεδομένων δανείων, 44%16%13%7% 20% BanksTelecomRetailGovernment ΆλλοΣυλλογή δεδομένων προφίλ πελατών.Συλλογή δεδομένων αποταμίευσης πελατών.Οι τράπεζες λένε ότι από τότε που άρχισαν να χρησιμοποιούν τεχνολογίες Big Data, μπόρεσαν να προσελκύσουν νέους πελάτες, να αλληλεπιδράσουν καλύτερα τόσο με νέους όσο και με παλιούς πελάτες και να διατηρήσουν την αφοσίωσή τους. Το 2015, το CNews Analytics διεξήγαγε μια έρευνα μεταξύ των τριάντα μεγαλύτερων ρωσικών τραπεζών ανά σύνολο ενεργητικού για να ανακαλύψει ποιες τεχνολογίες μεγάλων δεδομένων χρησιμοποιούν και για ποιους σκοπούς. Σε σύγκριση με την έρευνα του 2014, ο αριθμός των 30 κορυφαίων τραπεζών που ανέφεραν τη χρήση τεχνολογιών μεγάλων δεδομένων έχει αυξηθεί, αλλά αυτή η αλλαγή είναι πιο πιθανή λόγω αλλαγής στη σύνθεση των κορυφαίων 30. Το Σχήμα 3 δείχνει μια σύγκριση της έρευνας του 2015 σε σύγκριση με το 2014 με βάση την έρευνα της Kiryanova A.

Ρύζι. 3. Χρήση Big Data από τις 30 κορυφαίες ρωσικές τράπεζες

Σύμφωνα με το IBS, το 80% των τραπεζών που απάντησαν θετικά εφαρμόζουν Big Data Appliance - λογισμικό και συστήματα υλικού για την αποθήκευση και την επεξεργασία δεδομένων. Αυτές οι λύσεις συνήθως λειτουργούν ως αναλυτική αποθήκευση ή αποθήκευση συναλλαγών, το κύριο πλεονέκτημα της οποίας είναι η υψηλή απόδοση όταν εργάζεστε με μεγάλο όγκο δεδομένων.Ωστόσο, η πρακτική χρήσης μεγάλων δεδομένων στις ρωσικές τράπεζες είναι στα σπάργανα. Ο λόγος για μια τόσο αργή προσαρμογή στη Ρωσία εκδηλώνεται στην επιφυλακτική στάση των ειδικών πληροφορικής πελατών στις νέες τεχνολογίες. Δεν είναι σίγουροι ότι οι τεχνολογίες μεγάλων δεδομένων θα βοηθήσουν στην πλήρη επίλυση προβλημάτων, αλλά στην αγορά των ΗΠΑ, οι τράπεζες έχουν ήδη συγκεντρώσει 1 exabyte δεδομένων, τα οποία μπορούν να συγκριθούν με 275 δισεκατομμύρια αρχεία mp3. Ο αριθμός των πηγών από τις οποίες προέρχονται οι πληροφορίες είναι εκτενής, μεταξύ αυτών μπορούμε να ξεχωρίσουμε τις κλασικές: επισκέψεις πελατών σε τραπεζικά γραφεία,  ηχογραφήσεις τηλεφωνικών κλήσεων,  συμπεριφορά πελατών στα κοινωνικά δίκτυα,  πληροφορίες για συναλλαγές με πιστωτικές κάρτες και Περισσότερα. Το λιανικό εμπόριο εκτός σύνδεσης χρησιμοποιεί μεγάλα δεδομένα για να αναλύσει τη συμπεριφορά των πελατών, να σχεδιάσει διαδρομές κατά μήκος του ορόφου συναλλαγών, να τακτοποιήσει σωστά τα προϊόντα, να προγραμματίσει αγορές και, τελικά, να αυξήσει τις πωλήσεις. Στο διαδικτυακό λιανικό εμπόριο, ο ίδιος ο μηχανισμός πωλήσεων βασίζεται σε μεγάλα δεδομένα: στους χρήστες προσφέρονται αγαθά με βάση προηγούμενες αγορές και τις προσωπικές τους προτιμήσεις, πληροφορίες για τις οποίες συλλέγονται, για παράδειγμα, στα κοινωνικά δίκτυα. Και στις δύο περιπτώσεις, η ανάλυση μεγάλων δεδομένων συμβάλλει στη μείωση του κόστους, στην αύξηση της αφοσίωσης των πελατών και στην προσέγγιση ενός μεγάλου κοινού. Καθώς αναπτύσσεται το εμπορικό δυναμικό των εταιρειών, οι παραδοσιακές βάσεις δεδομένων δεν ανταποκρίνονται πλέον στις αυξανόμενες επιχειρηματικές απαιτήσεις, γι' αυτό το σύστημα δεν μπορεί να παρέχει σωστή λεπτομέρεια διαχείρισης λογιστική. Με τη μετάβαση σε μεγάλα δεδομένα, οι νέες τεχνολογίες καθιστούν δυνατή τη βελτιστοποίηση της διαχείρισης της διακίνησης αγαθών, την επίτευξη της συνάφειας των δεδομένων και την αποτελεσματικότητα της επεξεργασίας τους για την αξιολόγηση των συνεπειών των αποφάσεων διαχείρισης και τη γρήγορη δημιουργία αναφορών διαχείρισης. Ο συνολικός όγκος των συσσωρευμένων δεδομένων είναι πάνω από 100 exabyte, ενώ μόνο η Walmart επεξεργάζεται 2,5 petabyte δεδομένων ανά ώρα χρησιμοποιώντας μεγάλα δεδομένα. Ταυτόχρονα, η λειτουργική κερδοφορία αυξάνεται κατά 60% από τη χρήση τεχνολογιών Big Data και σύμφωνα με τα στατιστικά στοιχεία Hadoop, μετά την εισαγωγή των Big Data, η απόδοση των αναλυτικών στοιχείων αυξάνεται έως την επεξεργασία 120 αλγορίθμων και το κέρδος αυξάνεται κατά 710%. Λαμβάνουμε υπόψη το ρωσικό λιανικό εμπόριο, τότε τα Big Data μόλις αρχίζουν να απογειώνονται καθώς το χάσμα επεξεργασίας πληροφοριών είναι πολύ διαφορετικό. Έτσι, για παράδειγμα, το διαδικτυακό λιανικό εμπόριο είναι 18 φορές μικρότερο από ό,τι στην Κίνα και ο συνολικός κύκλος εργασιών δεδομένων που παράγεται στο διαδικτυακό λιανικό εμπόριο είναι 4,5 φορές μικρότερος από ένα κατάστημα της Amazon. Ταυτόχρονα, ο αριθμός των ηλεκτρονικών καταστημάτων στη Ρωσία που χρησιμοποιούν Big Data είναι λιγότερο από 40 χιλιάδες, ενώ στην Ευρώπη ο αριθμός αυτών των καταστημάτων ξεπερνά τις 550 χιλιάδες. Αυτό που χαρακτηρίζει τη ρωσική αγορά λιανικής ως ακόμα αναπτυσσόμενη και μη πλήρως διαμορφωμένη. Όσον αφορά την καθημερινότητά μας, εδώ χρησιμοποιούνται και τεχνολογίες Big Data, τις οποίες ούτε καν σκεφτήκαμε 15 εκατομμύρια τραγούδια κάθε μέρα, δηλαδή περίπου 1,5 ~ τότε οι μουσικοί παραγωγοί προβλέπουν τη δημοτικότητα του καλλιτέχνη. Τα μεγάλα δεδομένα χρησιμοποιούνται επίσης για την επεξεργασία πληροφοριών πιστωτικών καρτών, όπως mastercard και visa. Έτσι, 65 δισεκατομμύρια συναλλαγές ετησίως με χρήση 1,9 δισεκατομμυρίων καρτών σε 32 εκατομμύρια εμπόρους επεξεργάζονται με mastercard για την πρόβλεψη των εμπορικών τάσεων. Κάθε μέρα, άνθρωποι σε όλο τον κόσμο δημοσιεύουν σε κοινωνικά δίκτυα όπως το twitter και το facebook για 19 terabytes δεδομένων. Ανεβάζουν και επεξεργάζονται φωτογραφίες, γράφουν, προωθούν μηνύματα και ούτω καθεξής. Η υποδομή επωφελείται επίσης από τεχνολογίες Big Data, από τρόλεϊ μέχρι αεροσκάφη και πύραυλους. Έτσι, στο μετρό του Λονδίνου καθημερινά τα τουρνικέ καταγράφουν περίπου 20 εκατομμύρια περάσματα, ως αποτέλεσμα της ανάλυσης που πραγματοποιήθηκε με βάση τις τεχνολογίες Big Data, εντοπίστηκαν 10 διάφορα επίκεντρα, τα οποία λαμβάνονται επίσης υπόψη στην περαιτέρω ανάπτυξη του μετρό . Αναμφίβολα, η ποικιλία και ο όγκος των δεδομένων που προκύπτουν από κάθε είδους αλληλεπιδράσεις είναι μια ισχυρή βάση για τις επιχειρήσεις για τη δημιουργία και τη βελτίωση των προβλέψεων, τον εντοπισμό προτύπων, την αξιολόγηση της αποτελεσματικότητας κ.λπ. Ωστόσο, όλα έχουν τα μειονεκτήματά τους, τα οποία πρέπει επίσης να εξεταστούν προσεκτικά. Παρά τα προφανή και πιθανά πλεονεκτήματα της χρήσης Big Data, η χρήση τους έχει επίσης μειονεκτήματα, τα οποία σχετίζονται κυρίως με μεγάλο όγκο πληροφοριών, διαφορετικές μεθόδους πρόσβασης σε αυτά και συχνά ανεπαρκής παροχή πόρων.λειτουργίες ασφάλειας πληροφοριών σε οργανισμούς. Τα προβλήματα που σχετίζονται με τη χρήση τεχνολογιών Big Data παρουσιάζονται στο Σχήμα 4.

Ρύζι. 4. Προβλήματα χρήσης Big Data

Όλα αυτά τα προβλήματα οδηγούν στο γεγονός ότι πολλές εταιρείες είναι επιφυλακτικές όσον αφορά την εισαγωγή τεχνολογιών μεγάλων δεδομένων, καθώς όταν συνεργάζονται με τρίτους, οι ίδιες έχουν το πρόβλημα να αποκαλύπτουν εμπιστευτικές πληροφορίες που η εταιρεία δεν θα μπορούσε να αποκαλύψει χρησιμοποιώντας μόνο δικούς της πόρους. το πιο σημαντικό βήμα Στον δρόμο για την πλήρη εφαρμογή τεχνολογιών που βασίζονται σε μεγάλα δεδομένα, θα πρέπει να υπάρχει ακριβώς η νομοθετική πτυχή. Υπάρχουν ήδη νόμοι που περιορίζουν τη συλλογή, χρήση, αποθήκευση ορισμένων τύπων προσωπικών δεδομένων, αλλά δεν περιορίζουν πλήρως τα μεγάλα δεδομένα, επομένως θα πρέπει να υπάρχουν ειδικοί νομοθετικοί κανόνες για αυτά. Προκειμένου να συμμορφωθούν με τους ταχέως μεταβαλλόμενους και νέους νόμους, οι εταιρείες πρέπει να πραγματοποιούν μια αρχική απογραφή των σχετικών κανονιστικών νομικών πράξεων και να ενημερώνουν αυτόν τον κατάλογο σε τακτική βάση. Ωστόσο, παρά όλα τα παραπάνω μειονεκτήματα, όπως δείχνει η δυτική εμπειρία, οι τεχνολογίες Big Data βοηθούν στην λύσει με επιτυχία, ως σύγχρονες επιχειρηματικές εργασίες και την αύξηση της ανταγωνιστικότητας, καθώς και εργασίες που σχετίζονται άμεσα με τη ζωή των ανθρώπων. Οι ρωσικές εταιρείες βρίσκονται ήδη στο δρόμο της εφαρμογής τεχνολογιών Big Data τόσο στον παραγωγικό όσο και στον δημόσιο τομέα, καθώς ο όγκος των πληροφοριών σχεδόν διπλασιάζεται κάθε χρόνο. Με τον καιρό, πολλοί τομείς της ζωής μας θα αλλάξουν υπό την επίδραση των Μεγάλων Δεδομένων.

Παραπομπές σε πηγές1.BudzkovV. I. Συστήματα υψηλής διαθεσιμότητας και Big Data // Big data in the national economy 2013. P. 1619.2. Korotkova T. "EMC Data Lake 2.0 - a way of transition to big data analytics and the digital economy" http://bigdata. cnews.ru/ news/line/20151203_emc_data_lake_20_pomozhet_perejti_k_analitike.3.Kiryanova A. «Τα μεγάλα δεδομένα δεν έχουν γίνει επικρατέστερα στις ρωσικές τράπεζες» http://www.cnews.ru/news/top/bolshie_dannye_ne_stali_k_analitike: Big data έχει έρθει στη Ρωσία” http://www.cnews.ru/news/top/bolshie_dannye_ne_stali_mejnstrimom.4.CNews ://bigdata.cnews.ru/articles/infografika_bolshie_dannye_prishli_v_rossiyu.5.CNews"Infographics: How Retail Data" be Uses καλυμμένα για να διατηρηθούν οι αρχικές πηγές δεδομένων της εταιρείας πρέπει να είναι βέβαιοι ότι παρακολουθούνται και υποστηρίζονται όλες οι απαιτήσεις ασφάλειας δεδομένων. Η εφαρμογή λύσεων Big Data μπορεί να οδηγήσει στη δημιουργία ή την ανακάλυψη προηγουμένως εμπιστευτικών πληροφοριών : BigData Technologies" http://bigdata. cnews.ru/articles/big_data_v_zhizni_cheloveka.7.CNews"Infographics: Τι μπορούν να κάνουν τα μεγάλα δεδομένα στις τράπεζες" http://bigdata.cnews.ru/articles/infografika_chto_mogut_bolshie_dannye.8.Moscow Exchange " Αναλυτική ανασκόπηση της αγοράς δεδομένων της Big ://habrahabr.ru/company/moex/blog/256747/9. Big Data (Big Data). http://www.tadviser.ru/index.php/Article:Big_Data_(Big_Data).10.BigData – Electricity of the 21st Century http://bit.samag.ru/archive/article/1463.11.McKinsey Global Institute “ Bigdata: Το επόμενο σύνορο για την καινοτομία, τον ανταγωνισμό και την παραγωγικότητα» (Ιούνιος 2011).

Ο όρος "Big Data" μπορεί να είναι αναγνωρίσιμος σήμερα, αλλά εξακολουθεί να υπάρχει αρκετή σύγχυση σχετικά με το τι σημαίνει στην πραγματικότητα. Στην πραγματικότητα, η ιδέα εξελίσσεται συνεχώς και αναθεωρείται καθώς παραμένει η κινητήρια δύναμη πίσω από πολλά συνεχιζόμενα κύματα ψηφιακού μετασχηματισμού, συμπεριλαμβανομένης της τεχνητής νοημοσύνης, της επιστήμης δεδομένων και του Διαδικτύου των πραγμάτων. Τι είναι όμως η τεχνολογία Big-Data και πώς αλλάζει τον κόσμο μας; Ας προσπαθήσουμε να κατανοήσουμε την ουσία της τεχνολογίας Big Data και τι σημαίνει με απλά λόγια.

Η εκπληκτική ανάπτυξη των μεγάλων δεδομένων

Όλα ξεκίνησαν με μια «έκρηξη» στον όγκο των δεδομένων που έχουμε δημιουργήσει από την αυγή της ψηφιακής εποχής. Αυτό οφείλεται σε μεγάλο βαθμό στην ανάπτυξη των υπολογιστών, του Διαδικτύου και των τεχνολογιών που μπορούν να «αρπάξουν» δεδομένα από τον κόσμο γύρω μας. Τα δεδομένα από μόνα τους δεν είναι μια νέα εφεύρεση. Ακόμη και πριν από την εποχή των υπολογιστών και των βάσεων δεδομένων, χρησιμοποιούσαμε εγγραφές συναλλαγών σε χαρτί, εγγραφές πελατών και αρχεία αρχειοθέτησης, τα οποία είναι δεδομένα. Οι υπολογιστές, ειδικά τα υπολογιστικά φύλλα και οι βάσεις δεδομένων, μας έχουν διευκολύνει την αποθήκευση και την οργάνωση δεδομένων σε μεγάλη κλίμακα. Ξαφνικά, οι πληροφορίες είναι διαθέσιμες με ένα κλικ του ποντικιού.

Ωστόσο, έχουμε προχωρήσει πολύ από τους αρχικούς πίνακες και βάσεις δεδομένων. Σήμερα, κάθε δύο μέρες δημιουργούμε όσα δεδομένα λάβαμε από την αρχή μέχρι το έτος 2000. Σωστά, κάθε δύο μέρες. Και ο όγκος των δεδομένων που δημιουργούμε συνεχίζει να εκτοξεύεται στα ύψη. έως το 2020, η ποσότητα των διαθέσιμων ψηφιακών πληροφοριών θα αυξηθεί από περίπου 5 zettabyte σε 20 zettabyte.

Σήμερα, σχεδόν κάθε ενέργεια που κάνουμε αφήνει το σημάδι της. Παράγουμε δεδομένα όποτε έχουμε πρόσβαση στο Διαδίκτυο, όταν μεταφέρουμε τα smartphone μας εξοπλισμένα με μηχανή αναζήτησης, όταν μιλάμε με τους γνωστούς μας μέσω κοινωνικών δικτύων ή συνομιλιών κ.λπ. Επιπλέον, ο όγκος των δεδομένων που παράγονται από μηχανή αυξάνεται επίσης γρήγορα. Τα δεδομένα δημιουργούνται και μοιράζονται όταν οι έξυπνες οικιακές συσκευές μας επικοινωνούν μεταξύ τους ή με τους οικιακούς διακομιστές τους. Ο βιομηχανικός εξοπλισμός σε εργοστάσια και εργοστάσια εξοπλίζεται όλο και περισσότερο με αισθητήρες που συσσωρεύουν και μεταδίδουν δεδομένα.

Ο όρος "Big Data" αναφέρεται στη συλλογή όλων αυτών των δεδομένων και στην ικανότητά μας να τα χρησιμοποιούμε προς όφελός μας σε ένα ευρύ φάσμα τομέων, συμπεριλαμβανομένων των επιχειρήσεων.

Πώς λειτουργεί η τεχνολογία Big Data;

Τα Big Data λειτουργούν με βάση την αρχή: όσο περισσότερα γνωρίζετε για ένα συγκεκριμένο θέμα ή φαινόμενο, τόσο πιο αξιόπιστα μπορείτε να επιτύχετε μια νέα κατανόηση και να προβλέψετε τι θα συμβεί στο μέλλον. Συγκρίνοντας περισσότερα σημεία δεδομένων, προκύπτουν σχέσεις που προηγουμένως ήταν κρυμμένες και αυτές οι σχέσεις μας επιτρέπουν να μαθαίνουμε και να λαμβάνουμε καλύτερες αποφάσεις. Αυτό γίνεται πιο συχνά μέσω μιας διαδικασίας που περιλαμβάνει τη δημιουργία μοντέλων από τα δεδομένα που μπορούμε να συλλέξουμε και στη συνέχεια την εκτέλεση μιας προσομοίωσης που τροποποιεί τις τιμές των σημείων δεδομένων κάθε φορά και βλέπει πώς επηρεάζουν τα αποτελέσματά μας. Αυτή η διαδικασία είναι αυτοματοποιημένη - οι σύγχρονες τεχνολογίες ανάλυσης θα εκτελέσουν εκατομμύρια από αυτές τις προσομοιώσεις, τροποποιώντας κάθε δυνατή μεταβλητή μέχρι να βρουν ένα μοντέλο - ή ιδέα - που βοηθά στην επίλυση του προβλήματος που εργάζονται.

Ο Μπιλ Γκέιτς κρέμεται πάνω από τα περιεχόμενα χαρτιού ενός CD

Μέχρι πρόσφατα, τα δεδομένα περιορίζονταν σε υπολογιστικά φύλλα ή βάσεις δεδομένων - και όλα ήταν πολύ οργανωμένα και τακτοποιημένα. Οτιδήποτε δεν μπορούσε εύκολα να οργανωθεί σε σειρές και στήλες θεωρήθηκε πολύ περίπλοκο για να εργαστεί και αγνοήθηκε. Ωστόσο, η πρόοδος στην αποθήκευση και την ανάλυση σημαίνει ότι μπορούμε να συλλάβουμε, να αποθηκεύσουμε και να επεξεργαστούμε μεγάλο όγκο δεδομένων διαφόρων τύπων. Ως αποτέλεσμα, «δεδομένα» σήμερα μπορεί να σημαίνει οτιδήποτε, από βάσεις δεδομένων έως φωτογραφίες, βίντεο, ηχογραφήσεις, γραπτά κείμενα και δεδομένα αισθητήρων.

Για να κατανοήσουμε όλα αυτά τα ακατάστατα δεδομένα, τα έργα που βασίζονται σε Big Data χρησιμοποιούν συχνά αναλύσεις αιχμής, χρησιμοποιώντας τεχνητή νοημοσύνη και μηχανική μάθηση. Διδάσκοντας στους υπολογιστές να αναγνωρίζουν τι είναι συγκεκριμένα δεδομένα —για παράδειγμα, μέσω της αναγνώρισης προτύπων ή της επεξεργασίας φυσικής γλώσσας— μπορούμε να τους διδάξουμε να αναγνωρίζουν μοτίβα πολύ πιο γρήγορα και πιο αξιόπιστα από ό,τι μπορούμε.

Πώς χρησιμοποιούνται τα Big Data;

Αυτή η συνεχώς αυξανόμενη ροή πληροφοριών σχετικά με δεδομένα αισθητήρων, κείμενο, φωνή, φωτογραφία και δεδομένα βίντεο σημαίνει ότι μπορούμε πλέον να χρησιμοποιούμε δεδομένα με τρόπους που ήταν αδιανόητοι μόλις πριν από λίγα χρόνια. Αυτό φέρνει επαναστατικές αλλαγές στον επιχειρηματικό κόσμο σχεδόν σε κάθε κλάδο. Οι εταιρείες σήμερα μπορούν να προβλέψουν, με απίστευτη ακρίβεια, ποιες συγκεκριμένες κατηγορίες πελατών θα θέλουν να κάνουν μια απόκτηση και πότε. Τα Big Data βοηθούν επίσης τις εταιρείες να εκτελούν τις δραστηριότητές τους πολύ πιο αποτελεσματικά.

Ακόμη και εκτός επιχείρησης, τα έργα Big Data συμβάλλουν ήδη στην αλλαγή του κόσμου μας με διάφορους τρόπους:

  • Βελτίωση της υγειονομικής περίθαλψης - Η ιατρική που βασίζεται σε δεδομένα είναι σε θέση να αναλύει τεράστιες ποσότητες ιατρικών πληροφοριών και εικόνων για μοντέλα που μπορούν να βοηθήσουν στην ανίχνευση της νόσου σε πρώιμο στάδιο και στην ανάπτυξη νέων φαρμάκων.
  • Πρόβλεψη και αντιμετώπιση φυσικών και ανθρωπογενών καταστροφών. Τα δεδομένα αισθητήρων μπορούν να αναλυθούν για να προβλέψουν πού μπορεί να συμβούν σεισμοί και τα πρότυπα ανθρώπινης συμπεριφοράς παρέχουν ενδείξεις που βοηθούν τους οργανισμούς να παρέχουν βοήθεια στους επιζώντες. Η τεχνολογία Big Data χρησιμοποιείται επίσης για την παρακολούθηση και την προστασία της ροής προσφύγων από εμπόλεμες ζώνες σε όλο τον κόσμο.
  • Πρόληψη του εγκλήματος. Οι αστυνομικές δυνάμεις χρησιμοποιούν όλο και περισσότερο στρατηγικές που βασίζονται σε δεδομένα που ενσωματώνουν τις δικές τους πληροφορίες και πληροφορίες δημόσιου τομέα για να κάνουν καλύτερη χρήση των πόρων και να λαμβάνουν αντίμετρα όπου χρειάζεται.

Τα καλύτερα βιβλία για την τεχνολογία Big-Data

  • Ολοι λένε ψέματα. Οι μηχανές αναζήτησης, τα μεγάλα δεδομένα και το Διαδίκτυο γνωρίζουν τα πάντα για εσάς.
  • ΜΕΓΑΛΑ ΔΕΔΟΜΕΝΑ. Όλη η τεχνολογία σε ένα βιβλίο.
  • βιομηχανία ευτυχίας. Πώς τα Μεγάλα Δεδομένα και οι νέες τεχνολογίες συμβάλλουν στην προσθήκη συναισθημάτων σε αγαθά και υπηρεσίες.
  • Μια επανάσταση στην ανάλυση. Πώς να βελτιώσετε την επιχείρησή σας με λειτουργικά αναλυτικά στοιχεία στην εποχή των Big Data.

Προβλήματα με μεγάλα δεδομένα

Τα Big Data μας δίνουν πρωτοφανείς πληροφορίες και ευκαιρίες, αλλά εγείρουν επίσης ζητήματα και ερωτήματα που πρέπει να αντιμετωπιστούν:

  • Απόρρητο Δεδομένων – Τα Μεγάλα Δεδομένα που παράγουμε σήμερα περιέχουν πολλές πληροφορίες σχετικά με την προσωπική μας ζωή που έχουμε κάθε δικαίωμα να κρατήσουμε ιδιωτικές. Όλο και πιο συχνά, μας ζητείται να βρούμε μια ισορροπία μεταξύ του όγκου των προσωπικών δεδομένων που αποκαλύπτουμε και της ευκολίας που προσφέρουν οι εφαρμογές και οι υπηρεσίες που βασίζονται στη χρήση Big Data.
  • Προστασία δεδομένων - Ακόμα κι αν πιστεύουμε ότι είμαστε εντάξει με κάποιον που έχει τα δεδομένα μας για συγκεκριμένο σκοπό, μπορούμε να τον εμπιστευτούμε ότι θα διατηρήσει τα δεδομένα μας ασφαλή;
  • Διακρίσεις δεδομένων - όταν όλες οι πληροφορίες είναι γνωστές, θα είναι αποδεκτό να γίνονται διακρίσεις εις βάρος ανθρώπων με βάση δεδομένα από την προσωπική τους ζωή; Χρησιμοποιούμε ήδη πιστωτικά σκορ για να αποφασίσουμε ποιος μπορεί να δανειστεί χρήματα και η ασφάλιση βασίζεται επίσης σε μεγάλο βαθμό στα δεδομένα. Θα πρέπει να περιμένουμε να αναλυθούμε και να αξιολογηθούμε με περισσότερες λεπτομέρειες, αλλά θα πρέπει να ληφθεί μέριμνα ώστε αυτό να μην περιπλέξει τη ζωή όσων έχουν λιγότερους πόρους και περιορισμένη πρόσβαση σε πληροφορίες.

Η ολοκλήρωση αυτών των εργασιών είναι ένα σημαντικό μέρος των Μεγάλων Δεδομένων και πρέπει να αντιμετωπιστούν από οργανισμούς που θέλουν να χρησιμοποιήσουν τέτοια δεδομένα. Σε αντίθετη περίπτωση μπορεί να αφήσει μια επιχείρηση ευάλωτη, όχι μόνο ως προς τη φήμη της, αλλά και νομικά και οικονομικά.

Κοιτάζοντας το μέλλον

Τα δεδομένα αλλάζουν τον κόσμο και τις ζωές μας με πρωτοφανή ρυθμό. Αν τα Big Data είναι ικανά για όλα αυτά σήμερα, φανταστείτε τι θα είναι ικανά αύριο. Ο όγκος των δεδομένων που έχουμε στη διάθεσή μας θα αυξηθεί μόνο και η τεχνολογία ανάλυσης θα γίνει ακόμα πιο προηγμένη.

Για τις επιχειρήσεις, η δυνατότητα εφαρμογής Big Data θα γίνει όλο και πιο κρίσιμη τα επόμενα χρόνια. Μόνο όσες εταιρείες βλέπουν τα δεδομένα ως στρατηγικό πλεονέκτημα θα επιβιώσουν και θα ευδοκιμήσουν. Όσοι αγνοούν αυτή την επανάσταση κινδυνεύουν να μείνουν πίσω.



μεγάλα δεδομένα- Αγγλικά. "μεγάλα δεδομένα". Ο όρος εμφανίστηκε ως εναλλακτική λύση στο DBMS και έγινε μία από τις κύριες τάσεις της υποδομής πληροφορικής όταν οι περισσότεροι από τους γίγαντες του κλάδου - IBM, Microsoft, HP, Oracle και άλλοι άρχισαν να χρησιμοποιούν αυτήν την έννοια στις στρατηγικές τους. Τα Big Data νοούνται ως μια τεράστια (εκατοντάδες terabyte) συστοιχία δεδομένων που δεν μπορούν να υποστούν επεξεργασία με παραδοσιακούς τρόπους. μερικές φορές - εργαλεία και μέθοδοι για την επεξεργασία αυτών των δεδομένων.

Παραδείγματα πηγών Big Data: συμβάντα RFID, μηνύματα σε κοινωνικά δίκτυα, μετεωρολογικές στατιστικές, πληροφορίες σχετικά με τη θέση των συνδρομητών δικτύων κινητής τηλεφωνίας και δεδομένα από συσκευές εγγραφής ήχου/βίντεο. Ως εκ τούτου, τα "μεγάλα δεδομένα" χρησιμοποιούνται ευρέως στην κατασκευή, την υγειονομική περίθαλψη, την κυβέρνηση, τις επιχειρήσεις του Διαδικτύου - ειδικότερα, στην ανάλυση του κοινού-στόχου.

Χαρακτηριστικό γνώρισμα

Τα σημάδια των μεγάλων δεδομένων ορίζονται ως "τρία Vs": Όγκος - όγκος (πραγματικά μεγάλος). ποικιλία - ετερογένεια, σύνολο. ταχύτητα - ταχύτητα (απαιτεί πολύ γρήγορη επεξεργασία).

Τα μεγάλα δεδομένα είναι τις περισσότερες φορές μη δομημένα και απαιτούνται ειδικοί αλγόριθμοι για την επεξεργασία τους. Οι μέθοδοι ανάλυσης μεγάλων δεδομένων περιλαμβάνουν:

  • ("εξόρυξη δεδομένων") - ένα σύνολο προσεγγίσεων για την ανακάλυψη κρυμμένων χρήσιμων γνώσεων που δεν μπορούν να ληφθούν με τυπικές μεθόδους.
  • Crowdsourcing (πλήθος - "πλήθος", προμήθεια - χρήση ως πηγή) - η επίλυση σημαντικών εργασιών με τις κοινές προσπάθειες εθελοντών που δεν είναι σε υποχρεωτική σύμβαση εργασίας και σχέσεις, συντονισμός δραστηριοτήτων με χρήση εργαλείων πληροφορικής.
  • Data Fusion & Integration ("μίξη και ενσωμάτωση δεδομένων") - ένα σύνολο μεθόδων για τη σύνδεση πολλαπλών πηγών ως μέρος της βαθιάς ανάλυσης.
  • Η μηχανική μάθηση ("μηχανική μάθηση") είναι μια υποενότητα της έρευνας τεχνητής νοημοσύνης που μελετά μεθόδους για τη χρήση στατιστικής ανάλυσης και τη λήψη προβλέψεων με βάση βασικά μοντέλα.
  • αναγνώριση μοτίβων (για παράδειγμα, αναγνώριση προσώπου στο σκόπευτρο μιας κάμερας ή βιντεοκάμερας).
  • χωρική ανάλυση - η χρήση της τοπολογίας, της γεωμετρίας και της γεωγραφίας για τη δημιουργία δεδομένων.
  • οπτικοποίηση δεδομένων - η έξοδος αναλυτικών πληροφοριών με τη μορφή εικονογραφήσεων και διαγραμμάτων χρησιμοποιώντας διαδραστικά εργαλεία και κινούμενα σχέδια για την παρακολούθηση των αποτελεσμάτων και τη δημιουργία της βάσης για περαιτέρω παρακολούθηση.

Η αποθήκευση και η ανάλυση των πληροφοριών πραγματοποιείται σε μεγάλο αριθμό διακομιστών υψηλής απόδοσης. Η βασική τεχνολογία είναι το Hadoop, το οποίο είναι ανοιχτού κώδικα.

Δεδομένου ότι ο όγκος των πληροφοριών θα αυξάνεται μόνο με την πάροδο του χρόνου, η δυσκολία δεν έγκειται στη λήψη των δεδομένων, αλλά στον τρόπο επεξεργασίας τους με το μέγιστο όφελος. Γενικά, η διαδικασία εργασίας με Big Data περιλαμβάνει: τη συλλογή πληροφοριών, τη διάρθρωσή τους, τη δημιουργία πληροφοριών και πλαισίων και την ανάπτυξη προτάσεων για δράση. Ακόμη και πριν από το πρώτο στάδιο, είναι σημαντικό να καθοριστεί με σαφήνεια ο σκοπός της εργασίας: ποια ακριβώς δεδομένα χρειάζονται, για παράδειγμα, για τον προσδιορισμό του κοινού-στόχου του προϊόντος. Διαφορετικά, υπάρχει ο κίνδυνος να λάβετε πολλές πληροφορίες χωρίς να κατανοήσετε πώς ακριβώς μπορούν να χρησιμοποιηθούν.