خانه پنجره ها سرعت را در ویژگی های داده های بزرگ مشخص می کند. Big Data و blockchain پیشرفتی در زمینه تجزیه و تحلیل داده ها هستند. گارتنر افسانه های مربوط به کلان داده را کنار می گذارد

سرعت را در ویژگی های داده های بزرگ مشخص می کند. Big Data و blockchain پیشرفتی در زمینه تجزیه و تحلیل داده ها هستند. گارتنر افسانه های مربوط به کلان داده را کنار می گذارد

کلان داده یک اصطلاح گسترده برای استراتژی ها و فناوری های غیر متعارف مورد نیاز برای جمع آوری، سازماندهی و پردازش اطلاعات از مجموعه داده های بزرگ است. اگرچه مشکل کار با داده های بزرگتر از قدرت پردازشیا قابلیت های ذخیره سازی یک کامپیوتر جدید نیست، دامنه و ارزش این نوع محاسبات در سال های اخیر به طور قابل توجهی گسترش یافته است.

این مقاله شما را با مفاهیم اولیه ای که ممکن است در حین کاوش داده های بزرگ با آنها روبرو شوید، راهنمایی می کند. همچنین برخی از فرآیندها و فناوری هایی را که در حال حاضر در این زمینه استفاده می شود، مورد بحث قرار می دهد.

کلان داده چیست؟

بیان تعریف دقیق "داده های بزرگ" دشوار است زیرا پروژه ها، فروشندگان، متخصصان و متخصصان تجاری از آن به روش های بسیار متفاوتی استفاده می کنند. با در نظر گرفتن این موضوع، داده های بزرگ را می توان به صورت زیر تعریف کرد:

مجموعه داده های بزرگ
دسته ای از استراتژی ها و فناوری های محاسباتی که برای پردازش مجموعه داده های بزرگ استفاده می شود.

در این زمینه، "مجموعه داده های بزرگ" به معنای مجموعه ای از داده ها است که برای پردازش یا ذخیره با استفاده از ابزارهای سنتی یا روی یک رایانه بسیار بزرگ است. این بدان معنی است که مقیاس کلی مجموعه داده های بزرگ به طور مداوم در حال تغییر است و می تواند به طور قابل توجهی از موردی به مورد دیگر متفاوت باشد.

سیستم های کلان داده

الزامات اساسی برای کار با داده های بزرگ مانند هر مجموعه داده دیگری است. با این حال، مقیاس عظیم، سرعت پردازش و ویژگی‌های داده‌ای که در هر مرحله از فرآیند با آن مواجه می‌شوند، چالش‌های جدیدی را برای توسعه ابزار ایجاد می‌کنند. هدف بیشتر سیستم‌های کلان داده درک و برقراری ارتباط با حجم زیادی از داده‌های ناهمگن است که با استفاده از روش‌های مرسوم امکان‌پذیر نخواهد بود.

در سال 2001، داگ لین از گارتنر، "سه V از داده های بزرگ" را برای توصیف برخی از ویژگی هایی که پردازش کلان داده را از سایر انواع پردازش داده متمایز می کند، معرفی کرد:

حجم (حجم داده ها).
سرعت (سرعت انباشت و پردازش داده ها).
تنوع (انواع انواع داده های پردازش شده).

حجم داده ها

مقیاس بزرگ اطلاعات پردازش شده به تعریف سیستم های کلان داده کمک می کند. این مجموعه داده‌ها می‌توانند مرتبه‌های بزرگ‌تری نسبت به مجموعه‌های داده سنتی داشته باشند و در هر مرحله از پردازش و ذخیره‌سازی به توجه بیشتری نیاز دارند.

از آنجایی که تقاضاها بیش از توانایی های یک کامپیوتر است، مشکل ادغام، توزیع، و هماهنگی منابع از گروه های کامپیوتری اغلب به وجود می آید. مدیریت خوشه و الگوریتم‌هایی که می‌توانند وظایف را به بخش‌های کوچک‌تر تقسیم کنند، در این زمینه اهمیت فزاینده‌ای پیدا می‌کنند.

سرعت انباشت و پردازش

دومین ویژگی که داده های بزرگ را به طور قابل توجهی از سایر سیستم های داده متمایز می کند، سرعت حرکت اطلاعات در سیستم است. داده ها اغلب از چندین منبع وارد سیستم می شوند و باید در زمان واقعی پردازش شوند تا وضعیت فعلی سیستم به روز شود.

این تاکید بر آنی بازخوردبسیاری از پزشکان را وادار کرد تا رویکرد بسته محور را کنار بگذارند و به سیستم پخش بلادرنگ ترجیح دهند. داده ها به طور مداوم در حال افزودن، پردازش و تجزیه و تحلیل هستند تا با هجوم اطلاعات جدید همگام باشند و بینش های ارزشمندی را در اوایل، زمانی که بیشترین ارتباط را دارند، ارائه دهند. این نیاز به سیستم‌های قوی با اجزای بسیار در دسترس برای محافظت در برابر خرابی در طول خط لوله داده دارد.

انواع داده های پردازش شده

به دلیل گستره وسیع منابع پردازش شده و کیفیت نسبی آنها، چالش های منحصر به فرد زیادی در کلان داده وجود دارد.

داده‌ها می‌توانند از سیستم‌های داخلی مانند گزارش‌های برنامه‌ها و سرورها، از فیدهای رسانه‌های اجتماعی و دیگر APIهای خارجی، از حسگرهای دستگاه فیزیکی و از منابع دیگر به دست آیند. هدف سیستم های کلان داده پردازش داده های بالقوه مفید، صرف نظر از منشأ، با ترکیب همه اطلاعات در یک سیستم واحد است.

فرمت ها و انواع رسانه ها نیز می توانند به طور قابل توجهی متفاوت باشند. فایل های رسانه ای (تصاویر، ویدئو و صدا) با آنها ترکیب می شوند فایل های متنیسیستم‌های پردازش داده‌های سنتی بیشتر انتظار دارند که داده‌ها از قبل برچسب‌گذاری شده، قالب‌بندی شده و سازمان‌دهی شده وارد خط لوله شوند، اما سیستم‌های کلان داده معمولاً داده‌ها را در تلاش برای حفظ آن‌ها جذب و ذخیره می‌کنند. حالت اولیه. در حالت ایده آل، هرگونه تغییر یا تغییر در داده های خام در حین پردازش در حافظه رخ می دهد.

سایر خصوصیات

با گذشت زمان، متخصصان و سازمان‌ها توسعه‌های «سه در مقابل» اصلی را پیشنهاد کرده‌اند، اگرچه این نوآوری‌ها بیشتر به توصیف مشکلات می‌پردازند تا ویژگی‌های کلان داده.

صحت: تنوع منابع و پیچیدگی پردازش می تواند منجر به مشکلاتی در ارزیابی کیفیت داده ها (و در نتیجه کیفیت تجزیه و تحلیل حاصل) شود.
تغییرپذیری: تغییرات در داده ها منجر به تغییرات گسترده در کیفیت می شود. منابع اضافی ممکن است برای شناسایی، پردازش یا فیلتر کردن داده‌های با کیفیت پایین برای بهبود کیفیت داده مورد نیاز باشد.
ارزش: هدف نهایی داده های بزرگ ارزش است. گاهی اوقات سیستم ها و فرآیندها بسیار پیچیده هستند و استفاده از داده ها و استخراج مقادیر واقعی را دشوار می کند.

چرخه حیات داده های بزرگ

بنابراین، داده های بزرگ در واقع چگونه پردازش می شوند؟ چندین رویکرد مختلف برای پیاده سازی وجود دارد، اما اشتراکاتی در استراتژی ها و نرم افزارها وجود دارد.

وارد کردن داده ها به سیستم
ذخیره داده ها در ذخیره سازی
محاسبات و تجزیه و تحلیل داده ها
تجسم نتایج

قبل از اینکه به جزئیات این چهار دسته از گردش کارها نگاه کنیم، اجازه دهید در مورد محاسبات خوشه ای صحبت کنیم، یک استراتژی مهم که توسط بسیاری از ابزارهای کلان داده استفاده می شود. راه اندازی یک خوشه محاسباتی فناوری اصلی مورد استفاده در هر مرحله از چرخه حیات است.

محاسبات خوشه ای

به دلیل کیفیت داده های بزرگ، رایانه های فردی برای پردازش داده ها مناسب نیستند. خوشه ها برای این کار مناسب تر هستند زیرا می توانند نیازهای ذخیره سازی و محاسباتی داده های بزرگ را برطرف کنند.

نرم‌افزار خوشه‌بندی کلان داده منابع بسیاری از ماشین‌های کوچک را با هم ترکیب می‌کند و با هدف ارائه تعدادی از مزایا:

Resource Pooling: پردازش مجموعه داده های بزرگ به مقادیر زیادی از CPU و منابع حافظه و همچنین فضای ذخیره سازی زیادی نیاز دارد.
در دسترس بودن بالا: خوشه ها می توانند سطوح مختلفی از تحمل خطا و در دسترس بودن را ارائه دهند، به طوری که خرابی های سخت افزاری یا نرم افزاری بر دسترسی و پردازش داده ها تأثیر نمی گذارد. این به ویژه برای تجزیه و تحلیل زمان واقعی مهم است.
مقیاس پذیری: خوشه ها از مقیاس بندی سریع افقی پشتیبانی می کنند (افزودن ماشین های جدید به خوشه).

برای کار در یک خوشه، به ابزارهایی برای مدیریت عضویت در خوشه، هماهنگ کردن توزیع منابع و برنامه‌ریزی کار با گره‌ها نیاز دارید. عضویت در کلاستر و تخصیص منابع را می توان با استفاده از برنامه هایی مانند Hadoop YARN (Yet Another Resource Negotiator) یا Apache Mesos انجام داد.

یک خوشه محاسباتی پیش ساخته اغلب به عنوان ستون فقرات عمل می کند که سایر نرم افزارها برای پردازش داده ها با آن تعامل دارند. ماشین‌های شرکت‌کننده در یک خوشه محاسباتی نیز معمولاً با مدیریت یک سیستم ذخیره‌سازی توزیع شده مرتبط هستند.

در حال دریافت اطلاعات

هضم داده ها فرآیند افزودن داده های خام به سیستم است. پیچیدگی این عملیات تا حد زیادی به فرمت و کیفیت منابع داده و میزان برآورده شدن داده ها با الزامات پردازش بستگی دارد.

شما می توانید داده های بزرگ را با استفاده از ابزارهای خاص به سیستم اضافه کنید. فناوری هایی مانند Apache Sqoop می توانند داده های موجود را از پایگاه داده های رابطه ای گرفته و به یک سیستم کلان داده اضافه کنند. همچنین می توانید از Apache Flume و Apache Chukwa استفاده کنید - پروژه هایی که برای جمع آوری و وارد کردن گزارش های برنامه و سرور طراحی شده اند. کارگزاران پیام مانند آپاچی کافکا را می توان به عنوان رابط بین مولدهای مختلف داده و یک سیستم کلان داده استفاده کرد. چارچوب هایی مانند Gobblin می توانند خروجی همه ابزارها را در انتهای خط لوله ترکیب و بهینه کنند.

در طول مصرف داده ها، تجزیه و تحلیل، مرتب سازی و برچسب گذاری معمولا انجام می شود. این فرآیند گاهی اوقات ETL (extract, transform, load) نامیده می شود که مخفف استخراج، تبدیل و بار است. اگرچه این اصطلاح معمولاً به فرآیندهای انبار داده قدیمی اشاره دارد، اما گاهی اوقات برای سیستم های کلان داده به کار می رود. عملیات معمولی شامل اصلاح داده‌های دریافتی برای قالب‌بندی، دسته‌بندی و برچسب‌گذاری، فیلتر کردن یا بررسی داده‌ها برای مطابقت است.

در حالت ایده آل، داده های دریافتی تحت حداقل قالب بندی قرار می گیرند.

ذخیره سازی داده ها

پس از دریافت، داده ها به اجزایی منتقل می شوند که ذخیره سازی را مدیریت می کنند.

به طور معمول، سیستم های فایل توزیع شده برای ذخیره داده های خام استفاده می شوند. راه حل هایی مانند HDFS از Apache Hadoop اجازه می دهد تا مقادیر زیادی داده در چندین گره در یک خوشه نوشته شود. این سیستم دسترسی به منابع محاسباتی را به داده‌ها فراهم می‌کند، می‌تواند داده‌ها را در RAM کلاستر برای عملیات حافظه بارگذاری کند و خرابی‌های اجزا را مدیریت کند. سایر سیستم های فایل توزیع شده را می توان به جای HDFS استفاده کرد، از جمله Ceph و GlusterFS.

همچنین می‌توان داده‌ها را برای دسترسی ساختاریافته‌تر به سیستم‌های توزیع‌شده دیگر وارد کرد. پایگاه داده های توزیع شده، به ویژه پایگاه های داده NoSQL، برای این نقش مناسب هستند زیرا می توانند داده های ناهمگن را مدیریت کنند. انواع مختلفی از پایگاه داده های توزیع شده وجود دارد، انتخاب بستگی به نحوه سازماندهی و ارائه داده های خود دارد.

محاسبات و تجزیه و تحلیل داده ها

هنگامی که داده ها در دسترس هستند، سیستم می تواند پردازش را آغاز کند. لایه محاسباتی شاید آزادترین بخش سیستم باشد، زیرا الزامات و رویکردها در اینجا بسته به نوع اطلاعات می توانند به طور قابل توجهی متفاوت باشند. داده ها اغلب به طور مکرر پردازش می شوند، یا با استفاده از یک ابزار واحد یا با استفاده از تعدادی ابزار برای پردازش انواع مختلف داده ها.

پردازش دسته ای یکی از روش های محاسبه در مجموعه های بزرگداده ها. این فرآیند شامل شکستن داده ها به بخش های کوچکتر، زمان بندی هر قسمت برای پردازش در ماشین جداگانه، مرتب سازی مجدد داده ها بر اساس نتایج میانی و سپس محاسبه و جمع آوری نتیجه نهایی است. MapReduce Apache Hadoop از این استراتژی استفاده می کند. پردازش دسته ای هنگام کار با مجموعه داده های بسیار بزرگ که به محاسبات بسیار زیادی نیاز دارند بسیار مفید است.

سایر بارهای کاری نیاز به پردازش بلادرنگ دارند. با این حال، اطلاعات باید بلافاصله پردازش و آماده شوند و سیستم باید به موقع با در دسترس قرار گرفتن اطلاعات جدید پاسخ دهد. یکی از راه‌های پیاده‌سازی پردازش بلادرنگ، پردازش یک جریان پیوسته از داده‌ها متشکل از عناصر منفرد است. یکی دیگه ویژگی های عمومیپردازنده های بلادرنگ داده ها را در حافظه خوشه ای محاسبه می کنند و از نوشتن روی دیسک اجتناب می کنند.

Apache Storm، Apache Flink و Apache Spark راه های مختلفی را برای اجرای پردازش بلادرنگ ارائه می دهند. این فناوری‌های انعطاف‌پذیر به شما امکان می‌دهند بهترین رویکرد را برای هر مشکل فردی انتخاب کنید. به طور کلی، پردازش بلادرنگ برای تجزیه و تحلیل داده‌های کوچکی که تغییر می‌کنند یا به سرعت به سیستم اضافه می‌شوند، مناسب‌تر است.

همه این برنامه ها چارچوب هستند. با این حال، روش های بسیار دیگری برای محاسبه یا تجزیه و تحلیل داده ها در یک سیستم کلان داده وجود دارد. این ابزارها اغلب به چارچوب های فوق متصل می شوند و رابط های اضافی برای تعامل با لایه های زیرین ارائه می دهند. به عنوان مثال، Apache Hive یک رابط انبار داده برای Hadoop، Apache Pig یک رابط پرس و جو ارائه می دهد، و تعاملات داده SQL توسط Apache Drill، Apache Impala، Apache Spark SQL و Presto ارائه می شود. یادگیری ماشین از Apache SystemML، Apache Mahout و MLlib از Apache Spark استفاده می کند. برای برنامه نویسی تحلیلی مستقیم، که به طور گسترده توسط اکوسیستم داده پشتیبانی می شود، از R و Python استفاده می شود.

تجسم نتایج

اغلب، تشخیص روندها یا تغییرات داده ها در طول زمان مهمتر از مقادیر به دست آمده است. تجسم داده ها یکی از مفیدترین راه ها برای شناسایی روندها و سازماندهی تعداد زیادی از نقاط داده است.

پردازش بلادرنگ برای تجسم معیارهای برنامه و سرور استفاده می شود. داده ها به طور مکرر تغییر می کنند و تغییرات زیاد در معیارها معمولاً تأثیر قابل توجهی بر سلامت سیستم ها یا سازمان ها نشان می دهد. پروژه هایی مانند Prometheus را می توان برای پردازش جریان های داده و سری های زمانی و تجسم این اطلاعات استفاده کرد.

یکی از راه‌های رایج برای تجسم داده‌ها، پشته Elastic است که قبلا به عنوان پشته ELK شناخته می‌شد. Logstash برای جمع آوری داده ها، Elasticsearch برای نمایه سازی داده ها و Kibana برای تجسم استفاده می شود. پشته Elastic می تواند با داده های بزرگ کار کند، نتایج محاسبات را تجسم کند یا با معیارهای خام تعامل داشته باشد. یک پشته مشابه را می توان با ترکیب Apache Solr برای نمایه سازی با یک چنگال Kibana به نام Banana برای تجسم به دست آورد. این پشته ابریشم نام دارد.

یکی دیگر از فناوری های تجسم برای تعامل با داده ها اسناد است. چنین پروژه هایی امکان کاوش و تجسم تعاملی داده ها را در قالبی مناسب فراهم می کند اشتراک گذاریو ارائه داده ها نمونه های محبوب این نوع رابط کاربری Jupyter Notebook و Apache Zeppelin هستند.

واژه نامه کلان داده

کلان داده یک اصطلاح گسترده برای مجموعه‌هایی از داده‌ها است که به دلیل حجم، سرعت و تنوع نمی‌توانند توسط رایانه‌ها یا ابزارهای معمولی به درستی پردازش شوند. این اصطلاح معمولاً برای فناوری ها و استراتژی های کار با چنین داده هایی نیز به کار می رود.
پردازش دسته ای یک استراتژی محاسباتی است که شامل پردازش داده ها در مجموعه های بزرگ است. به طور معمول، این روش برای کار با داده های غیر فوری ایده آل است.
محاسبات خوشه ای عملی است که منابع چند ماشین را با هم ترکیب می کند و قابلیت های مشترک آنها را برای انجام وظایف مدیریت می کند. در این مورد، یک لایه مدیریت خوشه مورد نیاز است که ارتباط بین گره‌ها را مدیریت کند.
دریاچه داده یک مخزن بزرگ از داده های جمع آوری شده در حالت نسبتا خام است. این اصطلاح اغلب برای اشاره به داده های بزرگ بدون ساختار و اغلب در حال تغییر استفاده می شود.
داده کاوی یک اصطلاح گسترده برای شیوه های مختلف یافتن الگوها در مجموعه داده های بزرگ است. این تلاشی است برای سازماندهی انبوهی از داده ها در مجموعه ای قابل فهم تر و منسجم تر از اطلاعات.
انبار داده یک مخزن بزرگ و سازمان یافته برای تجزیه و تحلیل و گزارش است. برخلاف دریاچه داده، یک انبار شامل داده های فرمت شده و به خوبی سازماندهی شده است که با منابع دیگر ادغام شده است. انبارهای داده اغلب در رابطه با داده های بزرگ ذکر می شوند، اما آنها اغلب اجزای سیستم های پردازش داده های معمولی هستند.
ETL (استخراج، تبدیل و بارگذاری) - استخراج، تبدیل و بارگذاری داده ها. این فرآیند به دست آوردن و آماده سازی داده های خام برای استفاده است. با انبارهای داده مرتبط است، اما ویژگی‌های این فرآیند در خطوط لوله سیستم‌های کلان داده نیز یافت می‌شود.
Hadoop یک پروژه منبع باز آپاچی است کد منبعبرای داده های بزرگ این شامل یک توزیع شده است سیستم فایلبه نام HDFS و یک خوشه و زمانبندی منابع به نام YARN. ممکن ها پردازش دسته ایارائه شده توسط موتور محاسبات MapReduce. استقرار مدرن Hadoop می تواند سایر سیستم های محاسباتی و تحلیلی را در کنار MapReduce اجرا کند.
محاسبات درون حافظه یک استراتژی است که شامل انتقال کل مجموعه داده های کاری به حافظه خوشه ای است. محاسبات میانی روی دیسک نوشته نمی شوند، در عوض در حافظه ذخیره می شوند. این به سیستم ها مزیت سرعت زیادی نسبت به سیستم های I/O-bound می دهد.
یادگیری ماشینی مطالعه و تمرین طراحی سیستم‌هایی است که می‌توانند بر اساس داده‌هایی که به آنها داده می‌شود، یاد بگیرند، تنظیم کنند و بهبود ببخشند. این معمولاً به معنای اجرای الگوریتم های پیش بینی و آماری است.
کاهش نقشه (با MapReduce از Hadoop اشتباه گرفته نشود) یک الگوریتم زمانبندی خوشه محاسباتی است. این فرآیند شامل تقسیم کار بین گره ها و به دست آوردن نتایج میانی، به هم زدن و سپس خروجی یک مقدار برای هر مجموعه است.
NoSQL یک اصطلاح گسترده است که به پایگاه های داده ای اطلاق می شود که خارج از مدل رابطه ای سنتی طراحی شده اند. پایگاه داده های NoSQL به دلیل انعطاف پذیری و معماری توزیع شده برای داده های بزرگ مناسب هستند.
پردازش جریانی، عمل محاسبه تک تک داده‌ها هنگام حرکت در یک سیستم است. این امکان تجزیه و تحلیل داده های بلادرنگ را فراهم می کند و برای پردازش تراکنش های حساس به زمان با استفاده از معیارهای سرعت بالا مناسب است.

برچسب ها: ,

بر اساس مواد تحقیق و روند

اطلاعات بزرگ"داده های بزرگ" چندین سال است که بحث مطبوعات IT و بازاریابی بوده است. و واضح است: فناوری های دیجیتالدر زندگی انسان مدرن نفوذ کرد، "همه چیز نوشته شده است." بیشترین حجم داده ها طرف های مختلفزندگی در حال رشد است و در عین حال امکانات ذخیره سازی اطلاعات در حال افزایش است.

فناوری های جهانی برای ذخیره سازی اطلاعات

منبع: هیلبرت و لوپز، «ظرفیت تکنولوژیکی جهان برای ذخیره، برقراری ارتباط و محاسبه اطلاعات»، Science، 2011 جهانی.

اکثر کارشناسان موافق هستند که تسریع رشد داده ها یک واقعیت عینی است. شبکه‌های اجتماعی، دستگاه‌های تلفن همراه، داده‌های دستگاه‌های اندازه‌گیری، اطلاعات تجاری - اینها تنها چند نوع منبع هستند که می‌توانند حجم عظیمی از اطلاعات را تولید کنند. با توجه به مطالعه IDCجهان دیجیتال، منتشر شده در سال 2012، در 8 سال آینده حجم داده ها در جهان به 40 ZB (زتابایت) می رسد که معادل 5200 گیگابایت برای هر ساکن کره زمین است.

رشد جمع آوری اطلاعات دیجیتال در ایالات متحده

منبع: IDC

بسیاری از اطلاعات توسط افراد ایجاد نمی‌شود، بلکه توسط روبات‌هایی که هم با یکدیگر و هم با سایر شبکه‌های داده، مانند حسگرها و دستگاه‌های هوشمند تعامل دارند، ایجاد می‌شوند. به گفته محققان با این سرعت رشد، میزان داده ها در جهان هر سال دو برابر می شود. با گسترش و ایجاد مراکز داده جدید، تعداد سرورهای مجازی و فیزیکی در جهان ده برابر خواهد شد. در نتیجه، نیاز روزافزونی به استفاده موثر و کسب درآمد از این داده ها وجود دارد. از آنجایی که استفاده از داده های بزرگ در تجارت نیاز به سرمایه گذاری قابل توجهی دارد، باید وضعیت را به وضوح درک کنید. و در اصل ساده است: شما می توانید کارایی کسب و کار را با کاهش هزینه ها و/یا افزایش حجم فروش افزایش دهید.

چرا به داده های بزرگ نیاز داریم؟

پارادایم کلان داده سه نوع اصلی از مشکلات را تعریف می کند.

ذخیره و مدیریت صدها ترابایت یا پتابایت داده که پایگاه های داده رابطه ای معمولی نمی توانند به طور موثر از آنها استفاده کنند.
سازماندهی اطلاعات بدون ساختار متشکل از متون، تصاویر، ویدئوها و انواع دیگر داده ها.
تجزیه و تحلیل کلان داده، که سوال راه های کار با اطلاعات بدون ساختار، تولید گزارش های تحلیلی و همچنین اجرای مدل های پیش بینی را مطرح می کند.

بازار پروژه داده های بزرگ با بازار تجزیه و تحلیل کسب و کار (BA) تلاقی می کند که حجم جهانی آن، به گفته کارشناسان، در سال 2012 حدود 100 میلیارد دلار بود. این شامل اجزای فن آوری های شبکه، سرورها، نرم افزارو خدمات فنی

همچنین استفاده کنید فناوری های بزرگداده‌ها مربوط به راه‌حل‌های کلاس تضمین درآمد (RA) است که برای خودکارسازی فعالیت‌های شرکت‌ها طراحی شده‌اند. سیستم های مدرنتضمین درآمد شامل تشخیص ناسازگاری و ابزارهای تجزیه و تحلیل عمیق داده ها برای امکان تشخیص به موقع ضررهای احتمالی، یا ارائه نادرست اطلاعات که می تواند منجر به کاهش نتایج مالی شود. در این زمینه، شرکت‌های روسی با تایید حضور تقاضا برای فناوری‌های Big Data در بازار داخلی، خاطرنشان می‌کنند که عواملی که توسعه Big Data را در روسیه تحریک می‌کنند، رشد داده‌ها، تسریع در تصمیم‌گیری مدیریت و بهبود است. از کیفیت آنها

چه چیزی شما را از کار با داده های بزرگ باز می دارد

امروزه، تنها 0.5 درصد از داده‌های دیجیتالی انباشته شده مورد تجزیه و تحلیل قرار می‌گیرند، علی‌رغم این واقعیت که به طور عینی مشکلاتی در سطح صنعت وجود دارد که می‌توان با استفاده از راه‌حل‌های تحلیلی کلاس داده‌های بزرگ حل کرد. بازارهای توسعه یافته فناوری اطلاعات در حال حاضر نتایجی دارند که می توانند برای ارزیابی انتظارات مرتبط با انباشت و پردازش کلان داده ها مورد استفاده قرار گیرند.

یکی از اصلی ترین عواملی که اجرای پروژه های بیگ دیتا را کند می کند، علاوه بر هزینه بالا، در نظر گرفته می شود مشکل انتخاب داده های پردازش شده: یعنی تعیین اینکه کدام داده ها نیاز به بازیابی، ذخیره و تجزیه و تحلیل دارند و کدام ها باید نادیده گرفته شوند.

بسیاری از نمایندگان کسب و کار خاطرنشان می کنند که مشکلات در اجرای پروژه های کلان داده با کمبود متخصص - بازاریابان و تحلیلگران همراه است. سرعت بازگشت سرمایه در Big Data به طور مستقیم به کیفیت کار کارکنان درگیر در تجزیه و تحلیل های عمیق و پیش بینی کننده بستگی دارد. پتانسیل عظیم داده های موجود در یک سازمان اغلب نمی تواند توسط خود بازاریابان به دلیل فرآیندهای تجاری قدیمی یا مقررات داخلی به طور موثر مورد استفاده قرار گیرد. بنابراین، پروژه‌های کلان داده اغلب توسط کسب‌وکارها نه تنها اجرا، بلکه ارزیابی نتایج نیز دشوار است: ارزش داده‌های جمع‌آوری‌شده. ماهیت خاص کار با داده ها به بازاریابان و تحلیلگران نیاز دارد که توجه خود را از فناوری و ایجاد گزارش به حل مشکلات خاص تجاری تغییر دهند.

با توجه به حجم زیاد و سرعت بالای جریان داده ها، فرآیند جمع آوری داده ها شامل رویه های ETL در زمان واقعی است. برای مرجع:ETL - از جانبانگلیسیاستخراج کردن, تبدیل, بار- به معنای واقعی کلمه "استخراج، تبدیل، بارگذاری") - یکی از فرآیندهای اصلی در مدیریت انبارهای داده که شامل: بازیابی داده ها از منابع خارجی، تبدیل آنها و نظافت برای رفع نیازها ETL نه تنها باید به عنوان یک فرآیند انتقال داده ها از یک برنامه به برنامه دیگر، بلکه به عنوان ابزاری برای آماده سازی داده ها برای تجزیه و تحلیل در نظر گرفته شود.

و سپس مسائل مربوط به اطمینان از امنیت داده هایی که از منابع خارجی می آیند باید راه حل هایی داشته باشند که با حجم اطلاعات جمع آوری شده مطابقت داشته باشد. از آنجایی که روش های تجزیه و تحلیل کلان داده تنها به دنبال رشد حجم داده ها در حال توسعه هستند، توانایی پلتفرم های تحلیلی برای استفاده از روش های جدید تهیه و تجمیع داده ها نقش مهمی ایفا می کند. این نشان می‌دهد که برای مثال، داده‌های مربوط به خریداران بالقوه یا یک انبار داده عظیم با سابقه کلیک در سایت‌های خرید آنلاین ممکن است برای حل مشکلات مختلف مفید باشد.

سختی ها متوقف نمی شوند

علیرغم تمام مشکلاتی که در پیاده سازی Big Data وجود دارد، این کسب و کار قصد دارد سرمایه گذاری در این زمینه را افزایش دهد. همانطور که از داده‌های گارتنر برمی‌آید، در سال 2013، 64٪ از بزرگترین شرکت‌های جهان قبلاً سرمایه‌گذاری کرده‌اند یا برنامه‌هایی برای سرمایه‌گذاری در استقرار فناوری‌های Big Data برای تجارت خود داشته‌اند، در حالی که در سال 2012، 58٪ بود. طبق تحقیقات گارتنر، پیشتازان صنایع سرمایه‌گذاری در داده‌های بزرگ، شرکت‌های رسانه‌ای، مخابرات، بانکداری و شرکت‌های خدماتی هستند. نتایج موفقیت‌آمیز اجرای Big Data در حال حاضر توسط بسیاری از بازیگران اصلی صنعت خرده‌فروشی از نظر استفاده از داده‌های به‌دست‌آمده با استفاده از ابزارهای شناسایی فرکانس رادیویی، لجستیک و سیستم‌های جابجایی به دست آمده است. دوباره پر کردن- انباشت، دوباره پر کردن - تحقیق و توسعه)، و همچنین از برنامه های وفاداری. تجربه موفق خرده‌فروشی سایر بخش‌های بازار را تشویق می‌کند تا بخش‌های جدید پیدا کنند راه های موثرکسب درآمد از کلان داده برای تبدیل تجزیه و تحلیل آن به منبعی که برای توسعه تجارت کار می کند. به گفته کارشناسان، در بازه زمانی تا سال 2020، سرمایه گذاری در مدیریت و ذخیره سازی به ازای هر گیگابایت داده از 2 دلار به 0.2 دلار کاهش می یابد، اما برای مطالعه و تجزیه و تحلیل ویژگی های تکنولوژیکی داده های بزرگ تنها 40 درصد افزایش می یابد.

هزینه های ارائه شده در پروژه های مختلف سرمایه گذاری در حوزه داده های بزرگ ماهیت متفاوتی دارند. اقلام هزینه بستگی به انواع محصولاتی دارد که بر اساس تصمیمات خاصی انتخاب می شوند. به گفته کارشناسان، بیشترین بخش از هزینه ها در پروژه های سرمایه گذاری به محصولات مربوط به جمع آوری، ساختار داده ها، تمیز کردن و مدیریت اطلاعات اختصاص دارد.

چگونه انجام می شود

ترکیب‌های زیادی از نرم‌افزار و سخت‌افزار وجود دارد که به شما امکان می‌دهد راه‌حل‌های Big Data را برای رشته‌های مختلف کسب‌وکار ایجاد کنید: از رسانه‌های اجتماعی و برنامه‌های تلفن همراه، تا تجزیه و تحلیل هوشمند و تجسم داده‌های تجاری. مزیت مهم Big Data سازگاری ابزارهای جدید با پایگاه های داده است که به طور گسترده در تجارت مورد استفاده قرار می گیرند، که به ویژه در هنگام کار با پروژه های بین رشته ای، مانند سازماندهی فروش چند کانالی و پشتیبانی مشتری، اهمیت زیادی دارد.

توالی کار با داده های بزرگ شامل جمع آوری داده ها، ساختاردهی اطلاعات دریافتی با استفاده از گزارش ها و داشبوردها، ایجاد بینش ها و زمینه ها، و تدوین توصیه هایی برای اقدام است. از آنجایی که کار با داده های بزرگ مستلزم هزینه های زیادی برای جمع آوری داده ها است که نتیجه پردازش آن از قبل ناشناخته است، وظیفه اصلی این است که به وضوح درک کنیم که داده ها برای چه چیزی هستند و نه اینکه چه مقدار از آن در دسترس است. در این حالت، جمع آوری داده ها به فرآیندی برای به دست آوردن اطلاعاتی تبدیل می شود که منحصراً برای حل مسائل خاص ضروری است.

به عنوان مثال، ارائه دهندگان مخابرات حجم عظیمی از داده ها، از جمله موقعیت جغرافیایی را که به طور مداوم به روز می شود، جمع آوری می کنند. این اطلاعات ممکن است برای آژانس های تبلیغاتی مورد توجه تجاری قرار گیرد، که ممکن است از آن برای ارائه تبلیغات هدفمند و محلی و همچنین خرده فروشان و بانک ها استفاده کنند. چنین داده‌هایی می‌توانند نقش مهمی را هنگام تصمیم‌گیری برای باز کردن یک فروشگاه خرده‌فروشی در یک مکان خاص بر اساس داده‌های مربوط به حضور یک جریان هدفمند قدرتمند از مردم ایفا کنند. نمونه ای از اندازه گیری اثربخشی تبلیغات در بیلبوردهای فضای باز در لندن وجود دارد. در حال حاضر دامنه چنین تبلیغاتی تنها با قرار دادن افراد قابل اندازه گیری است دستگاه خاصشمارش رهگذران در مقایسه با این نوع اندازه گیری اثربخشی تبلیغات، اپراتور تلفن همراه فرصت های بسیار بیشتری دارد - او دقیقاً مکان مشترکین خود را می داند، ویژگی های جمعیتی، جنسیت، سن، وضعیت تأهل و غیره را می داند.

بر اساس چنین داده هایی، در آینده با استفاده از ترجیحات شخصی خاص که از کنار بیلبورد عبور می کند، امکان تغییر محتوای پیام تبلیغاتی وجود دارد. اگر داده ها نشان می دهد که شخصی که از آنجا می گذرد زیاد سفر می کند، می توان یک تبلیغ برای یک استراحتگاه به او نشان داد. برگزارکنندگان یک مسابقه فوتبال فقط می توانند تعداد هواداران را زمانی که به مسابقه می آیند تخمین بزنند. اما اگر آنها بتوانند از ارائه‌دهنده تلفن همراه خود اطلاعاتی درباره مکان حضور بازدیدکنندگان یک ساعت، یک روز یا یک ماه قبل از مسابقه بپرسند، به سازمان‌دهندگان این امکان را می‌دهد که مکان‌های تبلیغاتی را برای مسابقات آینده برنامه‌ریزی کنند.

مثال دیگر این است که چگونه بانک ها می توانند از داده های بزرگ برای جلوگیری از کلاهبرداری استفاده کنند. اگر مشتری مفقود شدن کارت را گزارش دهد و هنگام خرید با آن، بانک به صورت لحظه ای موقعیت تلفن مشتری را در منطقه خریدی که تراکنش انجام می شود مشاهده کند، بانک می تواند اطلاعات درخواست مشتری را بررسی کند. تا ببیند آیا قصد فریب او را دارد یا خیر. یا برعکس، وقتی مشتری در فروشگاهی خریدی انجام می دهد، بانک می بیند که کارت مورد استفاده برای تراکنش و تلفن مشتری در یک مکان هستند، بانک می تواند به این نتیجه برسد که صاحب کارت از آن استفاده می کند. به لطف چنین مزایای Big Data، مرزهای انبارهای داده سنتی در حال گسترش است.

برای تصمیم گیری موفقیت آمیز برای اجرای راه حل های کلان داده، یک شرکت نیاز به محاسبه یک مورد سرمایه گذاری دارد و این امر به دلیل بسیاری از مؤلفه های ناشناخته، مشکلات زیادی را ایجاد می کند. پارادوکس تجزیه و تحلیل در چنین مواردی پیش بینی آینده بر اساس گذشته است که اطلاعاتی در مورد آن اغلب وجود ندارد. در این مورد، یک عامل مهم برنامه ریزی روشن اقدامات اولیه شما است:

ابتدا لازم است یک مشکل تجاری خاص که برای آن از فناوری های کلان داده استفاده می شود، تعیین شود؛ این وظیفه به هسته تعیین صحت مفهوم انتخاب شده تبدیل خواهد شد. شما باید روی جمع آوری داده های مربوط به این کار خاص تمرکز کنید و در طول اثبات مفهوم، می توانید از ابزارها، فرآیندها و تکنیک های مدیریتی مختلفی استفاده کنید که به شما امکان می دهد در آینده تصمیمات آگاهانه تری بگیرید.
ثانیاً، بعید است که یک شرکت بدون مهارت و تجربه تجزیه و تحلیل داده بتواند با موفقیت پروژه Big Data را پیاده سازی کند. دانش لازم همیشه از تجربه قبلی تجزیه و تحلیل نشات می گیرد که عامل اصلی تأثیرگذار بر کیفیت کار با داده ها است. فرهنگ داده مهم است زیرا اغلب تجزیه و تحلیل داده ها حقایق سختی را در مورد یک کسب و کار آشکار می کند و برای پذیرش و کار با آن حقایق نیاز به اقدامات داده است.
سوم، ارزش فناوری‌های کلان داده در ارائه بینش نهفته است.تحلیلگران خوب همچنان در بازار کمبود دارند. آنها معمولاً متخصصانی نامیده می شوند که درک عمیقی از معنای تجاری داده ها دارند و می دانند چگونه از آنها به درستی استفاده کنند. تجزیه و تحلیل داده ها وسیله ای برای دستیابی به اهداف تجاری است و برای درک ارزش کلان داده ها، باید مطابق آن رفتار کنید و اقدامات خود را درک کنید. در این صورت کلان داده اطلاعات مفید زیادی در مورد مصرف کنندگان ارائه می دهد که بر اساس آن می توان تصمیماتی گرفت که برای تجارت مفید است.

با اينكه بازار روسیه Big Data تازه در حال شکل گیری است؛ پروژه های فردی در این زمینه در حال حاضر با موفقیت اجرا می شوند. برخی از آنها در زمینه جمع آوری داده ها موفق هستند، مانند پروژه های خدمات مالیاتی فدرال و بانک سیستم های اعتباری Tinkoff، برخی دیگر - از نظر تجزیه و تحلیل داده ها و کاربرد عملی نتایج آن: این پروژه Synqera است.

بانک سیستم های اعتباری Tinkoff پروژه ای را برای پیاده سازی پلت فرم EMC2 Greenplum، که ابزاری برای محاسبات موازی گسترده است، اجرا کرد. در سال‌های اخیر، این بانک به دلیل نرخ رشد بالای تعداد کاربران کارت اعتباری، الزامات سرعت پردازش اطلاعات انباشته و تجزیه و تحلیل داده‌ها را در زمان واقعی افزایش داده است. این بانک برنامه‌هایی را برای گسترش استفاده از فناوری‌های کلان داده، به‌ویژه برای پردازش داده‌های بدون ساختار و کار با اطلاعات شرکتی دریافت‌شده از منابع مختلف، اعلام کرد.

در سرویس مالیاتی فدرال روسیه در در حال حاضرایجاد یک لایه تحلیلی از انبار داده فدرال در حال انجام است. بر اساس آن، یک فضای اطلاعاتی و فناوری یکپارچه برای دسترسی به داده های مالیاتی برای پردازش آماری و تحلیلی ایجاد می شود. در طول اجرای این پروژه، کار برای متمرکز کردن اطلاعات تحلیلی از بیش از 1200 منبع در سطح محلی خدمات مالیاتی فدرال در حال انجام است.

نمونه جالب دیگری از تجزیه و تحلیل کلان داده در زمان واقعی، استارتاپ روسی Synqera است که پلتفرم Simplate را توسعه داده است. این راه حل مبتنی بر پردازش مقادیر زیادی داده است؛ این برنامه اطلاعات مربوط به مشتریان، تاریخچه خرید، سن، جنسیت و حتی خلق و خوی آنها را تجزیه و تحلیل می کند. صفحه‌های لمسی با حسگرهایی که احساسات مشتری را تشخیص می‌دهند، در صندوق‌های فروشگاه‌های زنجیره‌ای از لوازم آرایشی نصب شدند. این برنامه خلق و خوی فرد را تعیین می کند، اطلاعات مربوط به او را تجزیه و تحلیل می کند، زمان روز را تعیین می کند و پایگاه داده تخفیف فروشگاه را اسکن می کند، پس از آن پیام های هدفمندی را در مورد تبلیغات و پیشنهادات ویژه به خریدار ارسال می کند. این راه حل باعث افزایش وفاداری مشتری و افزایش فروش خرده فروشان می شود.

اگر در مورد موارد موفق خارجی صحبت کنیم، تجربه استفاده از فناوری های Big Data در شرکت Dunkin`Donuts که از داده های بلادرنگ برای فروش محصولات استفاده می کند، در این زمینه جالب است. نمایشگرهای دیجیتال در فروشگاه ها پیشنهاداتی را به نمایش می گذارند که هر دقیقه بسته به زمان روز و در دسترس بودن محصول تغییر می کند. شرکت با استفاده از رسیدهای نقدی، داده هایی را دریافت می کند که کدام پیشنهادها بیشترین پاسخ را از مشتریان دریافت کرده اند. این رویکردپردازش داده ها باعث افزایش سود و گردش کالا در انبار می شود.

همانطور که تجربه اجرای پروژه های Big Data نشان می دهد، این حوزه برای حل موفقیت آمیز مشکلات تجاری مدرن طراحی شده است. در عین حال، یکی از عوامل مهم در دستیابی به اهداف تجاری هنگام کار با داده های بزرگ، انتخاب استراتژی مناسب است که شامل تجزیه و تحلیل هایی است که نیازهای مصرف کننده را شناسایی می کند و همچنین استفاده از فناوری های نوآورانه در زمینه داده های بزرگ را شامل می شود.

بر اساس یک نظرسنجی جهانی که سالانه توسط Econsultancy و Adobe از سال 2012 در میان بازاریاب‌های شرکتی انجام می‌شود، «داده‌های بزرگ» که اقدامات افراد در اینترنت را مشخص می‌کند، می‌تواند کارهای زیادی انجام دهد. آنها قادر به بهینه سازی فرآیندهای کسب و کار آفلاین هستند و به درک چگونگی مالکان کمک می کنند دستگاه های تلفن همراهاز آنها برای جستجوی اطلاعات یا به سادگی "بازاریابی بهتر" استفاده کنید. کارآمدتر. علاوه بر این، تابع دوم از سال به سال بیشتر و بیشتر محبوب می شود، همانطور که از نموداری که ارائه کردیم به شرح زیر است.

زمینه های اصلی کار بازاریابان اینترنتی از نظر ارتباط با مشتری

منبع: Econsultancy و Adobe، منتشر شده است– emarketer.com

توجه داشته باشید که ملیت پاسخ دهندگان واجد اهمیت زیادندارد. همانطور که نظرسنجی انجام شده توسط KPMG در سال 2013 نشان می دهد، سهم "خوشبین"، یعنی. کسانی که از Big Data هنگام توسعه یک استراتژی تجاری استفاده می کنند 56٪ است و تغییرات از منطقه به منطقه کوچک است: از 63٪ در کشورهای آمریکای شمالی تا 50٪ در EMEA.

استفاده از داده های بزرگ در مناطق مختلف جهان

منبع: KPMG، منتشر شده است– emarketer.com

در همین حال، نگرش بازاریابان به چنین "روندهای مد" تا حدودی یادآور یک شوخی معروف است:

وانو بگو گوجه دوست داری؟
- من دوست دارم غذا بخورم، اما نه اینطور.

علیرغم این واقعیت که بازاریابان به صورت شفاهی Big Data را دوست دارند و به نظر می رسد حتی از آن استفاده می کنند، در واقعیت، همانطور که در مورد محبت های قلبی خود در شبکه های اجتماعی می نویسند، "همه چیز پیچیده است".

بر اساس یک نظرسنجی که توسط Circle Research در ژانویه 2014 در میان بازاریابان اروپایی انجام شد، از هر 5 پاسخ‌دهنده، 4 نفر از داده‌های بزرگ استفاده نمی‌کنند (هر چند که البته «آن را دوست دارند»). دلایل متفاوت است. تعداد کمی از شکاکان بدبین وجود دارد - 17٪ و دقیقاً همان تعداد پادپاهای آنها، یعنی. کسانی که با اطمینان پاسخ می دهند: "بله." بقیه مردد و شک هستند، «مرداب». آنها به بهانه های قابل قبولی مانند «هنوز نه، اما به زودی» یا «منتظر می مانیم تا بقیه شروع کنند» از پاسخ مستقیم اجتناب می کنند.

استفاده از داده های بزرگ توسط بازاریابان، اروپا، ژانویه 2014

منبع:dnx، منتشر شده -بازاریابcom

چه چیزی آنها را گیج می کند؟ مزخرف محض برخی (دقیقا نیمی از آنها) به سادگی این داده ها را باور نمی کنند. دیگران (همچنین تعداد کمی از آنها وجود دارد - 55٪) به سختی می توانند مجموعه ای از "داده ها" و "کاربران" را با یکدیگر مرتبط کنند. برخی از مردم به سادگی (به بیان سیاسی) یک آشفتگی داخلی شرکتی دارند: داده ها بدون نظارت بین بخش های بازاریابی و ساختارهای فناوری اطلاعات سرگردان هستند. برای دیگران، نرم افزار نمی تواند با هجوم کار کنار بیاید. و غیره. از آنجایی که کل سهام به طور قابل توجهی بیش از 100٪ است، واضح است که وضعیت "موانع چندگانه" غیر معمول نیست.

موانع استفاده از داده های بزرگ در بازاریابی

منبع:dnx، منتشر شده -بازاریابcom

بنابراین، ما باید بپذیریم که در حالی که "داده های بزرگ" یک پتانسیل بزرگ است که هنوز باید از آن استفاده کرد. به هر حال، این ممکن است دلیلی باشد که Big Data هاله خود را از یک "روند شیک" از دست می دهد، همانطور که در نظرسنجی انجام شده توسط شرکت Econsultancy که قبلاً ذکر کردیم نشان می دهد.

مهم ترین روندها در بازاریابی دیجیتال 2013-2014

منبع: مشاوره و Adobe

آنها با یک پادشاه دیگر جایگزین می شوند - بازاریابی محتوا. چه مدت؟

نمی توان گفت که داده های بزرگ نوعی پدیده اساساً جدید است. سال‌هاست که منابع بزرگ داده وجود داشته است: پایگاه‌های اطلاعاتی در مورد خرید مشتری، تاریخچه اعتباری، شیوه زندگی. و برای سال‌ها، دانشمندان از این داده‌ها برای کمک به شرکت‌ها در ارزیابی ریسک و پیش‌بینی نیازهای آینده مشتریان استفاده کرده‌اند. اما امروزه وضعیت از دو جنبه تغییر کرده است:

ابزارها و تکنیک های پیچیده تری برای تجزیه و تحلیل و ترکیب مجموعه داده های مختلف پدیدار شده اند.

این ابزارهای تحلیلی با انبوهی از منابع داده جدید که با دیجیتالی کردن تقریباً تمام روش‌های جمع‌آوری و اندازه‌گیری داده‌ها هدایت می‌شوند، تکمیل می‌شوند.

گستره اطلاعات موجود برای محققانی که در محیط های تحقیقاتی ساختاریافته پرورش یافته اند، هم الهام بخش و هم دلهره آور است. احساسات مصرف کننده توسط وب سایت ها و انواع رسانه های اجتماعی ضبط می شود. واقعیت مشاهده یک تبلیغ نه تنها ثبت می شود ست تاپ باکس ها، بلکه با کمک برچسب های دیجیتال و دستگاه های تلفن همراه که با تلویزیون ارتباط برقرار می کنند.

داده های رفتاری (مانند حجم تماس، عادات خرید و خریدها) اکنون در زمان واقعی در دسترس هستند. بنابراین، بسیاری از آنچه قبلاً می‌توانست از طریق تحقیق به دست آید، اکنون با استفاده از منابع کلان داده قابل یادگیری است. و تمام این دارایی های اطلاعاتی بدون در نظر گرفتن هر گونه فرآیند تحقیقاتی به طور مداوم تولید می شوند. این تغییرات ما را به این فکر می‌اندازد که آیا کلان داده می‌تواند جایگزین تحقیقات بازار کلاسیک شود.

این در مورد داده ها نیست، در مورد پرسش و پاسخ است.

قبل از اینکه ناقوس مرگ را برای تحقیقات کلاسیک به صدا در آوریم، باید به خود یادآوری کنیم که وجود برخی از دارایی های داده مهم نیست، بلکه چیز دیگری است. دقیقا چه چیزی؟ توانایی ما برای پاسخ دادن به سوالات، همین است. یک چیز خنده دار در مورد دنیای جدید داده های بزرگ این است که نتایج به دست آمده از دارایی های داده جدید منجر به سوالات بیشتر می شود و این سوالات معمولاً توسط تحقیقات سنتی بهترین پاسخ را می دهند. بنابراین، با رشد داده‌های بزرگ، شاهد افزایش موازی در دسترس بودن و نیاز به «داده‌های کوچک» هستیم که می‌تواند پاسخ‌هایی به سؤالات دنیای داده‌های بزرگ ارائه دهد.

وضعیت را در نظر بگیرید: یک تبلیغ کننده بزرگ به طور مداوم ترافیک فروشگاه و حجم فروش را در زمان واقعی نظارت می کند. روش‌های تحقیقاتی موجود (که در آن از اعضای میزگرد در مورد انگیزه‌های خرید و رفتار محل فروش آنها نظرسنجی می‌کنیم) به ما کمک می‌کند بخش‌های خاص خریداران را بهتر هدف‌گیری کنیم. این تکنیک‌ها را می‌توان گسترش داد تا طیف وسیع‌تری از دارایی‌های کلان داده را در بر گیرد، تا جایی که داده‌های بزرگ به وسیله‌ای برای مشاهده غیرفعال تبدیل می‌شوند، و تحقیق به روشی برای بررسی مداوم و با تمرکز محدود تغییرات یا رویدادهایی تبدیل می‌شود که نیاز به مطالعه دارند. به این ترتیب کلان داده ها می توانند تحقیقات را از روال غیر ضروری رها کنند. تحقیقات اولیه دیگر نیازی به تمرکز بر آنچه در حال وقوع است ندارد (داده های بزرگ این کار را انجام می دهد). در عوض، تحقیقات اولیه می‌تواند بر توضیح اینکه چرا ما روندهای خاص یا انحراف از روندها را مشاهده می‌کنیم، تمرکز کند. محقق قادر خواهد بود کمتر در مورد به دست آوردن داده ها فکر کند و بیشتر به نحوه تجزیه و تحلیل و استفاده از آنها فکر کند.

در عین حال، می بینیم که کلان داده می تواند یکی از بزرگترین مشکلات ما را حل کند: مشکل مطالعات بیش از حد طولانی. بررسی خود مطالعات نشان داده است که ابزارهای تحقیقاتی بیش از حد متورم تأثیر منفی بر کیفیت داده ها دارند. اگرچه بسیاری از کارشناسان مدت‌ها این مشکل را تایید کرده بودند، اما همیشه با این عبارت پاسخ دادند: «اما من به این اطلاعات برای مدیریت ارشد نیاز دارم» و مصاحبه‌های طولانی ادامه یافت.

در دنیای داده های بزرگ، جایی که می توان معیارهای کمی را از طریق مشاهده غیرفعال به دست آورد، این موضوع بحث برانگیز می شود. بیایید دوباره به همه این مطالعات در مورد مصرف فکر کنیم. اگر داده‌های بزرگ از طریق مشاهده غیرفعال به ما بینشی در مورد مصرف می‌دهد، آن‌گاه تحقیقات پیمایشی اولیه دیگر نیازی به جمع‌آوری این نوع اطلاعات ندارد و ما در نهایت می‌توانیم دیدگاه خود را از نظرسنجی‌های کوتاه با چیزی فراتر از تفکر آرزو پشتیبان کنیم.

Big Data به کمک شما نیاز دارد

در نهایت، "بزرگ" تنها یکی از ویژگی های کلان داده است. مشخصه "بزرگ" به اندازه و مقیاس داده ها اشاره دارد. البته، این ویژگی اصلی است، زیرا حجم این داده ها فراتر از هر چیزی است که قبلاً با آن کار کرده ایم. اما سایر ویژگی‌های این جریان‌های داده جدید نیز مهم هستند: آنها اغلب قالب‌بندی ضعیفی دارند، ساختاری ندارند (یا در بهترین حالت، تا حدی ساختار یافته‌اند) و مملو از عدم قطعیت هستند. یک حوزه نوظهور از مدیریت داده ها، که به درستی آنالیز موجودیت نامیده می شود، به مشکل کاهش نویز در داده های بزرگ می پردازد. وظیفه آن تجزیه و تحلیل این مجموعه داده ها و تعیین تعداد مشاهدات مربوط به یک شخص است، مشاهدات فعلی و کدام یک قابل استفاده هستند.

این نوع پاکسازی داده ها برای حذف نویز یا داده های اشتباه هنگام کار با دارایی های داده بزرگ یا کوچک ضروری است، اما کافی نیست. ما همچنین باید بر اساس تجربه قبلی، تجزیه و تحلیل، و دانش دسته بندی، زمینه ای را پیرامون دارایی های کلان داده ایجاد کنیم. در واقع، بسیاری از تحلیلگران به توانایی مدیریت عدم قطعیت ذاتی در داده های بزرگ به عنوان منبع اشاره می کنند. مزیت رقابتی، زیرا به شما امکان می دهد تصمیمات موثرتری بگیرید.

اینجاست که تحقیقات اولیه نه تنها خود را با داده های بزرگ آزاد می کند، بلکه به ایجاد و تجزیه و تحلیل محتوا در داده های بزرگ نیز کمک می کند.

یک مثال بارز از این کار استفاده از چارچوب جدید ارزش ویژه برند ما در رسانه های اجتماعی است (در مورد توسعه یافته صحبت می کنیممیلوارد رنگ قهوه ایرویکردی جدید برای اندازه گیری ارزش ویژه برندرا معنی دار ناهمسان چارچوب- "پارادایم تفاوت معنی دار" -آر & تی ). این مدل از نظر رفتاری در بازارهای خاص آزمایش می‌شود، بر اساس استاندارد پیاده‌سازی می‌شود، و می‌تواند به راحتی در سایر بخش‌های بازاریابی و سیستم‌های اطلاعاتی پشتیبانی تصمیم اعمال شود. به عبارت دیگر، مدل ارزش ویژه برند ما، که توسط تحقیقات پیمایشی (اگرچه نه منحصراً مبتنی بر) است، تمام ویژگی‌های مورد نیاز برای غلبه بر ماهیت بدون ساختار، ناپیوسته و نامطمئن داده‌های بزرگ را دارد.

داده‌های احساسات مصرف‌کننده ارائه شده توسط رسانه‌های اجتماعی را در نظر بگیرید. در شکل خام، اوج و فرود در احساسات مصرف کننده اغلب با معیارهای آفلاین ارزش ویژه برند و رفتار همبستگی حداقلی دارند: صرفاً نویز بیش از حد در داده ها وجود دارد. اما ما می‌توانیم این نویز را با استفاده از مدل‌های معنای مصرف‌کننده، تمایز برند، پویایی و متمایز بودن در داده‌های خام مصرف‌کننده کاهش دهیم - راهی برای پردازش و جمع‌آوری داده‌های رسانه‌های اجتماعی در این ابعاد.

هنگامی که داده ها بر اساس چارچوب ما سازماندهی می شوند، روندهای شناسایی شده معمولاً با ارزش ویژه برند آفلاین و معیارهای رفتاری همسو می شوند. اساسا، داده های رسانه های اجتماعی نمی توانند برای خود صحبت کنند. استفاده از آنها برای این منظور نیاز به تجربه و مدل هایی دارد که بر اساس برندها ساخته شده اند. وقتی رسانه‌های اجتماعی اطلاعات منحصربه‌فردی را به ما می‌دهند که به زبانی که مصرف‌کنندگان برای توصیف برندها استفاده می‌کنند بیان می‌شود، ما باید از آن زبان هنگام ایجاد تحقیقات خود استفاده کنیم تا تحقیقات اولیه را بسیار مؤثرتر کنیم.

مزایای تحقیقات معاف

این ما را به این موضوع برمی‌گرداند که چگونه داده‌های بزرگ نه آنقدر که جایگزین تحقیقات می‌شوند بلکه آن‌ها را آزاد می‌کنند. محققان از نیاز به ایجاد یک مطالعه جدید برای هر مورد جدید رها خواهند شد. دارایی‌های کلان داده در حال رشد را می‌توان برای موضوعات مختلف تحقیقاتی مورد استفاده قرار داد، و به تحقیقات اولیه بعدی اجازه می‌دهد تا عمیق‌تر به موضوع بپردازند و شکاف‌های موجود را پر کنند. محققان از تکیه بر نظرسنجی های بیش از حد متورم رها خواهند شد. در عوض، آنها می توانند از نظرسنجی های کوتاه استفاده کنند و بر روی مهمترین پارامترها تمرکز کنند که کیفیت داده ها را بهبود می بخشد.

با این آزادسازی، محققان می‌توانند از اصول و ایده‌های تثبیت‌شده خود برای افزودن دقت و معنا به دارایی‌های کلان داده‌ها استفاده کنند و زمینه‌های جدیدی را برای تحقیقات پیمایشی ایجاد کنند. این چرخه باید به درک بیشتر در مورد طیف وسیعی از موضوعات استراتژیک و در نهایت حرکت به سمت آنچه که همیشه باید هدف اصلی ما باشد - اطلاع رسانی و بهبود کیفیت تصمیمات برند و ارتباطات منجر شود.

یولیا سرگیونا ولکووا، دانشجوی سال چهارم، دانشگاه مالی تحت دولت فدراسیون روسیه، شعبه کالوگا، کالوگا [ایمیل محافظت شده]

کلان داده در دنیای مدرن

چکیده مقاله به پیاده سازی فناوری های کلان داده در جامعه مدرن ما اختصاص دارد. ویژگی‌های اصلی Big Data بررسی می‌شود، حوزه‌های اصلی کاربرد مانند بانکداری، خرده‌فروشی، بخش خصوصی و عمومی و حتی زندگی روزمره در نظر گرفته می‌شوند. این مطالعه مضرات استفاده از فناوری‌های کلان داده را نشان داد. نیاز به توسعه مقررات نظارتی استفاده از کلان داده ها مشخص شده است.کلمات کلیدی: کلان داده، بانک ها، بخش بانکداری، خرده فروشی، بخش خصوصی، بخش عمومی.

با افزایش درجه ادغام ابزارهای فناوری اطلاعات در حوزه های مختلف جامعه مدرن، الزامات سازگاری آنها برای حل مشکلات جدید که به حجم عظیمی از داده ها نیاز دارند نیز افزایش می یابد. حجم زیادی از اطلاعات وجود دارد که نمی توان آنها را به روش های سنتی پردازش کرد، از جمله داده های ساختاری، داده های رسانه ای و اشیاء تصادفی. و اگر فناوری‌های موجود امروز کم و بیش با تحلیل اولی کنار بیایند، تحلیل دوم و سوم عملاً یک کار طاقت‌فرسا باقی می‌ماند. تحقیقات نشان می دهد که حجم داده های رسانه ای مانند نظارت تصویری، عکاسی هوایی، اطلاعات سلامت دیجیتال و اشیاء تصادفی ذخیره شده در آرشیوها و ابرهای متعدد، سال به سال در حال افزایش است. حجم عظیم داده ها به یک فرآیند جهانی تبدیل شده است و به آن گفته می شود. اطلاعات بزرگ. آثار دانشمندان خارجی و روسی به مطالعه داده های بزرگ اختصاص دارد: جیمز مانیکا، مایکل چوی، توپورکوف وی.وی.، بودزکو وی. شرکت های بزرگ جهانی مانند McKinsey& Company، СNews Analytics، SAP، Oracle، IBM، Microsoft، Teradata و بسیاری دیگر سهم قابل توجهی در مطالعه این فناوری دارند. آنها درگیر پردازش و تجزیه و تحلیل داده ها هستند و سیستم های نرم افزاری و سخت افزاری را بر اساس داده های بزرگ ایجاد می کنند.بر اساس گزارش موسسه مک کینزی: "داده های بزرگ مجموعه ای از داده ها هستند که اندازه آنها فراتر از توانایی های پایگاه های داده معمولیابزار نرم افزار داده برای جمع آوری، ذخیره، مدیریت و تجزیه و تحلیل داده ها. در اصل، مفهوم کلان داده شامل کار با اطلاعات با حجم عظیم و ترکیبات متنوع است که به طور مداوم به روز می شود و در منابع مختلف قرار می گیرد تا کارایی عملیاتی را افزایش دهد، محصولات جدید ایجاد کند و رقابت را افزایش دهد. شرکت مشاوره Forrester یک فرمول مختصر و نسبتاً واضح ارائه می دهد: "داده های بزرگ تکنیک ها و فن آوری هایی را ترکیب می کند که از داده ها در نهایت عملی بودن معنی می گیرد." امروزه حوزه Big Data با ویژگی های زیر مشخص می شود: حجم - حجم، پایگاه داده انباشته شده حجم زیادی از اطلاعات را نشان می دهد. سرعت-سرعت، این ویژگی نشان دهنده نرخ فزاینده انباشت داده ها است (90 درصد اطلاعات در 2 سال گذشته جمع آوری شده است). توانایی پردازش همزمان اطلاعات ساختاریافته و بدون ساختار با فرمت های مختلف. کارشناسان بازاریابی دوست دارند "V" خود را در اینجا اضافه کنند. برخی نیز در مورد صحت صحبت می کنند، برخی دیگر اضافه می کنند که فناوری های کلان داده قطعاً باید به سود کسب و کار (ارزش) باشد. فراوانی داده ها باعث می شود که بخواهید از آن برای تجزیه و تحلیل و پیش بینی استفاده کنید. حجم عظیم نیاز به فناوری های مناسب دارد. امروزه شرکت ها باید حجم عظیمی از داده ها را در حجم هایی پردازش کنند که تصور آنها دشوار است، این امر منجر به این واقعیت می شود که پایگاه های داده سنتی نمی توانند با چنین وظیفه ای کنار بیایند و این منجر به نیاز به پیاده سازی فناوری های Big Data می شود. جدول ویژگی های مقایسه ای داده های بزرگ و پایگاه های داده سنتی را نشان می دهد. مبنای تشکیل این جدول تحقیقات V.I. Budzko و بورس مسکو بود.جدول 1 ویژگی های مقایسه ایکلان داده و داده های سنتی

پایگاه داده سنتی Big Data Application Area

یک یا چند حوزه موضوعی کاربرد دامنه فناوری های کلان داده گسترده است. از شناسایی ترجیحات مشتری تا تجزیه و تحلیل ریسک ویژگی های داده ها فقط داده های ساختار یافته حجم عظیمی از اطلاعات با ساختار پیچیده ناهمگن و/یا نامشخص روش ذخیره سازی داده ها مدل متمرکز غیرمتمرکز ذخیره سازی و پردازش داده ها مدل عمودی مدل افقی مقدار اطلاعات برای پردازش از گیگابایت (109 بایت) ) به ترابایت (1012 بایت) از پتابایت (1015 بایت) تا اگزابایت (1018 بایت) بنابراین، دامنه پایگاه داده های سنتی تنها یک یا چند را پوشش می دهد و چنین مناطقی باید فقط حاوی داده های ساختاری باشند. در مورد کلان داده، دامنه کاربرد آن با حجم عظیمی از اطلاعات با ساختار پیچیده گسترده است.طبق نتایج مطالعه CNews Analytics ارائه شده در شکل 1، بازار روسیه در حال رسیدن به پدیده ای مانند Big Data است که افزایش سطح بلوغ شرکت ها را نشان می دهد. بسیاری از شرکت‌ها به دلیل حجم داده‌های پردازش شده خود به فناوری‌های Big Data روی می‌آورند؛ در حال حاضر، بیش از 44 درصد حدود 100 ترابایت تولید می‌کنند و 13 درصد حجم داده‌های بیش از 500 ترابایت دارند.

عکس. 1. حجم اطلاعات پردازش شده در شرکت ها

چنین حجم‌هایی را نمی‌توان توسط پایگاه‌های داده سنتی پردازش کرد، بنابراین چنین شرکت‌هایی راه‌حل تغییر به داده‌های بزرگ را نه تنها پردازش حجم عظیم، بلکه افزایش رقابت، افزایش وفاداری مشتری به محصول خود و جذب محصولات جدید می‌دانند. فعال ترین مشتریان چنین راه حل هایی بانک ها، مخابرات و خرده فروشی هستند که درصد آنها در شکل 2 ارائه شده است. اولین نمونه های استفاده از کلان داده نیز در بخش عمومی ظاهر شد.

شکل 2. ساختار صنعت استفاده از داده های بزرگ

در مورد دولت غربی، برآوردهای مختلف اقتصاد دیجیتال را بین 3 تا 21 درصد از تولید ناخالص داخلی کشورهای G20 نشان می دهد. بخش دولتی روسیه هنوز به نتایج قابل توجهی در کار با کلان داده ها دست نیافته است. امروزه در روسیه، شرکت‌های تجاری عمدتاً به چنین فناوری‌هایی علاقه‌مند هستند: زنجیره‌های خرده‌فروشی، بانک‌ها، شرکت‌های مخابراتی.طبق گزارش انجمن ارتباطات الکترونیک روسیه، حجم اقتصاد دیجیتال در فدراسیون روسیه تنها 1 تریلیون است. مالیدن - حدود 1.5 درصد از تولید ناخالص داخلی با این حال، فدراسیون روسیه دارای پتانسیل عظیمی برای رشد در اقتصاد دیجیتال است، علیرغم وجود کوتاه مدت بخش کلان داده، در حال حاضر ارزیابی هایی از استفاده موثر از این فناوری ها بر اساس نمونه های واقعی. امروزه بانک ها به طور متوسط تقریباً 3.8 پتوبایت داده را پردازش می کنند، آنها از فناوری های Big Data برای دستیابی به وظایف خاصی استفاده می کنند:  جمع آوری داده ها در مورد استفاده از کارت های اعتباری؛  جمع آوری داده ها در مورد وثیقه؛  جمع آوری داده ها در مورد وام ها؛ 44 درصد 16 درصد. 13% 7% 20% BankTelecom خرده فروشی بخش عمومی دیگران جمع آوری داده های پروفایل مشتری؛ جمع آوری داده های پس انداز مشتری. بانک ها ادعا می کنند که از زمانی که استفاده از فناوری های کلان داده را آغاز کرده اند، توانسته اند مشتریان جدید جذب کنند و با مشتریان جدید و قدیمی بهتر تعامل داشته باشند. و وفاداری خود را حفظ کنند. در سال 2015، CNews Analytics نظرسنجی را در میان 30 بانک بزرگ روسیه بر اساس کل دارایی ها انجام داد تا دریابد که آنها از چه فناوری های کلان داده و برای چه اهدافی استفاده می کنند. در مقایسه با نظرسنجی سال 2014، تعداد 30 بانک برتر که استفاده از فناوری‌های کلان داده را گزارش می‌کنند افزایش یافته است، اما این تغییر بیشتر به دلیل تغییر در ترکیب 30 بانک برتر است. شکل 3 مقایسه ای از نظرسنجی 2015 با سال 2014 را بر اساس نظرسنجی A. Kiryanova نشان می دهد.

برنج. 3. استفاده از داده های بزرگ توسط 30 بانک برتر روسیه

بر اساس تخمین های شرکت IBS، 80 درصد از بانک هایی که پاسخ مثبت داده اند، از ابزار Big Data Appliance - نرم افزار و سیستم های سخت افزاری برای ذخیره و پردازش داده ها استفاده می کنند. این راه حل ها معمولا به عنوان ذخیره سازی تحلیلی یا تراکنشی عمل می کنند که مزیت اصلی آنها عملکرد بالا در هنگام کار با حجم زیاد داده است.البته روال استفاده از داده های بزرگ در بانک های روسیه در مراحل ابتدایی خود قرار دارد. دلیل چنین انطباق آهسته در روسیه در نگرش محتاطانه متخصصان فناوری اطلاعات مشتریان به فناوری های جدید آشکار می شود. آن‌ها مطمئن نیستند که فناوری‌های کلان داده به حل کامل مشکلات کمک کند، اما در مورد بازار آمریکا، بانک‌های آنجا قبلاً ۱ اگزابایت داده جمع‌آوری کرده‌اند که می‌توان آن را با ۲۷۵ میلیارد رکورد mp3 مقایسه کرد. تعداد منابعی که از آنها اطلاعات به دست می آید بسیار زیاد است، که می توان منابع کلاسیک را تشخیص داد:  بازدید از دفاتر مشتریان بانک؛  ضبط تماس های تلفنی؛  رفتار مشتری در شبکه های اجتماعی؛  اطلاعات در مورد تراکنش های کارت اعتباری  و موارد دیگر. خرده فروشی آفلاین از داده های بزرگ برای تجزیه و تحلیل رفتار مشتری، طراحی مسیرهای اطراف طبقه فروش، چیدمان صحیح کالاها، برنامه ریزی خرید و در نهایت افزایش فروش استفاده می کند. در خرده فروشی آنلاین، مکانیسم فروش خود بر روی داده های بزرگ ساخته شده است: به کاربران محصولاتی بر اساس خریدهای قبلی و ترجیحات شخصی آنها ارائه می شود که اطلاعات مربوط به آنها مثلاً در شبکه های اجتماعی جمع آوری می شود. در هر دو مورد، تجزیه و تحلیل کلان داده ها به کاهش هزینه ها، افزایش وفاداری مشتری و دستیابی به مخاطبان بیشتر کمک می کند. همانطور که شرکت ها پتانسیل تجاری خود را توسعه می دهند، پایگاه های داده سنتی دیگر نیازهای تجاری رو به رشد را برآورده نمی کنند، به همین دلیل است که سیستم نمی تواند جزئیات لازم را ارائه دهد. حسابداری مدیریت . با تغییر به داده های بزرگ، فناوری های جدید امکان بهینه سازی مدیریت توزیع محصول، دستیابی به ارتباط داده ها و سرعت پردازش آنها برای ارزیابی پیامدهای تصمیمات مدیریتی و تولید سریع گزارش مدیریت را فراهم می کند. حجم کل داده های انباشته شده بیش از 100 اگزابایت است، در حالی که Walmart به تنهایی 2.5 پتابایت داده در ساعت را با استفاده از داده های بزرگ پردازش می کند. علاوه بر این، با استفاده از فناوری‌های Big Data، سود عملیاتی 60 درصد افزایش می‌یابد و همچنین طبق آمار هدوپ، پس از اجرای Big Data، بهره‌وری تجزیه و تحلیل تا پردازش 120 الگوریتم افزایش می‌یابد و سود 710 درصد رشد می‌کند. اگر خرده‌فروشی روسی را در نظر بگیریم، داده‌های بزرگ به‌تازگی شروع به افزایش سرعت می‌کنند، زیرا شکاف پردازش اطلاعات بسیار متفاوت است. به عنوان مثال، خرده فروشی آنلاین 18 برابر کمتر از چین است و کل گردش داده ای که در خرده فروشی آنلاین تولید می شود، 4.5 برابر کمتر از یک فروشگاه آمازون است. در عین حال، تعداد فروشگاه های آنلاین در روسیه که از Big Data استفاده می کنند کمتر از 40 هزار است، در حالی که در اروپا تعداد این فروشگاه ها بیش از 550 هزار است. آنچه بازار خرده فروشی روسیه را مشخص می کند که هنوز در حال توسعه است و به طور کامل شکل نگرفته است. در مورد زندگی روزمره ما، فناوری های Big Data در اینجا استفاده می شود، که ما حتی به آن فکر نکرده ایم. هر روز 15 میلیون آهنگ، که تقریباً 1.5 تا 2 پتابایت است، توسط shazam، یک سرویس موسیقی، در سراسر جهان پردازش می شود، و مبتنی بر آن است. در سپس تولیدکنندگان موسیقی محبوبیت این هنرمند را پیش بینی می کنند. داده های بزرگ همچنین برای پردازش اطلاعات کارت های اعتباری مانند مسترکارت و ویزا استفاده می شود. بنابراین، 65 میلیارد تراکنش در سال با استفاده از 1.9 میلیارد کارت در 32 میلیون بازرگان توسط مسترکارت پردازش می شود تا روند تجارت را پیش بینی کند. هر روز مردم در سراسر جهان 19 ترابایت داده را در شبکه های اجتماعی مانند توییتر و فیس بوک ارسال می کنند. آنها عکس ها را دانلود و پردازش می کنند، می نویسند، پیام می فرستند و غیره. زیرساخت همچنین از فناوری‌های Big Data، از ترولی‌بوس گرفته تا هواپیما و موشک استفاده می‌کند. بنابراین، در متروی لندن، گردان‌ها روزانه حدود 20 میلیون تردد را ثبت می‌کنند؛ در نتیجه تحلیلی که بر اساس فناوری‌های Big Data انجام شده است، 10 کانون احتمالی زمین لرزه شناسایی شد که در توسعه بعدی نیز مورد توجه قرار می‌گیرد. مترو بدون شک تنوع و حجم داده های حاصل از انواع تعاملات، مبنایی قدرتمند برای کسب و کار برای ساخت و اصلاح پیش بینی ها، شناسایی الگوها، ارزیابی عملکرد و غیره است. با این حال، هر چیزی دارای معایبی است که باید به دقت مورد توجه قرار گیرد، با وجود مزایای بارز و بالقوه استفاده از داده های بزرگ، استفاده از آنها دارای معایبی نیز می باشد که در درجه اول با حجم زیاد اطلاعات، روش های مختلف دسترسی به آن مرتبط است. و اغلب توابع پشتیبانی از منابع کافی نیست امنیت اطلاعاتدر سازمان ها مشکلات مربوط به استفاده از فناوری های کلان داده در شکل 4 ارائه شده است.

برنج. 4. مشکلات استفاده از داده های بزرگ

همه این مشکلات به این واقعیت منجر می شود که بسیاری از شرکت ها نسبت به معرفی فناوری های داده های بزرگ محتاط هستند، زیرا هنگام کار با اشخاص ثالث، خودشان مشکل افشای اطلاعات داخلی را دارند که شرکت نمی تواند تنها با استفاده از منابع خود فاش کند. به نظر من، مهمترین گام در مسیر اجرای کامل فناوری های مبتنی بر داده های بزرگ، باید جنبه قانونی وجود داشته باشد. قبلاً قوانینی وجود دارد که جمع‌آوری، استفاده و ذخیره‌سازی انواع خاصی از داده‌های شخصی را محدود می‌کند، اما داده‌های بزرگ را کاملاً محدود نمی‌کند، بنابراین باید قانون خاصی برای آن وجود داشته باشد. به منظور رعایت قوانین جدید و در حال تغییر سریع، شرکت ها باید فهرست اولیه مقررات مربوطه را انجام دهند و این فهرست را به طور منظم به روز کنند، اما با وجود تمام کاستی های فوق، همانطور که تجربه نمایندگان غربی نشان می دهد، فناوری های Big Data کمک می کند. برای حل موفقیت آمیز، هم وظایف تجاری مدرن و هم افزایش رقابت، و هم وظایفی که مستقیماً با زندگی افراد مرتبط است. شرکت‌های روسی در حال حاضر در مسیر پیاده‌سازی فناوری‌های Big Data هم در حوزه تولید و هم در حوزه عمومی هستند، زیرا میزان اطلاعات تقریباً هر سال دو برابر می‌شود. با گذشت زمان، بسیاری از زمینه های زندگی ما توسط داده های بزرگ تغییر خواهد کرد.

پیوندها به منابع 1. BudzkoV. I. سیستم های در دسترس بودن بالا و داده های بزرگ // داده های بزرگ در اقتصاد ملی 2013. ص 1619.2. Korotkova T. "EMC Data Lake 2.0 - وسیله ای برای انتقال به تجزیه و تحلیل داده های بزرگ و اقتصاد دیجیتال" http://bigdata. cnews.ru/ news/line/20151203_emc_data_lake_20_pomozhet_perejti_k_analitike.3. Kiryanova A. «داده‌های بزرگ در بانک‌های روسیه به جریان اصلی تبدیل نشده‌اند» http://www.cnews.ru/news/top/bolshie_dannye_ne_stali_4f.Instrimowsm. به روسیه آمده است» http://bigdata.cnews.ru/articles/infografika_bolshie_dannye_prishli_v_rossiyu.5.CNews «اینفوگرافیک: خرده فروشی چگونه از داده های بزرگ استفاده می کند» http://bigdata.cnews.ru/articles/infografika_kak_roznitsa_ispolzuet قانون خاصی وجود ندارد مقررات جهان در مورد Big داده هابرای محافظت از منابع داده اصلی، شرکت‌ها باید اطمینان حاصل کنند که همه الزامات امنیت داده‌ها نظارت می‌شوند و اجرای راه‌حل‌های کلان داده ممکن است منجر به ایجاد یا کشف اطلاعات محرمانه قبلی شود. مدیریت داده‌ها حفظ الزامات امنیت داده‌ها مقررات قانونی شناسایی ریسک « Infographics: Bigdata Technologies" http://bigdata.cnews.ru/articles/big_data_v_zhizni_cheloveka.7.CNews"اینفوگرافیک: آنچه داده های بزرگ در بانک ها می توانند انجام دهند" http://bigdata.cnews.ru/articles/infografika_chto_mogutn_bolshie.8_. صرافی مسکو "بررسی تحلیلی بازار BigData" http://habrahabr.ru/company/moex/blog/256747/9. Big Data. http://www.tadviser.ru/index.php/Article:Big_Data_(Big_Data).10.BigData – برق قرن بیست و یکم http://bit.samag.ru/archive/article/1463.11.موسسه جهانی مک کینزی " Bigdata: مرز بعدی برای نوآوری، رقابت و بهره وری» (ژوئن 2011).

اصطلاح "داده های بزرگ" ممکن است امروزه قابل تشخیص باشد، اما هنوز در مورد معنای واقعی آن سردرگمی کمی وجود دارد. در حقیقت، این مفهوم به طور مداوم در حال تحول و تجدید نظر است زیرا نیروی محرکه بسیاری از امواج در حال انجام است. تحول دیجیتالاز جمله هوش مصنوعی، علم داده و اینترنت اشیا. اما فناوری Big-Data چیست و چگونه دنیای ما را تغییر می دهد؟ بیایید سعی کنیم ماهیت فناوری Big Data و معنای آن را در کلمات ساده درک کنیم.

رشد شگفت انگیز داده های بزرگ

همه چیز با انفجاری در حجم داده هایی که ما از آغاز عصر دیجیتال ایجاد کرده ایم آغاز شد. این تا حد زیادی به دلیل توسعه رایانه‌ها، اینترنت و فناوری‌هایی است که می‌توانند داده‌ها را از دنیای اطراف ما «ربا» کنند. داده به خودی خود اختراع جدیدی نیست. حتی قبل از عصر رایانه ها و پایگاه های داده، ما از سوابق تراکنش های کاغذی، سوابق مشتریان و فایل های آرشیوی که داده ها را تشکیل می دهند استفاده می کردیم. رایانه ها، به ویژه صفحات گسترده و پایگاه های داده، ذخیره و سازماندهی داده ها را در مقیاس بزرگ برای ما آسان کرده اند. ناگهان اطلاعات تنها با یک کلیک در دسترس قرار گرفت.

با این حال، ما فاصله زیادی با جداول و پایگاه داده های اصلی داشته ایم. امروزه، هر دو روز یک بار به همان اندازه که از ابتدا تا سال 2000 دریافت کرده بودیم، ایجاد می کنیم. درست است، هر دو روز یکبار. و مقدار داده ای که ما ایجاد می کنیم همچنان به طور تصاعدی رشد می کند. تا سال 2020، مقدار اطلاعات دیجیتالی موجود از حدود 5 زتابایت به 20 زتابایت افزایش خواهد یافت.

امروزه تقریباً هر اقدامی که انجام می‌دهیم اثر خود را به جا می‌گذارد. ما هر بار که آنلاین می شویم، زمانی که تلفن های هوشمند مجهز به جستجوی خود را حمل می کنیم، زمانی که با دوستان خود از طریق صحبت می کنیم، داده تولید می کنیم. رسانه های اجتماعییا چت و غیره علاوه بر این، میزان داده های تولید شده توسط ماشین نیز به سرعت در حال رشد است. زمانی که دستگاه های خانه هوشمند ما با یکدیگر یا با سرورهای خانگی خود ارتباط برقرار می کنند، داده ها تولید و به اشتراک گذاشته می شود. تجهیزات صنعتی در کارخانه ها و کارخانه ها به طور فزاینده ای به حسگرهایی مجهز می شوند که داده ها را جمع آوری و انتقال می دهند.

اصطلاح Big-Data به جمع آوری همه این داده ها و توانایی ما در استفاده از آنها به نفع خود در طیف گسترده ای از زمینه ها از جمله تجارت اشاره دارد.

فناوری Big-Data چگونه کار می کند؟

کلان داده بر اساس این اصل کار می کند: هر چه بیشتر در مورد یک موضوع یا پدیده خاص بدانید، با اطمینان بیشتری می توانید به درک جدیدی دست یابید و آنچه در آینده اتفاق می افتد را پیش بینی کنید. همانطور که نقاط داده بیشتری را با هم مقایسه می کنیم، روابطی ظاهر می شوند که قبلاً پنهان بودند و این روابط به ما امکان می دهد یاد بگیریم و تصمیمات بهتری بگیریم. اغلب، این کار از طریق فرآیندی انجام می‌شود که شامل ساخت مدل‌هایی بر اساس داده‌هایی است که می‌توانیم جمع‌آوری کنیم و سپس شبیه‌سازی‌هایی را اجرا می‌کنیم که مقادیر نقاط داده را هر بار تغییر می‌دهند و نحوه تأثیر آنها بر نتایج ما را دنبال می‌کنند. این فرآیند خودکار است—فناوری تحلیل مدرن میلیون‌ها شبیه‌سازی را اجرا می‌کند و هر متغیر ممکن را تا زمانی که مدل یا ایده‌ای را بیابند که به حل مشکلی که روی آن کار می‌کنند کمک می‌کند، دستکاری می‌کند.

بیل گیتس روی محتویات کاغذ یک سی دی آویزان است

تا همین اواخر، داده ها به صفحات گسترده یا پایگاه داده محدود می شد - و همه چیز بسیار منظم و مرتب بود. هر چیزی که نمی‌توانست به راحتی در ردیف‌ها و ستون‌ها سازماندهی شود، برای کار کردن بسیار پیچیده در نظر گرفته می‌شد و نادیده گرفته می‌شد. با این حال، پیشرفت در ذخیره سازی و تجزیه و تحلیل به این معنی است که ما می توانیم حجم زیادی از داده ها را ضبط، ذخیره و پردازش کنیم انواع مختلف. در نتیجه، امروزه "داده" می تواند به معنای هر چیزی باشد، از پایگاه داده گرفته تا عکس، فیلم، ضبط صدا، متون نوشته شده و داده های حسگر.

برای درک همه این داده های آشفته، پروژه های مبتنی بر داده های بزرگ اغلب از تجزیه و تحلیل پیشرفته با استفاده از هوش مصنوعی و یادگیری رایانه استفاده می کنند. با آموزش ماشین‌های محاسباتی برای تعیین داده‌های خاص - برای مثال از طریق شناسایی الگو یا پردازش زبان طبیعی - می‌توانیم به آنها یاد دهیم که الگوها را بسیار سریع‌تر و قابل اطمینان‌تر از خودمان شناسایی کنند.

داده های بزرگ چگونه استفاده می شود؟

این جریان روزافزون داده‌های حسگر، متن، صدا، عکس و داده‌های ویدیویی به این معنی است که اکنون می‌توانیم از داده‌ها به روش‌هایی استفاده کنیم که تا چند سال پیش غیرقابل تصور بود. این تقریباً در هر صنعتی تغییرات انقلابی را در دنیای تجارت ایجاد می کند. امروزه شرکت‌ها می‌توانند با دقت باورنکردنی پیش‌بینی کنند که کدام دسته از مشتریان و چه زمانی می‌خواهند خرید کنند. کلان داده همچنین به شرکت ها کمک می کند تا فعالیت های خود را بسیار کارآمدتر انجام دهند.

حتی در خارج از تجارت، پروژه‌های مرتبط با داده‌های بزرگ به روش‌های مختلف به تغییر دنیای ما کمک می‌کنند:

بهبود مراقبت های بهداشتی – پزشکی مبتنی بر داده توانایی تجزیه و تحلیل حجم وسیعی از اطلاعات و تصاویر پزشکی را در مدل هایی دارد که می تواند به تشخیص بیماری در مراحل اولیه و توسعه داروهای جدید کمک کند.
پیش بینی و پاسخگویی به بلایای طبیعی و انسان ساز. داده های حسگر را می توان برای پیش بینی محل وقوع زلزله تجزیه و تحلیل کرد و الگوهای رفتاری انسان سرنخ هایی را ارائه می دهد که به سازمان ها کمک می کند تا به بازماندگان کمک کنند. فناوری Big Data همچنین برای ردیابی و محافظت از جریان پناهندگان از مناطق جنگی در سراسر جهان استفاده می شود.
پیشگیری از جرم و جنایت نیروهای پلیس به طور فزاینده‌ای از استراتژی‌های مبتنی بر داده استفاده می‌کنند که اطلاعات اطلاعاتی خود و اطلاعات در دسترس عموم را برای استفاده مؤثرتر از منابع و انجام اقدامات بازدارنده در صورت لزوم، ترکیب می‌کند.

بهترین کتاب ها در مورد فناوری Big-Data

همه دروغ می گویند. موتورهای جستجو، کلان داده و اینترنت همه چیز را در مورد شما می دانند.
اطلاعات بزرگ. تمام تکنولوژی در یک کتاب
صنعت شادی چگونه داده های بزرگ و فناوری های جدید به افزایش احساسات به محصولات و خدمات کمک می کنند.
انقلاب در تحلیل چگونه با استفاده از تجزیه و تحلیل عملیاتی، کسب و کار خود را در عصر داده های بزرگ بهبود بخشید.

مشکلات با داده های بزرگ

داده های بزرگ ایده ها و فرصت های بی سابقه ای را به ما می دهد، اما همچنین مشکلات و سوالاتی را ایجاد می کند که باید به آنها پرداخته شود:

حفظ حریم خصوصی داده ها - داده های بزرگی که امروز تولید می کنیم حاوی اطلاعات زیادی در مورد زندگی شخصی ما است که ما کاملاً حق حریم خصوصی آنها را داریم. بیشتر و بیشتر از ما خواسته می‌شود که بین میزان داده‌های شخصی که فاش می‌کنیم و راحتی که برنامه‌ها و سرویس‌های مبتنی بر داده‌های بزرگ ارائه می‌کنند تعادل ایجاد کنیم.
امنیت داده ها - حتی اگر به این نتیجه برسیم که از داشتن داده های شخصی برای هدف خاصی راضی هستیم، آیا می توانیم به او اعتماد کنیم تا داده های ما را ایمن و ایمن نگه دارد؟
تبعیض داده ها - زمانی که همه اطلاعات شناخته شوند، آیا تبعیض علیه افراد بر اساس داده های زندگی شخصی آنها قابل قبول است؟ ما قبلاً از امتیازات اعتباری برای تصمیم گیری در مورد اینکه چه کسی می تواند پول قرض کند استفاده می کنیم و بیمه نیز به شدت مبتنی بر داده است. ما باید انتظار داشته باشیم که با جزئیات بیشتری تجزیه و تحلیل و ارزیابی شویم، اما باید مراقب بود که این امر زندگی را برای کسانی که منابع کمتری دارند و دسترسی محدود به اطلاعات دارند دشوارتر نمی کند.

انجام این وظایف جزء مهمی از داده های بزرگ است و باید توسط سازمان هایی که می خواهند از چنین داده هایی استفاده کنند، رسیدگی شود. عدم انجام این کار می تواند یک کسب و کار را نه تنها از نظر اعتبار، بلکه از نظر قانونی و مالی آسیب پذیر کند.

نگاه به آینده

داده ها جهان و زندگی ما را با سرعتی بی سابقه تغییر می دهند. اگر داده های بزرگ امروز قادر به انجام همه اینها هستند، فقط تصور کنید که فردا چه توانایی هایی خواهند داشت. مقدار داده های در دسترس ما فقط افزایش می یابد و فناوری تجزیه و تحلیل حتی پیشرفته تر می شود.

برای کسب و کارها، توانایی استفاده از داده های بزرگ در سال های آینده به طور فزاینده ای حیاتی خواهد شد. فقط آن دسته از شرکت هایی که داده ها را به عنوان یک دارایی استراتژیک در نظر می گیرند زنده می مانند و پیشرفت می کنند. کسانی که این انقلاب را نادیده می گیرند در خطر عقب ماندن هستند.

اطلاعات بزرگ- انگلیسی "اطلاعات بزرگ". این اصطلاح به عنوان جایگزینی برای DBMS ظاهر شد و زمانی که اکثر غول های صنعت - IBM، Microsoft، HP، Oracle و دیگران شروع به استفاده از این مفهوم در استراتژی های خود کردند، به یکی از روندهای اصلی در زیرساخت های فناوری اطلاعات تبدیل شد. Big Data به آرایه عظیم (صدها ترابایت) داده اشاره دارد که با استفاده از روش های سنتی قابل پردازش نیستند. گاهی اوقات - ابزارها و روش های پردازش این داده ها.

نمونه‌هایی از منابع کلان داده: رویدادهای RFID، پیام‌ها در شبکه‌های اجتماعی، آمار هواشناسی، اطلاعات مربوط به موقعیت مکانی مشترکین شبکه‌های تلفن همراه تلفن همراه و داده‌های دستگاه‌های ضبط صدا/فیلم. بنابراین، "داده های بزرگ" به طور گسترده در تولید، مراقبت های بهداشتی، مدیریت دولتی و کسب و کار اینترنتی - به ویژه، هنگام تجزیه و تحلیل مخاطبان هدف استفاده می شود.

مشخصه

نشانه‌های کلان داده به عنوان «سه در مقابل» تعریف می‌شوند: حجم – حجم (واقعاً بزرگ). تنوع - ناهمگونی، مجموعه؛ سرعت - سرعت (نیاز به پردازش بسیار سریع).

کلان داده ها اغلب بدون ساختار هستند و برای پردازش آن به الگوریتم های خاصی نیاز است. روش های تجزیه و تحلیل کلان داده ها عبارتند از:

("داده کاوی") - مجموعه ای از رویکردها برای کشف دانش مفید پنهان که با روش های استاندارد نمی توان به دست آورد.
جمع سپاری (جمعیت - "جمعیت"، منبع یابی - استفاده به عنوان منبع) - حل مشکلات مهم از طریق تلاش مشترک داوطلبانی که در یک قرارداد کاری یا رابطه اجباری نیستند، هماهنگی فعالیت ها با استفاده از ابزارهای فناوری اطلاعات؛
ترکیب و ادغام داده ها ("اختلاط و پیاده سازی داده ها") - مجموعه ای از روش ها برای اتصال چندین منبع به عنوان بخشی از یک تجزیه و تحلیل عمیق.
یادگیری ماشین ("یادگیری ماشین") زیربخشی از تحقیقات هوش مصنوعی است که روش‌های استفاده از تجزیه و تحلیل آماری و پیش‌بینی‌های مبتنی بر مدل‌های پایه را مطالعه می‌کند.
تشخیص تصویر (به عنوان مثال، تشخیص چهره در منظره یاب دوربین یا دوربین فیلمبرداری)؛
تجزیه و تحلیل فضایی - با استفاده از توپولوژی، هندسه و جغرافیا برای ساخت داده ها.
تجسم داده ها - خروجی اطلاعات تحلیلی در قالب تصاویر و نمودارها با استفاده از ابزارهای تعاملیو انیمیشن هایی برای ردیابی نتایج و ایجاد پایه ای برای نظارت بیشتر.

اطلاعات بر روی تعداد زیادی سرور با کارایی بالا ذخیره و تجزیه و تحلیل می شود. فناوری کلیدی Hadoop است که منبع باز است.

از آنجایی که مقدار اطلاعات تنها در طول زمان افزایش می یابد، مشکل در به دست آوردن داده ها نیست، بلکه در نحوه پردازش آن با حداکثر سود است. به طور کلی، فرآیند کار با داده های بزرگ شامل: جمع آوری اطلاعات، ساختار آن، ایجاد بینش و زمینه ها، توسعه توصیه هایی برای اقدام است. حتی قبل از مرحله اول، مهم است که هدف کار را به وضوح تعریف کنید: برای مثال، تعیین مخاطب هدف محصول دقیقاً برای چه داده هایی مورد نیاز است. در غیر این صورت، خطر دریافت اطلاعات زیادی بدون درک نحوه استفاده دقیق از آن وجود دارد.

فقط یه چیز پیچیده برنامه ها. اهن. اینترنت. پنجره ها