کلان داده یک اصطلاح گسترده برای استراتژی ها و فناوری های غیر متعارف مورد نیاز برای جمع آوری، سازماندهی و پردازش اطلاعات از مجموعه داده های بزرگ است. اگرچه مشکل کار با داده های بزرگتر از قدرت پردازشیا قابلیت های ذخیره سازی یک کامپیوتر جدید نیست، دامنه و ارزش این نوع محاسبات در سال های اخیر به طور قابل توجهی گسترش یافته است.
این مقاله شما را با مفاهیم اولیه ای که ممکن است در حین کاوش داده های بزرگ با آنها روبرو شوید، راهنمایی می کند. همچنین برخی از فرآیندها و فناوری هایی را که در حال حاضر در این زمینه استفاده می شود، مورد بحث قرار می دهد.
کلان داده چیست؟
بیان تعریف دقیق "داده های بزرگ" دشوار است زیرا پروژه ها، فروشندگان، متخصصان و متخصصان تجاری از آن به روش های بسیار متفاوتی استفاده می کنند. با در نظر گرفتن این موضوع، داده های بزرگ را می توان به صورت زیر تعریف کرد:
- مجموعه داده های بزرگ
- دسته ای از استراتژی ها و فناوری های محاسباتی که برای پردازش مجموعه داده های بزرگ استفاده می شود.
در این زمینه، "مجموعه داده های بزرگ" به معنای مجموعه ای از داده ها است که برای پردازش یا ذخیره با استفاده از ابزارهای سنتی یا روی یک رایانه بسیار بزرگ است. این بدان معنی است که مقیاس کلی مجموعه داده های بزرگ به طور مداوم در حال تغییر است و می تواند به طور قابل توجهی از موردی به مورد دیگر متفاوت باشد.
سیستم های کلان داده
الزامات اساسی برای کار با داده های بزرگ مانند هر مجموعه داده دیگری است. با این حال، مقیاس عظیم، سرعت پردازش و ویژگیهای دادهای که در هر مرحله از فرآیند با آن مواجه میشوند، چالشهای جدیدی را برای توسعه ابزار ایجاد میکنند. هدف بیشتر سیستمهای کلان داده درک و برقراری ارتباط با حجم زیادی از دادههای ناهمگن است که با استفاده از روشهای مرسوم امکانپذیر نخواهد بود.
در سال 2001، داگ لین از گارتنر، "سه V از داده های بزرگ" را برای توصیف برخی از ویژگی هایی که پردازش کلان داده را از سایر انواع پردازش داده متمایز می کند، معرفی کرد:
- حجم (حجم داده ها).
- سرعت (سرعت انباشت و پردازش داده ها).
- تنوع (انواع انواع داده های پردازش شده).
حجم داده ها
مقیاس بزرگ اطلاعات پردازش شده به تعریف سیستم های کلان داده کمک می کند. این مجموعه دادهها میتوانند مرتبههای بزرگتری نسبت به مجموعههای داده سنتی داشته باشند و در هر مرحله از پردازش و ذخیرهسازی به توجه بیشتری نیاز دارند.
از آنجایی که تقاضاها بیش از توانایی های یک کامپیوتر است، مشکل ادغام، توزیع، و هماهنگی منابع از گروه های کامپیوتری اغلب به وجود می آید. مدیریت خوشه و الگوریتمهایی که میتوانند وظایف را به بخشهای کوچکتر تقسیم کنند، در این زمینه اهمیت فزایندهای پیدا میکنند.
سرعت انباشت و پردازش
دومین ویژگی که داده های بزرگ را به طور قابل توجهی از سایر سیستم های داده متمایز می کند، سرعت حرکت اطلاعات در سیستم است. داده ها اغلب از چندین منبع وارد سیستم می شوند و باید در زمان واقعی پردازش شوند تا وضعیت فعلی سیستم به روز شود.
این تاکید بر آنی بازخوردبسیاری از پزشکان را وادار کرد تا رویکرد بسته محور را کنار بگذارند و به سیستم پخش بلادرنگ ترجیح دهند. داده ها به طور مداوم در حال افزودن، پردازش و تجزیه و تحلیل هستند تا با هجوم اطلاعات جدید همگام باشند و بینش های ارزشمندی را در اوایل، زمانی که بیشترین ارتباط را دارند، ارائه دهند. این نیاز به سیستمهای قوی با اجزای بسیار در دسترس برای محافظت در برابر خرابی در طول خط لوله داده دارد.
انواع داده های پردازش شده
به دلیل گستره وسیع منابع پردازش شده و کیفیت نسبی آنها، چالش های منحصر به فرد زیادی در کلان داده وجود دارد.
دادهها میتوانند از سیستمهای داخلی مانند گزارشهای برنامهها و سرورها، از فیدهای رسانههای اجتماعی و دیگر APIهای خارجی، از حسگرهای دستگاه فیزیکی و از منابع دیگر به دست آیند. هدف سیستم های کلان داده پردازش داده های بالقوه مفید، صرف نظر از منشأ، با ترکیب همه اطلاعات در یک سیستم واحد است.
فرمت ها و انواع رسانه ها نیز می توانند به طور قابل توجهی متفاوت باشند. فایل های رسانه ای (تصاویر، ویدئو و صدا) با آنها ترکیب می شوند فایل های متنیسیستمهای پردازش دادههای سنتی بیشتر انتظار دارند که دادهها از قبل برچسبگذاری شده، قالببندی شده و سازماندهی شده وارد خط لوله شوند، اما سیستمهای کلان داده معمولاً دادهها را در تلاش برای حفظ آنها جذب و ذخیره میکنند. حالت اولیه. در حالت ایده آل، هرگونه تغییر یا تغییر در داده های خام در حین پردازش در حافظه رخ می دهد.
سایر خصوصیات
با گذشت زمان، متخصصان و سازمانها توسعههای «سه در مقابل» اصلی را پیشنهاد کردهاند، اگرچه این نوآوریها بیشتر به توصیف مشکلات میپردازند تا ویژگیهای کلان داده.
- صحت: تنوع منابع و پیچیدگی پردازش می تواند منجر به مشکلاتی در ارزیابی کیفیت داده ها (و در نتیجه کیفیت تجزیه و تحلیل حاصل) شود.
- تغییرپذیری: تغییرات در داده ها منجر به تغییرات گسترده در کیفیت می شود. منابع اضافی ممکن است برای شناسایی، پردازش یا فیلتر کردن دادههای با کیفیت پایین برای بهبود کیفیت داده مورد نیاز باشد.
- ارزش: هدف نهایی داده های بزرگ ارزش است. گاهی اوقات سیستم ها و فرآیندها بسیار پیچیده هستند و استفاده از داده ها و استخراج مقادیر واقعی را دشوار می کند.
چرخه حیات داده های بزرگ
بنابراین، داده های بزرگ در واقع چگونه پردازش می شوند؟ چندین رویکرد مختلف برای پیاده سازی وجود دارد، اما اشتراکاتی در استراتژی ها و نرم افزارها وجود دارد.
- وارد کردن داده ها به سیستم
- ذخیره داده ها در ذخیره سازی
- محاسبات و تجزیه و تحلیل داده ها
- تجسم نتایج
قبل از اینکه به جزئیات این چهار دسته از گردش کارها نگاه کنیم، اجازه دهید در مورد محاسبات خوشه ای صحبت کنیم، یک استراتژی مهم که توسط بسیاری از ابزارهای کلان داده استفاده می شود. راه اندازی یک خوشه محاسباتی فناوری اصلی مورد استفاده در هر مرحله از چرخه حیات است.
محاسبات خوشه ای
به دلیل کیفیت داده های بزرگ، رایانه های فردی برای پردازش داده ها مناسب نیستند. خوشه ها برای این کار مناسب تر هستند زیرا می توانند نیازهای ذخیره سازی و محاسباتی داده های بزرگ را برطرف کنند.
نرمافزار خوشهبندی کلان داده منابع بسیاری از ماشینهای کوچک را با هم ترکیب میکند و با هدف ارائه تعدادی از مزایا:
- Resource Pooling: پردازش مجموعه داده های بزرگ به مقادیر زیادی از CPU و منابع حافظه و همچنین فضای ذخیره سازی زیادی نیاز دارد.
- در دسترس بودن بالا: خوشه ها می توانند سطوح مختلفی از تحمل خطا و در دسترس بودن را ارائه دهند، به طوری که خرابی های سخت افزاری یا نرم افزاری بر دسترسی و پردازش داده ها تأثیر نمی گذارد. این به ویژه برای تجزیه و تحلیل زمان واقعی مهم است.
- مقیاس پذیری: خوشه ها از مقیاس بندی سریع افقی پشتیبانی می کنند (افزودن ماشین های جدید به خوشه).
برای کار در یک خوشه، به ابزارهایی برای مدیریت عضویت در خوشه، هماهنگ کردن توزیع منابع و برنامهریزی کار با گرهها نیاز دارید. عضویت در کلاستر و تخصیص منابع را می توان با استفاده از برنامه هایی مانند Hadoop YARN (Yet Another Resource Negotiator) یا Apache Mesos انجام داد.
یک خوشه محاسباتی پیش ساخته اغلب به عنوان ستون فقرات عمل می کند که سایر نرم افزارها برای پردازش داده ها با آن تعامل دارند. ماشینهای شرکتکننده در یک خوشه محاسباتی نیز معمولاً با مدیریت یک سیستم ذخیرهسازی توزیع شده مرتبط هستند.
در حال دریافت اطلاعات
هضم داده ها فرآیند افزودن داده های خام به سیستم است. پیچیدگی این عملیات تا حد زیادی به فرمت و کیفیت منابع داده و میزان برآورده شدن داده ها با الزامات پردازش بستگی دارد.
شما می توانید داده های بزرگ را با استفاده از ابزارهای خاص به سیستم اضافه کنید. فناوری هایی مانند Apache Sqoop می توانند داده های موجود را از پایگاه داده های رابطه ای گرفته و به یک سیستم کلان داده اضافه کنند. همچنین می توانید از Apache Flume و Apache Chukwa استفاده کنید - پروژه هایی که برای جمع آوری و وارد کردن گزارش های برنامه و سرور طراحی شده اند. کارگزاران پیام مانند آپاچی کافکا را می توان به عنوان رابط بین مولدهای مختلف داده و یک سیستم کلان داده استفاده کرد. چارچوب هایی مانند Gobblin می توانند خروجی همه ابزارها را در انتهای خط لوله ترکیب و بهینه کنند.
در طول مصرف داده ها، تجزیه و تحلیل، مرتب سازی و برچسب گذاری معمولا انجام می شود. این فرآیند گاهی اوقات ETL (extract, transform, load) نامیده می شود که مخفف استخراج، تبدیل و بار است. اگرچه این اصطلاح معمولاً به فرآیندهای انبار داده قدیمی اشاره دارد، اما گاهی اوقات برای سیستم های کلان داده به کار می رود. عملیات معمولی شامل اصلاح دادههای دریافتی برای قالببندی، دستهبندی و برچسبگذاری، فیلتر کردن یا بررسی دادهها برای مطابقت است.
در حالت ایده آل، داده های دریافتی تحت حداقل قالب بندی قرار می گیرند.
ذخیره سازی داده ها
پس از دریافت، داده ها به اجزایی منتقل می شوند که ذخیره سازی را مدیریت می کنند.
به طور معمول، سیستم های فایل توزیع شده برای ذخیره داده های خام استفاده می شوند. راه حل هایی مانند HDFS از Apache Hadoop اجازه می دهد تا مقادیر زیادی داده در چندین گره در یک خوشه نوشته شود. این سیستم دسترسی به منابع محاسباتی را به دادهها فراهم میکند، میتواند دادهها را در RAM کلاستر برای عملیات حافظه بارگذاری کند و خرابیهای اجزا را مدیریت کند. سایر سیستم های فایل توزیع شده را می توان به جای HDFS استفاده کرد، از جمله Ceph و GlusterFS.
همچنین میتوان دادهها را برای دسترسی ساختاریافتهتر به سیستمهای توزیعشده دیگر وارد کرد. پایگاه داده های توزیع شده، به ویژه پایگاه های داده NoSQL، برای این نقش مناسب هستند زیرا می توانند داده های ناهمگن را مدیریت کنند. انواع مختلفی از پایگاه داده های توزیع شده وجود دارد، انتخاب بستگی به نحوه سازماندهی و ارائه داده های خود دارد.
محاسبات و تجزیه و تحلیل داده ها
هنگامی که داده ها در دسترس هستند، سیستم می تواند پردازش را آغاز کند. لایه محاسباتی شاید آزادترین بخش سیستم باشد، زیرا الزامات و رویکردها در اینجا بسته به نوع اطلاعات می توانند به طور قابل توجهی متفاوت باشند. داده ها اغلب به طور مکرر پردازش می شوند، یا با استفاده از یک ابزار واحد یا با استفاده از تعدادی ابزار برای پردازش انواع مختلف داده ها.
پردازش دسته ای یکی از روش های محاسبه در مجموعه های بزرگداده ها. این فرآیند شامل شکستن داده ها به بخش های کوچکتر، زمان بندی هر قسمت برای پردازش در ماشین جداگانه، مرتب سازی مجدد داده ها بر اساس نتایج میانی و سپس محاسبه و جمع آوری نتیجه نهایی است. MapReduce Apache Hadoop از این استراتژی استفاده می کند. پردازش دسته ای هنگام کار با مجموعه داده های بسیار بزرگ که به محاسبات بسیار زیادی نیاز دارند بسیار مفید است.
سایر بارهای کاری نیاز به پردازش بلادرنگ دارند. با این حال، اطلاعات باید بلافاصله پردازش و آماده شوند و سیستم باید به موقع با در دسترس قرار گرفتن اطلاعات جدید پاسخ دهد. یکی از راههای پیادهسازی پردازش بلادرنگ، پردازش یک جریان پیوسته از دادهها متشکل از عناصر منفرد است. یکی دیگه ویژگی های عمومیپردازنده های بلادرنگ داده ها را در حافظه خوشه ای محاسبه می کنند و از نوشتن روی دیسک اجتناب می کنند.
Apache Storm، Apache Flink و Apache Spark راه های مختلفی را برای اجرای پردازش بلادرنگ ارائه می دهند. این فناوریهای انعطافپذیر به شما امکان میدهند بهترین رویکرد را برای هر مشکل فردی انتخاب کنید. به طور کلی، پردازش بلادرنگ برای تجزیه و تحلیل دادههای کوچکی که تغییر میکنند یا به سرعت به سیستم اضافه میشوند، مناسبتر است.
همه این برنامه ها چارچوب هستند. با این حال، روش های بسیار دیگری برای محاسبه یا تجزیه و تحلیل داده ها در یک سیستم کلان داده وجود دارد. این ابزارها اغلب به چارچوب های فوق متصل می شوند و رابط های اضافی برای تعامل با لایه های زیرین ارائه می دهند. به عنوان مثال، Apache Hive یک رابط انبار داده برای Hadoop، Apache Pig یک رابط پرس و جو ارائه می دهد، و تعاملات داده SQL توسط Apache Drill، Apache Impala، Apache Spark SQL و Presto ارائه می شود. یادگیری ماشین از Apache SystemML، Apache Mahout و MLlib از Apache Spark استفاده می کند. برای برنامه نویسی تحلیلی مستقیم، که به طور گسترده توسط اکوسیستم داده پشتیبانی می شود، از R و Python استفاده می شود.
تجسم نتایج
اغلب، تشخیص روندها یا تغییرات داده ها در طول زمان مهمتر از مقادیر به دست آمده است. تجسم داده ها یکی از مفیدترین راه ها برای شناسایی روندها و سازماندهی تعداد زیادی از نقاط داده است.
پردازش بلادرنگ برای تجسم معیارهای برنامه و سرور استفاده می شود. داده ها به طور مکرر تغییر می کنند و تغییرات زیاد در معیارها معمولاً تأثیر قابل توجهی بر سلامت سیستم ها یا سازمان ها نشان می دهد. پروژه هایی مانند Prometheus را می توان برای پردازش جریان های داده و سری های زمانی و تجسم این اطلاعات استفاده کرد.
یکی از راههای رایج برای تجسم دادهها، پشته Elastic است که قبلا به عنوان پشته ELK شناخته میشد. Logstash برای جمع آوری داده ها، Elasticsearch برای نمایه سازی داده ها و Kibana برای تجسم استفاده می شود. پشته Elastic می تواند با داده های بزرگ کار کند، نتایج محاسبات را تجسم کند یا با معیارهای خام تعامل داشته باشد. یک پشته مشابه را می توان با ترکیب Apache Solr برای نمایه سازی با یک چنگال Kibana به نام Banana برای تجسم به دست آورد. این پشته ابریشم نام دارد.
یکی دیگر از فناوری های تجسم برای تعامل با داده ها اسناد است. چنین پروژه هایی امکان کاوش و تجسم تعاملی داده ها را در قالبی مناسب فراهم می کند اشتراک گذاریو ارائه داده ها نمونه های محبوب این نوع رابط کاربری Jupyter Notebook و Apache Zeppelin هستند.
واژه نامه کلان داده
- کلان داده یک اصطلاح گسترده برای مجموعههایی از دادهها است که به دلیل حجم، سرعت و تنوع نمیتوانند توسط رایانهها یا ابزارهای معمولی به درستی پردازش شوند. این اصطلاح معمولاً برای فناوری ها و استراتژی های کار با چنین داده هایی نیز به کار می رود.
- پردازش دسته ای یک استراتژی محاسباتی است که شامل پردازش داده ها در مجموعه های بزرگ است. به طور معمول، این روش برای کار با داده های غیر فوری ایده آل است.
- محاسبات خوشه ای عملی است که منابع چند ماشین را با هم ترکیب می کند و قابلیت های مشترک آنها را برای انجام وظایف مدیریت می کند. در این مورد، یک لایه مدیریت خوشه مورد نیاز است که ارتباط بین گرهها را مدیریت کند.
- دریاچه داده یک مخزن بزرگ از داده های جمع آوری شده در حالت نسبتا خام است. این اصطلاح اغلب برای اشاره به داده های بزرگ بدون ساختار و اغلب در حال تغییر استفاده می شود.
- داده کاوی یک اصطلاح گسترده برای شیوه های مختلف یافتن الگوها در مجموعه داده های بزرگ است. این تلاشی است برای سازماندهی انبوهی از داده ها در مجموعه ای قابل فهم تر و منسجم تر از اطلاعات.
- انبار داده یک مخزن بزرگ و سازمان یافته برای تجزیه و تحلیل و گزارش است. برخلاف دریاچه داده، یک انبار شامل داده های فرمت شده و به خوبی سازماندهی شده است که با منابع دیگر ادغام شده است. انبارهای داده اغلب در رابطه با داده های بزرگ ذکر می شوند، اما آنها اغلب اجزای سیستم های پردازش داده های معمولی هستند.
- ETL (استخراج، تبدیل و بارگذاری) - استخراج، تبدیل و بارگذاری داده ها. این فرآیند به دست آوردن و آماده سازی داده های خام برای استفاده است. با انبارهای داده مرتبط است، اما ویژگیهای این فرآیند در خطوط لوله سیستمهای کلان داده نیز یافت میشود.
- Hadoop یک پروژه منبع باز آپاچی است کد منبعبرای داده های بزرگ این شامل یک توزیع شده است سیستم فایلبه نام HDFS و یک خوشه و زمانبندی منابع به نام YARN. ممکن ها پردازش دسته ایارائه شده توسط موتور محاسبات MapReduce. استقرار مدرن Hadoop می تواند سایر سیستم های محاسباتی و تحلیلی را در کنار MapReduce اجرا کند.
- محاسبات درون حافظه یک استراتژی است که شامل انتقال کل مجموعه داده های کاری به حافظه خوشه ای است. محاسبات میانی روی دیسک نوشته نمی شوند، در عوض در حافظه ذخیره می شوند. این به سیستم ها مزیت سرعت زیادی نسبت به سیستم های I/O-bound می دهد.
- یادگیری ماشینی مطالعه و تمرین طراحی سیستمهایی است که میتوانند بر اساس دادههایی که به آنها داده میشود، یاد بگیرند، تنظیم کنند و بهبود ببخشند. این معمولاً به معنای اجرای الگوریتم های پیش بینی و آماری است.
- کاهش نقشه (با MapReduce از Hadoop اشتباه گرفته نشود) یک الگوریتم زمانبندی خوشه محاسباتی است. این فرآیند شامل تقسیم کار بین گره ها و به دست آوردن نتایج میانی، به هم زدن و سپس خروجی یک مقدار برای هر مجموعه است.
- NoSQL یک اصطلاح گسترده است که به پایگاه های داده ای اطلاق می شود که خارج از مدل رابطه ای سنتی طراحی شده اند. پایگاه داده های NoSQL به دلیل انعطاف پذیری و معماری توزیع شده برای داده های بزرگ مناسب هستند.
- پردازش جریانی، عمل محاسبه تک تک دادهها هنگام حرکت در یک سیستم است. این امکان تجزیه و تحلیل داده های بلادرنگ را فراهم می کند و برای پردازش تراکنش های حساس به زمان با استفاده از معیارهای سرعت بالا مناسب است.
بر اساس مواد تحقیق و روند
اطلاعات بزرگ"داده های بزرگ" چندین سال است که بحث مطبوعات IT و بازاریابی بوده است. و واضح است: فناوری های دیجیتالدر زندگی انسان مدرن نفوذ کرد، "همه چیز نوشته شده است." بیشترین حجم داده ها طرف های مختلفزندگی در حال رشد است و در عین حال امکانات ذخیره سازی اطلاعات در حال افزایش است.
فناوری های جهانی برای ذخیره سازی اطلاعات
منبع: هیلبرت و لوپز، «ظرفیت تکنولوژیکی جهان برای ذخیره، برقراری ارتباط و محاسبه اطلاعات»، Science، 2011 جهانی.
اکثر کارشناسان موافق هستند که تسریع رشد داده ها یک واقعیت عینی است. شبکههای اجتماعی، دستگاههای تلفن همراه، دادههای دستگاههای اندازهگیری، اطلاعات تجاری - اینها تنها چند نوع منبع هستند که میتوانند حجم عظیمی از اطلاعات را تولید کنند. با توجه به مطالعه IDCجهان دیجیتال، منتشر شده در سال 2012، در 8 سال آینده حجم داده ها در جهان به 40 ZB (زتابایت) می رسد که معادل 5200 گیگابایت برای هر ساکن کره زمین است.
رشد جمع آوری اطلاعات دیجیتال در ایالات متحده
منبع: IDC
بسیاری از اطلاعات توسط افراد ایجاد نمیشود، بلکه توسط روباتهایی که هم با یکدیگر و هم با سایر شبکههای داده، مانند حسگرها و دستگاههای هوشمند تعامل دارند، ایجاد میشوند. به گفته محققان با این سرعت رشد، میزان داده ها در جهان هر سال دو برابر می شود. با گسترش و ایجاد مراکز داده جدید، تعداد سرورهای مجازی و فیزیکی در جهان ده برابر خواهد شد. در نتیجه، نیاز روزافزونی به استفاده موثر و کسب درآمد از این داده ها وجود دارد. از آنجایی که استفاده از داده های بزرگ در تجارت نیاز به سرمایه گذاری قابل توجهی دارد، باید وضعیت را به وضوح درک کنید. و در اصل ساده است: شما می توانید کارایی کسب و کار را با کاهش هزینه ها و/یا افزایش حجم فروش افزایش دهید.
چرا به داده های بزرگ نیاز داریم؟
پارادایم کلان داده سه نوع اصلی از مشکلات را تعریف می کند.
- ذخیره و مدیریت صدها ترابایت یا پتابایت داده که پایگاه های داده رابطه ای معمولی نمی توانند به طور موثر از آنها استفاده کنند.
- سازماندهی اطلاعات بدون ساختار متشکل از متون، تصاویر، ویدئوها و انواع دیگر داده ها.
- تجزیه و تحلیل کلان داده، که سوال راه های کار با اطلاعات بدون ساختار، تولید گزارش های تحلیلی و همچنین اجرای مدل های پیش بینی را مطرح می کند.
بازار پروژه داده های بزرگ با بازار تجزیه و تحلیل کسب و کار (BA) تلاقی می کند که حجم جهانی آن، به گفته کارشناسان، در سال 2012 حدود 100 میلیارد دلار بود. این شامل اجزای فن آوری های شبکه، سرورها، نرم افزارو خدمات فنی
همچنین استفاده کنید فناوری های بزرگدادهها مربوط به راهحلهای کلاس تضمین درآمد (RA) است که برای خودکارسازی فعالیتهای شرکتها طراحی شدهاند. سیستم های مدرنتضمین درآمد شامل تشخیص ناسازگاری و ابزارهای تجزیه و تحلیل عمیق داده ها برای امکان تشخیص به موقع ضررهای احتمالی، یا ارائه نادرست اطلاعات که می تواند منجر به کاهش نتایج مالی شود. در این زمینه، شرکتهای روسی با تایید حضور تقاضا برای فناوریهای Big Data در بازار داخلی، خاطرنشان میکنند که عواملی که توسعه Big Data را در روسیه تحریک میکنند، رشد دادهها، تسریع در تصمیمگیری مدیریت و بهبود است. از کیفیت آنها
چه چیزی شما را از کار با داده های بزرگ باز می دارد
امروزه، تنها 0.5 درصد از دادههای دیجیتالی انباشته شده مورد تجزیه و تحلیل قرار میگیرند، علیرغم این واقعیت که به طور عینی مشکلاتی در سطح صنعت وجود دارد که میتوان با استفاده از راهحلهای تحلیلی کلاس دادههای بزرگ حل کرد. بازارهای توسعه یافته فناوری اطلاعات در حال حاضر نتایجی دارند که می توانند برای ارزیابی انتظارات مرتبط با انباشت و پردازش کلان داده ها مورد استفاده قرار گیرند.
یکی از اصلی ترین عواملی که اجرای پروژه های بیگ دیتا را کند می کند، علاوه بر هزینه بالا، در نظر گرفته می شود مشکل انتخاب داده های پردازش شده: یعنی تعیین اینکه کدام داده ها نیاز به بازیابی، ذخیره و تجزیه و تحلیل دارند و کدام ها باید نادیده گرفته شوند.
بسیاری از نمایندگان کسب و کار خاطرنشان می کنند که مشکلات در اجرای پروژه های کلان داده با کمبود متخصص - بازاریابان و تحلیلگران همراه است. سرعت بازگشت سرمایه در Big Data به طور مستقیم به کیفیت کار کارکنان درگیر در تجزیه و تحلیل های عمیق و پیش بینی کننده بستگی دارد. پتانسیل عظیم داده های موجود در یک سازمان اغلب نمی تواند توسط خود بازاریابان به دلیل فرآیندهای تجاری قدیمی یا مقررات داخلی به طور موثر مورد استفاده قرار گیرد. بنابراین، پروژههای کلان داده اغلب توسط کسبوکارها نه تنها اجرا، بلکه ارزیابی نتایج نیز دشوار است: ارزش دادههای جمعآوریشده. ماهیت خاص کار با داده ها به بازاریابان و تحلیلگران نیاز دارد که توجه خود را از فناوری و ایجاد گزارش به حل مشکلات خاص تجاری تغییر دهند.
با توجه به حجم زیاد و سرعت بالای جریان داده ها، فرآیند جمع آوری داده ها شامل رویه های ETL در زمان واقعی است. برای مرجع:ETL - از جانبانگلیسیاستخراج کردن, تبدیل, بار- به معنای واقعی کلمه "استخراج، تبدیل، بارگذاری") - یکی از فرآیندهای اصلی در مدیریت انبارهای داده که شامل: بازیابی داده ها از منابع خارجی، تبدیل آنها و نظافت برای رفع نیازها ETL نه تنها باید به عنوان یک فرآیند انتقال داده ها از یک برنامه به برنامه دیگر، بلکه به عنوان ابزاری برای آماده سازی داده ها برای تجزیه و تحلیل در نظر گرفته شود.
و سپس مسائل مربوط به اطمینان از امنیت داده هایی که از منابع خارجی می آیند باید راه حل هایی داشته باشند که با حجم اطلاعات جمع آوری شده مطابقت داشته باشد. از آنجایی که روش های تجزیه و تحلیل کلان داده تنها به دنبال رشد حجم داده ها در حال توسعه هستند، توانایی پلتفرم های تحلیلی برای استفاده از روش های جدید تهیه و تجمیع داده ها نقش مهمی ایفا می کند. این نشان میدهد که برای مثال، دادههای مربوط به خریداران بالقوه یا یک انبار داده عظیم با سابقه کلیک در سایتهای خرید آنلاین ممکن است برای حل مشکلات مختلف مفید باشد.
سختی ها متوقف نمی شوند
علیرغم تمام مشکلاتی که در پیاده سازی Big Data وجود دارد، این کسب و کار قصد دارد سرمایه گذاری در این زمینه را افزایش دهد. همانطور که از دادههای گارتنر برمیآید، در سال 2013، 64٪ از بزرگترین شرکتهای جهان قبلاً سرمایهگذاری کردهاند یا برنامههایی برای سرمایهگذاری در استقرار فناوریهای Big Data برای تجارت خود داشتهاند، در حالی که در سال 2012، 58٪ بود. طبق تحقیقات گارتنر، پیشتازان صنایع سرمایهگذاری در دادههای بزرگ، شرکتهای رسانهای، مخابرات، بانکداری و شرکتهای خدماتی هستند. نتایج موفقیتآمیز اجرای Big Data در حال حاضر توسط بسیاری از بازیگران اصلی صنعت خردهفروشی از نظر استفاده از دادههای بهدستآمده با استفاده از ابزارهای شناسایی فرکانس رادیویی، لجستیک و سیستمهای جابجایی به دست آمده است. دوباره پر کردن- انباشت، دوباره پر کردن - تحقیق و توسعه)، و همچنین از برنامه های وفاداری. تجربه موفق خردهفروشی سایر بخشهای بازار را تشویق میکند تا بخشهای جدید پیدا کنند راه های موثرکسب درآمد از کلان داده برای تبدیل تجزیه و تحلیل آن به منبعی که برای توسعه تجارت کار می کند. به گفته کارشناسان، در بازه زمانی تا سال 2020، سرمایه گذاری در مدیریت و ذخیره سازی به ازای هر گیگابایت داده از 2 دلار به 0.2 دلار کاهش می یابد، اما برای مطالعه و تجزیه و تحلیل ویژگی های تکنولوژیکی داده های بزرگ تنها 40 درصد افزایش می یابد.
هزینه های ارائه شده در پروژه های مختلف سرمایه گذاری در حوزه داده های بزرگ ماهیت متفاوتی دارند. اقلام هزینه بستگی به انواع محصولاتی دارد که بر اساس تصمیمات خاصی انتخاب می شوند. به گفته کارشناسان، بیشترین بخش از هزینه ها در پروژه های سرمایه گذاری به محصولات مربوط به جمع آوری، ساختار داده ها، تمیز کردن و مدیریت اطلاعات اختصاص دارد.
چگونه انجام می شود
ترکیبهای زیادی از نرمافزار و سختافزار وجود دارد که به شما امکان میدهد راهحلهای Big Data را برای رشتههای مختلف کسبوکار ایجاد کنید: از رسانههای اجتماعی و برنامههای تلفن همراه، تا تجزیه و تحلیل هوشمند و تجسم دادههای تجاری. مزیت مهم Big Data سازگاری ابزارهای جدید با پایگاه های داده است که به طور گسترده در تجارت مورد استفاده قرار می گیرند، که به ویژه در هنگام کار با پروژه های بین رشته ای، مانند سازماندهی فروش چند کانالی و پشتیبانی مشتری، اهمیت زیادی دارد.
توالی کار با داده های بزرگ شامل جمع آوری داده ها، ساختاردهی اطلاعات دریافتی با استفاده از گزارش ها و داشبوردها، ایجاد بینش ها و زمینه ها، و تدوین توصیه هایی برای اقدام است. از آنجایی که کار با داده های بزرگ مستلزم هزینه های زیادی برای جمع آوری داده ها است که نتیجه پردازش آن از قبل ناشناخته است، وظیفه اصلی این است که به وضوح درک کنیم که داده ها برای چه چیزی هستند و نه اینکه چه مقدار از آن در دسترس است. در این حالت، جمع آوری داده ها به فرآیندی برای به دست آوردن اطلاعاتی تبدیل می شود که منحصراً برای حل مسائل خاص ضروری است.
به عنوان مثال، ارائه دهندگان مخابرات حجم عظیمی از داده ها، از جمله موقعیت جغرافیایی را که به طور مداوم به روز می شود، جمع آوری می کنند. این اطلاعات ممکن است برای آژانس های تبلیغاتی مورد توجه تجاری قرار گیرد، که ممکن است از آن برای ارائه تبلیغات هدفمند و محلی و همچنین خرده فروشان و بانک ها استفاده کنند. چنین دادههایی میتوانند نقش مهمی را هنگام تصمیمگیری برای باز کردن یک فروشگاه خردهفروشی در یک مکان خاص بر اساس دادههای مربوط به حضور یک جریان هدفمند قدرتمند از مردم ایفا کنند. نمونه ای از اندازه گیری اثربخشی تبلیغات در بیلبوردهای فضای باز در لندن وجود دارد. در حال حاضر دامنه چنین تبلیغاتی تنها با قرار دادن افراد قابل اندازه گیری است دستگاه خاصشمارش رهگذران در مقایسه با این نوع اندازه گیری اثربخشی تبلیغات، اپراتور تلفن همراه فرصت های بسیار بیشتری دارد - او دقیقاً مکان مشترکین خود را می داند، ویژگی های جمعیتی، جنسیت، سن، وضعیت تأهل و غیره را می داند.
بر اساس چنین داده هایی، در آینده با استفاده از ترجیحات شخصی خاص که از کنار بیلبورد عبور می کند، امکان تغییر محتوای پیام تبلیغاتی وجود دارد. اگر داده ها نشان می دهد که شخصی که از آنجا می گذرد زیاد سفر می کند، می توان یک تبلیغ برای یک استراحتگاه به او نشان داد. برگزارکنندگان یک مسابقه فوتبال فقط می توانند تعداد هواداران را زمانی که به مسابقه می آیند تخمین بزنند. اما اگر آنها بتوانند از ارائهدهنده تلفن همراه خود اطلاعاتی درباره مکان حضور بازدیدکنندگان یک ساعت، یک روز یا یک ماه قبل از مسابقه بپرسند، به سازماندهندگان این امکان را میدهد که مکانهای تبلیغاتی را برای مسابقات آینده برنامهریزی کنند.
مثال دیگر این است که چگونه بانک ها می توانند از داده های بزرگ برای جلوگیری از کلاهبرداری استفاده کنند. اگر مشتری مفقود شدن کارت را گزارش دهد و هنگام خرید با آن، بانک به صورت لحظه ای موقعیت تلفن مشتری را در منطقه خریدی که تراکنش انجام می شود مشاهده کند، بانک می تواند اطلاعات درخواست مشتری را بررسی کند. تا ببیند آیا قصد فریب او را دارد یا خیر. یا برعکس، وقتی مشتری در فروشگاهی خریدی انجام می دهد، بانک می بیند که کارت مورد استفاده برای تراکنش و تلفن مشتری در یک مکان هستند، بانک می تواند به این نتیجه برسد که صاحب کارت از آن استفاده می کند. به لطف چنین مزایای Big Data، مرزهای انبارهای داده سنتی در حال گسترش است.
برای تصمیم گیری موفقیت آمیز برای اجرای راه حل های کلان داده، یک شرکت نیاز به محاسبه یک مورد سرمایه گذاری دارد و این امر به دلیل بسیاری از مؤلفه های ناشناخته، مشکلات زیادی را ایجاد می کند. پارادوکس تجزیه و تحلیل در چنین مواردی پیش بینی آینده بر اساس گذشته است که اطلاعاتی در مورد آن اغلب وجود ندارد. در این مورد، یک عامل مهم برنامه ریزی روشن اقدامات اولیه شما است:
- ابتدا لازم است یک مشکل تجاری خاص که برای آن از فناوری های کلان داده استفاده می شود، تعیین شود؛ این وظیفه به هسته تعیین صحت مفهوم انتخاب شده تبدیل خواهد شد. شما باید روی جمع آوری داده های مربوط به این کار خاص تمرکز کنید و در طول اثبات مفهوم، می توانید از ابزارها، فرآیندها و تکنیک های مدیریتی مختلفی استفاده کنید که به شما امکان می دهد در آینده تصمیمات آگاهانه تری بگیرید.
- ثانیاً، بعید است که یک شرکت بدون مهارت و تجربه تجزیه و تحلیل داده بتواند با موفقیت پروژه Big Data را پیاده سازی کند. دانش لازم همیشه از تجربه قبلی تجزیه و تحلیل نشات می گیرد که عامل اصلی تأثیرگذار بر کیفیت کار با داده ها است. فرهنگ داده مهم است زیرا اغلب تجزیه و تحلیل داده ها حقایق سختی را در مورد یک کسب و کار آشکار می کند و برای پذیرش و کار با آن حقایق نیاز به اقدامات داده است.
- سوم، ارزش فناوریهای کلان داده در ارائه بینش نهفته است.تحلیلگران خوب همچنان در بازار کمبود دارند. آنها معمولاً متخصصانی نامیده می شوند که درک عمیقی از معنای تجاری داده ها دارند و می دانند چگونه از آنها به درستی استفاده کنند. تجزیه و تحلیل داده ها وسیله ای برای دستیابی به اهداف تجاری است و برای درک ارزش کلان داده ها، باید مطابق آن رفتار کنید و اقدامات خود را درک کنید. در این صورت کلان داده اطلاعات مفید زیادی در مورد مصرف کنندگان ارائه می دهد که بر اساس آن می توان تصمیماتی گرفت که برای تجارت مفید است.
با اينكه بازار روسیه Big Data تازه در حال شکل گیری است؛ پروژه های فردی در این زمینه در حال حاضر با موفقیت اجرا می شوند. برخی از آنها در زمینه جمع آوری داده ها موفق هستند، مانند پروژه های خدمات مالیاتی فدرال و بانک سیستم های اعتباری Tinkoff، برخی دیگر - از نظر تجزیه و تحلیل داده ها و کاربرد عملی نتایج آن: این پروژه Synqera است.
بانک سیستم های اعتباری Tinkoff پروژه ای را برای پیاده سازی پلت فرم EMC2 Greenplum، که ابزاری برای محاسبات موازی گسترده است، اجرا کرد. در سالهای اخیر، این بانک به دلیل نرخ رشد بالای تعداد کاربران کارت اعتباری، الزامات سرعت پردازش اطلاعات انباشته و تجزیه و تحلیل دادهها را در زمان واقعی افزایش داده است. این بانک برنامههایی را برای گسترش استفاده از فناوریهای کلان داده، بهویژه برای پردازش دادههای بدون ساختار و کار با اطلاعات شرکتی دریافتشده از منابع مختلف، اعلام کرد.
در سرویس مالیاتی فدرال روسیه در در حال حاضرایجاد یک لایه تحلیلی از انبار داده فدرال در حال انجام است. بر اساس آن، یک فضای اطلاعاتی و فناوری یکپارچه برای دسترسی به داده های مالیاتی برای پردازش آماری و تحلیلی ایجاد می شود. در طول اجرای این پروژه، کار برای متمرکز کردن اطلاعات تحلیلی از بیش از 1200 منبع در سطح محلی خدمات مالیاتی فدرال در حال انجام است.
نمونه جالب دیگری از تجزیه و تحلیل کلان داده در زمان واقعی، استارتاپ روسی Synqera است که پلتفرم Simplate را توسعه داده است. این راه حل مبتنی بر پردازش مقادیر زیادی داده است؛ این برنامه اطلاعات مربوط به مشتریان، تاریخچه خرید، سن، جنسیت و حتی خلق و خوی آنها را تجزیه و تحلیل می کند. صفحههای لمسی با حسگرهایی که احساسات مشتری را تشخیص میدهند، در صندوقهای فروشگاههای زنجیرهای از لوازم آرایشی نصب شدند. این برنامه خلق و خوی فرد را تعیین می کند، اطلاعات مربوط به او را تجزیه و تحلیل می کند، زمان روز را تعیین می کند و پایگاه داده تخفیف فروشگاه را اسکن می کند، پس از آن پیام های هدفمندی را در مورد تبلیغات و پیشنهادات ویژه به خریدار ارسال می کند. این راه حل باعث افزایش وفاداری مشتری و افزایش فروش خرده فروشان می شود.
اگر در مورد موارد موفق خارجی صحبت کنیم، تجربه استفاده از فناوری های Big Data در شرکت Dunkin`Donuts که از داده های بلادرنگ برای فروش محصولات استفاده می کند، در این زمینه جالب است. نمایشگرهای دیجیتال در فروشگاه ها پیشنهاداتی را به نمایش می گذارند که هر دقیقه بسته به زمان روز و در دسترس بودن محصول تغییر می کند. شرکت با استفاده از رسیدهای نقدی، داده هایی را دریافت می کند که کدام پیشنهادها بیشترین پاسخ را از مشتریان دریافت کرده اند. این رویکردپردازش داده ها باعث افزایش سود و گردش کالا در انبار می شود.
همانطور که تجربه اجرای پروژه های Big Data نشان می دهد، این حوزه برای حل موفقیت آمیز مشکلات تجاری مدرن طراحی شده است. در عین حال، یکی از عوامل مهم در دستیابی به اهداف تجاری هنگام کار با داده های بزرگ، انتخاب استراتژی مناسب است که شامل تجزیه و تحلیل هایی است که نیازهای مصرف کننده را شناسایی می کند و همچنین استفاده از فناوری های نوآورانه در زمینه داده های بزرگ را شامل می شود.
بر اساس یک نظرسنجی جهانی که سالانه توسط Econsultancy و Adobe از سال 2012 در میان بازاریابهای شرکتی انجام میشود، «دادههای بزرگ» که اقدامات افراد در اینترنت را مشخص میکند، میتواند کارهای زیادی انجام دهد. آنها قادر به بهینه سازی فرآیندهای کسب و کار آفلاین هستند و به درک چگونگی مالکان کمک می کنند دستگاه های تلفن همراهاز آنها برای جستجوی اطلاعات یا به سادگی "بازاریابی بهتر" استفاده کنید. کارآمدتر. علاوه بر این، تابع دوم از سال به سال بیشتر و بیشتر محبوب می شود، همانطور که از نموداری که ارائه کردیم به شرح زیر است.
زمینه های اصلی کار بازاریابان اینترنتی از نظر ارتباط با مشتری
منبع: Econsultancy و Adobe، منتشر شده است– emarketer.com
توجه داشته باشید که ملیت پاسخ دهندگان واجد اهمیت زیادندارد. همانطور که نظرسنجی انجام شده توسط KPMG در سال 2013 نشان می دهد، سهم "خوشبین"، یعنی. کسانی که از Big Data هنگام توسعه یک استراتژی تجاری استفاده می کنند 56٪ است و تغییرات از منطقه به منطقه کوچک است: از 63٪ در کشورهای آمریکای شمالی تا 50٪ در EMEA.
استفاده از داده های بزرگ در مناطق مختلف جهان
منبع: KPMG، منتشر شده است– emarketer.com
در همین حال، نگرش بازاریابان به چنین "روندهای مد" تا حدودی یادآور یک شوخی معروف است:
وانو بگو گوجه دوست داری؟
- من دوست دارم غذا بخورم، اما نه اینطور.
علیرغم این واقعیت که بازاریابان به صورت شفاهی Big Data را دوست دارند و به نظر می رسد حتی از آن استفاده می کنند، در واقعیت، همانطور که در مورد محبت های قلبی خود در شبکه های اجتماعی می نویسند، "همه چیز پیچیده است".
بر اساس یک نظرسنجی که توسط Circle Research در ژانویه 2014 در میان بازاریابان اروپایی انجام شد، از هر 5 پاسخدهنده، 4 نفر از دادههای بزرگ استفاده نمیکنند (هر چند که البته «آن را دوست دارند»). دلایل متفاوت است. تعداد کمی از شکاکان بدبین وجود دارد - 17٪ و دقیقاً همان تعداد پادپاهای آنها، یعنی. کسانی که با اطمینان پاسخ می دهند: "بله." بقیه مردد و شک هستند، «مرداب». آنها به بهانه های قابل قبولی مانند «هنوز نه، اما به زودی» یا «منتظر می مانیم تا بقیه شروع کنند» از پاسخ مستقیم اجتناب می کنند.
استفاده از داده های بزرگ توسط بازاریابان، اروپا، ژانویه 2014
منبع:dnx، منتشر شده -بازاریابcom
چه چیزی آنها را گیج می کند؟ مزخرف محض برخی (دقیقا نیمی از آنها) به سادگی این داده ها را باور نمی کنند. دیگران (همچنین تعداد کمی از آنها وجود دارد - 55٪) به سختی می توانند مجموعه ای از "داده ها" و "کاربران" را با یکدیگر مرتبط کنند. برخی از مردم به سادگی (به بیان سیاسی) یک آشفتگی داخلی شرکتی دارند: داده ها بدون نظارت بین بخش های بازاریابی و ساختارهای فناوری اطلاعات سرگردان هستند. برای دیگران، نرم افزار نمی تواند با هجوم کار کنار بیاید. و غیره. از آنجایی که کل سهام به طور قابل توجهی بیش از 100٪ است، واضح است که وضعیت "موانع چندگانه" غیر معمول نیست.
موانع استفاده از داده های بزرگ در بازاریابی
منبع:dnx، منتشر شده -بازاریابcom
بنابراین، ما باید بپذیریم که در حالی که "داده های بزرگ" یک پتانسیل بزرگ است که هنوز باید از آن استفاده کرد. به هر حال، این ممکن است دلیلی باشد که Big Data هاله خود را از یک "روند شیک" از دست می دهد، همانطور که در نظرسنجی انجام شده توسط شرکت Econsultancy که قبلاً ذکر کردیم نشان می دهد.
مهم ترین روندها در بازاریابی دیجیتال 2013-2014
منبع: مشاوره و Adobe
آنها با یک پادشاه دیگر جایگزین می شوند - بازاریابی محتوا. چه مدت؟
نمی توان گفت که داده های بزرگ نوعی پدیده اساساً جدید است. سالهاست که منابع بزرگ داده وجود داشته است: پایگاههای اطلاعاتی در مورد خرید مشتری، تاریخچه اعتباری، شیوه زندگی. و برای سالها، دانشمندان از این دادهها برای کمک به شرکتها در ارزیابی ریسک و پیشبینی نیازهای آینده مشتریان استفاده کردهاند. اما امروزه وضعیت از دو جنبه تغییر کرده است:
ابزارها و تکنیک های پیچیده تری برای تجزیه و تحلیل و ترکیب مجموعه داده های مختلف پدیدار شده اند.
این ابزارهای تحلیلی با انبوهی از منابع داده جدید که با دیجیتالی کردن تقریباً تمام روشهای جمعآوری و اندازهگیری دادهها هدایت میشوند، تکمیل میشوند.
گستره اطلاعات موجود برای محققانی که در محیط های تحقیقاتی ساختاریافته پرورش یافته اند، هم الهام بخش و هم دلهره آور است. احساسات مصرف کننده توسط وب سایت ها و انواع رسانه های اجتماعی ضبط می شود. واقعیت مشاهده یک تبلیغ نه تنها ثبت می شود ست تاپ باکس ها، بلکه با کمک برچسب های دیجیتال و دستگاه های تلفن همراه که با تلویزیون ارتباط برقرار می کنند.
داده های رفتاری (مانند حجم تماس، عادات خرید و خریدها) اکنون در زمان واقعی در دسترس هستند. بنابراین، بسیاری از آنچه قبلاً میتوانست از طریق تحقیق به دست آید، اکنون با استفاده از منابع کلان داده قابل یادگیری است. و تمام این دارایی های اطلاعاتی بدون در نظر گرفتن هر گونه فرآیند تحقیقاتی به طور مداوم تولید می شوند. این تغییرات ما را به این فکر میاندازد که آیا کلان داده میتواند جایگزین تحقیقات بازار کلاسیک شود.
این در مورد داده ها نیست، در مورد پرسش و پاسخ است.
قبل از اینکه ناقوس مرگ را برای تحقیقات کلاسیک به صدا در آوریم، باید به خود یادآوری کنیم که وجود برخی از دارایی های داده مهم نیست، بلکه چیز دیگری است. دقیقا چه چیزی؟ توانایی ما برای پاسخ دادن به سوالات، همین است. یک چیز خنده دار در مورد دنیای جدید داده های بزرگ این است که نتایج به دست آمده از دارایی های داده جدید منجر به سوالات بیشتر می شود و این سوالات معمولاً توسط تحقیقات سنتی بهترین پاسخ را می دهند. بنابراین، با رشد دادههای بزرگ، شاهد افزایش موازی در دسترس بودن و نیاز به «دادههای کوچک» هستیم که میتواند پاسخهایی به سؤالات دنیای دادههای بزرگ ارائه دهد.
وضعیت را در نظر بگیرید: یک تبلیغ کننده بزرگ به طور مداوم ترافیک فروشگاه و حجم فروش را در زمان واقعی نظارت می کند. روشهای تحقیقاتی موجود (که در آن از اعضای میزگرد در مورد انگیزههای خرید و رفتار محل فروش آنها نظرسنجی میکنیم) به ما کمک میکند بخشهای خاص خریداران را بهتر هدفگیری کنیم. این تکنیکها را میتوان گسترش داد تا طیف وسیعتری از داراییهای کلان داده را در بر گیرد، تا جایی که دادههای بزرگ به وسیلهای برای مشاهده غیرفعال تبدیل میشوند، و تحقیق به روشی برای بررسی مداوم و با تمرکز محدود تغییرات یا رویدادهایی تبدیل میشود که نیاز به مطالعه دارند. به این ترتیب کلان داده ها می توانند تحقیقات را از روال غیر ضروری رها کنند. تحقیقات اولیه دیگر نیازی به تمرکز بر آنچه در حال وقوع است ندارد (داده های بزرگ این کار را انجام می دهد). در عوض، تحقیقات اولیه میتواند بر توضیح اینکه چرا ما روندهای خاص یا انحراف از روندها را مشاهده میکنیم، تمرکز کند. محقق قادر خواهد بود کمتر در مورد به دست آوردن داده ها فکر کند و بیشتر به نحوه تجزیه و تحلیل و استفاده از آنها فکر کند.
در عین حال، می بینیم که کلان داده می تواند یکی از بزرگترین مشکلات ما را حل کند: مشکل مطالعات بیش از حد طولانی. بررسی خود مطالعات نشان داده است که ابزارهای تحقیقاتی بیش از حد متورم تأثیر منفی بر کیفیت داده ها دارند. اگرچه بسیاری از کارشناسان مدتها این مشکل را تایید کرده بودند، اما همیشه با این عبارت پاسخ دادند: «اما من به این اطلاعات برای مدیریت ارشد نیاز دارم» و مصاحبههای طولانی ادامه یافت.
در دنیای داده های بزرگ، جایی که می توان معیارهای کمی را از طریق مشاهده غیرفعال به دست آورد، این موضوع بحث برانگیز می شود. بیایید دوباره به همه این مطالعات در مورد مصرف فکر کنیم. اگر دادههای بزرگ از طریق مشاهده غیرفعال به ما بینشی در مورد مصرف میدهد، آنگاه تحقیقات پیمایشی اولیه دیگر نیازی به جمعآوری این نوع اطلاعات ندارد و ما در نهایت میتوانیم دیدگاه خود را از نظرسنجیهای کوتاه با چیزی فراتر از تفکر آرزو پشتیبان کنیم.
Big Data به کمک شما نیاز دارد
در نهایت، "بزرگ" تنها یکی از ویژگی های کلان داده است. مشخصه "بزرگ" به اندازه و مقیاس داده ها اشاره دارد. البته، این ویژگی اصلی است، زیرا حجم این داده ها فراتر از هر چیزی است که قبلاً با آن کار کرده ایم. اما سایر ویژگیهای این جریانهای داده جدید نیز مهم هستند: آنها اغلب قالببندی ضعیفی دارند، ساختاری ندارند (یا در بهترین حالت، تا حدی ساختار یافتهاند) و مملو از عدم قطعیت هستند. یک حوزه نوظهور از مدیریت داده ها، که به درستی آنالیز موجودیت نامیده می شود، به مشکل کاهش نویز در داده های بزرگ می پردازد. وظیفه آن تجزیه و تحلیل این مجموعه داده ها و تعیین تعداد مشاهدات مربوط به یک شخص است، مشاهدات فعلی و کدام یک قابل استفاده هستند.
این نوع پاکسازی داده ها برای حذف نویز یا داده های اشتباه هنگام کار با دارایی های داده بزرگ یا کوچک ضروری است، اما کافی نیست. ما همچنین باید بر اساس تجربه قبلی، تجزیه و تحلیل، و دانش دسته بندی، زمینه ای را پیرامون دارایی های کلان داده ایجاد کنیم. در واقع، بسیاری از تحلیلگران به توانایی مدیریت عدم قطعیت ذاتی در داده های بزرگ به عنوان منبع اشاره می کنند. مزیت رقابتی، زیرا به شما امکان می دهد تصمیمات موثرتری بگیرید.
اینجاست که تحقیقات اولیه نه تنها خود را با داده های بزرگ آزاد می کند، بلکه به ایجاد و تجزیه و تحلیل محتوا در داده های بزرگ نیز کمک می کند.
یک مثال بارز از این کار استفاده از چارچوب جدید ارزش ویژه برند ما در رسانه های اجتماعی است (در مورد توسعه یافته صحبت می کنیممیلوارد رنگ قهوه ایرویکردی جدید برای اندازه گیری ارزش ویژه برندرا معنی دار ناهمسان چارچوب- "پارادایم تفاوت معنی دار" -آر & تی ). این مدل از نظر رفتاری در بازارهای خاص آزمایش میشود، بر اساس استاندارد پیادهسازی میشود، و میتواند به راحتی در سایر بخشهای بازاریابی و سیستمهای اطلاعاتی پشتیبانی تصمیم اعمال شود. به عبارت دیگر، مدل ارزش ویژه برند ما، که توسط تحقیقات پیمایشی (اگرچه نه منحصراً مبتنی بر) است، تمام ویژگیهای مورد نیاز برای غلبه بر ماهیت بدون ساختار، ناپیوسته و نامطمئن دادههای بزرگ را دارد.
دادههای احساسات مصرفکننده ارائه شده توسط رسانههای اجتماعی را در نظر بگیرید. در شکل خام، اوج و فرود در احساسات مصرف کننده اغلب با معیارهای آفلاین ارزش ویژه برند و رفتار همبستگی حداقلی دارند: صرفاً نویز بیش از حد در داده ها وجود دارد. اما ما میتوانیم این نویز را با استفاده از مدلهای معنای مصرفکننده، تمایز برند، پویایی و متمایز بودن در دادههای خام مصرفکننده کاهش دهیم - راهی برای پردازش و جمعآوری دادههای رسانههای اجتماعی در این ابعاد.
هنگامی که داده ها بر اساس چارچوب ما سازماندهی می شوند، روندهای شناسایی شده معمولاً با ارزش ویژه برند آفلاین و معیارهای رفتاری همسو می شوند. اساسا، داده های رسانه های اجتماعی نمی توانند برای خود صحبت کنند. استفاده از آنها برای این منظور نیاز به تجربه و مدل هایی دارد که بر اساس برندها ساخته شده اند. وقتی رسانههای اجتماعی اطلاعات منحصربهفردی را به ما میدهند که به زبانی که مصرفکنندگان برای توصیف برندها استفاده میکنند بیان میشود، ما باید از آن زبان هنگام ایجاد تحقیقات خود استفاده کنیم تا تحقیقات اولیه را بسیار مؤثرتر کنیم.
مزایای تحقیقات معاف
این ما را به این موضوع برمیگرداند که چگونه دادههای بزرگ نه آنقدر که جایگزین تحقیقات میشوند بلکه آنها را آزاد میکنند. محققان از نیاز به ایجاد یک مطالعه جدید برای هر مورد جدید رها خواهند شد. داراییهای کلان داده در حال رشد را میتوان برای موضوعات مختلف تحقیقاتی مورد استفاده قرار داد، و به تحقیقات اولیه بعدی اجازه میدهد تا عمیقتر به موضوع بپردازند و شکافهای موجود را پر کنند. محققان از تکیه بر نظرسنجی های بیش از حد متورم رها خواهند شد. در عوض، آنها می توانند از نظرسنجی های کوتاه استفاده کنند و بر روی مهمترین پارامترها تمرکز کنند که کیفیت داده ها را بهبود می بخشد.
با این آزادسازی، محققان میتوانند از اصول و ایدههای تثبیتشده خود برای افزودن دقت و معنا به داراییهای کلان دادهها استفاده کنند و زمینههای جدیدی را برای تحقیقات پیمایشی ایجاد کنند. این چرخه باید به درک بیشتر در مورد طیف وسیعی از موضوعات استراتژیک و در نهایت حرکت به سمت آنچه که همیشه باید هدف اصلی ما باشد - اطلاع رسانی و بهبود کیفیت تصمیمات برند و ارتباطات منجر شود.
یولیا سرگیونا ولکووا، دانشجوی سال چهارم، دانشگاه مالی تحت دولت فدراسیون روسیه، شعبه کالوگا، کالوگا [ایمیل محافظت شده]
کلان داده در دنیای مدرن
چکیده مقاله به پیاده سازی فناوری های کلان داده در جامعه مدرن ما اختصاص دارد. ویژگیهای اصلی Big Data بررسی میشود، حوزههای اصلی کاربرد مانند بانکداری، خردهفروشی، بخش خصوصی و عمومی و حتی زندگی روزمره در نظر گرفته میشوند. این مطالعه مضرات استفاده از فناوریهای کلان داده را نشان داد. نیاز به توسعه مقررات نظارتی استفاده از کلان داده ها مشخص شده است.کلمات کلیدی: کلان داده، بانک ها، بخش بانکداری، خرده فروشی، بخش خصوصی، بخش عمومی.
با افزایش درجه ادغام ابزارهای فناوری اطلاعات در حوزه های مختلف جامعه مدرن، الزامات سازگاری آنها برای حل مشکلات جدید که به حجم عظیمی از داده ها نیاز دارند نیز افزایش می یابد. حجم زیادی از اطلاعات وجود دارد که نمی توان آنها را به روش های سنتی پردازش کرد، از جمله داده های ساختاری، داده های رسانه ای و اشیاء تصادفی. و اگر فناوریهای موجود امروز کم و بیش با تحلیل اولی کنار بیایند، تحلیل دوم و سوم عملاً یک کار طاقتفرسا باقی میماند. تحقیقات نشان می دهد که حجم داده های رسانه ای مانند نظارت تصویری، عکاسی هوایی، اطلاعات سلامت دیجیتال و اشیاء تصادفی ذخیره شده در آرشیوها و ابرهای متعدد، سال به سال در حال افزایش است. حجم عظیم داده ها به یک فرآیند جهانی تبدیل شده است و به آن گفته می شود. اطلاعات بزرگ. آثار دانشمندان خارجی و روسی به مطالعه داده های بزرگ اختصاص دارد: جیمز مانیکا، مایکل چوی، توپورکوف وی.وی.، بودزکو وی. شرکت های بزرگ جهانی مانند McKinsey& Company، СNews Analytics، SAP، Oracle، IBM، Microsoft، Teradata و بسیاری دیگر سهم قابل توجهی در مطالعه این فناوری دارند. آنها درگیر پردازش و تجزیه و تحلیل داده ها هستند و سیستم های نرم افزاری و سخت افزاری را بر اساس داده های بزرگ ایجاد می کنند.بر اساس گزارش موسسه مک کینزی: "داده های بزرگ مجموعه ای از داده ها هستند که اندازه آنها فراتر از توانایی های پایگاه های داده معمولیابزار نرم افزار داده برای جمع آوری، ذخیره، مدیریت و تجزیه و تحلیل داده ها. در اصل، مفهوم کلان داده شامل کار با اطلاعات با حجم عظیم و ترکیبات متنوع است که به طور مداوم به روز می شود و در منابع مختلف قرار می گیرد تا کارایی عملیاتی را افزایش دهد، محصولات جدید ایجاد کند و رقابت را افزایش دهد. شرکت مشاوره Forrester یک فرمول مختصر و نسبتاً واضح ارائه می دهد: "داده های بزرگ تکنیک ها و فن آوری هایی را ترکیب می کند که از داده ها در نهایت عملی بودن معنی می گیرد." امروزه حوزه Big Data با ویژگی های زیر مشخص می شود: حجم - حجم، پایگاه داده انباشته شده حجم زیادی از اطلاعات را نشان می دهد. سرعت-سرعت، این ویژگی نشان دهنده نرخ فزاینده انباشت داده ها است (90 درصد اطلاعات در 2 سال گذشته جمع آوری شده است). توانایی پردازش همزمان اطلاعات ساختاریافته و بدون ساختار با فرمت های مختلف. کارشناسان بازاریابی دوست دارند "V" خود را در اینجا اضافه کنند. برخی نیز در مورد صحت صحبت می کنند، برخی دیگر اضافه می کنند که فناوری های کلان داده قطعاً باید به سود کسب و کار (ارزش) باشد. فراوانی داده ها باعث می شود که بخواهید از آن برای تجزیه و تحلیل و پیش بینی استفاده کنید. حجم عظیم نیاز به فناوری های مناسب دارد. امروزه شرکت ها باید حجم عظیمی از داده ها را در حجم هایی پردازش کنند که تصور آنها دشوار است، این امر منجر به این واقعیت می شود که پایگاه های داده سنتی نمی توانند با چنین وظیفه ای کنار بیایند و این منجر به نیاز به پیاده سازی فناوری های Big Data می شود. جدول ویژگی های مقایسه ای داده های بزرگ و پایگاه های داده سنتی را نشان می دهد. مبنای تشکیل این جدول تحقیقات V.I. Budzko و بورس مسکو بود.جدول 1 ویژگی های مقایسه ایکلان داده و داده های سنتی
پایگاه داده سنتی Big Data Application Area
یک یا چند حوزه موضوعی کاربرد دامنه فناوری های کلان داده گسترده است. از شناسایی ترجیحات مشتری تا تجزیه و تحلیل ریسک ویژگی های داده ها فقط داده های ساختار یافته حجم عظیمی از اطلاعات با ساختار پیچیده ناهمگن و/یا نامشخص روش ذخیره سازی داده ها مدل متمرکز غیرمتمرکز ذخیره سازی و پردازش داده ها مدل عمودی مدل افقی مقدار اطلاعات برای پردازش از گیگابایت (109 بایت) ) به ترابایت (1012 بایت) از پتابایت (1015 بایت) تا اگزابایت (1018 بایت) بنابراین، دامنه پایگاه داده های سنتی تنها یک یا چند را پوشش می دهد و چنین مناطقی باید فقط حاوی داده های ساختاری باشند. در مورد کلان داده، دامنه کاربرد آن با حجم عظیمی از اطلاعات با ساختار پیچیده گسترده است.طبق نتایج مطالعه CNews Analytics ارائه شده در شکل 1، بازار روسیه در حال رسیدن به پدیده ای مانند Big Data است که افزایش سطح بلوغ شرکت ها را نشان می دهد. بسیاری از شرکتها به دلیل حجم دادههای پردازش شده خود به فناوریهای Big Data روی میآورند؛ در حال حاضر، بیش از 44 درصد حدود 100 ترابایت تولید میکنند و 13 درصد حجم دادههای بیش از 500 ترابایت دارند.
عکس. 1. حجم اطلاعات پردازش شده در شرکت ها
چنین حجمهایی را نمیتوان توسط پایگاههای داده سنتی پردازش کرد، بنابراین چنین شرکتهایی راهحل تغییر به دادههای بزرگ را نه تنها پردازش حجم عظیم، بلکه افزایش رقابت، افزایش وفاداری مشتری به محصول خود و جذب محصولات جدید میدانند. فعال ترین مشتریان چنین راه حل هایی بانک ها، مخابرات و خرده فروشی هستند که درصد آنها در شکل 2 ارائه شده است. اولین نمونه های استفاده از کلان داده نیز در بخش عمومی ظاهر شد.
شکل 2. ساختار صنعت استفاده از داده های بزرگ
در مورد دولت غربی، برآوردهای مختلف اقتصاد دیجیتال را بین 3 تا 21 درصد از تولید ناخالص داخلی کشورهای G20 نشان می دهد. بخش دولتی روسیه هنوز به نتایج قابل توجهی در کار با کلان داده ها دست نیافته است. امروزه در روسیه، شرکتهای تجاری عمدتاً به چنین فناوریهایی علاقهمند هستند: زنجیرههای خردهفروشی، بانکها، شرکتهای مخابراتی.طبق گزارش انجمن ارتباطات الکترونیک روسیه، حجم اقتصاد دیجیتال در فدراسیون روسیه تنها 1 تریلیون است. مالیدن - حدود 1.5 درصد از تولید ناخالص داخلی با این حال، فدراسیون روسیه دارای پتانسیل عظیمی برای رشد در اقتصاد دیجیتال است، علیرغم وجود کوتاه مدت بخش کلان داده، در حال حاضر ارزیابی هایی از استفاده موثر از این فناوری ها بر اساس نمونه های واقعی. امروزه بانک ها به طور متوسط تقریباً 3.8 پتوبایت داده را پردازش می کنند، آنها از فناوری های Big Data برای دستیابی به وظایف خاصی استفاده می کنند: جمع آوری داده ها در مورد استفاده از کارت های اعتباری؛ جمع آوری داده ها در مورد وثیقه؛ جمع آوری داده ها در مورد وام ها؛ 44 درصد 16 درصد. 13% 7% 20% BankTelecom خرده فروشی بخش عمومی دیگران جمع آوری داده های پروفایل مشتری؛ جمع آوری داده های پس انداز مشتری. بانک ها ادعا می کنند که از زمانی که استفاده از فناوری های کلان داده را آغاز کرده اند، توانسته اند مشتریان جدید جذب کنند و با مشتریان جدید و قدیمی بهتر تعامل داشته باشند. و وفاداری خود را حفظ کنند. در سال 2015، CNews Analytics نظرسنجی را در میان 30 بانک بزرگ روسیه بر اساس کل دارایی ها انجام داد تا دریابد که آنها از چه فناوری های کلان داده و برای چه اهدافی استفاده می کنند. در مقایسه با نظرسنجی سال 2014، تعداد 30 بانک برتر که استفاده از فناوریهای کلان داده را گزارش میکنند افزایش یافته است، اما این تغییر بیشتر به دلیل تغییر در ترکیب 30 بانک برتر است. شکل 3 مقایسه ای از نظرسنجی 2015 با سال 2014 را بر اساس نظرسنجی A. Kiryanova نشان می دهد.
برنج. 3. استفاده از داده های بزرگ توسط 30 بانک برتر روسیه
بر اساس تخمین های شرکت IBS، 80 درصد از بانک هایی که پاسخ مثبت داده اند، از ابزار Big Data Appliance - نرم افزار و سیستم های سخت افزاری برای ذخیره و پردازش داده ها استفاده می کنند. این راه حل ها معمولا به عنوان ذخیره سازی تحلیلی یا تراکنشی عمل می کنند که مزیت اصلی آنها عملکرد بالا در هنگام کار با حجم زیاد داده است.البته روال استفاده از داده های بزرگ در بانک های روسیه در مراحل ابتدایی خود قرار دارد. دلیل چنین انطباق آهسته در روسیه در نگرش محتاطانه متخصصان فناوری اطلاعات مشتریان به فناوری های جدید آشکار می شود. آنها مطمئن نیستند که فناوریهای کلان داده به حل کامل مشکلات کمک کند، اما در مورد بازار آمریکا، بانکهای آنجا قبلاً ۱ اگزابایت داده جمعآوری کردهاند که میتوان آن را با ۲۷۵ میلیارد رکورد mp3 مقایسه کرد. تعداد منابعی که از آنها اطلاعات به دست می آید بسیار زیاد است، که می توان منابع کلاسیک را تشخیص داد: بازدید از دفاتر مشتریان بانک؛ ضبط تماس های تلفنی؛ رفتار مشتری در شبکه های اجتماعی؛ اطلاعات در مورد تراکنش های کارت اعتباری و موارد دیگر. خرده فروشی آفلاین از داده های بزرگ برای تجزیه و تحلیل رفتار مشتری، طراحی مسیرهای اطراف طبقه فروش، چیدمان صحیح کالاها، برنامه ریزی خرید و در نهایت افزایش فروش استفاده می کند. در خرده فروشی آنلاین، مکانیسم فروش خود بر روی داده های بزرگ ساخته شده است: به کاربران محصولاتی بر اساس خریدهای قبلی و ترجیحات شخصی آنها ارائه می شود که اطلاعات مربوط به آنها مثلاً در شبکه های اجتماعی جمع آوری می شود. در هر دو مورد، تجزیه و تحلیل کلان داده ها به کاهش هزینه ها، افزایش وفاداری مشتری و دستیابی به مخاطبان بیشتر کمک می کند. همانطور که شرکت ها پتانسیل تجاری خود را توسعه می دهند، پایگاه های داده سنتی دیگر نیازهای تجاری رو به رشد را برآورده نمی کنند، به همین دلیل است که سیستم نمی تواند جزئیات لازم را ارائه دهد. حسابداری مدیریت . با تغییر به داده های بزرگ، فناوری های جدید امکان بهینه سازی مدیریت توزیع محصول، دستیابی به ارتباط داده ها و سرعت پردازش آنها برای ارزیابی پیامدهای تصمیمات مدیریتی و تولید سریع گزارش مدیریت را فراهم می کند. حجم کل داده های انباشته شده بیش از 100 اگزابایت است، در حالی که Walmart به تنهایی 2.5 پتابایت داده در ساعت را با استفاده از داده های بزرگ پردازش می کند. علاوه بر این، با استفاده از فناوریهای Big Data، سود عملیاتی 60 درصد افزایش مییابد و همچنین طبق آمار هدوپ، پس از اجرای Big Data، بهرهوری تجزیه و تحلیل تا پردازش 120 الگوریتم افزایش مییابد و سود 710 درصد رشد میکند. اگر خردهفروشی روسی را در نظر بگیریم، دادههای بزرگ بهتازگی شروع به افزایش سرعت میکنند، زیرا شکاف پردازش اطلاعات بسیار متفاوت است. به عنوان مثال، خرده فروشی آنلاین 18 برابر کمتر از چین است و کل گردش داده ای که در خرده فروشی آنلاین تولید می شود، 4.5 برابر کمتر از یک فروشگاه آمازون است. در عین حال، تعداد فروشگاه های آنلاین در روسیه که از Big Data استفاده می کنند کمتر از 40 هزار است، در حالی که در اروپا تعداد این فروشگاه ها بیش از 550 هزار است. آنچه بازار خرده فروشی روسیه را مشخص می کند که هنوز در حال توسعه است و به طور کامل شکل نگرفته است. در مورد زندگی روزمره ما، فناوری های Big Data در اینجا استفاده می شود، که ما حتی به آن فکر نکرده ایم. هر روز 15 میلیون آهنگ، که تقریباً 1.5 تا 2 پتابایت است، توسط shazam، یک سرویس موسیقی، در سراسر جهان پردازش می شود، و مبتنی بر آن است. در سپس تولیدکنندگان موسیقی محبوبیت این هنرمند را پیش بینی می کنند. داده های بزرگ همچنین برای پردازش اطلاعات کارت های اعتباری مانند مسترکارت و ویزا استفاده می شود. بنابراین، 65 میلیارد تراکنش در سال با استفاده از 1.9 میلیارد کارت در 32 میلیون بازرگان توسط مسترکارت پردازش می شود تا روند تجارت را پیش بینی کند. هر روز مردم در سراسر جهان 19 ترابایت داده را در شبکه های اجتماعی مانند توییتر و فیس بوک ارسال می کنند. آنها عکس ها را دانلود و پردازش می کنند، می نویسند، پیام می فرستند و غیره. زیرساخت همچنین از فناوریهای Big Data، از ترولیبوس گرفته تا هواپیما و موشک استفاده میکند. بنابراین، در متروی لندن، گردانها روزانه حدود 20 میلیون تردد را ثبت میکنند؛ در نتیجه تحلیلی که بر اساس فناوریهای Big Data انجام شده است، 10 کانون احتمالی زمین لرزه شناسایی شد که در توسعه بعدی نیز مورد توجه قرار میگیرد. مترو بدون شک تنوع و حجم داده های حاصل از انواع تعاملات، مبنایی قدرتمند برای کسب و کار برای ساخت و اصلاح پیش بینی ها، شناسایی الگوها، ارزیابی عملکرد و غیره است. با این حال، هر چیزی دارای معایبی است که باید به دقت مورد توجه قرار گیرد، با وجود مزایای بارز و بالقوه استفاده از داده های بزرگ، استفاده از آنها دارای معایبی نیز می باشد که در درجه اول با حجم زیاد اطلاعات، روش های مختلف دسترسی به آن مرتبط است. و اغلب توابع پشتیبانی از منابع کافی نیست امنیت اطلاعاتدر سازمان ها مشکلات مربوط به استفاده از فناوری های کلان داده در شکل 4 ارائه شده است.
برنج. 4. مشکلات استفاده از داده های بزرگ
همه این مشکلات به این واقعیت منجر می شود که بسیاری از شرکت ها نسبت به معرفی فناوری های داده های بزرگ محتاط هستند، زیرا هنگام کار با اشخاص ثالث، خودشان مشکل افشای اطلاعات داخلی را دارند که شرکت نمی تواند تنها با استفاده از منابع خود فاش کند. به نظر من، مهمترین گام در مسیر اجرای کامل فناوری های مبتنی بر داده های بزرگ، باید جنبه قانونی وجود داشته باشد. قبلاً قوانینی وجود دارد که جمعآوری، استفاده و ذخیرهسازی انواع خاصی از دادههای شخصی را محدود میکند، اما دادههای بزرگ را کاملاً محدود نمیکند، بنابراین باید قانون خاصی برای آن وجود داشته باشد. به منظور رعایت قوانین جدید و در حال تغییر سریع، شرکت ها باید فهرست اولیه مقررات مربوطه را انجام دهند و این فهرست را به طور منظم به روز کنند، اما با وجود تمام کاستی های فوق، همانطور که تجربه نمایندگان غربی نشان می دهد، فناوری های Big Data کمک می کند. برای حل موفقیت آمیز، هم وظایف تجاری مدرن و هم افزایش رقابت، و هم وظایفی که مستقیماً با زندگی افراد مرتبط است. شرکتهای روسی در حال حاضر در مسیر پیادهسازی فناوریهای Big Data هم در حوزه تولید و هم در حوزه عمومی هستند، زیرا میزان اطلاعات تقریباً هر سال دو برابر میشود. با گذشت زمان، بسیاری از زمینه های زندگی ما توسط داده های بزرگ تغییر خواهد کرد.
پیوندها به منابع 1. BudzkoV. I. سیستم های در دسترس بودن بالا و داده های بزرگ // داده های بزرگ در اقتصاد ملی 2013. ص 1619.2. Korotkova T. "EMC Data Lake 2.0 - وسیله ای برای انتقال به تجزیه و تحلیل داده های بزرگ و اقتصاد دیجیتال" http://bigdata. cnews.ru/ news/line/20151203_emc_data_lake_20_pomozhet_perejti_k_analitike.3. Kiryanova A. «دادههای بزرگ در بانکهای روسیه به جریان اصلی تبدیل نشدهاند» http://www.cnews.ru/news/top/bolshie_dannye_ne_stali_4f.Instrimowsm. به روسیه آمده است» http://bigdata.cnews.ru/articles/infografika_bolshie_dannye_prishli_v_rossiyu.5.CNews «اینفوگرافیک: خرده فروشی چگونه از داده های بزرگ استفاده می کند» http://bigdata.cnews.ru/articles/infografika_kak_roznitsa_ispolzuet قانون خاصی وجود ندارد مقررات جهان در مورد Big داده هابرای محافظت از منابع داده اصلی، شرکتها باید اطمینان حاصل کنند که همه الزامات امنیت دادهها نظارت میشوند و اجرای راهحلهای کلان داده ممکن است منجر به ایجاد یا کشف اطلاعات محرمانه قبلی شود. مدیریت دادهها حفظ الزامات امنیت دادهها مقررات قانونی شناسایی ریسک « Infographics: Bigdata Technologies" http://bigdata.cnews.ru/articles/big_data_v_zhizni_cheloveka.7.CNews"اینفوگرافیک: آنچه داده های بزرگ در بانک ها می توانند انجام دهند" http://bigdata.cnews.ru/articles/infografika_chto_mogutn_bolshie.8_. صرافی مسکو "بررسی تحلیلی بازار BigData" http://habrahabr.ru/company/moex/blog/256747/9. Big Data. http://www.tadviser.ru/index.php/Article:Big_Data_(Big_Data).10.BigData – برق قرن بیست و یکم http://bit.samag.ru/archive/article/1463.11.موسسه جهانی مک کینزی " Bigdata: مرز بعدی برای نوآوری، رقابت و بهره وری» (ژوئن 2011).
اصطلاح "داده های بزرگ" ممکن است امروزه قابل تشخیص باشد، اما هنوز در مورد معنای واقعی آن سردرگمی کمی وجود دارد. در حقیقت، این مفهوم به طور مداوم در حال تحول و تجدید نظر است زیرا نیروی محرکه بسیاری از امواج در حال انجام است. تحول دیجیتالاز جمله هوش مصنوعی، علم داده و اینترنت اشیا. اما فناوری Big-Data چیست و چگونه دنیای ما را تغییر می دهد؟ بیایید سعی کنیم ماهیت فناوری Big Data و معنای آن را در کلمات ساده درک کنیم.
رشد شگفت انگیز داده های بزرگ
همه چیز با انفجاری در حجم داده هایی که ما از آغاز عصر دیجیتال ایجاد کرده ایم آغاز شد. این تا حد زیادی به دلیل توسعه رایانهها، اینترنت و فناوریهایی است که میتوانند دادهها را از دنیای اطراف ما «ربا» کنند. داده به خودی خود اختراع جدیدی نیست. حتی قبل از عصر رایانه ها و پایگاه های داده، ما از سوابق تراکنش های کاغذی، سوابق مشتریان و فایل های آرشیوی که داده ها را تشکیل می دهند استفاده می کردیم. رایانه ها، به ویژه صفحات گسترده و پایگاه های داده، ذخیره و سازماندهی داده ها را در مقیاس بزرگ برای ما آسان کرده اند. ناگهان اطلاعات تنها با یک کلیک در دسترس قرار گرفت.
با این حال، ما فاصله زیادی با جداول و پایگاه داده های اصلی داشته ایم. امروزه، هر دو روز یک بار به همان اندازه که از ابتدا تا سال 2000 دریافت کرده بودیم، ایجاد می کنیم. درست است، هر دو روز یکبار. و مقدار داده ای که ما ایجاد می کنیم همچنان به طور تصاعدی رشد می کند. تا سال 2020، مقدار اطلاعات دیجیتالی موجود از حدود 5 زتابایت به 20 زتابایت افزایش خواهد یافت.
امروزه تقریباً هر اقدامی که انجام میدهیم اثر خود را به جا میگذارد. ما هر بار که آنلاین می شویم، زمانی که تلفن های هوشمند مجهز به جستجوی خود را حمل می کنیم، زمانی که با دوستان خود از طریق صحبت می کنیم، داده تولید می کنیم. رسانه های اجتماعییا چت و غیره علاوه بر این، میزان داده های تولید شده توسط ماشین نیز به سرعت در حال رشد است. زمانی که دستگاه های خانه هوشمند ما با یکدیگر یا با سرورهای خانگی خود ارتباط برقرار می کنند، داده ها تولید و به اشتراک گذاشته می شود. تجهیزات صنعتی در کارخانه ها و کارخانه ها به طور فزاینده ای به حسگرهایی مجهز می شوند که داده ها را جمع آوری و انتقال می دهند.
اصطلاح Big-Data به جمع آوری همه این داده ها و توانایی ما در استفاده از آنها به نفع خود در طیف گسترده ای از زمینه ها از جمله تجارت اشاره دارد.
فناوری Big-Data چگونه کار می کند؟
کلان داده بر اساس این اصل کار می کند: هر چه بیشتر در مورد یک موضوع یا پدیده خاص بدانید، با اطمینان بیشتری می توانید به درک جدیدی دست یابید و آنچه در آینده اتفاق می افتد را پیش بینی کنید. همانطور که نقاط داده بیشتری را با هم مقایسه می کنیم، روابطی ظاهر می شوند که قبلاً پنهان بودند و این روابط به ما امکان می دهد یاد بگیریم و تصمیمات بهتری بگیریم. اغلب، این کار از طریق فرآیندی انجام میشود که شامل ساخت مدلهایی بر اساس دادههایی است که میتوانیم جمعآوری کنیم و سپس شبیهسازیهایی را اجرا میکنیم که مقادیر نقاط داده را هر بار تغییر میدهند و نحوه تأثیر آنها بر نتایج ما را دنبال میکنند. این فرآیند خودکار است—فناوری تحلیل مدرن میلیونها شبیهسازی را اجرا میکند و هر متغیر ممکن را تا زمانی که مدل یا ایدهای را بیابند که به حل مشکلی که روی آن کار میکنند کمک میکند، دستکاری میکند.
![](https://i0.wp.com/clubshuttle.ru/wp-content/uploads/2018/06/Bill-Gates-illustrating-the-storage-capacity-of-a-CD.jpg)
تا همین اواخر، داده ها به صفحات گسترده یا پایگاه داده محدود می شد - و همه چیز بسیار منظم و مرتب بود. هر چیزی که نمیتوانست به راحتی در ردیفها و ستونها سازماندهی شود، برای کار کردن بسیار پیچیده در نظر گرفته میشد و نادیده گرفته میشد. با این حال، پیشرفت در ذخیره سازی و تجزیه و تحلیل به این معنی است که ما می توانیم حجم زیادی از داده ها را ضبط، ذخیره و پردازش کنیم انواع مختلف. در نتیجه، امروزه "داده" می تواند به معنای هر چیزی باشد، از پایگاه داده گرفته تا عکس، فیلم، ضبط صدا، متون نوشته شده و داده های حسگر.
برای درک همه این داده های آشفته، پروژه های مبتنی بر داده های بزرگ اغلب از تجزیه و تحلیل پیشرفته با استفاده از هوش مصنوعی و یادگیری رایانه استفاده می کنند. با آموزش ماشینهای محاسباتی برای تعیین دادههای خاص - برای مثال از طریق شناسایی الگو یا پردازش زبان طبیعی - میتوانیم به آنها یاد دهیم که الگوها را بسیار سریعتر و قابل اطمینانتر از خودمان شناسایی کنند.
داده های بزرگ چگونه استفاده می شود؟
این جریان روزافزون دادههای حسگر، متن، صدا، عکس و دادههای ویدیویی به این معنی است که اکنون میتوانیم از دادهها به روشهایی استفاده کنیم که تا چند سال پیش غیرقابل تصور بود. این تقریباً در هر صنعتی تغییرات انقلابی را در دنیای تجارت ایجاد می کند. امروزه شرکتها میتوانند با دقت باورنکردنی پیشبینی کنند که کدام دسته از مشتریان و چه زمانی میخواهند خرید کنند. کلان داده همچنین به شرکت ها کمک می کند تا فعالیت های خود را بسیار کارآمدتر انجام دهند.
حتی در خارج از تجارت، پروژههای مرتبط با دادههای بزرگ به روشهای مختلف به تغییر دنیای ما کمک میکنند:
- بهبود مراقبت های بهداشتی – پزشکی مبتنی بر داده توانایی تجزیه و تحلیل حجم وسیعی از اطلاعات و تصاویر پزشکی را در مدل هایی دارد که می تواند به تشخیص بیماری در مراحل اولیه و توسعه داروهای جدید کمک کند.
- پیش بینی و پاسخگویی به بلایای طبیعی و انسان ساز. داده های حسگر را می توان برای پیش بینی محل وقوع زلزله تجزیه و تحلیل کرد و الگوهای رفتاری انسان سرنخ هایی را ارائه می دهد که به سازمان ها کمک می کند تا به بازماندگان کمک کنند. فناوری Big Data همچنین برای ردیابی و محافظت از جریان پناهندگان از مناطق جنگی در سراسر جهان استفاده می شود.
- پیشگیری از جرم و جنایت نیروهای پلیس به طور فزایندهای از استراتژیهای مبتنی بر داده استفاده میکنند که اطلاعات اطلاعاتی خود و اطلاعات در دسترس عموم را برای استفاده مؤثرتر از منابع و انجام اقدامات بازدارنده در صورت لزوم، ترکیب میکند.
بهترین کتاب ها در مورد فناوری Big-Data
- همه دروغ می گویند. موتورهای جستجو، کلان داده و اینترنت همه چیز را در مورد شما می دانند.
- اطلاعات بزرگ. تمام تکنولوژی در یک کتاب
- صنعت شادی چگونه داده های بزرگ و فناوری های جدید به افزایش احساسات به محصولات و خدمات کمک می کنند.
- انقلاب در تحلیل چگونه با استفاده از تجزیه و تحلیل عملیاتی، کسب و کار خود را در عصر داده های بزرگ بهبود بخشید.
مشکلات با داده های بزرگ
داده های بزرگ ایده ها و فرصت های بی سابقه ای را به ما می دهد، اما همچنین مشکلات و سوالاتی را ایجاد می کند که باید به آنها پرداخته شود:
- حفظ حریم خصوصی داده ها - داده های بزرگی که امروز تولید می کنیم حاوی اطلاعات زیادی در مورد زندگی شخصی ما است که ما کاملاً حق حریم خصوصی آنها را داریم. بیشتر و بیشتر از ما خواسته میشود که بین میزان دادههای شخصی که فاش میکنیم و راحتی که برنامهها و سرویسهای مبتنی بر دادههای بزرگ ارائه میکنند تعادل ایجاد کنیم.
- امنیت داده ها - حتی اگر به این نتیجه برسیم که از داشتن داده های شخصی برای هدف خاصی راضی هستیم، آیا می توانیم به او اعتماد کنیم تا داده های ما را ایمن و ایمن نگه دارد؟
- تبعیض داده ها - زمانی که همه اطلاعات شناخته شوند، آیا تبعیض علیه افراد بر اساس داده های زندگی شخصی آنها قابل قبول است؟ ما قبلاً از امتیازات اعتباری برای تصمیم گیری در مورد اینکه چه کسی می تواند پول قرض کند استفاده می کنیم و بیمه نیز به شدت مبتنی بر داده است. ما باید انتظار داشته باشیم که با جزئیات بیشتری تجزیه و تحلیل و ارزیابی شویم، اما باید مراقب بود که این امر زندگی را برای کسانی که منابع کمتری دارند و دسترسی محدود به اطلاعات دارند دشوارتر نمی کند.
انجام این وظایف جزء مهمی از داده های بزرگ است و باید توسط سازمان هایی که می خواهند از چنین داده هایی استفاده کنند، رسیدگی شود. عدم انجام این کار می تواند یک کسب و کار را نه تنها از نظر اعتبار، بلکه از نظر قانونی و مالی آسیب پذیر کند.
نگاه به آینده
داده ها جهان و زندگی ما را با سرعتی بی سابقه تغییر می دهند. اگر داده های بزرگ امروز قادر به انجام همه اینها هستند، فقط تصور کنید که فردا چه توانایی هایی خواهند داشت. مقدار داده های در دسترس ما فقط افزایش می یابد و فناوری تجزیه و تحلیل حتی پیشرفته تر می شود.
برای کسب و کارها، توانایی استفاده از داده های بزرگ در سال های آینده به طور فزاینده ای حیاتی خواهد شد. فقط آن دسته از شرکت هایی که داده ها را به عنوان یک دارایی استراتژیک در نظر می گیرند زنده می مانند و پیشرفت می کنند. کسانی که این انقلاب را نادیده می گیرند در خطر عقب ماندن هستند.
اطلاعات بزرگ- انگلیسی "اطلاعات بزرگ". این اصطلاح به عنوان جایگزینی برای DBMS ظاهر شد و زمانی که اکثر غول های صنعت - IBM، Microsoft، HP، Oracle و دیگران شروع به استفاده از این مفهوم در استراتژی های خود کردند، به یکی از روندهای اصلی در زیرساخت های فناوری اطلاعات تبدیل شد. Big Data به آرایه عظیم (صدها ترابایت) داده اشاره دارد که با استفاده از روش های سنتی قابل پردازش نیستند. گاهی اوقات - ابزارها و روش های پردازش این داده ها.
نمونههایی از منابع کلان داده: رویدادهای RFID، پیامها در شبکههای اجتماعی، آمار هواشناسی، اطلاعات مربوط به موقعیت مکانی مشترکین شبکههای تلفن همراه تلفن همراه و دادههای دستگاههای ضبط صدا/فیلم. بنابراین، "داده های بزرگ" به طور گسترده در تولید، مراقبت های بهداشتی، مدیریت دولتی و کسب و کار اینترنتی - به ویژه، هنگام تجزیه و تحلیل مخاطبان هدف استفاده می شود.
مشخصه
نشانههای کلان داده به عنوان «سه در مقابل» تعریف میشوند: حجم – حجم (واقعاً بزرگ). تنوع - ناهمگونی، مجموعه؛ سرعت - سرعت (نیاز به پردازش بسیار سریع).
کلان داده ها اغلب بدون ساختار هستند و برای پردازش آن به الگوریتم های خاصی نیاز است. روش های تجزیه و تحلیل کلان داده ها عبارتند از:
- ("داده کاوی") - مجموعه ای از رویکردها برای کشف دانش مفید پنهان که با روش های استاندارد نمی توان به دست آورد.
- جمع سپاری (جمعیت - "جمعیت"، منبع یابی - استفاده به عنوان منبع) - حل مشکلات مهم از طریق تلاش مشترک داوطلبانی که در یک قرارداد کاری یا رابطه اجباری نیستند، هماهنگی فعالیت ها با استفاده از ابزارهای فناوری اطلاعات؛
- ترکیب و ادغام داده ها ("اختلاط و پیاده سازی داده ها") - مجموعه ای از روش ها برای اتصال چندین منبع به عنوان بخشی از یک تجزیه و تحلیل عمیق.
- یادگیری ماشین ("یادگیری ماشین") زیربخشی از تحقیقات هوش مصنوعی است که روشهای استفاده از تجزیه و تحلیل آماری و پیشبینیهای مبتنی بر مدلهای پایه را مطالعه میکند.
- تشخیص تصویر (به عنوان مثال، تشخیص چهره در منظره یاب دوربین یا دوربین فیلمبرداری)؛
- تجزیه و تحلیل فضایی - با استفاده از توپولوژی، هندسه و جغرافیا برای ساخت داده ها.
- تجسم داده ها - خروجی اطلاعات تحلیلی در قالب تصاویر و نمودارها با استفاده از ابزارهای تعاملیو انیمیشن هایی برای ردیابی نتایج و ایجاد پایه ای برای نظارت بیشتر.
اطلاعات بر روی تعداد زیادی سرور با کارایی بالا ذخیره و تجزیه و تحلیل می شود. فناوری کلیدی Hadoop است که منبع باز است.
از آنجایی که مقدار اطلاعات تنها در طول زمان افزایش می یابد، مشکل در به دست آوردن داده ها نیست، بلکه در نحوه پردازش آن با حداکثر سود است. به طور کلی، فرآیند کار با داده های بزرگ شامل: جمع آوری اطلاعات، ساختار آن، ایجاد بینش و زمینه ها، توسعه توصیه هایی برای اقدام است. حتی قبل از مرحله اول، مهم است که هدف کار را به وضوح تعریف کنید: برای مثال، تعیین مخاطب هدف محصول دقیقاً برای چه داده هایی مورد نیاز است. در غیر این صورت، خطر دریافت اطلاعات زیادی بدون درک نحوه استفاده دقیق از آن وجود دارد.