빅데이터는 대규모 데이터 세트에서 정보를 수집, 구성, 처리하는 데 필요한 비전통적인 전략과 기술을 가리키는 광범위한 용어입니다. 더 큰 데이터로 작업하는 데 문제가 있지만 컴퓨팅 파워또는 단일 컴퓨터의 저장 기능은 새로운 것이 아니며 이러한 유형의 컴퓨팅의 범위와 가치는 최근 몇 년 동안 크게 확장되었습니다.

이 문서에서는 빅 데이터를 탐색하는 동안 접할 수 있는 기본 개념을 안내합니다. 또한 현재 이 분야에서 사용되는 일부 프로세스와 기술에 대해서도 설명합니다.

빅데이터란 무엇인가?

프로젝트, 공급업체, 실무자 및 비즈니스 전문가가 빅 데이터를 매우 다양한 방식으로 사용하기 때문에 "빅 데이터"에 대한 정확한 정의를 명확하게 정의하기는 어렵습니다. 이를 염두에 두고 빅데이터는 다음과 같이 정의할 수 있습니다.

  • 대규모 데이터 세트.
  • 대규모 데이터 세트를 처리하는 데 사용되는 컴퓨팅 전략 및 기술의 범주입니다.

이러한 맥락에서 "대규모 데이터 세트"는 기존 도구를 사용하거나 단일 컴퓨터에서 처리하거나 저장하기에는 너무 큰 데이터 세트를 의미합니다. 이는 대규모 데이터 세트의 전체 규모가 지속적으로 변화하고 있으며 사례마다 크게 다를 수 있음을 의미합니다.

빅데이터 시스템

빅 데이터 작업을 위한 기본 요구 사항은 다른 데이터 세트와 동일합니다. 그러나 프로세스의 모든 단계에서 발생하는 대규모 규모, 처리 속도 및 데이터 특성은 도구 개발에 새롭고 중요한 과제를 제시합니다. 대부분의 빅데이터 시스템의 목표는 기존 방식으로는 불가능했던 대량의 이기종 데이터를 이해하고 소통하는 것입니다.

2001년 Gartner의 Doug Laney는 빅 데이터 처리를 다른 유형의 데이터 처리와 구별하는 몇 가지 특성을 설명하기 위해 "빅 데이터의 3V"를 도입했습니다.

  1. 볼륨(데이터 볼륨).
  2. 속도(데이터 축적 및 처리 속도).
  3. 다양성(다양한 유형의 데이터 처리).

데이터 볼륨

처리되는 정보의 규모는 빅 데이터 시스템을 정의하는 데 도움이 됩니다. 이러한 데이터 세트는 기존 데이터 세트보다 훨씬 더 클 수 있으므로 처리 및 저장의 모든 단계에서 더 많은 주의가 필요합니다.

요구 사항이 단일 컴퓨터의 용량을 초과하기 때문에 컴퓨터 그룹의 리소스를 풀링, 배포 및 조정하는 문제가 자주 발생합니다. 작업을 더 작은 부분으로 나눌 수 있는 클러스터 관리 및 알고리즘은 이 영역에서 점점 더 중요해지고 있습니다.

누적 및 처리 속도

빅데이터가 다른 데이터 시스템과 크게 구별되는 두 번째 특징은 정보가 시스템을 통해 이동하는 속도입니다. 데이터는 여러 소스에서 시스템으로 들어오는 경우가 많으며 시스템의 현재 상태를 업데이트하려면 실시간으로 처리되어야 합니다.

순간적인 강조 피드백많은 실무자들이 패킷 지향 접근 방식을 포기하고 실시간 스트리밍 시스템을 선호하도록 강요했습니다. 데이터는 지속적으로 추가, 처리 및 분석되어 새로운 정보의 유입에 맞춰 가장 관련성이 높은 시기에 귀중한 통찰력을 조기에 제공합니다. 이를 위해서는 데이터 파이프라인의 오류로부터 보호하기 위해 가용성이 높은 구성 요소를 갖춘 강력한 시스템이 필요합니다.

다양한 데이터 유형 처리

처리되는 소스의 범위와 상대적인 품질로 인해 빅데이터에는 고유한 과제가 많이 있습니다.

데이터는 애플리케이션 및 서버 로그와 같은 내부 시스템, 소셜 미디어 피드 및 기타 외부 API, 물리적 장치 센서 및 기타 소스에서 가져올 수 있습니다. 빅데이터 시스템의 목표는 모든 정보를 단일 시스템으로 결합하여 출처에 관계없이 잠재적으로 유용한 데이터를 처리하는 것입니다.

미디어 형식과 유형도 크게 다를 수 있습니다. 미디어 파일(이미지, 비디오, 오디오)이 다음과 결합됩니다. 텍스트 파일, 구조화된 로그 등. 보다 전통적인 데이터 처리 시스템에서는 데이터가 이미 레이블이 지정되고, 형식이 지정되고, 구성된 파이프라인에 입력될 것으로 기대하지만, 빅 데이터 시스템은 일반적으로 데이터를 보존하기 위해 데이터를 수집하고 저장합니다. 초기 상태. 이상적으로는 원시 데이터에 대한 모든 변환이나 변경이 처리 중에 메모리에서 발생합니다.

기타 특성

시간이 지나면서 실무자와 조직에서는 원래의 "3V" 확장을 제안해 왔지만 이러한 혁신은 빅 데이터의 특성보다는 문제를 설명하는 경향이 있습니다.

  • 진실성: 소스의 다양성과 처리의 복잡성으로 인해 데이터 품질(따라서 결과 분석의 품질)을 평가하는 데 문제가 발생할 수 있습니다.
  • 가변성: 데이터의 변화로 인해 품질이 크게 변합니다. 데이터 품질을 개선하기 위해 품질이 낮은 데이터를 식별, 처리 또는 필터링하려면 추가 리소스가 필요할 수 있습니다.
  • 가치: 빅데이터의 궁극적인 목표는 가치입니다. 때로는 시스템과 프로세스가 매우 복잡하여 데이터를 사용하고 실제 값을 추출하기가 어렵습니다.

빅데이터 수명주기

그렇다면 빅데이터는 실제로 어떻게 처리되는 걸까요? 구현에는 여러 가지 접근 방식이 있지만 전략과 소프트웨어에는 공통점이 있습니다.

  • 시스템에 데이터 입력
  • 스토리지에 데이터 저장
  • 데이터 컴퓨팅 및 분석
  • 결과 시각화

이러한 네 가지 범주의 워크플로를 자세히 살펴보기 전에 많은 빅 데이터 도구에서 사용되는 중요한 전략인 클러스터 컴퓨팅에 대해 이야기해 보겠습니다. 컴퓨팅 클러스터 설정은 수명주기의 각 단계에서 사용되는 핵심 기술입니다.

클러스터 컴퓨팅

빅데이터의 품질로 인해 개별 컴퓨터는 데이터 처리에 적합하지 않습니다. 클러스터는 빅 데이터의 저장 및 컴퓨팅 요구 사항을 처리할 수 있으므로 이에 더 적합합니다.

빅 데이터 클러스터링 소프트웨어는 여러 가지 이점을 제공하는 것을 목표로 많은 소형 시스템의 리소스를 결합합니다.

  • 리소스 풀링: 대규모 데이터 세트를 처리하려면 많은 양의 CPU 및 메모리 리소스는 물론 사용 가능한 많은 저장 공간이 필요합니다.
  • 고가용성: 클러스터는 하드웨어나 소프트웨어 오류가 데이터 액세스 및 처리에 영향을 미치지 않도록 다양한 수준의 내결함성과 가용성을 제공할 수 있습니다. 이는 실시간 분석에 특히 중요합니다.
  • 확장성: 클러스터는 빠른 수평 확장(클러스터에 새 시스템 추가)을 지원합니다.

클러스터에서 작업하려면 클러스터 멤버십을 관리하고, 리소스 배포를 조정하고, 개별 노드 작업을 예약하는 도구가 필요합니다. 클러스터 멤버십 및 리소스 할당은 Hadoop YARN(Yet Another Resource Negotiator) 또는 Apache Mesos와 같은 프로그램을 사용하여 처리할 수 있습니다.

조립식 컴퓨팅 클러스터는 종종 다른 소프트웨어가 데이터를 처리하기 위해 상호 작용하는 백본 역할을 합니다. 컴퓨팅 클러스터에 참여하는 머신은 일반적으로 분산 스토리지 시스템 관리와도 연결됩니다.

데이터 수신

데이터 수집은 원시 데이터를 시스템에 추가하는 프로세스입니다. 이 작업의 복잡성은 주로 데이터 소스의 형식과 품질, 데이터가 처리 요구 사항을 충족하는 정도에 따라 달라집니다.

특별한 도구를 사용하여 시스템에 빅데이터를 추가할 수 있습니다. Apache Sqoop과 같은 기술은 관계형 데이터베이스에서 기존 데이터를 가져와 빅 데이터 시스템에 추가할 수 있습니다. 애플리케이션 및 서버 로그를 집계하고 가져오기 위해 설계된 프로젝트인 Apache Flume 및 Apache Chukwa를 사용할 수도 있습니다. Apache Kafka와 같은 메시지 브로커는 다양한 데이터 생성기와 빅데이터 시스템 간의 인터페이스로 사용될 수 있습니다. Gobblin과 같은 프레임워크는 파이프라인 끝에서 모든 도구의 출력을 결합하고 최적화할 수 있습니다.

데이터 수집 중에는 일반적으로 분석, 정렬 및 라벨링이 수행됩니다. 이 프로세스는 추출, 변환, 로드를 의미하는 ETL(추출, 변환, 로드)이라고도 합니다. 이 용어는 일반적으로 레거시 데이터 웨어하우징 프로세스를 나타내지만 때로는 빅 데이터 시스템에 적용되기도 합니다. 일반적인 작업에는 형식 지정, 분류 및 레이블 지정, 필터링 또는 규정 준수 여부 확인을 위해 수신 데이터 수정이 포함됩니다.

이상적으로는 수신된 데이터에 최소한의 형식이 적용됩니다.

데이터 저장고

일단 수신된 데이터는 스토리지를 관리하는 구성 요소로 이동됩니다.

일반적으로 분산 파일 시스템은 원시 데이터를 저장하는 데 사용됩니다. Apache Hadoop의 HDFS와 같은 솔루션을 사용하면 클러스터의 여러 노드에 대량의 데이터를 쓸 수 있습니다. 이 시스템은 데이터에 대한 컴퓨팅 리소스 액세스를 제공하고, 메모리 작업을 위해 데이터를 클러스터 RAM에 로드하고, 구성 요소 오류를 처리할 수 있습니다. Ceph 및 GlusterFS를 포함하여 HDFS 대신 다른 분산 파일 시스템을 사용할 수 있습니다.

보다 구조화된 액세스를 위해 데이터를 다른 분산 시스템으로 가져올 수도 있습니다. 분산 데이터베이스, 특히 NoSQL 데이터베이스는 이기종 데이터를 처리할 수 있기 때문에 이 역할에 매우 적합합니다. 분산 데이터베이스에는 다양한 유형이 있으며, 데이터를 구성하고 표시하는 방법에 따라 선택이 달라집니다.

데이터 컴퓨팅 및 분석

데이터를 사용할 수 있게 되면 시스템이 처리를 시작할 수 있습니다. 컴퓨팅 계층은 아마도 시스템에서 가장 자유로운 부분일 것입니다. 왜냐하면 여기의 요구 사항과 접근 방식은 정보 유형에 따라 크게 다를 수 있기 때문입니다. 데이터는 단일 도구를 사용하거나 다양한 유형의 데이터를 처리하기 위해 여러 도구를 사용하여 반복적으로 처리되는 경우가 많습니다.

일괄 처리는 계산 방법 중 하나입니다. 대형 세트데이터. 이 프로세스에는 데이터를 더 작은 부분으로 나누고, 각 부분이 별도의 시스템에서 처리되도록 예약하고, 중간 결과를 기반으로 데이터를 재배열한 다음 최종 결과를 계산하고 수집하는 작업이 포함됩니다. Apache Hadoop의 MapReduce는 이 전략을 사용합니다. 일괄 처리는 상당히 많은 계산이 필요한 매우 큰 데이터 세트로 작업할 때 가장 유용합니다.

다른 워크로드에는 실시간 처리가 필요합니다. 그러나 정보는 즉시 처리 및 준비되어야 하며, 새로운 정보가 제공될 때 시스템은 적시에 응답해야 합니다. 실시간 처리를 구현하는 한 가지 방법은 개별 요소로 구성된 연속적인 데이터 스트림을 처리하는 것입니다. 다른 것 일반적 특성실시간 프로세서는 클러스터 메모리에서 데이터를 계산하므로 디스크에 쓸 필요가 없습니다.

Apache Storm, Apache Flink 및 Apache Spark는 실시간 처리를 구현하는 다양한 방법을 제공합니다. 이러한 유연한 기술을 통해 각 개별 문제에 가장 적합한 접근 방식을 선택할 수 있습니다. 일반적으로 실시간 처리는 변경되거나 시스템에 빠르게 추가되는 작은 데이터 조각을 분석하는 데 가장 적합합니다.

이 모든 프로그램은 프레임워크입니다. 그러나 빅데이터 시스템에서 데이터를 계산하거나 분석하는 방법은 이 외에도 다양합니다. 이러한 도구는 위의 프레임워크에 연결되는 경우가 많으며 기본 레이어와 상호 작용할 수 있는 추가 인터페이스를 제공합니다. 예를 들어, Apache Hive는 Hadoop에 데이터 웨어하우스 인터페이스를 제공하고, Apache Pig는 쿼리 인터페이스를 제공하며, SQL 데이터 상호 작용은 Apache Drill, Apache Impala, Apache Spark SQL 및 Presto에서 제공됩니다. 기계 학습은 Apache Spark의 Apache SystemML, Apache Mahout 및 MLlib를 사용합니다. 데이터 생태계에서 널리 지원되는 직접 분석 프로그래밍에는 R과 Python이 사용됩니다.

결과 시각화

시간에 따른 데이터의 추세나 변화를 인식하는 것이 결과 값보다 더 중요한 경우가 많습니다. 데이터 시각화는 추세를 파악하고 수많은 데이터 포인트를 구성하는 가장 유용한 방법 중 하나입니다.

실시간 처리는 애플리케이션 및 서버 측정항목을 시각화하는 데 사용됩니다. 데이터가 자주 변경되고 메트릭의 큰 변화는 일반적으로 시스템이나 조직의 상태에 심각한 영향을 미친다는 것을 나타냅니다. Prometheus와 같은 프로젝트를 사용하여 데이터 스트림과 시계열을 처리하고 이 정보를 시각화할 수 있습니다.

데이터를 시각화하는 널리 사용되는 방법 중 하나는 이전에 ELK 스택으로 알려진 Elastic 스택입니다. Logstash는 데이터 수집에, Elasticsearch는 데이터 인덱싱에, Kibana는 시각화에 사용됩니다. Elastic Stack은 빅 데이터로 작업하고, 계산 결과를 시각화하고, 원시 지표와 상호 작용할 수 있습니다. 인덱싱을 위한 Apache Solr와 시각화를 위한 Banana라는 Kibana 포크를 결합하여 유사한 스택을 얻을 수 있습니다. 이 스택을 실크라고 합니다.

데이터와 상호작용하기 위한 또 다른 시각화 기술은 문서입니다. 이러한 프로젝트를 통해 편리한 형식으로 데이터를 대화형으로 탐색하고 시각화할 수 있습니다. 나누는그리고 데이터 프리젠테이션. 이러한 유형의 인터페이스의 인기 있는 예로는 Jupyter Notebook 및 Apache Zeppelin이 있습니다.

빅데이터 용어집

  • 빅데이터는 그 양, 속도, 다양성으로 인해 기존 컴퓨터나 도구로는 제대로 처리할 수 없는 데이터 집합을 가리키는 광범위한 용어입니다. 이 용어는 일반적으로 그러한 데이터를 사용하는 기술 및 전략에도 적용됩니다.
  • 일괄 처리는 대규모 세트의 데이터를 처리하는 컴퓨팅 전략입니다. 일반적으로 이 방법은 긴급하지 않은 데이터 작업에 이상적입니다.
  • 클러스터 컴퓨팅은 여러 시스템의 리소스를 모으고 공유 기능을 관리하여 작업을 수행하는 방식입니다. 이 경우 개별 노드 간의 통신을 처리하는 클러스터 관리 계층이 필요합니다.
  • 데이터 레이크는 상대적으로 원시 상태로 수집된 데이터를 저장하는 대규모 저장소입니다. 이 용어는 구조화되지 않고 자주 변경되는 빅데이터를 지칭하는 데 자주 사용됩니다.
  • 데이터 마이닝은 대규모 데이터 세트에서 패턴을 찾는 다양한 방법을 가리키는 광범위한 용어입니다. 이는 대량의 데이터를 보다 이해하기 쉽고 일관성 있는 정보 세트로 구성하려는 시도입니다.
  • 데이터 웨어하우스는 분석 및 보고를 위해 체계적으로 구성된 대규모 저장소입니다. 데이터 레이크와 달리 웨어하우스는 다른 소스와 통합된 형식화되고 잘 구성된 데이터로 구성됩니다. 데이터 웨어하우스는 빅데이터와 관련하여 자주 언급되지만, 기존 데이터 처리 시스템의 구성요소인 경우가 많습니다.
  • ETL(추출, 변환 및 로드) – 데이터 추출, 변환 및 로드. 사용할 원시 데이터를 획득하고 준비하는 프로세스입니다. 이는 데이터 웨어하우스와 연관되어 있지만 이 프로세스의 특징은 빅데이터 시스템의 파이프라인에서도 발견됩니다.
  • Hadoop은 오픈 소스 Apache 프로젝트입니다. 소스 코드빅데이터용. 분산형으로 구성되어 있습니다. 파일 시스템 HDFS라고 하는 클러스터와 리소스 스케줄러인 YARN이 있습니다. 가능성 일괄 처리 MapReduce 계산 엔진에서 제공됩니다. 최신 Hadoop 배포에서는 MapReduce와 함께 다른 컴퓨팅 및 분석 시스템을 실행할 수 있습니다.
  • 인메모리 컴퓨팅은 전체 작업 데이터 세트를 클러스터 메모리로 이동하는 전략입니다. 중간 계산은 디스크에 기록되지 않고 대신 메모리에 저장됩니다. 이는 시스템에 I/O 바인딩 시스템에 비해 엄청난 속도 이점을 제공합니다.
  • 머신러닝은 제공된 데이터를 기반으로 학습, 조정 및 개선할 수 있는 시스템을 설계하는 연구 및 실습입니다. 이는 일반적으로 예측 및 통계 알고리즘의 구현을 의미합니다.
  • Map Reduce(Hadoop의 MapReduce와 혼동하지 마세요)는 컴퓨팅 클러스터 스케줄링 알고리즘입니다. 이 프로세스에는 노드 간에 작업을 나누고 중간 결과를 얻은 다음 각 세트에 대해 단일 값을 섞은 후 출력하는 작업이 포함됩니다.
  • NoSQL은 전통적인 관계형 모델 외부에서 설계된 데이터베이스를 가리키는 광범위한 용어입니다. NoSQL 데이터베이스는 유연성과 분산 아키텍처로 인해 빅데이터에 매우 적합합니다.
  • 스트림 처리는 시스템을 통해 이동하는 개별 데이터 조각을 계산하는 방식입니다. 이를 통해 실시간 데이터 분석이 가능하며 고속 메트릭을 사용하여 시간에 민감한 트랜잭션을 처리하는 데 적합합니다.
태그: ,

연구&트렌드 소재 기반

빅 데이터"빅 데이터"는 수년 동안 IT 및 마케팅 언론의 화두였습니다. 그리고 그것은 분명합니다: 디지털 기술현대인의 삶에 스며든 '모든 것은 기록되어 있다'. 가장 많은 데이터의 양 다른 측면생명이 성장하고 동시에 정보를 저장할 가능성도 커지고 있습니다.

정보 저장을 위한 글로벌 기술

출처: Hilbert와 Lopez, '정보를 저장하고, 전달하고, 계산하는 세계의 기술적 역량', Science, 2011 Global.

대부분의 전문가들은 데이터 증가 가속화가 객관적인 현실이라는 데 동의합니다. 소셜 네트워크, 모바일 장치, 측정 장치의 데이터, 비즈니스 정보 등은 엄청난 양의 정보를 생성할 수 있는 소스 유형 중 일부에 불과합니다. 연구에 따르면 IDC디지털 세계 2012년에 출판된 , 향후 8년 안에 전 세계의 데이터 양은 40ZB(제타바이트)에 도달할 것이며 이는 지구상의 모든 주민이 5200GB에 해당합니다.

미국의 디지털 정보 수집 증가


출처: IDC

대부분의 정보는 사람이 생성하는 것이 아니라 로봇이 서로 상호 작용하거나 센서 및 스마트 장치와 같은 다른 데이터 네트워크와 상호 작용하여 생성됩니다. 이러한 성장률로 인해 연구원들에 따르면 전 세계 데이터의 양은 매년 두 배로 늘어날 것입니다. 새로운 데이터 센터의 확장과 생성으로 인해 전 세계의 가상 및 물리적 서버 수는 10배 증가할 것입니다. 결과적으로, 이 데이터를 효과적으로 활용하고 수익화해야 할 필요성이 커지고 있습니다. 빅데이터를 비즈니스에 활용하려면 상당한 투자가 필요하기 때문에 상황을 명확히 이해해야 한다. 그리고 이는 본질적으로 간단합니다. 비용을 줄이거나 판매량을 늘려 비즈니스 효율성을 높일 수 있습니다.

왜 빅데이터가 필요한가?

빅 데이터 패러다임은 세 가지 주요 유형의 문제를 정의합니다.

  • 기존 관계형 데이터베이스가 효과적으로 활용할 수 없는 수백 테라바이트 또는 페타바이트의 데이터를 저장하고 관리합니다.
  • 텍스트, 이미지, 동영상, 기타 데이터로 구성된 비정형 정보를 정리합니다.
  • 구조화되지 않은 정보로 작업하는 방법, 분석 보고서 생성 및 예측 모델 구현에 대한 질문을 제기하는 빅 데이터 분석.

빅데이터 프로젝트 시장은 비즈니스 분석(BA) 시장과 교차하며, 전문가에 따르면 이 시장의 글로벌 규모는 2012년 약 1,000억 달러에 달했습니다. 여기에는 네트워크 기술, 서버, 소프트웨어및 기술 서비스.

또한 사용 큰 기술데이터는 기업 활동을 자동화하도록 설계된 소득 보장(RA) 클래스 솔루션과 관련이 있습니다. 최신 시스템수익 보증에는 불일치 감지 및 심층 데이터 분석 도구가 포함되어 있어 적시에 감지할 수 있습니다. 손실 가능성또는 재무 결과의 감소로 이어질 수 있는 정보의 허위 표시. 이러한 배경에서 러시아 기업들은 국내 시장에서 빅데이터 기술에 대한 수요가 있음을 확인한 후 러시아 빅데이터 발전을 촉진하는 요인으로 데이터 성장, 경영 의사결정 가속화, 품질 향상을 꼽았습니다.

빅데이터 작업을 방해하는 요소

빅데이터급 분석 솔루션을 사용하면 객관적으로 업계 전반에 걸쳐 해결할 수 있는 문제가 있음에도 불구하고 현재 축적된 디지털 데이터의 0.5%만이 분석되고 있습니다. 선진 IT 시장에는 빅데이터의 축적 및 처리와 관련된 기대치를 평가하는 데 사용할 수 있는 결과가 이미 나와 있습니다.

높은 비용 외에도 빅데이터 프로젝트의 구현을 지연시키는 주요 요인 중 하나로 간주됩니다. 처리된 데이터 선택 문제즉, 어떤 데이터를 검색, 저장, 분석해야 하는지, 어떤 데이터를 무시해야 하는지 결정하는 것입니다.

많은 비즈니스 담당자는 빅 데이터 프로젝트를 구현하는 데 어려움이 전문가(마케터 및 분석가) 부족과 관련이 있다고 지적합니다. 빅 데이터에 대한 투자 수익의 속도는 심층적이고 예측적인 분석에 참여하는 직원의 업무 품질에 직접적으로 좌우됩니다. 조직에 이미 존재하는 데이터의 엄청난 잠재력은 오래된 비즈니스 프로세스나 내부 규정으로 인해 마케팅 담당자가 효과적으로 사용할 수 없는 경우가 많습니다. 따라서 빅데이터 프로젝트는 기업에서 구현하기 어려울 뿐만 아니라 결과, 즉 수집된 데이터의 가치를 평가하기도 어렵다고 인식되는 경우가 많습니다. 데이터 작업의 특정 특성으로 인해 마케터와 분석가는 기술과 보고서 작성에서 특정 비즈니스 문제 해결로 관심을 전환해야 합니다.

데이터 흐름의 양이 많고 속도가 빠르기 때문에 데이터 수집 프로세스에는 실시간 ETL 절차가 포함됩니다. 참고로:ETL - 에서영어발췌, 변환, - 문자 그대로 "추출, 변환, 로드") - 관리의 주요 프로세스 중 하나 다음을 포함하는 데이터 웨어하우스 외부 소스, 그들의 변형 및 요구 사항을 충족하는 청소 ETL은 한 애플리케이션에서 다른 애플리케이션으로 데이터를 이동하는 프로세스일 뿐만 아니라 분석할 데이터를 준비하는 도구로도 보아야 합니다.

그리고 외부 소스에서 들어오는 데이터의 보안을 보장하는 문제에는 수집된 정보의 양에 맞는 솔루션이 있어야 합니다. 빅데이터 분석 방법은 데이터 양의 증가에 따라 발전하기 때문에 데이터를 준비하고 집계하는 새로운 방법을 사용하는 분석 플랫폼의 능력이 큰 역할을 합니다. 이는 예를 들어 잠재적 구매자에 대한 데이터나 온라인 쇼핑 사이트의 클릭 이력이 있는 대규모 데이터 웨어하우스가 다양한 문제를 해결하는 데 도움이 될 수 있음을 시사합니다.

어려움은 멈추지 않는다

빅데이터 구현에 따른 어려움에도 불구하고 회사는 이 분야에 대한 투자를 늘릴 계획이다. Gartner 데이터에 따르면 2013년에 세계 최대 기업의 64%가 비즈니스를 위한 빅 데이터 기술 배포에 이미 투자했거나 투자할 계획을 갖고 있는 반면, 2012년에는 58%였습니다. Gartner 조사에 따르면 빅 데이터에 투자하는 업계의 선두주자는 미디어 회사, 통신 회사, 은행 및 서비스 회사입니다. 무선 주파수 식별 도구, 물류 및 재배치 시스템을 사용하여 얻은 데이터의 사용 측면에서 소매 업계의 많은 주요 업체가 빅 데이터 구현의 성공적인 결과를 이미 달성했습니다. 채움- 축적, 보충 - R&T) 및 충성도 프로그램을 통해 제공됩니다. 성공적인 소매 경험은 다른 시장 부문에서 새로운 부문을 찾도록 장려합니다. 효과적인 방법분석을 비즈니스 개발에 적합한 리소스로 전환하기 위해 빅 데이터를 수익화합니다. 이로 인해 전문가에 따르면 2020년까지 관리 및 저장에 대한 투자는 데이터 기가바이트당 2달러에서 0.2달러로 감소하지만 빅데이터의 기술적 속성에 대한 연구 및 분석에 대한 투자는 40%만 증가할 것으로 예상됩니다.

빅데이터 분야의 다양한 투자 프로젝트에서 제시되는 비용은 성격이 다릅니다. 비용 항목은 특정 결정에 따라 선택되는 제품 유형에 따라 다릅니다. 전문가에 따르면 투자 프로젝트 비용의 가장 큰 부분은 데이터 수집, 구조화, 정리 및 정보 관리와 관련된 제품에 해당합니다.

어떻게 이루어졌는가

소셜 미디어 및 모바일 애플리케이션부터 비즈니스 데이터의 지능형 분석 및 시각화에 이르기까지 다양한 비즈니스 분야에 효과적인 빅 데이터 솔루션을 만들 수 있는 소프트웨어와 하드웨어의 다양한 조합이 있습니다. 빅 데이터의 중요한 장점은 비즈니스에서 널리 사용되는 데이터베이스와 새로운 도구의 호환성입니다. 이는 다채널 판매 및 고객 지원 구성과 같은 학제 간 프로젝트를 수행할 때 특히 중요합니다.

빅 데이터 작업의 순서는 데이터 수집, 보고서 및 대시보드를 사용하여 수신된 정보 구조화, 통찰력 및 컨텍스트 생성, 조치 권장 사항 작성으로 구성됩니다. 빅데이터 작업에는 데이터 수집에 막대한 비용이 소요되고 처리 결과를 사전에 알 수 없으므로 주요 작업은 데이터의 양이 아니라 데이터의 용도를 명확하게 이해하는 것입니다. 이 경우 데이터 수집은 특정 문제를 해결하는 데만 필요한 정보를 얻는 과정으로 변합니다.

예를 들어, 통신 제공업체는 지속적으로 업데이트되는 지리적 위치를 포함하여 막대한 양의 데이터를 집계합니다. 이 정보는 소매업체와 은행뿐만 아니라 타겟 및 지역 광고를 전달하기 위해 이를 사용할 수 있는 광고 대행사의 상업적인 이익이 될 수 있습니다. 이러한 데이터는 강력한 표적 흐름의 존재에 대한 데이터를 기반으로 특정 위치에 소매점을 열기로 결정할 때 중요한 역할을 할 수 있습니다. 런던의 옥외 광고판 광고 효과를 측정한 사례가 있습니다. 이제 그러한 광고의 도달 범위는 사람들을 다음과 같이 배치함으로써만 측정할 수 있습니다. 특수 장치지나가는 사람을 세는 중입니다. 이러한 유형의 광고 효과 측정에 비해 이동통신사는 훨씬 더 많은 기회를 갖습니다. 그는 가입자의 위치를 ​​정확히 알고 있으며 인구통계학적 특성, 성별, 연령, 결혼 여부 등을 알고 있습니다.

이러한 데이터를 바탕으로 앞으로 광고판을 지나가는 특정 인물의 선호도를 활용하여 광고 메시지의 내용을 변경할 가능성이 있습니다. 지나가는 사람이 여행을 많이 한다는 데이터가 표시되면 그 사람에게 리조트 광고가 표시될 수 있습니다. 축구 경기의 주최자는 경기에 참석한 팬의 수만 추정할 수 있습니다. 그러나 경기가 열리기 한 시간, 하루, 한 달 전에 방문객들이 어디에 있었는지에 대한 정보를 휴대폰 제공업체에 요청할 수 있다면 주최측은 향후 경기에 대한 광고 장소를 계획할 수 있는 능력을 갖게 될 것입니다.

또 다른 예는 은행이 빅데이터를 사용하여 사기를 방지하는 방법입니다. 고객이 카드 분실신고를 하고 카드로 구매 시 거래가 이루어지는 구매지역에서 고객 휴대폰의 위치를 ​​은행이 실시간으로 확인하면 은행은 고객의 신청서에서 해당 정보를 확인할 수 있습니다. 그가 그를 속이려고 했는지 알아보려고. 또는 반대 상황으로, 고객이 상점에서 물건을 구매할 때 은행은 거래에 사용된 카드와 고객의 휴대폰이 같은 장소에 있는 것을 확인하고 카드 소유자가 해당 카드를 사용하고 있다고 결론을 내릴 수 있습니다. 이러한 빅데이터의 장점으로 인해 기존 데이터 웨어하우스의 경계가 확장되고 있습니다.

기업이 빅데이터 솔루션 구현을 성공적으로 결정하기 위해서는 투자 사례를 계산해야 하는데, 이는 알려지지 않은 많은 구성 요소로 인해 큰 어려움을 초래합니다. 이러한 경우 분석의 역설은 과거를 바탕으로 미래를 예측하는데, 이에 대한 데이터가 종종 누락되는 경우가 있습니다. 이 경우 중요한 요소는 초기 작업에 대한 명확한 계획입니다.

  • 첫째, 빅데이터 기술을 사용할 구체적인 비즈니스 문제 하나를 결정하는 것이 필요하며, 이 작업은 선택한 개념의 정확성을 결정하는 핵심이 될 것입니다. 이 특정 작업과 관련된 데이터를 수집하는 데 집중해야 하며 개념 증명 중에 향후 더 많은 정보를 바탕으로 결정을 내릴 수 있는 다양한 도구, 프로세스 및 관리 기술을 사용할 수 있습니다.
  • 둘째, 데이터 분석 기술과 경험이 없는 기업은 빅데이터 프로젝트를 성공적으로 수행할 가능성이 낮다. 필요한 지식은 항상 이전 분석 경험에서 비롯되며, 이는 데이터 작업 품질에 영향을 미치는 주요 요소입니다. 데이터 분석은 종종 비즈니스에 대한 엄연한 진실을 드러내고, 그러한 진실을 받아들이고 활용하려면 데이터 관행이 필요하기 때문에 데이터 문화가 중요합니다.
  • 셋째, 빅데이터 기술의 가치는 통찰력을 제공하는데 있다.시장에는 좋은 분석가가 여전히 부족하다. 일반적으로 데이터의 상업적 의미를 깊이 이해하고 올바르게 사용할 줄 아는 전문가를 전문가라고 부릅니다. 데이터 분석은 비즈니스 목표를 달성하기 위한 수단이며, 빅데이터의 가치를 이해하려면 이에 따라 행동하고 행동을 이해해야 합니다. 이 경우 빅데이터는 소비자에 대한 많은 유용한 정보를 제공하고 이를 기반으로 비즈니스에 유용한 결정을 내릴 수 있습니다.

하지만 러시아 시장빅 데이터는 이제 막 구체화되기 시작했으며 이 분야의 개별 프로젝트는 이미 상당히 성공적으로 구현되고 있습니다. 그들 중 일부는 Federal Tax Service 및 Tinkoff Credit Systems Bank 프로젝트와 같은 데이터 수집 분야에서 성공했으며 다른 일부는 데이터 분석 및 결과의 실제 적용 측면에서 성공했습니다. 이것이 Synqera 프로젝트입니다.

Tinkoff Credit Systems Bank는 대규모 병렬 컴퓨팅을 위한 도구인 EMC2 Greenplum 플랫폼을 구현하는 프로젝트를 구현했습니다. 최근 은행에서는 신용카드 이용자 수의 높은 증가율로 인해 축적된 정보 처리 속도와 실시간 데이터 분석 속도에 대한 요구가 높아지고 있습니다. 은행은 특히 구조화되지 않은 데이터를 처리하고 다양한 소스에서 받은 기업 정보를 활용하기 위해 빅데이터 기술의 사용을 확대할 계획을 발표했습니다.

러시아 연방 세금 서비스에서 현재연방 데이터 웨어하우스의 분석 계층 생성이 진행 중입니다. 이를 기반으로 통계 및 분석 처리를 위해 세금 데이터에 액세스하기 위한 통합된 정보 공간과 기술이 생성됩니다. 프로젝트를 실행하는 동안 연방세청의 지역 수준에서 1,200개 이상의 소스로부터 수집된 분석 정보를 중앙 집중화하는 작업이 진행되고 있습니다.

실시간 빅데이터 분석의 또 다른 흥미로운 사례는 Simplate 플랫폼을 개발한 러시아 스타트업 Synqera입니다. 이 솔루션은 대용량 데이터 처리를 기반으로 하며, 프로그램은 고객 정보, 구매 내역, 연령, 성별, 기분까지 분석합니다. 고객의 감정을 인식하는 센서가 탑재된 터치스크린이 화장품 매장 체인 계산대에 설치되었습니다. 이 프로그램은 사람의 기분을 결정하고, 그에 대한 정보를 분석하고, 시간을 결정하고, 매장의 할인 데이터베이스를 검색한 후 구매자에게 프로모션 및 특별 제안에 대한 타겟 메시지를 보냅니다. 이 솔루션은 고객 충성도를 높이고 소매업체의 매출을 높입니다.

해외 성공사례를 이야기하면, 실시간 데이터를 활용해 상품을 판매하는 던킨도너츠 기업에서 빅데이터 기술을 활용한 경험도 그런 점에서 흥미롭다. 매장의 디지털 디스플레이에는 시간과 제품 가용성에 따라 매분 변경되는 제안이 표시됩니다. 현금영수증을 통해 회사는 어떤 제안이 고객으로부터 가장 큰 반응을 얻었는지에 대한 데이터를 받습니다. 이 접근법데이터 처리를 통해 창고 내 상품의 수익과 회전율을 높일 수 있었습니다.

빅데이터 프로젝트 구현 경험에서 알 수 있듯이 이 영역은 현대 비즈니스 문제를 성공적으로 해결하도록 설계되었습니다. 동시에, 빅 데이터 작업 시 상업적 목표를 달성하는 데 중요한 요소는 올바른 전략을 선택하는 것입니다. 여기에는 소비자 요구를 파악하는 분석과 빅 데이터 분야의 혁신적인 기술 사용이 포함됩니다.

Econsultancy와 Adobe가 2012년부터 기업 마케터들을 대상으로 매년 실시하는 글로벌 설문 조사에 따르면, 인터넷에서 사람들의 행동을 특징짓는 '빅 데이터'는 많은 일을 할 수 있습니다. 오프라인 비즈니스 프로세스를 최적화하고 소유자가 어떻게 비즈니스 프로세스를 수행하는지 이해하는 데 도움을 줄 수 있습니다. 모바일 장치이를 사용하여 정보를 검색하거나 단순히 "마케팅을 더 잘 수행"합니다. 더 효율적입니다. 또한, 우리가 제시한 다이어그램에서 볼 수 있듯이 후자의 기능은 해가 갈수록 점점 더 대중화되고 있습니다.

고객 관계 측면에서 인터넷 마케팅 담당자의 주요 업무 영역


원천: Econsultancy 및 Adobe 출판– emarketer.com

응답자의 국적을 참고하세요. 매우 중요한이 없습니다. 2013년 KPMG가 실시한 조사에 따르면 "낙관주의자"의 비율이 나타났습니다. 비즈니스 전략을 개발할 때 빅 데이터를 사용하는 사람은 56%이며, 지역별 차이는 북미 국가의 63%에서 EMEA의 50%로 적습니다.

세계 여러 지역에서 빅데이터 활용


원천: KPMG, 출판– emarketer.com

한편, 이러한 "패션 트렌드"에 대한 마케팅 담당자의 태도는 잘 알려진 농담을 연상시킵니다.

말해봐, 바노, 토마토 좋아하니?
- 먹는 걸 좋아하지만 이런 건 안 좋아해요.

마케터들이 말로는 빅데이터를 '사랑'하고 심지어 활용하는 것처럼 보이지만 실제로는 소셜 네트워크에 진심 어린 애정을 글로 적으면서 '모든 것이 복잡하다'.

2014년 1월 Circle Research가 유럽 마케팅 담당자를 대상으로 실시한 설문 조사에 따르면 응답자 5명 중 4명은 빅 데이터를 사용하지 않는 것으로 나타났습니다(물론 빅 데이터를 “좋아”하지만). 이유는 다양합니다. 열성적인 회의론자는 거의 없습니다. 17%이며 대척점과 정확히 같은 숫자입니다. 자신있게 “네”라고 대답하는 사람들. 나머지는 망설이고 의심하는 '늪'이다. “아직은 아니지만 곧”, “다른 사람들이 시작할 때까지 기다리겠다” 등 그럴듯한 구실로 직접적인 대답을 피한다.

마케팅 담당자의 빅데이터 활용, 유럽, 2014년 1월


원천:dnx, 출판 –emarketer.com

무엇이 그들을 혼란스럽게 합니까? 순수한 말도 안되는 소리. 일부(정확히 절반)는 이 데이터를 믿지 않습니다. 다른 사람들(55%도 꽤 많음)은 "데이터"와 "사용자" 세트를 서로 연관시키는 것이 어렵다고 생각합니다. 어떤 사람들은 (정치적으로 정확하게 말하면) 기업 내부의 혼란을 겪고 있습니다. 즉, 데이터가 마케팅 부서와 IT 구조 사이를 무인으로 돌아다니고 있습니다. 다른 사람들에게는 소프트웨어가 늘어나는 작업에 대처할 수 없습니다. 등등. 전체 지분이 100%를 크게 넘기 때문에 '다중 장벽' 상황이 드물지 않다는 것은 분명합니다.

마케팅에 빅데이터를 사용하는 데 대한 장벽


원천:dnx, 출판 –emarketer.com

따라서 우리는 "빅 데이터"가 여전히 활용해야 할 큰 잠재력임을 인정해야 합니다. 그런데 앞서 언급한 기업 이컨설턴시(Econsultancy)가 실시한 설문조사 자료에서 알 수 있듯이 빅데이터가 '유행 트렌드'의 후광을 잃어가고 있는 이유일 수도 있다.

2013-2014년 디지털 마케팅의 가장 중요한 트렌드


원천: Econsultancy 및 Adobe

그들은 또 다른 왕, 즉 콘텐츠 마케팅으로 대체되고 있습니다. 얼마나 오래?

빅데이터가 근본적으로 새로운 현상이라고 말할 수는 없습니다. 고객 구매, 신용 기록, 라이프스타일에 대한 데이터베이스 등 대규모 데이터 소스가 수년 동안 존재해 왔습니다. 그리고 수년 동안 과학자들은 이 데이터를 사용하여 기업이 위험을 평가하고 향후 고객 요구를 예측하는 데 도움을 주었습니다. 그러나 오늘날 상황은 두 가지 측면에서 바뀌었습니다.

다양한 데이터 세트를 분석하고 결합하기 위해 더욱 정교한 도구와 기술이 등장했습니다.

이러한 분석 도구는 사실상 모든 데이터 수집 및 측정 방법의 디지털화로 인해 발생하는 수많은 새로운 데이터 소스로 보완됩니다.

이용 가능한 정보의 범위는 구조화된 연구 환경에서 성장한 연구자들에게 영감을 주면서도 두려운 일입니다. 소비자 심리는 웹사이트와 모든 종류의 소셜 미디어를 통해 포착됩니다. 광고를 시청한 사실이 기록될 뿐만 아니라 셋톱박스, 디지털 태그 및 모바일 장치를 통해 TV와 통신할 수도 있습니다.

이제 행동 데이터(예: 통화량, 쇼핑 습관, 구매)를 실시간으로 확인할 수 있습니다. 따라서 이전에 연구를 통해 얻을 수 있었던 많은 내용을 이제는 빅데이터 소스를 사용하여 학습할 수 있습니다. 그리고 이러한 모든 정보 자산은 연구 프로세스에 관계없이 지속적으로 생성됩니다. 이러한 변화로 인해 빅데이터가 전통적인 시장 조사를 대체할 수 있을지 의문이 듭니다.

데이터에 관한 것이 아니라 질문과 답변에 관한 것입니다.

고전적 연구의 종말을 알리기 전에 중요한 것은 특정 데이터 자산의 존재가 아니라 다른 것의 존재라는 점을 상기해야 합니다. 정확히 무엇? 질문에 대답하는 우리의 능력, 그게 바로 그것입니다. 빅 데이터의 새로운 세계에 대한 한 가지 재미있는 점은 새로운 데이터 자산에서 얻은 결과가 더 많은 질문으로 이어진다는 것입니다. 이러한 질문에 대한 답은 대개 전통적인 연구를 통해 가장 잘 대답됩니다. 따라서 빅 데이터가 성장함에 따라 빅 데이터 세계의 질문에 대한 답변을 제공할 수 있는 "스몰 데이터"에 대한 가용성과 필요성이 동시에 증가하는 것을 볼 수 있습니다.

상황을 생각해 보십시오. 대규모 광고주가 매장 방문과 판매량을 실시간으로 지속적으로 모니터링합니다. 기존 연구 방법론(패널리스트의 구매 동기 및 POS 행동에 대해 조사)은 특정 구매자 부문을 더 효과적으로 타겟팅하는 데 도움이 됩니다. 이러한 기술은 빅데이터가 수동적 관찰의 수단이 되고 연구가 연구가 필요한 변화나 사건에 대해 지속적이고 협소하게 집중적으로 조사하는 방법이 될 정도로 광범위한 빅데이터 자산을 포함하도록 확장될 수 있습니다. 이것이 바로 빅데이터가 연구를 불필요한 일상으로부터 해방시킬 수 있는 방법입니다. 1차 연구는 더 이상 무슨 일이 일어나고 있는지에 집중할 필요가 없습니다(빅데이터가 이를 수행할 것입니다). 대신, 1차 연구는 우리가 특정 추세를 관찰하는 이유나 추세에서 벗어나는 이유를 설명하는 데 초점을 맞출 수 있습니다. 연구자는 데이터 획득에 대한 생각을 줄이고 데이터를 분석하고 사용하는 방법에 대해 더 많이 생각할 수 있습니다.

동시에 우리는 빅데이터가 우리의 가장 큰 문제 중 하나인 지나치게 긴 연구 문제를 해결할 수 있다는 것을 알고 있습니다. 연구 자체를 조사한 결과, 지나치게 부풀려진 연구 도구는 데이터 품질에 부정적인 영향을 미치는 것으로 나타났습니다. 많은 전문가들이 오래전부터 이 문제를 인정해 왔지만 변함없이 “하지만 이 정보는 고위 경영진에게 필요하다”는 말로 답했고, 긴 인터뷰가 이어졌다.

수동적인 관찰을 통해 정량적 지표를 얻을 수 있는 빅데이터의 세계에서는 이 문제가 논란의 여지가 있습니다. 다시 한 번 소비에 관한 모든 연구에 대해 생각해 봅시다. 빅데이터가 수동적 관찰을 통해 소비에 대한 통찰력을 제공한다면 1차 조사 연구에서는 더 이상 이러한 정보를 수집할 필요가 없으며 마침내 희망사항 이상의 것으로 짧은 조사에 대한 비전을 뒷받침할 수 있습니다.

빅데이터는 당신의 도움이 필요합니다

마지막으로 '빅'은 빅데이터의 한 가지 특성일 뿐입니다. "대형"이라는 특성은 데이터의 크기와 규모를 나타냅니다. 물론 이것이 주요 특징입니다. 왜냐하면 이 데이터의 양이 이전에 우리가 작업했던 어떤 것보다도 많기 때문입니다. 그러나 이러한 새로운 데이터 스트림의 다른 특성도 중요합니다. 즉, 형식이 잘못되고 구조화되지 않은(또는 기껏해야 부분적으로 구조화된) 경우가 많으며 불확실성이 가득합니다. 엔터티 분석이라는 이름으로 적절하게 명명된 데이터 관리의 새로운 분야는 빅 데이터의 노이즈를 제거하는 문제를 해결합니다. 그 임무는 이러한 데이터 세트를 분석하고 얼마나 많은 관찰이 동일한 사람을 참조하는지, 어떤 관찰이 현재인지, 어떤 관찰이 사용 가능한지 파악하는 것입니다.

이러한 유형의 데이터 정리는 크고 작은 데이터 자산을 작업할 때 노이즈나 잘못된 데이터를 제거하는 데 필요하지만 충분하지 않습니다. 또한 이전 경험, 분석 및 카테고리 지식을 기반으로 빅 데이터 자산에 대한 컨텍스트를 만들어야 합니다. 실제로 많은 분석가들은 빅데이터에 내재된 불확실성을 관리하는 능력을 원천으로 꼽는다. 경쟁 우위, 보다 효과적인 결정을 내릴 수 있기 때문입니다.

1차 연구가 빅데이터로 자유로워질 뿐만 아니라 빅데이터 내 콘텐츠 생성 및 분석에도 기여하는 곳이 바로 여기입니다.

이에 대한 대표적인 예는 근본적으로 다른 새로운 브랜드 자산 프레임워크를 소셜 미디어에 적용한 것입니다. (우리는 에서 개발된 것에 대해 이야기하고 있습니다.밀워드 갈색브랜드 자산을 측정하는 새로운 접근 방식그만큼 의미 있게 다른 뼈대– “의미 있는 차이 패러다임” –아르 자형 & ). 이 모델은 특정 시장 내에서 행동 테스트를 거쳐 표준 기반으로 구현되며 다른 마케팅 분야 및 의사결정 지원 정보 시스템에 쉽게 적용될 수 있습니다. 즉, 설문조사 연구에 전적으로 기반한 것은 아니지만 정보를 얻은 당사의 브랜드 자산 모델은 빅데이터의 구조화되지 않고, 분리되고, 불확실한 특성을 극복하는 데 필요한 모든 기능을 갖추고 있습니다.

소셜 미디어에서 제공되는 소비자 감정 데이터를 고려해보세요. 원시 형태로 볼 때, 소비자 심리의 최고점과 최저점은 브랜드 자산 및 행동에 대한 오프라인 측정치와 거의 상관관계가 없는 경우가 많습니다. 즉, 데이터에 노이즈가 너무 많습니다. 그러나 우리는 소비자 의미, 브랜드 차별화, 역동성, 독특성 모델을 원시 소비자 감정 데이터에 적용함으로써(이러한 차원에 따라 소셜 미디어 데이터를 처리하고 집계하는 방법) 이러한 노이즈를 줄일 수 있습니다.

프레임워크에 따라 데이터가 구성되면 식별된 추세는 일반적으로 오프라인 브랜드 자산 및 행동 측정과 일치합니다. 본질적으로 소셜 미디어 데이터는 그 자체로 말할 수 없습니다. 이러한 목적으로 이를 사용하려면 브랜드를 중심으로 구축된 경험과 모델이 필요합니다. 소셜 미디어가 소비자가 브랜드를 설명하는 데 사용하는 언어로 표현된 고유한 정보를 제공하는 경우, 1차 조사를 훨씬 더 효과적으로 만들기 위해 조사를 작성할 때 해당 언어를 사용해야 합니다.

면제 연구의 이점

이는 빅데이터가 연구를 대체하는 것이 아니라 연구를 자유롭게 한다는 점을 다시 한번 깨닫게 해줍니다. 연구자들은 각각의 새로운 사례에 대해 새로운 연구를 생성할 필요가 없습니다. 끊임없이 증가하는 빅 데이터 자산은 다양한 연구 주제에 사용될 수 있으므로 후속 1차 연구에서 해당 주제를 더 깊이 탐구하고 기존 격차를 메울 수 있습니다. 연구자들은 지나치게 부풀려진 설문조사에 의존하지 않아도 됩니다. 대신 짧은 설문조사를 사용하고 가장 중요한 매개변수에 집중하여 데이터 품질을 향상시킬 수 있습니다.

이번 해방을 통해 연구자들은 확립된 원칙과 아이디어를 활용해 빅데이터 자산에 정확성과 의미를 더해 설문조사 연구의 새로운 영역을 개척할 수 있게 될 것입니다. 이 주기는 다양한 전략적 문제에 대한 더 깊은 이해로 이어져야 하며, 궁극적으로는 항상 우리의 주요 목표가 되어야 하는 브랜드 및 커뮤니케이션 결정의 품질을 알리고 개선하는 방향으로 나아가야 합니다.

Yulia Sergeevna Volkova, 정부 산하 금융 대학교 4학년 학생 러시아 연방, 칼루가 지점, 칼루가 [이메일 보호됨]

현대 사회의 빅 데이터

개요 이 기사는 현대 사회에서 빅 데이터 기술의 구현에 대해 다루고 있습니다. 빅데이터의 주요 특징을 살펴보고, 은행, 소매, 민간 및 공공 부문, 심지어 일상생활까지 주요 적용 영역을 고려합니다. 이번 연구에서는 빅데이터 기술 활용의 단점이 드러났다. 빅데이터 사용에 대한 규제 규제 개발의 필요성이 설명되었습니다.주요 단어: 빅데이터, 은행, 은행 부문, 소매, 민간 부문, 공공 부문.

현대 사회의 다양한 영역에 정보 기술 도구가 통합되는 정도가 높아짐에 따라 막대한 양의 데이터가 필요한 새로운 문제를 해결하기 위한 적응성에 대한 요구 사항도 높아지고 있습니다. 구조화된 데이터, 미디어 데이터, 무작위 개체 등 기존 방식으로는 처리할 수 없는 정보의 양이 많습니다. 그리고 오늘날 존재하는 기술이 어느 정도 첫 번째 분석에 대처한다면 두 번째와 세 번째 분석은 사실상 압도적인 작업으로 남아 있습니다. 연구에 따르면 영상 감시, 항공 사진, 디지털 건강 정보, 수많은 아카이브와 클라우드에 저장된 무작위 객체 등 미디어 데이터의 양이 해마다 증가하고 있는 것으로 나타났습니다. 빅 데이터. 외국과 러시아 과학자들의 연구는 빅 데이터 연구에 전념하고 있습니다: James Manyika, Michael Chui, Toporkov V.V., Budzko V.I. McKinsey& Company, СNews Analytics, SAP, Oracle, IBM, Microsoft, Teradata 등의 대규모 글로벌 기업이 이 기술 연구에 상당한 기여를 하고 있습니다. 그들은 데이터 처리 및 분석에 참여하고 빅 데이터를 기반으로 소프트웨어 및 하드웨어 시스템을 만듭니다. McKinsey Institute의 보고서에 따르면 "빅 데이터는 크기가 감당할 수 없는 데이터 집합입니다. 일반적인 데이터베이스데이터 캡처, 저장, 관리 및 분석을 위한 데이터 소프트웨어 도구입니다." 본질적으로 빅 데이터의 개념은 운영 효율성을 높이고 새로운 제품을 창출하며 경쟁력을 높이기 위해 지속적으로 업데이트되고 다양한 소스에 위치하는 방대한 양과 다양한 구성의 정보로 작업하는 것을 포함합니다. 컨설팅 회사인 Forrester는 "빅 데이터는 실용성의 극한 한계에서 데이터에서 의미를 추출하는 기술과 기술을 결합합니다."라고 간단하고 매우 명확한 공식을 제시합니다. 오늘날 빅 데이터 분야의 특징은 다음과 같습니다. 축적된 데이터베이스는 많은 양의 정보를 나타냅니다. 속도(Velocity) - 속도, 이 속성은 데이터 축적 속도의 증가를 나타냅니다(지난 2년 동안 정보의 90%가 수집되었습니다). 다양성(Variety), 즉 다양성 다양한 형식의 구조화된 정보와 구조화되지 않은 정보를 동시에 처리하는 능력. 마케팅 전문가들은 여기에 "V"를 추가하는 것을 좋아합니다. 누군가는 진실성을 이야기하기도 하고, 누군가는 빅데이터 기술이 반드시 비즈니스(가치)에 도움이 되어야 한다고 덧붙이기도 합니다. 2020년까지 지구상의 정보 축적량은 2년마다 두 배로 늘어날 것으로 예상됩니다. 데이터가 풍부하기 때문에 이를 분석과 예측에 사용하고 싶어집니다. 엄청난 양에는 적절한 기술이 필요합니다. 오늘날 기업은 상상하기 어려운 엄청난 양의 데이터를 처리해야 하며, 이로 인해 기존 데이터베이스로는 이러한 작업을 처리할 수 없으며 이는 빅데이터 기술 구현의 필요성으로 이어집니다. 빅데이터와 기존 데이터베이스의 비교 특성을 나타낸 표입니다. 이 표는 V. I. Budzko와 모스크바 거래소의 연구를 바탕으로 작성되었습니다. 비교 특성빅데이터와 전통데이터

기존 데이터베이스빅데이터응용 분야

하나 이상의 적용 주제 영역 빅 데이터 기술의 범위는 광범위합니다. 고객 선호도 파악부터 위험 분석까지 데이터 특성 구조화된 데이터만 복잡하고 이질적이거나 불확실한 구조를 가진 막대한 양의 정보 데이터 저장 방법 중앙 집중식 분산형 데이터 저장 및 처리 모델 수직형 모델 수평형 모델 처리 정보량 기가바이트(109바이트)부터 ) ~ 테라바이트(1012바이트) 페타바이트(1015바이트) ~ 엑사바이트(1018바이트) 따라서 기존 데이터베이스의 범위는 하나 또는 여러 개만 포함하며 이러한 영역에는 구조화된 데이터만 포함되어야 합니다. 빅데이터는 방대한 양의 정보와 복잡한 구조로 그 활용 범위가 넓으며, <그림 1>에 제시된 CNews Analytics 연구 결과에 따르면 러시아 시장에서는 빅데이터 현상이 다가오고 있는 것으로 나타났다. 기업의 성숙도가 높아지는 것을 보여줍니다. 많은 기업이 처리되는 데이터의 양 때문에 빅데이터 기술로 전환하고 있으며, 이미 44% 이상이 약 100TB를 생성하고, 13%는 500TB를 초과하는 데이터 볼륨을 보유하고 있습니다.

그림 1. 기업에서 처리되는 정보의 양

이러한 볼륨은 기존 데이터베이스로 처리할 수 없기 때문에 이러한 기업은 빅데이터로 전환하는 솔루션을 단지 막대한 볼륨을 처리하는 것뿐만 아니라 경쟁력을 높이고 제품에 대한 고객 충성도를 높이고 새로운 제품을 유치하는 것으로 보고 있습니다. 이러한 솔루션의 가장 활발한 고객은 은행, 통신, 소매업이며 그 비율은 그림 2에 나와 있습니다. 운송, 에너지, 산업 부문에서 빅데이터를 사용하거나 사용할 준비가 된 기업의 수는 눈에 띄지 않습니다. 빅데이터 활용의 첫 사례는 공공부문에서도 나타났다.

그림 2. 빅데이터 활용 산업구조

서구 정부의 경우 다양한 추정에 따르면 디지털 경제가 G20 국가 GDP의 3~21%에 해당합니다. 러시아 공공 부문은 아직 빅 데이터 작업에서 중요한 결과를 얻지 못했습니다. 오늘날 러시아에서는 소매 체인, 은행, 통신 회사 등 주로 상업 기업이 이러한 기술에 관심을 갖고 있으며, 러시아 전자 통신 협회에 따르면 러시아 연방의 디지털 경제 규모는 1조 달러에 불과합니다. 장애. -GDP의 약 1.5%. 그러나 러시아 연방은 디지털 경제 성장 잠재력이 크며, 빅데이터 분야의 존재감이 짧음에도 불구하고 이미 이러한 기술의 효과적인 활용에 대한 평가가 이루어지고 있습니다. 실제 사례. 오늘날 은행은 평균 약 3.8페토바이트의 데이터를 처리하며 빅 데이터 기술을 사용하여 다음과 같은 특정 작업을 수행합니다:  신용 카드 사용에 대한 데이터 수집,  담보에 대한 데이터 수집,  대출에 대한 데이터 수집, 44% 16% 13% 7% 20%은행통신소매공공부문기타고객 프로필 데이터 수집, 고객 절감 데이터 수집. 은행은 빅 데이터 기술을 사용하기 시작한 이후로 신규 고객을 유치하고 신규 고객과 기존 고객 모두와 더 잘 상호 작용할 수 있었다고 주장합니다. 그리고 충성심을 유지하세요. 2015년 씨뉴스애널리틱스는 러시아 30대 은행을 대상으로 총자산 기준 설문조사를 실시해 이들이 어떤 빅데이터 기술을 어떤 목적으로 사용하고 있는지 알아보았다. 2014년 조사와 비교하면 빅데이터 기술을 활용하고 있다고 보고한 상위 30개 은행의 수가 늘어났지만, 이러한 변화는 상위 30개 은행의 구성 변화에 따른 가능성이 더 높다. 그림 3은 A. Kiryanova의 조사를 바탕으로 2015년 조사와 2014년 조사를 비교한 것입니다.

쌀. 3. 러시아 상위 30개 은행의 빅데이터 활용

IBS 회사 추산에 따르면 긍정적으로 응답한 은행 중 80%가 데이터 저장 및 처리를 위한 소프트웨어 및 하드웨어 시스템인 Big Data Appliance를 구현하고 있습니다. 이러한 솔루션은 일반적으로 분석 또는 트랜잭션 스토리지 역할을 하며 대용량 데이터 작업 시 높은 성능을 발휘한다는 것이 주요 장점이지만 러시아 은행에서 빅데이터를 사용하는 관행은 아직 초기 단계입니다. 러시아에서 이러한 적응이 느린 이유는 고객 IT 전문가가 신기술에 대해 경계하는 태도에서 드러납니다. 빅데이터 기술이 문제를 완전히 해결하는 데 도움이 될 것이라고 확신하지는 않지만, 미국 시장의 경우 은행들은 이미 1엑사바이트의 데이터를 축적했는데, 이는 2,750억 개의 mp3 레코드와 비교할 수 있습니다. 정보가 나오는 소스의 수는 방대하며 그 중 전통적인 소스는  은행 고객 사무실 방문,  전화 통화 녹음,  소셜 네트워크에서의 고객 행동,  신용 카드 거래에 대한 정보  기타 등으로 구분할 수 있습니다. 오프라인 리테일은 빅데이터를 활용해 고객 행동을 분석하고, 매장 주변의 동선을 설계하며, 상품을 올바르게 배치하고, 구매를 계획하여 궁극적으로 매출을 증대시킵니다. 온라인 소매에서 판매 메커니즘 자체는 빅 데이터를 기반으로 구축됩니다. 사용자에게는 이전 구매 및 개인 선호도를 기반으로 제품이 제공되며, 이에 대한 정보는 예를 들어 소셜 네트워크에서 수집됩니다. 두 경우 모두 빅 데이터 분석은 비용을 절감하고 고객 충성도를 높이며 더 많은 청중에게 다가가는 데 도움이 됩니다. 기업이 거래 잠재력을 개발함에 따라 기존 데이터베이스는 더 이상 증가하는 비즈니스 요구 사항을 충족하지 못하므로 시스템이 필요한 세부 정보를 제공할 수 없습니다. 관리회계 . 빅 데이터로 전환함으로써 새로운 기술을 통해 제품 유통 관리를 최적화하고, 데이터의 관련성과 처리 속도를 달성하여 관리 결정의 결과를 평가하고, 관리 보고를 신속하게 생성할 수 있습니다. 누적된 데이터의 총량은 100엑사바이트가 넘는데, 월마트 단독으로는 빅데이터를 활용해 시간당 2.5페타바이트의 데이터를 처리한다. 또한, 빅데이터 기술 활용으로 영업이익률이 60% 증가하고, 하둡 통계에 따르면 빅데이터 구현 후 120개 알고리즘 처리로 분석 생산성이 향상되고, 이익도 710% 증가하는 것으로 나타났다. 러시아 소매점을 고려하면 정보 처리 격차가 매우 다르기 때문에 빅 데이터가 이제 막 추진력을 얻기 시작했습니다. 예를 들어 온라인 소매는 중국보다 18배 적고, 온라인 소매에서 생산되는 전체 데이터 회전율은 아마존 매장 1개보다 4.5배 적습니다. 동시에, 러시아에서는 빅데이터를 사용하는 온라인 상점 수가 4만 개 미만인 반면, 유럽에서는 이러한 상점 수가 55만 개가 넘습니다. 러시아 소매 시장의 특징은 아직 발전 중이고 아직 완전히 형성되지 않은 것입니다. 우리의 일상생활에는 우리가 생각지도 못한 빅데이터 기술이 활용되고 있으며, 전 세계적으로 음악 서비스인 샤잠(shazam)을 통해 매일 약 1.5~2페타바이트에 달하는 1,500만 곡의 노래가 처리되어 이를 기반으로 하고 있다. 그러면 음악 프로듀서들은 아티스트의 인기를 예측한다. 마스터카드, 비자 등 신용카드 정보 처리에도 빅데이터가 활용된다. 따라서 3,200만 가맹점에서 19억 장의 카드를 사용하여 연간 650억 건의 거래를 마스터카드로 처리하여 거래 동향을 예측합니다. 매일 전 세계 사람들은 트위터, 페이스북 등 소셜 네트워크에 19테라바이트의 데이터를 게시합니다. 사진을 다운로드 및 처리하고, 글을 쓰고, 메시지를 보내는 등의 작업을 수행합니다. 인프라는 무궤도 전차부터 비행기, 로켓까지 빅데이터 기술도 사용합니다. 따라서 런던 지하철에서는 개찰구가 매일 약 2천만 건의 통과를 기록하고 있으며, 빅데이터 기술을 기반으로 수행된 분석 결과 10개의 가능한 진원지가 식별되었으며 이는 향후 개발에도 고려됩니다. 지하철. 의심할 여지 없이, 모든 종류의 상호 작용에서 발생하는 데이터의 다양성과 양은 비즈니스가 예측을 구축 및 개선하고, 패턴을 식별하고, 성과를 평가하는 등의 강력한 기반입니다. 그러나 모든 것에는 단점이 있으므로 신중하게 고려해야 합니다.빅 데이터 사용의 명백하고 잠재적인 이점에도 불구하고 빅 데이터 사용에는 주로 많은 양의 정보, 다양한 접근 방법과 관련된 단점도 있습니다. 자원 지원 기능이 부족한 경우가 많음 정보 보안조직에서. 빅데이터 기술 사용과 관련된 문제는 그림 4에 나와 있습니다.

쌀. 4. 빅데이터 활용의 문제점

이러한 모든 문제로 인해 많은 기업들이 빅데이터 기술 도입을 경계하게 되는데, 그 이유는 제3자와 협력할 때 기업이 자체 자원만으로는 공개할 수 없는 내부 정보를 스스로 공개해야 하는 문제가 있기 때문입니다. 가장 중요한 단계 빅데이터 기반 기술이 본격적으로 구현되기 위해서는 입법적인 측면이 반드시 있어야 한다. 특정 유형의 개인정보에 대한 수집, 이용, 저장을 제한하는 법률이 이미 존재하지만, 빅데이터를 완전히 제한하는 것은 아니므로 이에 대한 특별법이 필요합니다. 급변하는 새로운 법률을 준수하기 위해 기업은 관련 규정에 대한 초기 조사를 수행하고 이 목록을 정기적으로 업데이트해야 합니다. 그러나 위의 모든 단점에도 불구하고 서구 대표자의 경험에서 알 수 있듯이 빅데이터 기술은 도움이 됩니다. 현대 비즈니스 과제와 경쟁력 강화, 그리고 사람들의 삶과 직접 관련된 과제를 성공적으로 해결합니다. 러시아 기업들은 정보의 양이 매년 거의 두 배로 늘어나면서 이미 생산 영역과 공공 영역 모두에서 빅 데이터 기술을 구현하는 길에 들어서 있습니다. 시간이 지나면서 우리 삶의 많은 부분이 빅데이터로 인해 변화될 것입니다.

소스 링크 1. BudzkoV. I. 고가용성 시스템 및 빅 데이터 // 국가 경제의 빅 데이터 2013. P. 1619.2. Korotkova T. "EMC Data Lake 2.0 - 빅 데이터 분석 및 디지털 경제로의 전환 수단" http://bigdata. cnews.ru/news/line/20151203_emc_data_lake_20_pomozhet_perejti_k_analitike.3. Kiryanova A. “빅 데이터는 러시아 은행에서 주류가 되지 않았습니다.” http://www.cnews.ru/news/top/bolshie_dannye_ne_stali_mejnstrimom.4.CNews “인포그래픽: 빅 데이터 러시아에 왔습니다." http://bigdata.cnews.ru/articles/infografika_bolshie_dannye_prishli_v_rossiyu.5.CNews "인포그래픽: 소매업체가 빅 데이터를 사용하는 방법" http://bigdata.cnews.ru/articles/infografika_kak_roznitsa_ispolzuet 특별한 입법은 없습니다. Big에 관한 세계의 규정 데이터원본 데이터 소스를 보호하기 위해 마스킹해야 합니다. 기업은 모든 데이터 보안 요구 사항을 모니터링하고 지원해야 합니다. 빅 데이터 솔루션의 구현으로 인해 이전에 기밀 정보가 생성되거나 발견될 수 있습니다. 데이터 관리 데이터 보안 요구 사항 유지 법적 규정 위험 식별 6.CNews « 인포그래픽: 빅데이터 기술" http://bigdata.cnews.ru/articles/big_data_v_zhizni_cheloveka.7.CNews"인포그래픽: 은행에서 빅데이터가 할 수 있는 것" http://bigdata.cnews.ru/articles/infografika_chto_mogut_bolshie_dannye.8. 모스크바 거래소 "빅데이터 시장 분석 검토" http://habrahabr.ru/company/moex/blog/256747/9. 빅데이터. http://www.tadviser.ru/index.php/Article:Big_Data_(Big_Data).10.BigData – 21세기 전기 http://bit.samag.ru/archive/article/1463.11.McKinsey 글로벌 연구소 “ 빅데이터: 혁신, 경쟁 및 생산성을 위한 차세대 개척지"(2011년 6월).

오늘날 "빅 데이터"라는 용어는 인식될 수 있지만 실제로 그것이 무엇을 의미하는지에 대해서는 여전히 상당한 혼란이 있습니다. 실제로 이 개념은 지속적으로 진화하고 수정되고 있으며, 이는 계속되는 많은 물결의 원동력으로 남아 있습니다. 디지털 변혁, 인공 지능, 데이터 과학 및 사물 인터넷을 포함합니다. 그렇다면 빅데이터 기술은 무엇이며 우리 세상을 어떻게 변화시키고 있을까요? 빅데이터 기술의 본질과 그것이 무엇을 의미하는지를 간단한 말로 이해해 보도록 하겠습니다.

빅데이터의 놀라운 성장

이 모든 것은 디지털 시대가 시작된 이후 우리가 생성한 데이터의 양이 폭발적으로 증가하면서 시작되었습니다. 이는 주로 우리 주변 세계의 데이터를 “훔칠” 수 있는 컴퓨터, 인터넷 및 기술의 발전에 기인합니다. 데이터 자체는 새로운 발명품이 아닙니다. 컴퓨터와 데이터베이스 시대 이전에도 우리는 종이 거래 기록, 고객 기록, 데이터를 구성하는 보관 파일을 사용했습니다. 컴퓨터, 특히 스프레드시트와 데이터베이스를 사용하면 대규모 데이터를 쉽게 저장하고 구성할 수 있습니다. 단 한 번의 클릭으로 갑자기 정보를 이용할 수 있게 되었습니다.

그러나 우리는 원래 테이블과 데이터베이스에서 많은 발전을 이루었습니다. 오늘날 우리는 처음부터 2000년까지 받은 만큼의 데이터를 이틀에 한 번씩 생성합니다. 그렇죠, 이틀에 한 번씩요. 그리고 우리가 생성하는 데이터의 양은 계속해서 기하급수적으로 증가하고 있습니다. 2020년까지 사용 가능한 디지털 정보의 양은 약 5제타바이트에서 20제타바이트로 증가할 것입니다.

요즘 우리가 취하는 거의 모든 행동에는 흔적이 남습니다. 우리는 온라인에 접속할 때마다, 검색 기능이 탑재된 스마트폰을 들고 다닐 때, 인터넷을 통해 친구들과 대화할 때마다 데이터를 생성합니다. 소셜 미디어또는 채팅 등 또한, 기계로 생성되는 데이터의 양도 빠르게 증가하고 있습니다. 스마트 홈 장치가 서로 통신하거나 홈 서버와 통신할 때 데이터가 생성되고 공유됩니다. 공장과 공장의 산업 장비에는 데이터를 축적하고 전송하는 센서가 점점 더 많이 탑재되고 있습니다.

"빅 데이터"라는 용어는 이 모든 데이터의 수집과 이를 비즈니스를 포함한 광범위한 영역에서 유리하게 사용할 수 있는 능력을 의미합니다.

빅데이터 기술은 어떻게 작동하나요?

빅 데이터는 다음과 같은 원칙에 따라 작동합니다. 특정 주제나 현상에 대해 더 많이 알수록 더 안정적으로 새로운 이해를 얻고 미래에 일어날 일을 예측할 수 있습니다. 더 많은 데이터 포인트를 비교할수록 이전에는 숨겨져 있던 관계가 나타나고 이러한 관계를 통해 우리는 배우고 더 나은 결정을 내릴 수 있습니다. 대부분의 경우 이는 수집할 수 있는 데이터를 기반으로 모델을 구축한 다음 매번 데이터 포인트의 값을 조정하고 결과에 어떤 영향을 미치는지 추적하는 시뮬레이션을 실행하는 프로세스를 통해 수행됩니다. 이 프로세스는 자동화되어 있습니다. 최신 분석 기술은 수백만 개의 시뮬레이션을 실행하여 현재 작업 중인 문제를 해결하는 데 도움이 되는 모델 또는 아이디어를 찾을 때까지 가능한 모든 변수를 조정합니다.

빌 게이츠가 CD 한 장의 종이 내용 위에 걸려 있습니다.

최근까지 데이터는 스프레드시트나 데이터베이스로 제한되었으며 모든 것이 매우 체계적이고 깔끔했습니다. 행과 열로 쉽게 정리할 수 없는 것은 작업하기에 너무 복잡하다고 간주되어 무시되었습니다. 그러나 저장 및 분석의 발전으로 인해 대량의 데이터를 캡처, 저장 및 처리할 수 있게 되었습니다. 다양한 방식. 결과적으로 오늘날 "데이터"는 데이터베이스부터 사진, 비디오, 녹음, 서면 텍스트 및 센서 데이터에 이르기까지 모든 것을 의미할 수 있습니다.

이 모든 지저분한 데이터를 이해하기 위해 빅 데이터 기반 프로젝트에서는 인공 지능과 컴퓨터 학습을 사용한 최첨단 분석을 사용하는 경우가 많습니다. 예를 들어, 패턴 인식이나 자연어 처리를 통해 특정 데이터가 무엇인지 결정하도록 컴퓨팅 기계를 교육함으로써 우리는 컴퓨터가 우리 자신보다 훨씬 빠르고 안정적으로 패턴을 식별하도록 가르칠 수 있습니다.

빅데이터는 어떻게 활용되나요?

센서 데이터, 텍스트, 음성, 사진 및 비디오 데이터의 흐름이 계속 증가한다는 것은 불과 몇 년 전만 해도 상상할 수 없었던 방식으로 데이터를 사용할 수 있음을 의미합니다. 이는 거의 모든 산업 분야의 비즈니스 세계에 혁명적인 변화를 가져오고 있습니다. 오늘날 기업은 어떤 특정 범주의 고객이 구매를 원하는지, 언제 구매를 원하는지 놀라울 정도로 정확하게 예측할 수 있습니다. 빅데이터는 기업이 활동을 훨씬 더 효율적으로 수행하는 데에도 도움이 됩니다.

비즈니스 외부에서도 빅 데이터와 관련된 프로젝트는 이미 다양한 방식으로 세상을 변화시키는 데 도움을 주고 있습니다.

  • 의료 개선 – 데이터 기반 의학은 방대한 양의 의료 정보와 이미지를 분석하여 초기 단계에서 질병을 감지하고 신약을 개발하는 데 도움이 되는 모델을 만드는 능력을 갖추고 있습니다.
  • 자연재해와 인재를 예측하고 대응합니다. 센서 데이터를 분석하여 지진이 발생할 가능성이 있는 위치를 예측할 수 있으며 인간의 행동 패턴은 조직이 생존자에게 지원을 제공하는 데 도움이 되는 단서를 제공합니다. 빅데이터 기술은 전 세계 전쟁 지역에서 난민의 흐름을 추적하고 보호하는 데에도 사용됩니다.
  • 범죄 예방. 경찰은 자원을 보다 효과적으로 사용하고 필요한 경우 억제 조치를 취하기 위해 자체 정보 정보와 공개적으로 사용 가능한 정보를 통합하는 데이터 기반 전략을 점점 더 많이 사용하고 있습니다.

빅데이터 기술에 관한 최고의 도서

  • 모두가 거짓말을 합니다. 검색 엔진, 빅 데이터, 인터넷은 당신에 대한 모든 것을 알고 있습니다.
  • 빅 데이터. 모든 기술이 한 권의 책에 담겨 있습니다.
  • 행복산업. 빅데이터와 신기술이 상품과 서비스에 감성을 더하는 데 어떻게 도움이 되는지 알아보세요.
  • 분석의 혁명. 운영 분석을 사용하여 빅 데이터 시대에 비즈니스를 개선하는 방법

빅데이터의 문제점

빅 데이터는 우리에게 전례 없는 아이디어와 기회를 제공하지만 해결해야 할 문제와 질문도 제기합니다.

  • 데이터 개인 정보 보호 – 오늘날 우리가 생성하는 빅 데이터에는 개인 생활에 대한 많은 정보가 포함되어 있으며, 이에 대한 개인 정보 보호는 우리에게 모든 권리가 있습니다. 우리는 공개하는 개인 데이터의 양과 빅 데이터 기반 앱 및 서비스가 제공하는 편리함의 균형을 맞춰야 한다는 요청을 점점 더 많이 받고 있습니다.
  • 데이터 보안 - 특정 목적을 위해 누군가가 우리 데이터를 보유하는 것에 만족한다고 결정하더라도 그 사람이 우리 데이터를 안전하게 보관할 것이라고 신뢰할 수 있습니까?
  • 데이터 차별 - 일단 모든 정보가 알려지면 개인 생활의 데이터를 기반으로 사람들을 차별하는 것이 용납될 수 있습니까? 우리는 이미 누가 돈을 빌릴 수 있는지 결정하기 위해 신용 점수를 사용하고 있으며, 보험 역시 데이터 중심입니다. 우리는 더 자세히 분석하고 평가할 것을 기대해야 하지만, 이로 인해 자원이 적고 정보에 대한 접근이 제한된 사람들의 삶이 더 어려워지지 않도록 주의를 기울여야 합니다.

이러한 작업을 수행하는 것은 빅 데이터의 중요한 구성 요소이며 해당 데이터를 사용하려는 조직에서 해결해야 합니다. 이를 수행하지 못하면 기업은 평판뿐 아니라 법적, 재정적 측면에서도 취약해질 수 있습니다.

미래를 바라보며

데이터는 전례 없는 속도로 우리의 세계와 삶을 변화시키고 있습니다. 오늘날 빅데이터가 이 모든 것을 할 수 있다면 내일은 무엇을 할 수 있을지 상상해 보세요. 우리가 이용할 수 있는 데이터의 양은 더욱 늘어날 것이고, 분석 기술은 더욱 발전할 것입니다.

기업의 경우 빅데이터를 적용하는 능력은 앞으로 점점 더 중요해질 것입니다. 데이터를 전략적 자산으로 보는 기업만이 살아남고 성장할 수 있습니다. 이 혁명을 무시하는 사람들은 뒤쳐질 위험이 있습니다.



빅 데이터- 영어 "빅 데이터". 이 용어는 DBMS의 대안으로 등장했으며 IBM, Microsoft, HP, Oracle 등 대부분의 업계 거대 기업이 이 개념을 전략에 사용하기 시작했을 때 IT 인프라의 주요 트렌드 중 하나가 되었습니다. 빅데이터는 기존 방식으로는 처리할 수 없는 거대한(수백 테라바이트) 데이터 배열을 의미합니다. 때때로 – 이 데이터를 처리하기 위한 도구 및 방법.

빅 데이터 소스의 예: RFID 이벤트, 소셜 네트워크 메시지, 기상 통계, 모바일 셀룰러 네트워크 가입자 위치 정보, 오디오/비디오 녹화 장치의 데이터. 따라서 '빅데이터'는 제조, 의료, 정부 행정, 인터넷 비즈니스, 특히 대상 고객을 분석할 때 널리 사용됩니다.

특성

빅 데이터의 징후는 "3개의 V"로 정의됩니다. 볼륨 – 볼륨(정말 큰); 다양성 – 이질성, 집합; 속도 – 속도(매우 빠른 처리가 필요함).

빅데이터는 대부분 구조화되지 않은 경우가 많으므로 이를 처리하려면 특별한 알고리즘이 필요합니다. 빅데이터 분석 방법은 다음과 같습니다.

  • (“데이터 마이닝”) – 표준 방법으로는 얻을 수 없는 숨겨진 유용한 지식을 발견하기 위한 일련의 접근 방식입니다.
  • 크라우드소싱(군중 - "군중", 소싱 - 소스로 사용) - 필수 고용 계약이나 관계에 있지 않은 자원봉사자들의 공동 노력을 통해 중요한 문제를 해결하고 IT 도구를 사용하여 활동을 조정합니다.
  • 데이터 융합 및 통합(“데이터 혼합 및 구현”) – 심층 분석의 일부로 여러 소스를 연결하기 위한 일련의 방법입니다.
  • 기계 학습("기계 학습")은 통계 분석을 사용하고 기본 모델을 기반으로 예측하는 방법을 연구하는 인공 지능 연구의 하위 섹션입니다.
  • 이미지 인식(예: 카메라 또는 비디오 카메라의 뷰파인더에서 얼굴 인식)
  • 공간 분석 - 데이터 구성을 위해 위상, 기하학, 지리를 사용합니다.
  • 데이터 시각화 – 다음을 사용하여 일러스트레이션 및 다이어그램 형태로 분석 정보 출력 대화형 도구결과를 추적하고 추가 모니터링을 위한 기반을 구축하는 애니메이션입니다.

정보는 다수의 고성능 서버에 저장되고 분석됩니다. 핵심 기술은 오픈소스인 하둡(Hadoop)이다.

정보의 양은 시간이 지남에 따라 증가하기 때문에 어려운 점은 데이터를 얻는 것이 아니라 이를 처리하여 최대한의 이익을 얻을 수 있는 방법입니다. 일반적으로 빅 데이터 작업 프로세스에는 정보 수집, 구조화, 통찰력 및 컨텍스트 생성, 조치 권장 사항 개발이 포함됩니다. 첫 번째 단계 이전에도 작업 목적을 명확하게 정의하는 것이 중요합니다. 예를 들어 제품의 대상 고객을 결정하는 데 정확히 필요한 데이터가 무엇인지입니다. 그렇지 않으면 그것이 정확히 어떻게 사용될 수 있는지 이해하지 못한 채 많은 정보를 얻을 위험이 있습니다.