표적훈련 실시 "R 패키지의 데이터 분석 및 관계 모델링" -탐구하다 기본 기능 R 프로그램 - 자유 언어통계 계산을 위한 프로그래밍, 데이터 입력을 구성 및 관리하는 방법, 기본 수행 통계 분석데이터를 그래픽으로 표시하고 데이터에서 관계를 찾을 수 있습니다. 이 교육은 R에 대한 경험이 없거나 패키지에 대한 기본 지식이 있는 학생을 위해 설계되었습니다.

청취자는 프로그래밍 기술을 보유하고 통계 분석의 기초에 익숙해지는 것이 바람직합니다.

졸업 후 R 프로그램을 사용하여 다음을 수행할 수 있습니다.

  • 분석을 위한 데이터 샘플을 올바르게 구성
  • 데이터 입력 구성 및 데이터 관리
  • 기술 통계 분석 수행
  • 크로스 테이블의 관계 탐색
  • 평균의 동등성에 대한 통계적 가설 검정
  • 그래픽 기능 사용
  • 상관관계 분석 수행
  • 회귀 분석 수행
  • 분산 분석 수행

교육 기간: 32 ac.h. 또는 4일.

교육 프로그램:

주제 1. 통계 데이터 분석의 기본 개념 - 2 ac.ch.

  • 통계 연구
  • 데이터를 가져오는 방법
  • 관찰과 실험의 차이
  • 일반 인구 및 표본
  • 샘플링을 위한 데이터 요구 사항
  • 포인트 및 구간 통계 추정의 개념
  • 기능 및 변수
  • 가변 척도
  • 통계 데이터의 방향 분석
  • 기술 및 분석 통계
  • 변수 측정 척도에 따른 통계 분석 방법 선택
  • 통계적 가설
  • 통계 오류의 유형
  • 통계적 가설 검증의 원칙
  • 가설 검정을 위한 유의 수준 선택

주제 2. R 환경에서의 작업 소개 - 2 ac.h.

주제 3. R - 2 ac 프로그래밍의 기초.

  • R의 객체 유형
  • 벡터
  • 기울기
  • 행렬
  • 요인
  • 데이터 테이블
  • 표현식
  • 데이터 액세스 연산자
  • 함수와 인수
  • 주기 및 조건문
  • R의 데이터베이스 관리
  • 연산 벡터화
  • 디버깅
  • 객체 지향 프로그래밍

주제 4. R - 2 ac.h에 데이터 입력 및 구성

  • 데이터 다운로드 방법
  • 직접 데이터 입력
  • 테이블에 데이터 입력
  • MS Excel에서 데이터 가져오기
  • 다른 통계 패키지 및 데이터베이스에서 데이터 가져오기
  • 분석 결과 저장
  • 수량 데이터 지정
  • 순서 및 명목 데이터 지정
  • 데이터에서 누락된 값 지정
  • 이상치 및 오류 식별
  • 데이터 변환의 원리

주제 5. R - 2 ac.ch의 그래픽 기능.

  • 그래픽 기능
  • 그래픽 장치
  • 그래픽 옵션
  • 인터랙티브 그래픽
  • 합성 이미지
  • 출력 기기들

주제 6. R – 4 ac의 기술 통계 분석.

  • 중앙 동향 통계
  • 산술 평균
  • 모달 의미
  • 중앙값
  • 분산 통계
  • 분산 및 표준 편차
  • 변동 계수
  • 백분위수
  • 히스토그램
  • 상자 그림
  • Z 변환
  • 정규 분포 법칙
  • 비대칭 및 첨도
  • 정규성에 대한 분포 확인
  • 일부 분배 법칙
  • 이항 분포
  • 포아송 분포
  • 균등 분포
  • 지수 분포
  • 로그 정규 분포
  • 평균에 대한 표준 오차 및 구간

주제 7. 선택적 방법에 의한 분석을 위한 데이터 형성 - 2 ac.ch.

  • 일반 및 표본 모집단
  • 샘플 특성
  • 연구의 샘플링 방법의 특징
  • 샘플 분류
  • 확률적 선택의 종류와 방법
  • 샘플링 방법
  • 단순 무작위 선택
  • 체계적인 무작위 선택
  • 클러스터 선택
  • 단일 단계 클러스터 선택
  • 다단계 클러스터 선택
  • 샘플 설문조사를 수행하기 위한 알고리즘
  • 필요한 샘플 크기의 결정

주제 8. R - 4 ac.ch에서 샘플의 차이를 감지하기 위한 통계 테스트.

  • 평균 비교에 대한 가설
  • 평균 비교를 위한 Z-검정
  • 주식 비교를 위한 Z-점수
  • 일표본 t-검정
  • 독립 표본에 대한 T-검정
  • 종속 표본에 대한 T-검정
  • 비모수 기준 적용 조건
  • 단일 표본 Wilcoxon 부호 있는 순위 검정
  • 만-휘트니 검정
  • 관련 샘플에 대한 서명 테스트
  • 관련 표본에 대한 Wilcoxon 부호 검정
  • Kruskal-Wallis 비모수 ANOVA
  • 종속 표본에 대한 프리드만 기준

주제 9. R - 4 ac.ch의 변수 간의 관계 평가.

  • 범주형 변수 간의 관계 분석
  • 분할표
  • 분할표의 예상 빈도 및 잔차
  • 카이제곱 검정
  • 선의 기준
  • 양적 변수 간의 관계 유형 분류
  • 산점도
  • 전제 조건 및 조건 상관 분석
  • 피어슨 상관 계수
  • 순위 상관 계수
  • Spearman의 상관 계수
  • 관계의 중요성 확인하기
  • 상관 계수의 구간 추정
  • 편상관계수

주제 10. R-4 ac.ch의 회귀 분석을 사용하여 의사 소통 형식 모델링.

  • 회귀 분석의 기본 개념
  • 쌍 및 다중 선형 회귀 모델
  • 선형회귀분석의 배경
  • 회귀계수 추정
  • 회귀 모델의 유효성 확인
  • 회귀 방정식의 의미
  • 회귀 계수의 중요성
  • 회귀 분석에서 변수 선택
  • 회귀 방정식의 정확도 추정
  • 회귀방정식의 통계적 안정성 추정
  • 종속변수의 점 및 구간 추정
  • 비선형 회귀 모델
  • 회귀 모델의 범주형 설명 변수

주제 11. R-4 ac.ch의 분산 분석을 사용한 관계 모델링.

  • 분산 분석 모델
  • 분산 분석 사용을 위한 전제 조건
  • 분산 등식 가설 테스트
  • 일원 분산 분석 모델
  • 일원 분산 분석 표
  • 요인의 영향 정도 평가
  • 쌍 비교를 위한 사후 테스트
  • 두 개 이상의 요인이 있는 분산 분석
  • 상호 작용이 있는 이원 분산 분석 표
  • 요인의 상호 작용에 대한 그래픽 해석
  • 다변량 모델 분석

R 환경에서의 데이터 분석

전산수학정보기술연구소 데이터분석운영연구부


방향
: 01.03.02 "응용수학과 정보학. 시스템 프로그래밍"(학사, 3학년)

규율: "R 환경에서의 데이터 분석"

학업 계획: "전일제 교육, 2017"

시간 수: 90(강의 - 18, 실험실 수업 - 36, 독립 작업 - 36 포함); 제어 형태 - 오프셋.

방향: 38.03.05 "경영정보학" (학사 4년차)

규율: "데이터 분석"

학업 계획: "전일제 교육, 2018"

시간 수: 78(강의 - 18, 실험실 수업 - 36, 독립 작업 - 24 포함); 제어 형태 - 오프셋.


키워드
: 데이터 마이닝, 머신 러닝, 회귀, 분류, 클러스터화, 지원 벡터, SVM, 인공 중성자, 신경망, 추천 시스템, 데이터 분석, 머신 러닝, 모델, 샘플, 응답 변수, 샘플 학습, 샘플 과적합, 지도 학습, 비지도 학습 , R 패키지, R 프로그래밍 언어, 통계, 확률 변수, r.v., 분포 법칙, 정규 분포, 샘플링, 통계, 최대 가능도 방법, 카이제곱 분포, 스튜던트 분포, 피셔 분포, 가설, 가설 수용 영역, 유의 수준, 유형 I 및 유형 II 오류, 표본 비교, 적합도, 분할표, 상관 관계, 회귀, 선형 회귀, 비선형 회귀, 요인, 예측 변수, 단방향 회귀, 다중 회귀, 분류, 로지스틱 회귀, 단방향 판별 분석 , 베이지안 접근, 나이브 베이즈, 서포트 벡터 머신, 분리 r 초평면, 결정 트리, 신경망, 뉴런, 활성화 함수, 추천 시스템, 클러스터링, 품질 기능.

주제: 1. 개발 환경 R: 역사의 정보. 패키지 설치 및 실행. 2. R. 첫 번째 단계에서 프로그래밍. 3. R ​​환경에서 그래프 그리기 4. R 환경에서 데이터 입력 및 파일 작업 4.1. 1차원 데이터 배열 작업. 4.2. 행렬 및 데이터 테이블 작업. 5. R 환경에서 통계적 가설 테스트 5.1. 확률 변수의 확률 분포 법칙에 대한 가설 검정(Pearson의 카이제곱 검정). 5.2. 질적 그룹화를 사용하여 기능의 독립성에 대한 가설 테스트(Pearson의 카이-제곱 테스트). 5.3. 일반 일반 인구의 수학적 기대치의 평등에 대한 가설 테스트(학생 기준). 5.4. 일반 일반 모집단의 분산 동등성에 대한 가설 테스트(피셔 기준). 6. 일 요인 선형 회귀 모델을 구축하는 문제. 예측. 7. 다중 선형 회귀 문제. 7.1. 다중 회귀의 특수한 경우인 1요인 선형 회귀의 문제. 7.2. 회귀 모델의 요인에 대한 응답 변수의 종속성 조사. 8. 분류 작업, 솔루션 접근 방식. 8.1. 로지스틱 회귀. 8.2. 선형 판별 분석. 8.3. 의사 결정 트리 - "분할 및 정복"( "분할 및 정복")의 원칙. 9. 신경망(신경망) 및 기계 학습에서의 응용. 10. 기계 학습에서 지원 벡터, 지원 벡터 기계("지원 벡터 기계", SVM). 11. 추천 시스템("추천 시스템"), 그 목적, 구성, 적용. 12. 기계 학습의 특수 작업.


운영 개시일: 2014년 9월 1일
  • 미사로프 무카다스 드무흐타시보비치 데이터 분석 및 운영 연구학과 KFU, 물리 및 수리 과학 박사, 교수, 이메일: [이메일 보호됨]
  • Kashina Olga Andreevna, 물리 및 수리 과학 후보, 데이터 분석 및 운영 연구 부교수, 이메일: [이메일 보호됨]

소개

우선, 용어에 대해 논의합시다. 우리는 서양 문헌에서 데이터 마이닝이라고 하는 영역에 대해 이야기하고 있으며 종종 러시아어로 "데이터 분석"으로 번역됩니다. 이 용어는 수학에서 "분석"이라는 단어가 매우 친숙하고 확고한 의미를 가지며 수학적 분석, 기능 분석, 볼록 분석, 비표준 분석, 다변수 복합과 같은 많은 고전적 섹션의 이름에 포함되기 때문에 완전히 성공적이지는 않습니다. 분석, 이산분석, 확률분석, 양자분석 등 이 모든 과학 영역에서 몇 가지 근본적인 결과를 기반으로 하고 이러한 영역의 문제를 해결할 수 있는 수학적 장치가 연구됩니다. 데이터 분석에서는 상황이 훨씬 더 복잡합니다. 이것은 무엇보다도 문제를 해결하는 방법을 따르는 유한한 기본 사실 집합이 없다는 의미에서 수학적 장치가 없는 응용 과학입니다. 많은 문제가 "개별적"이며 이제 점점 더 많은 새로운 종류의 문제가 나타나므로 수학적 장치를 개발해야 합니다. 여기에서 데이터 분석이 과학에서 상대적으로 새로운 방향이라는 사실이 훨씬 더 큰 역할을 합니다.

다음으로 "데이터 분석"이 무엇인지 설명해야 합니다. 나는 그것을 "영역"이라고 불렀지 만 무엇의 영역입니까? 이것은 과학의 한 분야가 아니기 때문에 재미가 시작되는 곳입니다. 실제 분석가는 우선 응용 문제를 해결하고 실천을 목표로합니다. 또한 경제학, 생물학, 사회학, 심리학 등의 데이터 분석이 필요합니다. 해결책

내가 말했듯이 새로운 작업에는 새로운 기술의 발명이 필요합니다(이것은 항상 이론이 아니라 기술, 방법 등). 그래서 일부에서는 데이터 분석도 예술이자 기술이라고 말합니다.

응용 분야, 가장 중요한 것은 연습입니다! 수술을 한 번도 하지 않은 의사는 상상할 수 없습니다. 사실 이것은 외과 의사가 아닙니다. 또한 데이터 분석가는 실제 적용된 문제를 해결하지 않고는 할 수 없습니다. 그러한 작업을 스스로 해결할수록 더 많은 자격을 갖춘 전문가가 될 것입니다.

첫째, 데이터 분석은 연습, 연습 및 더 많은 연습입니다. 다양한 영역에서 많은 실제 문제를 해결하는 것이 필요합니다. 예를 들어 신호와 텍스트의 분류는 완전히 다른 두 영역이기 때문입니다. 센서 신호를 기반으로 엔진 진단 알고리즘을 쉽게 구축할 수 있는 전문가는 간단한 이메일 스팸 필터를 만들 수 없습니다. 그러나 신호, 텍스트, 이미지, 그래프, 기능 설명 등 다양한 개체로 작업할 때 기본 기술을 습득하는 것이 매우 바람직합니다. 또한 원하는 작업을 선택할 수 있습니다.

둘째, 올바른 교육 과정과 멘토를 선택하는 것이 중요합니다.

기본적으로 모든 것을 스스로 배울 수 있습니다. 결국 우리는 다음이 있는 지역을 다루지 않습니다.입에서 입으로 전해지는 몇 가지 비밀. 이에 반해 유능한 교육과정과 프로그램 소스코드, 데이터가 많다. 또한 여러 사람이 같은 문제를 병렬로 해결할 때 매우 유용합니다. 사실은 그러한 문제를 해결할 때 매우 구체적인 프로그래밍을 다루어야 한다는 것입니다. 당신의 알고리즘을 말해보자

89%가 정답을 맞췄습니다. 질문: 많습니까, 조금입니까? 충분하지 않다면 문제가 무엇입니까? 알고리즘을 잘못 프로그래밍했습니까? 알고리즘의 잘못된 매개변수를 선택했습니까? 아니면 알고리즘 자체가 잘못되어 이 문제를 해결하는 데 적합하지 않습니까? 작업이 중복되면 프로그램의 오류 및 잘못된 매개 변수를 빠르게 찾을 수 있습니다. 그리고 전문가가 복제하면 결과 평가 문제와 모델의 수용 가능성도 빠르게 해결됩니다.

셋째, 데이터 분석의 문제를 푸는데 많은 시간이 걸린다는 점을 기억하는 것이 유용하다.

통계

R의 데이터 분석

1. 변수

다른 모든 프로그래밍 언어와 마찬가지로 R에도 변수가 있습니다. 변수란 무엇입니까? 실제로 이것은 우리가 찾을 수있는 주소입니다.우리가 메모리에 저장하는 일부 데이터.

변수는 할당 연산자로 구분된 왼쪽과 오른쪽 부분으로 구성됩니다. R에서 할당 연산자는 "<-”, если название переменной находится слева, а значение, которое сохраняется в памяти - справа, и она аналогична “=” в других языках программирования. В отличии от других языков программирования, хранимое значение может находиться слева от оператора присваивания, а имя переменной - справа. В таком случае, как можно догадаться, оператор присваивания примет конструкцию следующего вида: “->”.

저장된 데이터에 따라 변수는 다양한 방식: 정수, 실수, 문자열. 예를 들어:

my.var1<- 42 my.var2 <- 35.25

이 경우 변수 my.var1은 정수형이 되고 my.var2는 실수형이 됩니다.

다른 프로그래밍 언어와 마찬가지로 변수를 사용하여 다양한 산술 연산을 수행할 수 있습니다.

my.var1 + my.var2 - 12

my.var3<- my.var1^2 + my.var2^2

산술 연산 외에도 논리 연산, 즉 비교 연산을 수행할 수 있습니다.

my.var3 > 200 my.var3 > 3009 my.var1 == my.var2 my.var1 != my.var2 my.var3 >= 200 my.var3<= 200

논리 연산의 결과는 참(TRUE) 또는 거짓(FALSE) 문입니다. 어떤 값을 가진 변수뿐만 아니라 다른 변수와도 논리적 연산을 수행할 수 있습니다.

my.new.var<- my.var1 == my.var2

Random Forest는 내가 가장 좋아하는 데이터 마이닝 알고리즘 중 하나입니다. 첫째, 매우 다재다능하며 회귀 및 분류 문제를 모두 해결하는 데 사용할 수 있습니다. 이상 징후를 검색하고 예측 변수를 선택합니다. 둘째, 이것은 잘못 적용하기 정말 어려운 알고리즘입니다. 다른 알고리즘과 달리 사용자 정의 가능한 매개 변수가 거의 없기 때문입니다. 그러나 본질적으로 놀라울 정도로 단순합니다. 동시에 그것은 놀라울 정도로 정확합니다.

그런 멋진 알고리즘의 아이디어는 무엇입니까? 아이디어는 간단합니다. 예를 들어 매우 약한 알고리즘이 있다고 가정해 보겠습니다. 이 약한 알고리즘을 사용하여 다양한 모델을 만들고 예측 결과를 평균화하면 최종 결과가 훨씬 더 좋아질 것입니다. 이것이 이른바 앙상블 학습 실행입니다. 따라서 랜덤 포레스트 알고리즘은 수신된 데이터에 대해 많은 의사 결정 트리를 생성한 다음 예측 결과의 평균을 내는 "랜덤 포레스트"라고 합니다. 여기서 중요한 점은 각 트리를 생성할 때 무작위성의 요소입니다. 결국, 동일한 트리를 여러 개 생성하면 평균 결과가 트리 하나의 정확도를 갖게 된다는 것이 분명합니다.

그는 어떻게 일합니까? 입력 데이터가 있다고 가정합니다. 각 열은 일부 매개변수에 해당하고 각 행은 일부 데이터 요소에 해당합니다.

전체 데이터 세트에서 무작위로 여러 열과 행을 선택하고 여기에서 의사 결정 트리를 작성할 수 있습니다.


2012년 5월 10일 목요일

2012년 1월 12일 목요일


그게 다야. 17시간의 비행이 끝나고 러시아는 해외에 머물렀다. 그리고 아늑한 침실 2개짜리 아파트의 창문을 통해 미국 캘리포니아의 유명한 실리콘 밸리, 샌프란시스코가 우리를 바라보고 있습니다. 네, 이것이 제가 최근에 글을 많이 쓰지 않는 바로 그 이유입니다. 우리는 움직였다.

모든 것은 2011년 4월에 제가 Zynga와 전화 인터뷰를 했을 때 시작되었습니다. 그랬더니 현실과 전혀 상관없는 일종의 게임처럼 느껴졌고, 어떤 결과를 가져올지 상상조차 할 수 없었습니다. 2011년 6월, Zynga는 모스크바에 도착하여 일련의 인터뷰를 진행했으며, 전화 인터뷰에 통과한 약 60명의 후보자를 고려하고 그 중에서 약 15명을 선발했습니다(정확한 수는 모르지만 누군가 나중에 마음이 바뀌었고, 누군가 즉시 거부). 인터뷰는 의외로 간단했다. 프로그래밍 작업, 해치 모양에 대한 복잡한 질문, 주로 채팅 기능이 테스트되지 않았습니다. 그리고 내 생각에 지식은 피상적으로만 평가되었습니다.

그리고 나서 리그마롤이 시작되었습니다. 먼저 결과를 기다렸다가 제안, 그 다음 LCA 승인, 그 다음 비자 청원 승인, 그 다음 미국에서 온 서류, 대사관에 줄 선, 추가 확인, 그 다음 비자. 때때로 모든 것을 내려놓고 득점할 준비가 된 것처럼 보였습니다. 러시아도 나쁘지 않기 때문에 우리에게 이 미국이 필요한지 의심스러울 때가 있습니다. 모든 과정이 반년 정도 걸렸고, 결국 12월 중순에 비자를 받고 출국 준비에 들어갔다.

월요일은 새로운 직장에서의 첫 날이었습니다. 사무실은 일할 뿐만 아니라 살기에도 모든 조건을 갖추고 있습니다. 자체 셰프가 제공하는 아침, 점심, 저녁 식사, 구석구석 가득 채워진 다양한 음식, 체육관, 마사지, 미용실까지. 이 모든 것은 직원에게 완전히 무료입니다. 많은 사람들이 자전거로 출근하고 여러 개의 방에 차량을 보관할 수 있습니다. 일반적으로 나는 러시아에서 이와 같은 것을 본 적이 없습니다. 그러나 모든 것에는 대가가 있습니다. 우리는 즉시 많은 일을 해야 한다고 경고했습니다. 그들의 기준에 따르면 "많음"이 무엇인지는 나에게 명확하지 않습니다.

그러나 작업량에도 불구하고 가까운 장래에 블로깅을 재개하고 미국 생활과 미국에서 프로그래머로 일하는 것에 대해 말할 수 있기를 바랍니다. 기다려 봐. 그동안 모두 즐거운 성탄절 보내시고 새해 복 많이 받으시고 곧 만나요!


사용 예를 들어 러시아 기업의 배당 수익률을 출력해 보겠습니다. 기준가는 장부가 마감된 당일 주식의 종가를 취합니다. 어째서인지 이 정보는 트로이카 홈페이지에서 볼 수 없고, 배당금의 절대값보다 훨씬 더 흥미롭다.
주목! 코드를 실행하는 데 시간이 오래 걸립니다. 각 주식에 대해 finam 서버에 요청하고 가치를 가져와야 합니다.

결과<- NULL for(i in (1:length(divs[,1]))){ d <- divs if (d$Divs>0)( 시도(( 인용부호)<- getSymbols(d$Symbol, src="Finam", from="2010-01-01", auto.assign=FALSE) if (!is.nan(quotes)){ price <- Cl(quotes) if (length(price)>0)(일<- d$Divs result <- rbind(result, data.frame(d$Symbol, d$Name, d$RegistryDate, as.numeric(dd)/as.numeric(price), stringsAsFactors=FALSE)) } } }, silent=TRUE) } } colnames(result) <- c("Symbol", "Name", "RegistryDate", "Divs") result


마찬가지로 지난 몇 년간 통계를 작성할 수 있습니다.