Cieľ vedenie školenia "Analýza údajov a modelovanie vzťahov v balíku R" - preskúmať základné schopnosti R programy - slobodný jazyk programovanie pre štatistické výpočty, ako aj naučiť sa organizovať a riadiť zadávanie údajov, vykonávať primárne Štatistická analýza dáta, prezentovať ich graficky, vedieť nájsť vzťahy v dátach. Školenie je určené pre študentov bez skúseností s R alebo so základnými znalosťami balíka.

Je žiaduce, aby poslucháči mali programátorské zručnosti a boli oboznámení so základmi štatistickej analýzy.

Po ukončení štúdia budete môcť používať program R na:

  • Správne vytvorte vzorku údajov na analýzu
  • Organizujte zadávanie údajov a spravujte údaje
  • Vykonajte popisnú štatistickú analýzu
  • Preskúmajte vzťahy v krížových tabuľkách
  • Otestujte štatistické hypotézy o rovnosti priemerov
  • Použite grafické funkcie
  • Vykonajte korelačnú analýzu
  • Vykonajte regresnú analýzu
  • Vykonajte analýzu rozptylu

Trvanie školenia: 32 a.h. alebo 4 dni.

Tréningový program:

Téma 1. Základné pojmy štatistickej analýzy dát - 2 ak.ch.

  • Štatistická štúdia
  • Spôsoby, ako získať údaje
  • Rozdiel medzi pozorovaním a experimentom
  • Všeobecná populácia a vzorka
  • Požiadavky na údaje pre odber vzoriek
  • Koncept bodového a intervalového štatistického odhadu
  • Vlastnosti a premenné
  • Variabilné stupnice
  • Analýza smerov štatistických údajov
  • Deskriptívna a analytická štatistika
  • Výber metód štatistickej analýzy v závislosti od škál merania premenných
  • Štatistická hypotéza
  • Typy štatistických chýb
  • Princípy testovania štatistických hypotéz
  • Výber úrovne významnosti pre testovanie hypotéz

Téma 2. Úvod do práce v R prostredí - 2 ak.h.

Téma 3. Základy programovania v R - 2 ak.

  • Typy objektov v R
  • Vektor
  • zoznamy
  • matice
  • Faktory
  • dátové tabuľky
  • Výrazy
  • Operátori prístupu k údajom
  • Funkcie a argumenty
  • Cykly a podmienené príkazy
  • Správa databáz v R
  • Vektorizácia operácií
  • Ladenie
  • Objektovo orientované programovanie

Téma 4. Zadávanie a organizovanie údajov v R - 2 ac.h.

  • Spôsoby sťahovania údajov
  • Priame zadávanie údajov
  • Zadávanie údajov do tabuľky
  • Importujte dáta z MS Excel
  • Import údajov z iných štatistických balíkov a databáz
  • Ukladanie výsledkov analýzy
  • Určenie údajov o množstve
  • Špecifikovanie ordinálnych a nominálnych údajov
  • Zadanie chýbajúcich hodnôt v údajoch
  • Identifikácia odľahlých hodnôt a chýb
  • Princípy transformácie údajov

Téma 5. Grafické možnosti R - 2 ac.ch.

  • Grafické funkcie
  • Grafické zariadenia
  • Možnosti grafiky
  • interaktívna grafika
  • Zložené obrázky
  • Výstupné zariadenia

Téma 6. Deskriptívna štatistická analýza v R – 4 ac.

  • Centrálna štatistika trendov
  • Aritmetický priemer
  • modálna hodnota
  • Stredná hodnota
  • Štatistika rozptylu
  • Rozptyl a štandardná odchýlka
  • Variačný koeficient
  • Percentily
  • Histogramy
  • Boxplots
  • Z-transformácia
  • Zákon normálneho rozdelenia
  • Asymetria a špičatosť
  • Kontrola normality rozdelenia
  • Niektoré zákony distribúcie
  • Binomické rozdelenie
  • Poissonovo rozdelenie
  • Rovnomerné rozdelenie
  • Exponenciálna distribúcia
  • lognormálne rozdelenie
  • Štandardná chyba a interval pre priemer

Téma 7. Tvorba údajov pre analýzu selektívnou metódou - 2 ak.ch.

  • Všeobecná a vzorová populácia
  • Charakteristika vzorky
  • Vlastnosti vzorkovacej metódy výskumu
  • Klasifikácia vzorky
  • Typy a metódy pravdepodobnostného výberu
  • Metódy odberu vzoriek
  • Jednoduchý náhodný výber
  • Systematický náhodný výber
  • výber klastra
  • Jednostupňový výber klastra
  • Viacstupňový výber klastra
  • Algoritmus na vykonávanie výberových prieskumov
  • Stanovenie požadovanej veľkosti vzorky

Téma 8. Štatistické testy na zisťovanie rozdielov vo vzorkách v R - 4 ac.ch.

  • Hypotézy o porovnávaní prostriedkov
  • Z-test na porovnanie priemerov
  • Z-skóre na porovnanie akcií
  • Jednovzorkový t-test
  • T-test pre nezávislé vzorky
  • T-test pre závislé vzorky
  • Podmienky uplatňovania neparametrických kritérií
  • Jednovzorkový Wilcoxon Signed Rank Test
  • Mann-Whitney test
  • Znakový test pre súvisiace vzorky
  • Test Wilcoxonovho znaku pre súvisiace vzorky
  • Kruskal-Wallis Neparametrická ANOVA
  • Friedmanovo kritérium pre závislé vzorky

Téma 9. Hodnotenie vzťahu medzi premennými v R - 4 ak.ch.

  • Analýza vzťahu medzi kategorickými premennými
  • Kontingenčné tabuľky
  • Očakávané frekvencie a rezíduá v kontingenčných tabuľkách
  • Chí-kvadrát test
  • Kritériá dobroty
  • Klasifikácia typov vzťahu medzi kvantitatívnymi premennými
  • Rozptylové zápletky
  • Predpoklady a podmienky na vykonávanie korelačnej analýzy
  • Pearsonov korelačný koeficient
  • Koeficienty poradovej korelácie
  • Spearmanov korelačný koeficient
  • Kontrola významu vzťahu
  • Intervalové odhady korelačných koeficientov
  • Parciálne korelačné koeficienty

Téma 10. Modelovanie formy komunikácie pomocou regresnej analýzy v R- 4 ac.ch.

  • Základné pojmy regresnej analýzy
  • Model párovej a viacnásobnej lineárnej regresie
  • Pozadie lineárnej regresnej analýzy
  • Odhad regresných koeficientov
  • Kontrola platnosti regresného modelu
  • Význam regresnej rovnice
  • Význam regresných koeficientov
  • Výber premenných v regresnej analýze
  • Odhad presnosti regresnej rovnice
  • Odhad štatistickej stability regresnej rovnice
  • Bodový a intervalový odhad závislej premennej
  • Nelineárne regresné modely
  • Kategorické vysvetľujúce premenné v regresnom modeli

Téma 11 analýza rozptylu v R - 4 ac.h.

  • Modely ANOVA
  • Predpoklady pre použitie analýzy rozptylu
  • Testovanie hypotézy rovnosti rozptylov
  • Jednosmerný model ANOVA
  • Jednosmerný stôl ANOVA
  • Posúdenie miery vplyvu faktora
  • Post hoc testy pre párové porovnania
  • Analýza rozptylu s dvoma alebo viacerými faktormi
  • Obojsmerná tabuľka ANOVA s interakciou
  • Grafická interpretácia interakcie faktorov
  • Analýza viacrozmerného modelu

Analýza dát v prostredí R

Ústav výpočtovej matematiky a informačných technológií, Oddelenie analýzy dát a operačného výskumu


Smer
: 01.03.02 „Aplikovaná matematika a informatika. Systémové programovanie"(bakalársky titul, 3. ročník)

Disciplína: "Analýza údajov v prostredí R"

Akademický plán: "Denné vzdelávanie, 2017"

Počet hodín: 90 (z toho: prednášky - 18, laboratórne cvičenia - 36, samostatná práca - 36); forma kontroly - ofset.

Smer: 38.03.05 "Obchodná informatika" (bakalárske štúdium, 4. ročník)

Disciplína: "Analýza dát"

Akademický plán: "Denné vzdelávanie, 2018"

Počet hodín: 78 (z toho: prednášky - 18, laboratórne cvičenia - 36, samostatná práca - 24); forma kontroly - ofset.


Kľúčové slová
: Dolovanie údajov, strojové učenie, regresia, klasifikácia, zhlukovanie, podporný vektor, SVM, umelý neutrón, neurónová sieť, systém odporúčaní, analýza údajov, strojové učenie, model, vzorka, premenná odozvy, učenie vzorky, prekrytie vzorky, učenie pod dohľadom, učenie bez dozoru , balík R, programovací jazyk R, štatistika, náhodná premenná, r.v., distribučný zákon, normálne rozdelenie, vzorkovanie, štatistika, metóda maximálnej pravdepodobnosti, chí-kvadrát rozdelenie, Studentovo rozdelenie, Fisherovo rozdelenie, hypotéza, oblasť prijatia hypotéz , hladina významnosti, chyby prvého a druhého druhu, porovnanie vzoriek, dobrá zhoda, kontingenčná tabuľka, korelácia, regresia, lineárna regresia, nelineárna regresia, faktor, prediktor, jednosmerná regresia, viacnásobná regresia, klasifikácia, logistická regresia, jedno- spôsob diskriminačnej analýzy, Bayesovský prístup, naivný Bayes, podporný vektorový stroj, separačný r nadrovina, rozhodovacie stromy, neurónová sieť, neurón, aktivačná funkcia, systém odporúčaní, zhlukovanie, funkcionál kvality.

Témy: 1. Vývojové prostredie R: informácie z histórie. inštaláciu a spustenie balíka. 2. Programovanie v R. prvé kroky. 3. Tvorba grafov v prostredí R. 4. Zadávanie údajov a práca so súbormi v prostredí R. 4.1. Práca s jednorozmernými dátovými poľami. 4.2. Práca s maticami a dátovými tabuľkami. 5. Testovanie štatistických hypotéz v prostredí R. 5.1. Testovanie hypotézy o zákone rozdelenia pravdepodobnosti náhodnej premennej (Pearsonov Chí-kvadrát test). 5.2. Testovanie hypotézy o nezávislosti znakov s kvalitatívnym zoskupením (Pearsonov Chí-kvadrát test). 5.3. Testovanie hypotézy o rovnosti matematických očakávaní bežnej všeobecnej populácie (študentské kritérium). 5.4. Testovanie hypotézy o rovnosti rozptylov normálnych všeobecných populácií (Fisherovo kritérium). 6. Problém zostavenia modelu jednofaktorovej lineárnej regresie. Predpovedanie. 7. Problém viacnásobnej lineárnej regresie. 7.1. Problém jednofaktorovej lineárnej regresie ako špeciálny prípad viacnásobnej regresie. 7.2. Skúmanie závislosti premennej odpovede od faktora v regresnom modeli. 8. Úloha klasifikácie, prístupy k jej riešeniu. 8.1. logistická regresia. 8.2. Lineárna diskriminačná analýza. 8.3. Rozhodovacie stromy – princíp „rozdeľuj a panuj“ („rozdeľuj a panuj“). 9. Neurálne siete(neurónové siete) a ich aplikácia v strojovom učení. 10. Podporné vektory, podporné vektorové stroje ("support vector machines", SVM) v strojovom učení. 11. Systémy odporúčaní ("systém odporúčaní"), ich účel, konštrukcia, použitie. 12. Špeciálne úlohy strojového učenia.


Dátum začatia prevádzky: 1. septembra 2014
  • Missarov Mukadas Dmukhtasibovič Katedra analýzy dát a operačného výskumu KFU, doktor fyzikálnych a matematických vied, profesor, email: [e-mail chránený]
  • Kashina Olga Andreevna, kandidátka fyzikálnych a matematických vied, docentka Katedry analýzy údajov a operačného výskumu, email: [e-mail chránený]

Úvod

V prvom rade si pohovorme o terminológii. Hovoríme o oblasti, ktorá sa v západnej literatúre nazýva dolovanie údajov a do ruštiny sa často prekladá ako „analýza údajov“. Tento výraz nie je úplne úspešný, pretože slovo „analýza“ v matematike je celkom známe, má dobre zaužívaný význam a je zahrnuté v názve mnohých klasických sekcií: matematická analýza, funkčná analýza, konvexná analýza, neštandardná analýza, multivariačná komplexná analýza, diskrétna analýza, stochastická analýza, kvantová analýza atď. Vo všetkých týchto oblastiach vedy sa študuje matematický aparát, ktorý je založený na niektorých zásadných výsledkoch a umožňuje riešiť problémy z týchto oblastí. Pri analýze údajov je situácia oveľa komplikovanejšia. Ide predovšetkým o aplikovanú vedu, v ktorej neexistuje matematický aparát v tom zmysle, že neexistuje konečný súbor základných faktov, z ktorých by vyplývalo, ako riešiť problémy. Mnohé problémy sú „individuálne“ a v súčasnosti sa objavujú stále nové a nové triedy problémov, na ktoré je potrebné vyvinúť matematický aparát. Ešte väčšiu úlohu tu zohráva skutočnosť, že analýza údajov je relatívne novým smerom vo vede.

Ďalej je potrebné vysvetliť, čo je to „analýza údajov“. Nazval som to „oblasť“, ale oblasť čoho? Tu začína zábava, pretože toto nie je len oblasť vedy. Skutočný analytik rieši predovšetkým aplikované problémy a zameriava sa na prax. Okrem toho je potrebné analyzovať údaje z ekonómie, biológie, sociológie, psychológie atď. Riešenie

nové úlohy, ako som povedal, si vyžadujú vynájdenie nových techník (nie sú to vždy teórie, ale aj techniky, metódy atď.), takže niektorí hovoria, že aj analýza dát je umenie a remeslo.

AT oblasti použitia, najdôležitejšia vec je prax! Je nemožné si predstaviť chirurga, ktorý nevykonal ani jednu operáciu. V skutočnosti to vôbec nie je chirurg. Dátový analytik sa tiež nezaobíde bez riešenia skutočných aplikovaných problémov. Čím viac takýchto úloh vyriešite svojpomocne, tým kvalifikovanejšími špecialistami sa stanete.

Po prvé, analýza údajov je prax, prax a ďalšia prax. Je potrebné riešiť skutočné problémy, mnohé, z rôznych oblastí. Keďže napríklad klasifikácia signálov a textov sú dve úplne odlišné oblasti. Odborníci, ktorí dokážu ľahko vytvoriť diagnostický algoritmus motora založený na signáloch senzorov, nemusia byť schopní vytvoriť jednoduchý e-mailový spamový filter. Je však veľmi žiaduce získať základné zručnosti pri práci s rôznymi objektmi: signály, texty, obrázky, grafy, popisy funkcií atď. Navyše vám umožní vybrať si úlohy podľa vašich predstáv.

Po druhé, je dôležité vybrať si správne školiace kurzy a mentorov.

AT V podstate sa všetko môžete naučiť sami. Nejde nám predsa o oblasť, kde existuje niektoré tajomstvá prešli z úst do úst. Naopak, existuje veľa kompetentných školení, zdrojových kódov programov a údajov. Navyše je veľmi užitočné, keď ten istý problém rieši viacero ľudí paralelne. Faktom je, že pri riešení takýchto problémov sa človek musí zaoberať veľmi špecifickým programovaním. Povedzme váš algoritmus

dalo 89 % správnych odpovedí. Otázka: je to veľa alebo málo? Ak nestačí, o čo ide: naprogramovali ste algoritmus nesprávne, zvolili ste nesprávne parametre algoritmu alebo je samotný algoritmus zlý a nie je vhodný na riešenie tohto problému? Ak je práca duplikovaná, možno rýchlo nájsť chyby v programe a nesprávne parametre. A ak je duplikovaný odborníkom, rýchlo sa vyriešia aj otázky hodnotenia výsledku a prijateľnosti modelu.

Po tretie, je užitočné si uvedomiť, že vyriešenie problému analýzy údajov si vyžaduje veľa času.

Štatistiky

Analýza údajov v R

1. Premenné

AT R, rovnako ako všetky ostatné programovacie jazyky, má premenné. Čo je to premenná? V skutočnosti je to adresa, s ktorou môžeme nájsť niektoré údaje, ktoré ukladáme do pamäte.

Premenné sa skladajú z ľavej a pravej časti, oddelené operátorom priradenia. V R je operátor priradenia „<-”, если название переменной находится слева, а значение, которое сохраняется в памяти - справа, и она аналогична “=” в других языках программирования. В отличии от других языков программирования, хранимое значение может находиться слева от оператора присваивания, а имя переменной - справа. В таком случае, как можно догадаться, оператор присваивания примет конструкцию следующего вида: “->”.

AT v závislosti od uložených údajov môžu byť premenné rôzne druhy: celé číslo, skutočné, reťazec. Napríklad:

moja.var1<- 42 my.var2 <- 35.25

V tomto prípade bude premenná my.var1 typu celé číslo a premenná my.var2 bude typu real.

Rovnako ako v iných programovacích jazykoch môžete s premennými vykonávať rôzne aritmetické operácie.

moja.var1 + moja.var2 - 12

moja.var3<- my.var1^2 + my.var2^2

Okrem aritmetických operácií môžete vykonávať aj logické operácie, teda porovnávacie operácie.

my.var3 > 200 my.var3 > 3009 my.var1 == my.var2 my.var1 != my.var2 my.var3 >= 200 my.var3<= 200

Výsledkom logickej operácie bude pravdivé (TRUE) alebo nepravdivé (FALSE) vyhlásenie. Môžete tiež vykonávať logické operácie nielen medzi premennou s nejakou hodnotou, ale aj s inou premennou.

my.new.var<- my.var1 == my.var2

Random Forest je jeden z mojich obľúbených algoritmov na dolovanie údajov. Po prvé, je neuveriteľne všestranný, dá sa použiť na riešenie regresných aj klasifikačných problémov. Vyhľadajte anomálie a vyberte prediktory. Po druhé, toto je algoritmus, ktorý je naozaj ťažké nesprávne aplikovať. Jednoducho preto, že na rozdiel od iných algoritmov má málo prispôsobiteľných parametrov. A predsa je vo svojej podstate prekvapivo jednoduchý. Zároveň je pozoruhodne presný.

Aká je myšlienka takého úžasného algoritmu? Myšlienka je jednoduchá: povedzme, že máme nejaký veľmi slabý algoritmus, povedzme . Ak vytvoríme veľa rôznych modelov pomocou tohto slabého algoritmu a spriemerujeme výsledok ich predpovedí, potom bude konečný výsledok oveľa lepší. Ide o takzvané súborové učenie v akcii. Algoritmus náhodného lesa sa preto nazýva „náhodný les“, pre prijaté údaje vytvára mnoho rozhodovacích stromov a potom spriemeruje výsledok ich predpovedí. Dôležitým bodom je tu prvok náhodnosti pri vytváraní každého stromu. Je predsa jasné, že ak vytvoríme veľa rovnakých stromov, tak výsledok ich spriemerovania bude mať presnosť jedného stromu.

ako pracuje? Predpokladajme, že máme nejaké vstupné údaje. Každý stĺpec zodpovedá nejakému parametru, každý riadok zodpovedá nejakému dátovému prvku.

Môžeme si náhodne vybrať z celého súboru údajov určitý počet stĺpcov a riadkov a zostaviť z nich rozhodovací strom.


štvrtok 10. mája 2012

štvrtok 12. januára 2012


To je vlastne všetko. 17-hodinový let sa skončil, Rusko zostalo v zámorí. A cez okno útulného 2-izbového bytu sa na nás pozerá San Francisco, slávne Silicon Valley, Kalifornia, USA. Áno, to je práve dôvod, prečo v poslednej dobe veľa nepíšem. Presťahovali sme sa.

Všetko to začalo v apríli 2011, keď som mal telefonický rozhovor so Zyngou. Potom mi to všetko pripadalo ako nejaká hra, ktorá nemá nič spoločné s realitou a ani som si nevedel predstaviť, k čomu to povedie. V júni 2011 prišla Zynga do Moskvy a urobila sériu pohovorov, zvažovalo sa asi 60 kandidátov, ktorí prešli telefonickým pohovorom a z nich sa vybralo asi 15 ľudí (neviem presný počet, niekto si to neskôr rozmyslel, niekto okamžite odmietol). Rozhovor sa ukázal byť prekvapivo jednoduchý. Žiadne programovacie úlohy pre vás, žiadne zložité otázky o tvare poklopov, testovala sa hlavne schopnosť chatovať. A vedomosti sa podľa mňa hodnotili len povrchne.

A potom začala hádka. Najprv sme čakali na výsledky, potom ponuku, potom schválenie LCA, potom schválenie žiadosti o vízum, potom dokumenty z USA, potom linku na veľvyslanectve, potom dodatočnú kontrolu, potom víza. Miestami sa mi zdalo, že som pripravený všetko zahodiť a skórovať. Občas som pochyboval, či túto Ameriku potrebujeme, pretože ani Rusko nie je zlé. Celý proces trval asi pol roka, nakoniec sme v polovici decembra dostali víza a začali sa pripravovať na odlet.

Pondelok bol môj prvý deň v novej práci. Kancelária má všetky podmienky nielen pracovať, ale aj bývať. Raňajky, obedy a večere od vlastných kuchárov, kopa pestrého jedla napchatého vo všetkých kútoch, posilňovňa, masáže a dokonca aj kaderníctvo. To všetko je pre zamestnancov úplne zadarmo. Mnohí sa dostávajú do práce na bicykli a niekoľko miestností je vybavených na uskladnenie vozidiel. Vo všeobecnosti som v Rusku nikdy nič také nevidel. Všetko má však svoju cenu, hneď nás upozornili, že budeme musieť veľa pracovať. Čo je podľa ich štandardov „veľa“, mi nie je veľmi jasné.

Dúfam však, že aj napriek množstvu práce sa mi v dohľadnej dobe podarí obnoviť blogovanie a možno porozprávam niečo o americkom živote a práci programátora v Amerike. Počkaj a uvidíš. Zatiaľ vám všetkým prajem veselé Vianoce a šťastný nový rok a do skorého videnia!


Pre príklad použitia si vytlačíme dividendový výnos ruských spoločností. Ako základnú cenu berieme záverečnú cenu akcie v deň uzavretia registra. Z nejakého dôvodu tieto informácie nie sú dostupné na webovej stránke Trojky a sú oveľa zaujímavejšie ako absolútne hodnoty dividend.
Pozor! Spustenie kódu trvá dlho, pretože pre každú akciu musíte odoslať požiadavku na servery finam a získať jej hodnotu.

výsledok<- NULL for(i in (1:length(divs[,1]))){ d <- divs if (d$Divs>0)( skúste(( úvodzovky<- getSymbols(d$Symbol, src="Finam", from="2010-01-01", auto.assign=FALSE) if (!is.nan(quotes)){ price <- Cl(quotes) if (length(price)>0) (dd<- d$Divs result <- rbind(result, data.frame(d$Symbol, d$Name, d$RegistryDate, as.numeric(dd)/as.numeric(price), stringsAsFactors=FALSE)) } } }, silent=TRUE) } } colnames(result) <- c("Symbol", "Name", "RegistryDate", "Divs") result


Podobne môžete vytvárať štatistiky za minulé roky.