A "statisztika" fogalma a latin "status" szóból származik, amely fordításban azt jelenti - helyzet, állapot, jelenségek sorrendje.

A politikai aritmetika (Anglia) és az államtudomány fejlődése

(Németország) vezetett a statisztika tudományának kialakulásához.

A "statisztika" kifejezést a göttingeni egyetem matematikusai vezették be a tudományos forgalomba a 18. században (Gottfried Achenwal (1719-1772)).

Jelenleg mintegy 150 definíciója létezik a statisztikának, mint tudományágnak. A statisztika egyik legjobb meghatározását Abraham Wald osztrák matematikus adta: „A statisztika olyan módszerek összessége, amelyek lehetővé teszik számunkra, hogy bizonytalanság mellett is optimális döntéseket hozzunk.”

A gyakorlati orvoslás statisztikájának különféle definíciói közül a legalkalmasabbak a következők:

"Statisztika az adatok gyűjtésének, osztályozásának és számszerűsítésének tudománya annak érdekében, hogy érvényes következtetéseket, előrejelzéseket és döntéseket lehessen levonni."

Statisztika véletlenszerű tömegjelenségeket vizsgál. Tömegjelenségek- Ezek olyan jelenségek, amelyek nagy mennyiségben fordulnak elő, de egy adott tulajdonság nagyságrendjében különböznek egymástól. Minél több tárgyat vesznek kutatásra, annál megbízhatóbbak a statisztikai következtetések.

A statisztika elméleti (általános) és alkalmazott statisztikákból áll

(gazdasági, társadalmi, ágazati) statisztika.

Az ágazati statisztikák közé tartozik a meteorológiai (időjárás-előrejelzési statisztika), a közlekedési, a gazdasági, a biológiai, az orvosi.

Az elméleti statisztika a következőkre oszlik leíró(leíró) és elemző (induktív).

Leíró statisztika az általános adatok gyűjtésének statisztikái. A forrásadatok gyűjtésére, csoportosítására, osztályozására és a további feldolgozás céljára kényelmes formában történő bemutatására szolgáló módszerek összessége (táblázatok, grafikonok).

Elemző statisztika a leíró statisztikák által szolgáltatott eredmények matematikai feldolgozásán alapuló következtetések és előrejelzések statisztikája. Módszereket tartalmaz különféle statisztikai következtetések és következtetések levonására, azok gyakorlati alkalmazására tekintettel.

orvosi statisztikák- ez az ágazati statisztika, a tudományos, gyakorlati orvoslás és egészségügyben alkalmazott statisztikai módszerek összessége.

Az orvosi statisztika fő feladatai:

ü születési és halálozási statisztikák;

- előfordulási statisztikák;

ü Egészségügyi intézmények tevékenységének statisztikája.

A leíró és elemző statisztikák együttesen a következő problémát oldják meg:

ü adatok gyűjtése és statisztikai feldolgozásra alkalmas formában történő leírása;

ü eredmények feldolgozása elméleti (általános) statisztika módszereivel;

ü a kapott eredmények elemzése, előrejelzés, optimális megoldások kidolgozása.

2. A LEÍRÓ STATISZTIKA ALAPVETŐ FOGALMAI

ÉS JELLEMZŐK.

A leíró statisztika főbb fogalmai a következők:

ü statisztikai sokaság (általános és minta);

ü a lakosság mennyisége;

ü statisztikai lehetőség;

ü statisztikai jel;

ü statisztikai gyakoriság (abszolút gyakoriság);

ü frekvencia (relatív gyakoriság).

Népesség objektumok halmaza, amelyet egyes jellemzők egyesítenek a statisztikai tanulmányozáshoz.

Aggregátum típusok:

  1. Általános populáció (véges vagy végtelen).
  2. Mintakészlet (minta).

Népesség a vizsgálathoz kiválasztott statisztikai halmaz összes objektumának halmaza.

véges népesség- statisztikai halmaz, amelyben az adott tulajdonsággal rendelkező vizsgált objektumok száma korlátozott.

Példa: a hallgatók száma az akadémián, a város lakói, a mérések száma a kísérletekben.

Végtelen népesség egy statisztikai halmaz, amelyben az objektumok száma egyenlő a végtelennel. Az elméleti számításokban matematikai absztrakcióként használják.

Mintapopuláció (minta)- ez az általános populáció statikus vizsgálatra vett része.

Népesség a gyűjteményben lévő objektumok száma.

Az általános populáció mennyiségét a szimbólum jelzi N és szelektív - n .

Statisztikai variáns egy gyűjtemény, egyetlen megfigyelés vagy mérés tárgya.

Az opciókat latin x, y, z betűk jelölik, alsó indexekkel pedig a lehetőségek számát.

Példa: x 1 - első számú objektum vagy dimenzió,

x 2 - kettes számú objektum vagy dimenzió stb.

A szám nélküli változatot hívják általánosítottválasztási lehetőségés latin betűvel jelölik alsó indexű betűindexszel, például, x i .

A statisztikai sokaság variánsait (objektumait) különféle jellemzők jellemzik, beleértve azokat is, amelyek alapján egy sokasággá egyesülnek.

Az egyik objektumról a másikra megváltoztató tulajdonságot hívjuk meg változó jel, magát a jelenséget pedig az ún variáció.

Minőségi jellemzők- Ezek olyan jelek, amelyeknek nincs mennyiségi kifejezésük. Ezek mérhetetlen jelek.

Példa: szín, íz, szag.

Mennyiségi jellemzők- Ezek egy bizonyos számmal kifejezett, mérhető jelek.

Példa: súly, hossz, sűrűség, hőmérséklet.

Diszkrét mennyiségi jellemzők- Ezek mennyiségi előjelek, amelyek egész számokkal vannak kifejezve.

Példa: tanulók száma egy csoportban, utasok egy buszon, szirmok egy virágon.

Folyamatos mennyiségi jellemzők- ezek mennyiségi előjelek, amelyeket egész és tört számként is kifejeznek.

Példa: a görögdinnye súlya 7 kg, a dinnye súlya 1,7 kg.

intervallum funkció- ez egy mennyiségi előjel, amelynek számértéke bizonyos határokon belül van, amelyeket intervallumoknak nevezünk.

Példa: a tanulók testmagasságának mérésénél 160 - 169 cm, 170 - 179 cm, 180 - 190 cm intervallumcsoportok különböztethetők meg.

Előfordulási gyakoriság (abszolút gyakoriság)- egy szám, amely megmutatja, hogy az attribútum adott számértékével rendelkező objektum hányszor fordul elő a sokaságban vagy annak intervallumában.

Az abszolút frekvenciát a szimbólum jelöli n i (µ i).

Az összes abszolút gyakoriság összege egyenlő annak az N sokaságnak a térfogatával, amelyre a gyakoriságokat kiszámítjuk: ∑n i = N

Példa: A csoportban lévő férfiak és nők számának meg kell egyeznie az adott csoportba tartozó tanulók számának összegével.

Gyakoriság (relatív gyakoriság)- az abszolút gyakoriság és a népesség mennyiségének arányával egyenlő szám.

A frekvenciát a szimbólum jelöli f és a következő képlettel számítjuk ki:

egy egység töredékében: fi = ,

százalékban: fi = 100%

Itt n i - abszolút frekvencia, N - a sokaság térfogata, egyenlő az összes abszolút gyakoriság összegével.

Az összes relatív gyakoriság összege egyenlő 1: ∑ fi = 1

Példa: egy tizenöt fős diákcsoportban (a népesség mennyisége N=15) 12 diáklány (abszolút gyakoriság n 1 =12) és 3 tanuló (abszolút gyakoriság n 2 =3). Frekvencia f 1 egyenlő lesz 12/15-tel, és a frekvencia f 2 =3/15. Ebben az esetben a frekvenciák vagy a relatív gyakoriságok összege eggyel egyenlő.

A statisztikákban a relatív gyakoriságokat vagy gyakoriságokat súlyoknak nevezik.

3. A FORGALMAZÁS SOROZATAI, TÍPUSAI ÉS ÁBRÁZOLÁSI MÓDJA.

Elosztási tartomány- ez egy számsor, amely a tulajdonság minőségi vagy mennyiségi értékét és előfordulási gyakoriságát jelzi.

Az elosztási sorozatok típusait különböző elvek szerint osztályozzák.

A rendezés mértéke szerint a sorok fel vannak osztva:

ü rendezetlen

ü elrendelte

Rendeletlen sorozat- ez egy olyan sorozat, amelyben az attribútum értékeit abban a sorrendben rögzítik, ahogyan a változatok a vizsgálat során beérkeztek.

Példa: Egy tanulócsoport magasságának tanulmányozásakor annak értékeit cm-ben (175,170,168,173,179) rögzítették.

rendelt sor egy rendezetlen sorozatból nyert sorozat, amelyben a jellemzőértékek növekvő vagy csökkenő sorrendben felülírásra kerülnek. A rendezett sorozatot rangsorolt ​​sorozatnak és a rangsorolási eljárásnak nevezzük

(rendezés) rendezésnek nevezzük.

Példa: (Magasság 168,170,173,175,179)

A szolgáltatás típusa szerint az elosztási sorozatok a következőkre oszlanak:

ü attributív

ü variációs.

Attribútum sorozat- ez egy minőségi tulajdonság alapján összeállított sorozat.

Variációs sorozat- Ez egy mennyiségi jellemző alapján összeállított sorozat.

A variációs sorozatokat diszkrétre, folytonosra és intervallumra osztják.

A variációs diszkrét, folytonos és integrál sorozatokat a sorozat összeállításának alapjául szolgáló megfelelő jellemző szerint nevezzük el. Például egy cipőméret szerinti sor testtömeg szerint diszkrét – folyamatos.

A gyakorlati és tudományos gyógyászatban a sorozatok ábrázolásának módszerei három csoportra oszthatók:

  1. Táblázat nézet;
  2. Analitikai ábrázolás (képlet formájában);
  3. Grafikus ábrázolás.

Az alkalmazott statisztika vizsgálatának tárgya a megfigyelések vagy kísérletek eredményeként nyert statisztikai adatok. A statisztikai adat az azokat jellemző objektumok (megfigyelések, esetek) és jellemzők (változók) összessége. Például a vizsgálat tárgyai a világ országai és jelei, - az őket jellemző földrajzi és gazdasági mutatók: kontinens; a terület tengerszint feletti magassága; évi átlagos hőmérséklet; az ország helye a listán az életminőség tekintetében, az egy főre jutó GDP aránya; közkiadások az egészségügyre, az oktatásra, a hadseregre; várható átlagos élettartam; a munkanélküliség aránya, írástudatlan; életminőség index stb.
A változók olyan mennyiségek, amelyek a mérés eredményeként eltérő értéket vehetnek fel.
A független változók olyan változók, amelyek értéke a kísérlet során változtatható, a függő változók pedig olyan változók, amelyek értéke csak mérhető.
A változók különböző skálákon mérhetők. A skálák közötti különbséget információtartalmuk határozza meg. A következő skálatípusokat veszik figyelembe, információtartalmuk szerint növekvő sorrendben: nominális, ordinális, intervallum, arányskála, abszolút. Ezek a skálák az érvényes matematikai műveletek számában is különböznek egymástól. A „legszegényebb” skála nominális, hiszen egyetlen aritmetikai művelet sincs definiálva, a „leggazdagabb” maga abszolút.
A névleges (osztályozási) skálán történő mérés azt jelenti, hogy meghatározzuk, hogy egy objektum (megfigyelés) egy adott osztályba tartozik-e. Például: nem, szolgáltatási ág, szakma, kontinens stb. Ebben a skálában csak az osztályokban lévő objektumok számát lehet megszámolni - gyakorisággal és relatív gyakorisággal.
Az ordinális (rang) skálán végzett mérés az összetartozás osztályának meghatározása mellett lehetővé teszi a megfigyelések racionalizálását azáltal, hogy azokat valamilyen szempontból összehasonlítja egymással. Ez a skála azonban nem az osztályok közötti távolságot határozza meg, hanem csak azt, hogy a két megfigyelés közül melyik a jobb. Ezért az ordinális kísérleti adatok, még ha számokkal ábrázolva is vannak, nem tekinthetők számoknak, és számtani műveletek végezhetők velük 5 . Ebben a skálában az objektum gyakoriságának kiszámítása mellett az objektum rangját is kiszámíthatja. Példák az ordinális skálán mért változókra: tanulói pontszámok, versenyeken elért díjak, katonai rangok, egy ország helye az életminőségi listán stb. Néha a nominális és ordinális változókat kategorikusnak vagy csoportosításnak nevezik, mivel lehetővé teszik a kutatási objektumok alcsoportokra való felosztását.
Intervallumskálán történő méréskor a megfigyelések sorrendbe állítása olyan pontosan elvégezhető, hogy bármelyik kettő távolsága ismert legyen. Az intervallum skála egyedi a lineáris transzformációkig (y = ax + b). Ez azt jelenti, hogy a skálának tetszőleges referenciapontja van - feltételes nulla. Példák intervallumskálán mért változókra: hőmérséklet, idő, tengerszint feletti magasság. Egy adott léptékben lévő változók segítségével meghatározhatjuk a megfigyelések közötti távolságot. A távolságok teljes számok, és bármilyen aritmetikai művelet elvégezhető velük.
Az arányskála hasonló az intervallumskálához, de egyedi az y = ax alakú transzformációig. Ez azt jelenti, hogy a skálának fix referenciapontja van - abszolút nulla, de tetszőleges mérési skála. Példák arányskálán mért változókra: hosszúság, súly, áram, pénzmennyiség, a társadalom egészségügyre, oktatásra, katonaságra fordított kiadásai, várható élettartam stb. Ebben a skálában a mérések teljes számok, és bármilyen aritmetikai művelet elvégezhető rajtuk.
Egy abszolút skálának van abszolút nullája és abszolút mértékegysége (skála). Az abszolút skálára példa a számegyenes. Ez a skála dimenzió nélküli, így a benne lévő mérések logaritmus kitevőjeként vagy bázisaként használhatók. Példák abszolút skálán végzett mérésekre: munkanélküliségi ráta; írástudatlanok aránya, életminőség-index stb.
A statisztikai módszerek többsége parametrikus statisztikai módszer, amely azon a feltételezésen alapul, hogy a változók véletlenvektora valamilyen többváltozós eloszlást alkot, általában normális vagy normál eloszlásúvá alakul. Ha ez a feltevés nem igazolódik be, akkor a matematikai statisztika nem paraméteres módszereit kell használni.

Korrelációelemzés. A változók (véletlenszerű változók) között funkcionális kapcsolat állhat fenn, ami abban nyilvánul meg, hogy az egyik a másik függvényeként van definiálva. De a változók között másfajta kapcsolat is lehet, ami abban nyilvánul meg, hogy az egyik a másik változására az eloszlási törvényének megváltoztatásával reagál. Az ilyen kapcsolatot sztochasztikusnak nevezzük. Akkor jelenik meg, ha vannak közös véletlenszerű tényezők, amelyek mindkét változót befolyásolják. A változók közötti függőség mértékeként a korrelációs együtthatót (r) használjuk, amely -1 és +1 között változik. Ha a korrelációs együttható negatív, ez azt jelenti, hogy az egyik változó értékének növekedésével a másiké csökken. Ha a változók függetlenek, akkor a korrelációs együttható 0 (fordítva csak a normál eloszlású változókra igaz). De ha a korrelációs együttható nem egyenlő 0-val (a változókat korrelálatlannak nevezzük), akkor ez azt jelenti, hogy kapcsolat van a változók között. Minél közelebb van az r értéke 1-hez, annál erősebb a függőség. A korrelációs együttható akkor és csak akkor éri el szélső értékeit, +1 vagy -1, ha a változók közötti kapcsolat lineáris. A korrelációs elemzés lehetővé teszi a változók (véletlen változók) közötti sztochasztikus kapcsolat erősségének és irányának megállapítását. Ha a változókat legalább intervallumskálán mérjük és normális eloszlásúak, akkor a korrelációs elemzést a Pearson-korrelációs együttható kiszámításával végezzük, ellenkező esetben Spearman, Kendal tau vagy Gamma korrelációkat használunk.

Regresszió analízis. A regressziós elemzés modellezi egy valószínűségi változó kapcsolatát egy vagy több másik valószínűségi változóval. Ebben az esetben az első változót függőnek, a többit függetlennek nevezzük. A függő és független változók kiválasztása vagy hozzárendelése tetszőleges (feltételes), és azt a kutató végzi el a megoldandó problémától függően. A független változókat faktoroknak, regresszoroknak vagy prediktoroknak, a függő változókat pedig kimeneti jellemzőknek vagy válaszoknak nevezzük.
Ha a prediktorok száma 1, akkor a regressziót egyszerűnek vagy egyváltozósnak nevezzük, ha a prediktorok száma több, mint 1, többszörösnek vagy többtényezősnek. Általában a regressziós modell a következőképpen írható fel:

Y \u003d f (x 1, x 2, ..., x n),

Ahol y a függő változó (válasz), x i (i = 1,…, n) prediktorok (tényezők), n a prediktorok száma.
A regressziós elemzéssel számos fontos feladat megoldható a vizsgált problémával kapcsolatban:
1). Az elemzett változók terének (faktortér) dimenziójának csökkentése, a faktorok egy részének egy változóval - a válasszal - való helyettesítésével. Ezt a problémát a faktoranalízis jobban megoldja.
2). Az egyes tényezők hatásának számszerűsítése, i.e. többszörös regresszió, lehetővé teszi a kutató számára, hogy megkérdezze (és valószínűleg választ is kapjon) arról, hogy "mi a legjobb előrejelző...". Ugyanakkor egyértelműbbé válik az egyes tényezők válaszreakcióra gyakorolt ​​hatása, a kutató jobban megérti a vizsgált jelenség természetét.
3). Prediktív válaszértékek kiszámítása bizonyos faktorértékekre, pl. regressziós elemzés, megteremti az alapot egy számítási kísérlethez, hogy választ kapjunk olyan kérdésekre, mint például: „Mi lesz, ha…”.
4). A regressziós elemzésben az ok-okozati mechanizmus explicitebb formában jelenik meg. Ebben az esetben a prognózis jobban alkalmas az értelmes értelmezésre.

Kanonikus elemzés. A kanonikus elemzés az objektumokat jellemző két jellemzőlista (független változó) közötti függőségek elemzésére szolgál. Például tanulmányozhatja a különböző kedvezőtlen tényezők és a betegség egy bizonyos tünetcsoportjának megjelenése közötti kapcsolatot, vagy a beteg klinikai és laboratóriumi paramétereinek (szindrómáinak) két csoportja közötti kapcsolatot. A kanonikus elemzés a többszörös korreláció általánosítása egy változó és sok más változó közötti kapcsolat mértékeként. Mint tudják, a többszörös korreláció az egyik változó és más változók lineáris függvénye közötti maximális korreláció. Ezt a koncepciót a változók halmazai közötti kapcsolat esetére általánosították – amelyek az objektumokat jellemzik. Ebben az esetben elegendő csak arra szorítkoznunk, hogy minden halmazból figyelembe vegyünk néhány, leginkább korrelált lineáris kombinációt. Legyen például az első változóhalmaz y1, ..., ur előjelekből, a második halmaz - x1, ..., xq előjelekből, akkor a halmazok közötti kapcsolat lineáris kombinációk közötti korrelációként becsülhető meg. a1y1 + a2y2 + ... + apyp, b1x1 + b2x2 + ... + bqxq, amit kanonikus korrelációnak nevezünk. A kanonikus elemzés feladata a súlyegyütthatók megtalálása úgy, hogy a kanonikus korreláció maximális legyen.

Módszerek az átlagok összehasonlítására. Az alkalmazott kutatásban gyakran előfordul, hogy egy kísérletsorozat valamely jellemzőjének átlageredménye eltér egy másik sorozat átlageredményétől. Mivel az átlagok mérési eredmények, így általában mindig különböznek, kérdés, hogy az átlagok között megfigyelt eltérés magyarázható-e a kísérlet elkerülhetetlen véletlenszerű hibáival, vagy bizonyos okokra vezethető vissza. Ha két átlag összehasonlításáról beszélünk, akkor alkalmazhatjuk a Student-féle tesztet (t-próba). Ez egy parametrikus teszt, mivel feltételezzük, hogy a tulajdonság minden kísérletsorozatban normális eloszlású. Jelenleg divattá vált a nem paraméteres kritériumok alkalmazása az átlagok összehasonlítására
Az átlageredmények összehasonlítása az egyik módja annak, hogy azonosítsuk a vizsgált objektumkészletet (megfigyeléseket) jellemző változó jellemzők közötti függőséget. Ha a vizsgált objektumokat egy kategorikus független változó (prediktor) segítségével alcsoportokra osztva igaz az a hipotézis, amely szerint egyes függő változók átlagának egyenlőtlensége az alcsoportokban, akkor ez azt jelenti, hogy sztochasztikus kapcsolat van a függő változó és a függő változó között. a kategorikus előrejelző. Tehát például, ha bebizonyosodik, hogy a terhesség alatt dohányzó és nem dohányzó anyák csoportjaiban a gyermekek fizikai és értelmi fejlődésének átlagos mutatóinak egyenlőségére vonatkozó hipotézis téves, akkor ez azt jelenti, hogy van egy kapcsolat a gyermek anyja terhesség alatti dohányzása és értelmi és fizikai fejlődése között.
Az átlagok összehasonlításának leggyakoribb módszere a varianciaanalízis. Az ANOVA terminológiájában a kategorikus prediktort faktornak nevezik.
A varianciaanalízist úgy definiálhatjuk, mint egy parametrikus, statisztikai módszert, amely arra szolgál, hogy felmérje a különböző tényezők hatását a kísérlet eredményére, valamint a kísérletek későbbi tervezésére. Ezért a varianciaanalízis során lehetőség van egy mennyiségi jellemző függőségének vizsgálatára a tényezők egy vagy több minőségi jellemzőjétől. Ha egy tényezőt veszünk figyelembe, akkor egyirányú varianciaanalízist alkalmazunk, ellenkező esetben többváltozós varianciaanalízist alkalmazunk.

Frekvenciaelemzés. A gyakorisági táblázatok, vagy ahogyan egybejegyzéses tábláknak is nevezik, a legegyszerűbb módszer a kategorikus változók elemzésére. A gyakorisági táblázatok eredményesen használhatók kvantitatív változók vizsgálatára is, bár ez az eredmények értelmezési nehézségeihez vezethet. Az ilyen típusú statisztikai vizsgálatokat gyakran használják a feltáró elemzési eljárások egyikeként, hogy megtudják, hogyan oszlanak meg a megfigyelések különböző csoportjai a mintában, vagy hogyan oszlik el egy jellemző értéke a minimumtól a maximális értékig terjedő intervallumban. A gyakorisági táblázatokat általában hisztogramok segítségével grafikusan ábrázolják.

Kereszttábla (párosítás)– két (vagy több) gyakorisági táblázat kombinálásának folyamata úgy, hogy az összeállított táblázat minden celláját a táblázatos változók értékeinek vagy szintjeinek egyetlen kombinációja képviseli. A kereszttábla lehetővé teszi a megfigyelések előfordulási gyakoriságának kombinálását a figyelembe vett tényezők különböző szintjein. Ezen gyakoriságok vizsgálatával lehetőség nyílik a táblázatos változók közötti kapcsolatok azonosítására és e kapcsolat szerkezetének feltárására. Jellemzően táblázatos formában vannak viszonylag kevés értékű kategorikus vagy skálaváltozók. Ha egy folytonos változót kell táblázatba foglalni (mondjuk a vércukorszintet), akkor először újra kell kódolni úgy, hogy a változás tartományát kis számú intervallumra osztjuk (pl. szint: alacsony, közepes, magas).

Levelezési elemzés. A korrespondenciaanalízis a gyakorisági elemzéshez képest erőteljesebb leíró és feltáró módszereket tartalmaz a kétirányú és többutas táblák elemzésére. A módszer a kontingenciatáblázatokhoz hasonlóan lehetővé teszi a táblázatban szereplő csoportosítási változók szerkezetének és kapcsolatának feltárását. A klasszikus korrespondenciaanalízis során a kontingencia táblázatban szereplő gyakoriságokat úgy szabványosítják (normalizálják), hogy az összes cellában az elemek összege 1 legyen.
A korrespondenciaelemzés egyik célja, hogy a relatív gyakoriságok táblázatának tartalmát a táblázat egyes sorai és/vagy oszlopai közötti távolságok formájában ábrázolja egy alacsonyabb dimenziós térben.

klaszteranalízis. A klaszteranalízis egy osztályozási elemzési módszer; fő célja a vizsgált objektumok és jellemzők halmazának felosztása bizonyos értelemben homogének csoportokra vagy klaszterekre. Ez egy többváltozós statisztikai módszer, ezért feltételezzük, hogy a kiindulási adatok jelentős volumenűek lehetnek, pl. mind a vizsgált objektumok (megfigyelések) száma, mind az ezeket az objektumokat jellemző sajátosságok jelentősen nagyok lehetnek. A klaszteranalízis nagy előnye, hogy lehetővé teszi az objektumok particionálását nem egy, hanem több attribútum alapján. Ezenkívül a klaszteranalízis a legtöbb matematikai és statisztikai módszertől eltérően nem ír elő korlátozásokat a vizsgált objektumok típusára vonatkozóan, és lehetővé teszi számos, szinte tetszőleges jellegű kezdeti adat feltárását. Mivel a klaszterek homogenitású csoportok, a klaszteranalízis feladata, hogy halmazukat az objektumok jellemzői alapján m (m - egész) klaszterre bontsa úgy, hogy minden objektum csak egy partíciócsoportba tartozzon. Ugyanakkor az azonos klaszterbe tartozó objektumoknak homogénnek (hasonlónak), a különböző klaszterekhez tartozó objektumoknak heterogéneknek kell lenniük. Ha a klaszterező objektumokat pontként ábrázoljuk az n-dimenziós jellemzőtérben (n az objektumokat jellemző jellemzők száma), akkor az objektumok közötti hasonlóságot a pontok közötti távolság fogalma határozza meg, mivel intuitív módon egyértelmű, hogy a kisebb az objektumok közötti távolság annál inkább hasonlít egymásra.

Diszkriminancia elemzés. A diszkriminanciaanalízis statisztikai módszereket foglal magában a többváltozós megfigyelések osztályozására olyan helyzetben, amikor a kutató rendelkezik az úgynevezett képzési mintákkal. Ez a fajta elemzés többdimenziós, mivel az objektum több jellemzőjét használja fel, amelyek száma tetszőlegesen nagy lehet. A diszkriminanciaanalízis célja egy objektum osztályozása különféle jellemzők (jellemzők) mérése alapján, azaz valamilyen optimális módon több meghatározott csoport (osztály) valamelyikéhez rendelni. Feltételezzük, hogy a kezdeti adatok az objektumok jellemzőivel együtt tartalmaznak egy kategorikus (csoportosítási) változót, amely meghatározza, hogy az objektum egy adott csoporthoz tartozik-e. Ezért a diszkriminanciaanalízis lehetővé teszi a módszerrel végzett osztályozás és az eredeti empirikus osztályozás összhangjának ellenőrzését. Az optimális módszer alatt vagy a veszteségek matematikai elvárásának minimumát, vagy a hamis besorolás valószínűségének minimumát értjük. Általános esetben a diszkrimináció (diszkrimináció) problémája a következőképpen fogalmazódik meg. Legyen egy objektum feletti megfigyelés eredménye egy k-dimenziós Х = (X1, X2, …, XК) véletlen vektor, ahol X1, X2, …, XК az objektum jellemzői. Fel kell állítani egy szabályt, amely szerint az X vektor koordinátáinak értékei szerint az objektumot a lehetséges i, i = 1, 2, ..., n halmazok egyikéhez rendelik. A diszkriminációs módszerek feltételesen feloszthatók parametrikusra és nemparametrikusra. A parametrikusban ismert, hogy a jellemzővektorok eloszlása ​​az egyes populációkban normális, de ezen eloszlások paramétereiről nincs információ. A nemparaméteres diszkriminációs módszerek nem igénylik az eloszlások pontos funkcionális formájának ismeretét, és lehetővé teszik a diszkriminációs problémák megoldását a populációkra vonatkozó jelentéktelen a priori információk alapján, ami különösen értékes a gyakorlati alkalmazásokhoz. Ha a diszkriminanciaanalízis alkalmazhatóságának feltételei teljesülnek - a független változókat-tulajdonságokat (ezeket prediktoroknak is nevezik) legalább intervallumskálán mérni kell, eloszlásuknak meg kell felelnie a normál törvénynek, szükséges a klasszikus diszkriminancia analízis alkalmazása. , egyébként - a diszkriminanciaanalízis általános modelljeinek módszere.

Faktoranalízis. A faktoranalízis az egyik legnépszerűbb többváltozós statisztikai módszer. Ha a klaszter és a diszkriminancia módszer osztályozza a megfigyeléseket, homogenitási csoportokba osztva, akkor a faktoranalízis osztályozza a megfigyeléseket leíró jellemzőket (változókat). Ezért a faktoranalízis fő célja a változók számának csökkentése a változók osztályozása és a köztük lévő kapcsolatok szerkezetének meghatározása alapján. A redukciót úgy érjük el, hogy kiemeljük azokat a rejtett (látens) közös tényezőket, amelyek az objektum megfigyelt jellemzői közötti kapcsolatot magyarázzák, pl. A kezdeti változókészlet helyett lehetőség nyílik a kiválasztott tényezőkre vonatkozó adatok elemzésére, amelyek száma jóval kevesebb, mint az egymással összefüggő változók kezdeti száma.

Osztályozó fák. Az osztályozási fák egy osztályozási elemzési módszer, amely lehetővé teszi az objektumok egy adott osztályhoz való tartozásának előrejelzését, az objektumokat jellemző tulajdonságok megfelelő értékétől függően. Az attribútumokat független változóknak nevezzük, és azt a változót, amely jelzi, hogy az objektumok osztályokba tartoznak, függőnek. A klasszikus diszkriminanciaanalízissel ellentétben az osztályozófák képesek egydimenziós elágazást végrehajtani különféle típusú változókon - kategorikus, ordinális, intervallum. A mennyiségi változók eloszlásának törvénye nem korlátozza. A diszkriminanciaanalízishez hasonlóan a módszer lehetővé teszi az egyes változók osztályozási eljáráshoz való hozzájárulásának elemzését. Az osztályozási fák nagyon összetettek lehetnek, és néha azok is. A speciális grafikus eljárások alkalmazása azonban lehetővé teszi az eredmények értelmezésének egyszerűsítését még nagyon összetett fák esetében is. Az eredmények grafikus bemutatásának lehetősége és az egyszerű értelmezhetőség nagymértékben magyarázza az osztályozófák nagy népszerűségét az alkalmazott területeken, azonban az osztályozófák legfontosabb megkülönböztető tulajdonságai a hierarchiájuk és a széleskörű alkalmazhatóságuk. A módszer felépítése olyan, hogy a felhasználónak lehetősége van tetszőleges bonyolultságú fákat építeni ellenőrzött paraméterek segítségével, minimális osztályozási hibákat érve el. De egy összetett fa szerint a döntési szabályok nagy halmaza miatt nehéz egy új objektumot besorolni. Ezért az osztályozási fa összeállításakor a felhasználónak ésszerű kompromisszumot kell találnia a fa összetettsége és az osztályozási eljárás összetettsége között. Az osztályozási fák széleskörű alkalmazhatósága igen vonzó eszközzé teszi őket az adatelemzésben, de nem szabad azt feltételezni, hogy a hagyományos osztályozási elemzési módszerek helyett alkalmazása javasolt. Ellenkezőleg, ha teljesülnek a hagyományos módszerek által támasztott szigorúbb elméleti feltevések, és a mintavételi eloszlásnak van néhány speciális tulajdonsága (például a változók eloszlása ​​megfelel a normál törvénynek), akkor a hagyományos módszerek alkalmazása hatékonyabb lesz. Azonban a feltáró elemzés módszereként vagy végső megoldásként, amikor minden hagyományos módszer kudarcot vall, az osztályozófák sok kutató szerint páratlanok.

Főkomponens elemzés és osztályozás. A gyakorlatban gyakran felmerül a nagydimenziós adatok elemzésének problémája. A főkomponens elemzés és osztályozás módszere lehetővé teszi ennek a problémának a megoldását, és két cél elérését szolgálja:
– a változók teljes számának csökkentése (adatcsökkentés) a „fő” és „nem korrelált” változók elérése érdekében;
– változók és megfigyelések osztályozása, az épülő faktortér segítségével.
A módszer a faktoranalízishez hasonló a megoldandó feladatok megfogalmazásában, de számos jelentős eltérést mutat:
– a főkomponensek elemzése során nem alkalmazunk iteratív módszereket a faktorok kinyerésére;
– a főkomponensek kinyeréséhez használt aktív változók és megfigyelések mellett segédváltozók és/vagy megfigyelések is megadhatók; majd a segédváltozókat és megfigyeléseket az aktív változókból és megfigyelésekből számított faktortérre vetítjük;
- a felsorolt ​​lehetőségek lehetővé teszik, hogy a módszert hatékony eszközként alkalmazzuk mind a változók, mind a megfigyelések osztályozására.
A módszer fő problémájának megoldása az eredetinél kisebb dimenziójú látens (rejtett) változók (tényezők) vektorterének létrehozásával érhető el. A kezdeti dimenziót a forrásadatokban az elemzésre szánt változók száma határozza meg.

Többdimenziós méretezés. A módszer a faktoranalízis alternatívájaként tekinthető, amely a megfigyelt változók közötti kapcsolatokat magyarázó látens (közvetlenül nem megfigyelt) tényezők kiemelésével éri el a változók számának csökkentését. A többdimenziós skálázás célja olyan látens változók megtalálása és értelmezése, amelyek lehetővé teszik a felhasználó számára, hogy megmagyarázza az objektumok közötti hasonlóságokat az eredeti jellemzőtér adott pontjai között. A gyakorlatban az objektumok hasonlóságának mutatói lehetnek a köztük lévő távolságok vagy a kapcsolat fokai. A faktoranalízis során a változók közötti hasonlóságokat korrelációs együtthatók mátrixával fejezzük ki. A többdimenziós skálázásnál tetszőleges típusú objektum hasonlósági mátrix használható bemenő adatként: távolságok, korrelációk stb. Annak ellenére, hogy a vizsgált kérdések jellegében sok hasonlóság van, a többváltozós skálázás és a faktoranalízis módszerei számos jelentős eltérést mutatnak. Így a faktoranalízis megköveteli, hogy a vizsgált adatok többváltozós normális eloszlásnak engedelmeskedjenek, és a függőségek lineárisak legyenek. A többdimenziós skálázás nem ír elő ilyen megkötéseket, akkor alkalmazható, ha adott az objektumok páronkénti hasonlóságának mátrixa. Az eredmények közötti különbségek tekintetében a faktoranalízis több látens változót igyekszik kinyerni, mint a többváltozós skálázás. Ezért a többdimenziós skálázás gyakran könnyebben értelmezhető megoldásokhoz vezet. Ennél is fontosabb azonban, hogy a többváltozós skálázás bármilyen típusú távolságra vagy hasonlóságra alkalmazható, míg a faktoranalízis megköveteli, hogy a változók korrelációs mátrixát használjuk bemenetként, vagy egy korrelációs mátrixot először a bemeneti adatfájlból kell kiszámítani. A többdimenziós skálázás fő feltételezése, hogy van néhány lényeges alapjellemzők metrikus tere, amely implicit módon alapul szolgált a kapott empirikus adatokhoz az objektumpárok közötti közelségről. Ezért az objektumok pontként ábrázolhatók ebben a térben. Azt is feltételezzük, hogy a közelebbi (a kezdeti mátrix szerint) objektumok kisebb távolságoknak felelnek meg az alapjellemzők terén. Ezért a többdimenziós skálázás az objektumok közelségére vonatkozó empirikus adatok elemzésére szolgáló módszerek összessége, amelyek segítségével meghatározzák a mért objektumok adott értelmes feladathoz elengedhetetlen jellemzőinek terének dimenzióját, és meghatározzák a mérési objektumok konfigurálását. pontok (objektumok) ebben a térben épülnek fel. Ez a tér („többdimenziós skála”) hasonló az általánosan használt skálákhoz abban az értelemben, hogy a mért objektumok lényeges jellemzőinek értékei megfelelnek a tér tengelyeinek bizonyos pozícióinak. A többdimenziós skálázás logikája a következő egyszerű példával szemléltethető. Tételezzük fel, hogy van egy páronkénti távolságok mátrixa (azaz egyes jellemzők hasonlóságai) egyes városok között. A mátrix elemzésekor a városok koordinátáival pontokat kétdimenziós térben (síkon) kell elhelyezni, a köztük lévő valós távolságokat lehetőleg megőrizve. Az így kapott pontok síkon való elhelyezése később megközelítő földrajzi térképként használható. Általános esetben a többdimenziós méretezés lehetővé teszi, hogy az objektumok (példánkban városok) valamilyen kis méretű (jelen esetben kettővel egyenlő) térben helyezkedjenek el úgy, hogy megfelelően reprodukálják a köztük megfigyelt távolságokat. Ennek eredményeként ezek a távolságok a talált látens változók alapján mérhetők. Példánkban tehát meg tudjuk magyarázni a távolságokat egy észak/dél és kelet/nyugat földrajzi koordinátapárral.

Modellezés szerkezeti egyenletekkel (oksági modellezés). A többváltozós statisztikai elemzés és a korrelációs struktúrák elemzése terén elért közelmúltbeli előrelépések a legújabb számítási algoritmusokkal kombinálva kiindulópontként szolgáltak egy új, de már elismert szerkezeti egyenletmodellezési technika (SEPATH) megalkotásához. A többváltozós elemzésnek ez a rendkívül hatékony technikája a statisztika különböző területeiről származó módszereket foglal magában, a többszörös regressziós és faktoranalízist természetesen itt fejlesztették ki és kombinálták.
A szerkezeti egyenletek modellezésének tárgya olyan összetett rendszerek, amelyek belső szerkezete nem ismert („fekete doboz”). A rendszerparaméterek SEPATH segítségével történő megfigyelésével feltárhatja szerkezetét, ok-okozati összefüggéseket hozhat létre a rendszerelemek között.
A szerkezeti modellezés problémájának megfogalmazása a következő. Legyenek olyan változók, amelyek statisztikai momentumai ismertek, például mintakorrelációs mátrix vagy kovariancia együtthatók. Az ilyen változókat explicitnek nevezzük. Egy összetett rendszer jellemzői lehetnek. A megfigyelt explicit változók közötti valós kapcsolatok meglehetősen összetettek lehetnek, de feltételezzük, hogy számos rejtett változó létezik, amelyek bizonyos fokú pontossággal magyarázzák ezeknek a kapcsolatoknak a szerkezetét. Így a látens változók segítségével az explicit és az implicit változók közötti kapcsolatok modellje épül fel. Egyes feladatokban a látens változókat okoknak, az expliciteket pedig következményeknek tekinthetjük, ezért az ilyen modelleket kauzálisnak nevezzük. Feltételezzük, hogy a rejtett változók egymáshoz kapcsolódhatnak. A kapcsolatok szerkezete állítólag meglehetősen bonyolult, de típusa feltételezett - ezek lineáris egyenletekkel leírható kapcsolatok. A lineáris modellek bizonyos paraméterei ismertek, mások nem, és szabad paraméterek.
A strukturális egyenletmodellezés lényege, hogy szórásaik és kovarianciaik elemzésével ellenőrizhető, hogy az Y és X változók Y = aX lineáris összefüggésben állnak-e kapcsolatban. Ez az elképzelés az átlag és a variancia egy egyszerű tulajdonságán alapul: ha minden számot megszorozunk valamilyen k konstanssal, akkor az átlagot is megszorozzuk k-val, a szórást pedig k modulusával. Vegyünk például egy három számból álló halmazt 1, 2, 3. Ezeknek a számoknak az átlaga 2, a szórása pedig 1. Ha mindhárom számot megszorozzuk 4-gyel, akkor könnyen kiszámítható, hogy az átlag legyen egyenlő 8-cal, a szórása 4, a szórás pedig 16. Így ha vannak X és Y számok halmazai, amelyek Y = 4X összefüggésben állnak egymással, akkor Y szórása 16-szor nagyobb kell legyen, mint X varianciája. Ezért tesztelhetjük azt a hipotézist, hogy Y és X az Y = 4X összefüggő egyenlet, összehasonlítva az Y és X változók varianciáit. Ez az elképzelés többféleképpen általánosítható több, lineáris egyenletrendszerrel összekapcsolt változóra. Ugyanakkor a transzformációs szabályok bonyolultabbá válnak, a számítások bonyolultabbá válnak, de a lényeg változatlan marad - szórásaik és kovarianciaik tanulmányozásával ellenőrizheti, hogy a változók lineáris kapcsolatban állnak-e egymással.

Túlélés elemzési módszerek. A túléléselemzési módszereket eredetileg az orvosi, biológiai kutatások és a biztosítás területén fejlesztették ki, majd széles körben alkalmazták a társadalom- és gazdaságtudományokban, valamint az iparban a mérnöki problémák (megbízhatósági elemzés és meghibásodási idők) megoldásában. Képzelje el, hogy egy új kezelést vagy gyógyszert tanulmányoznak. Nyilvánvalóan a legfontosabb és objektív jellemző a betegek átlagos várható élettartama a klinikára való felvétel pillanatától vagy a betegség remissziójának átlagos időtartama. Szabványos parametrikus és nem paraméteres módszerek használhatók az átlagos túlélési idők vagy remisszió leírására. Az elemzett adatokban azonban van egy jelentős sajátosság - lehetnek olyan betegek, akik a teljes megfigyelési időszakot túlélték, és néhányuknál a betegség még remisszióban van. Lehetnek olyan betegek is, akikkel a kapcsolat a kísérlet befejezése előtt megszakadt (például átvitték őket más klinikákra). Az átlag becslésére használt standard módszereket használva a betegeknek ezt a csoportját ki kellene zárni, ezáltal elveszítenék a nehezen összegyűjtött fontos információkat. Ráadásul ezeknek a betegeknek a többsége túlélő (gyógyult) a megfigyelésük ideje alatt, ami egy új kezelési módszer (gyógyszer) mellett szól. Az ilyen jellegű információkat, amikor nincs adat a számunkra érdekes esemény bekövetkeztéről, hiányosnak nevezzük. Ha van adat egy számunkra érdekes esemény bekövetkezéséről, akkor az információt teljesnek nevezzük. A hiányos információt tartalmazó megfigyeléseket cenzúrázott megfigyeléseknek nevezzük. A cenzúrázott megfigyelések akkor jellemzőek, ha a megfigyelt érték egy kritikus esemény bekövetkeztéig eltelt időt jelenti, és a megfigyelés időtartama időben korlátozott. A cenzúrázott megfigyelések alkalmazása a vizsgált módszer – túlélési elemzés – sajátossága. Ebben a módszerben a kritikus események egymást követő előfordulásai közötti időintervallumok valószínűségi jellemzőit vizsgáljuk. Ezt a fajta kutatást a befejezés pillanatáig tartó időtartamok elemzésének nevezzük, amely úgy definiálható, mint az objektum megfigyelésének kezdete és a befejezés pillanata közötti időintervallum, amikor az objektum már nem teljesíti a megfigyelésre meghatározott tulajdonságokat. A kutatás célja a megszűnés pillanatáig tartó időtartamokhoz kapcsolódó feltételes valószínűségek meghatározása. A cenzúrázott adatok tanulmányozásának leíró módszerei az élettartam táblák készítése, a túlélési eloszlás illesztése, a túlélési függvény becslése Kaplan-Meier eljárással. A javasolt módszerek némelyike ​​lehetővé teszi a túlélés összehasonlítását két vagy több csoportban. Végül a túlélési elemzés regressziós modelleket tartalmaz az élettartamhoz hasonló értékekkel rendelkező többváltozós folytonos változók közötti kapcsolatok értékelésére.
A diszkriminanciaanalízis általános modelljei. Ha a diszkriminanciaanalízis (DA) alkalmazhatóságának feltételei nem teljesülnek - a független változókat (prediktorokat) legalább egy intervallumskálán mérni kell, eloszlásuknak meg kell felelniük a normál törvénynek, szükséges az általános modellek módszerének alkalmazása. diszkrimináns elemzés (GDA). A módszert azért nevezték így, mert az általános lineáris modellt (GLM) használja a diszkrimináns függvények elemzésére. Ebben a modulban a diszkrimináns függvényelemzést egy általános többváltozós lineáris modellként kezeljük, amelyben a kategorikus függő változót (választ) olyan vektorok reprezentálják, amelyek kódjai az egyes megfigyelésekhez különböző csoportokat jelölnek. Az ODA módszer számos jelentős előnnyel rendelkezik a klasszikus diszkriminanciaanalízissel szemben. Például nincsenek korlátozások a használt prediktor típusára (kategorikus vagy folytonos) vagy a definiálandó modell típusára vonatkozóan, a prediktorok fokozatos kiválasztása és a prediktorok legjobb részhalmazának kiválasztása lehetséges, ha van keresztellenőrzési minta. az adatfájlban a prediktorok legjobb részhalmazának kiválasztása a keresztellenőrzési mintavételhez szükséges megosztások hibás besorolásán alapulhat, stb.

Idősorok. Az idősorok a matematikai statisztika legintenzívebben fejlődő, legígéretesebb területe. Az idősor (dinamikus) egy bizonyos X attribútum (véletlenszerű változó) megfigyelésének sorozata, egymást követő egyenlő távolságú t pillanatokban. Az egyes megfigyeléseket a sorozat szintjeinek nevezzük, és xt, t = 1, ..., n jelöléssel. Az idősorok tanulmányozásakor több összetevőt különböztetünk meg:
x t \u003d u t + y t + c t + e t, t \u003d 1, ..., n,
ahol u t egy trend, egy zökkenőmentesen változó komponens, amely leírja a hosszú távú tényezők (népességcsökkenés, jövedelemcsökkenés stb.) nettó hatását; - szezonális komponens, amely a folyamatok gyakoriságát tükrözi egy nem túl hosszú időszakra (nap, hét, hónap stb.); сt egy ciklikus komponens, amely a folyamatok gyakoriságát tükrözi hosszú ideig, egy éven keresztül; t egy véletlenszerű komponens, amely olyan véletlenszerű tényezők hatását tükrözi, amelyek nem számolhatók el és nem regisztrálhatók. Az első három komponens determinisztikus komponens. A véletlenszerű komponens nagyszámú külső tényező szuperpozíciója eredményeként jön létre, amelyek mindegyike külön-külön jelentéktelen hatással van az X attribútum értékeinek változására. Az idősorok elemzése és tanulmányozása lehetővé teszi modellek felépítését az X attribútum jövőbeli értékeinek előrejelzésére, ha ismert a múltbeli megfigyelések sorrendje.

Neurális hálózatok. A neurális hálózatok egy számítástechnikai rendszer, amelynek felépítése analóg az idegszövet neuronokból történő felépítéséhez. A legalsó réteg neuronjai a bemeneti paraméterek értékeivel vannak ellátva, amelyek alapján bizonyos döntéseket kell hozni. Például a beteg klinikai és laboratóriumi paramétereinek értékeivel összhangban a betegség súlyosságától függően egy vagy másik csoporthoz kell rendelni. Ezeket az értékeket a hálózat olyan jelekként érzékeli, amelyeket a következő rétegre továbbítanak, gyengülve vagy erősödve az interneuronális kapcsolatokhoz rendelt számértékektől (súlyoktól) függően. Ennek eredményeként egy bizonyos érték generálódik a felső réteg neuronjának kimenetén, amelyet válasznak tekintünk - a teljes hálózat válasza a bemeneti paraméterekre. Ahhoz, hogy a hálózat működjön, olyan adatokra kell „tanítani” (tanítani), amelyeknél ismertek a bemeneti paraméterek értékei és az azokra adott helyes válaszok. A tanulás az interneuronális kapcsolatok súlyainak kiválasztásából áll, amelyek a legközelebbi választ adják az ismert helyes válaszokra. A neurális hálózatok a megfigyelések osztályozására használhatók.

Kísérleti tervezés. A „kísérleti tervezés” tantárgy tartalma a megfigyelések meghatározott sorrendbe rendezése vagy a speciálisan megtervezett ellenőrzések elvégzése, hogy e módszerekben rejlő lehetőségeket maradéktalanul kiaknázzuk. Jelenleg a kísérleti módszereket széles körben használják mind a tudományban, mind a gyakorlati tevékenység különböző területein. Általában a tudományos kutatás fő célja egy adott tényező hatásának statisztikai szignifikanciájának kimutatása a vizsgált függő változóra. A kísérletek tervezésének fő célja általában az, hogy a legkevesebb költséges megfigyelés segítségével a lehető legtöbb objektív információt kinyerjük a vizsgált tényezőknek a kutatót érdeklő indikátorra (függő változóra) gyakorolt ​​hatásáról. Sajnos a gyakorlatban a legtöbb esetben nem fordítanak kellő figyelmet a kutatás tervezésére. Adatokat gyűjtenek (amennyit csak tudnak), majd statisztikai feldolgozást és elemzést végeznek. A megfelelően elvégzett statisztikai elemzés azonban önmagában nem elegendő a tudományos érvényesség eléréséhez, mivel az adatelemzésből származó információk minősége magának az adatnak a minőségétől függ. Ezért a kísérletek tervezését egyre inkább alkalmazzák az alkalmazott kutatásokban. A tervezési kísérletek módszereinek célja, hogy megvizsgálják bizonyos tényezők hatását a vizsgált folyamatra, és megtalálják a tényezők optimális szintjeit, amelyek meghatározzák ennek a folyamatnak a szükséges áramlási szintjét.

Minőségellenőrző kártyák. A modern világ körülményei között nemcsak a gyártott termékek, hanem a lakosságnak nyújtott szolgáltatások minőségének problémája is rendkívül aktuális. Minden cég, szervezet vagy intézmény jóléte nagymértékben függ e fontos probléma sikeres megoldásától. A termékek és szolgáltatások minősége a tudományos kutatás, a tervezés és a technológiai fejlesztés folyamatában alakul ki, és a termelés és a szolgáltatások megfelelő szervezése biztosítja. De a termékek gyártása és a szolgáltatások nyújtása, függetlenül azok típusától, mindig a termelés és a szolgáltatás feltételeinek bizonyos változatosságával jár. Ez bizonyos eltérésekhez vezet a minőségi jellemzőikben. Ezért relevánsak a minőség-ellenőrzési módszerek kidolgozásának kérdései, amelyek lehetővé teszik a technológiai folyamat vagy a szolgáltatásnyújtás megsértésére utaló jelek időben történő észlelését. Ugyanakkor a fogyasztót kielégítő, magas minőségi szint eléréséhez és fenntartásához olyan módszerekre van szükség, amelyek nem a késztermékek hibáinak, a szolgáltatások inkonzisztenciájának kiküszöbölésére, hanem azok előfordulásának okainak megelőzésére, előrejelzésére irányulnak. A vezérlőtábla egy olyan eszköz, amely lehetővé teszi egy folyamat előrehaladásának nyomon követését és befolyásolását (megfelelő visszacsatolás segítségével), megakadályozva, hogy az eltérjen a folyamat követelményeitől. A minőség-ellenőrzési diagram eszköz széles körben alkalmazza a valószínűségszámításon és a matematikai statisztikákon alapuló statisztikai módszereket. A statisztikai módszerek alkalmazása korlátozott mennyiségű elemzett termék mellett lehetővé teszi a termékek minőségi állapotának adott fokú pontossággal és megbízhatósággal történő megítélését. Előrejelzést, a minőségi problémák optimális szabályozását biztosítja, a helyes vezetési döntéseket nem intuíció alapján, hanem tudományos tanulmányozás és minták azonosítása segítségével a felhalmozott numerikus információtömbökben. />/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>

A statisztika tárgya a statisztika fejlődésének története során változott, a tudósok mindeddig nem jutottak egyértelmű válaszra ebben a kérdésben.

A statisztika tárgya a társadalmi jelenségek tanulmányozása és elemzése.

Tehát az angol statisztikusok, J.E. Yula, M.J. Kendall úgy vélik: „Mindegy, hogy melyik tudományágban szerzik be a numerikus adatokat, rendelkeznek bizonyos tulajdonságokkal, amelyek azonosítása speciális tudományos feldolgozási módszert igényelhet. Ez utóbbit statisztikai módszernek vagy statisztikáknak nevezik."

A statisztika mint tudomány egyetemessége annak köszönhető, hogy mérési és értelmezési módszerekkel foglalkozik, mind a társadalom-, mind a természettudományokban. A statisztikát a különböző tevékenységi területeken, különféle problémák megoldásában használt speciális módszerként ismerik el, amelyet "számos adatok gyűjtése, bemutatása és értelmezéseként" határoznak meg.

A statisztikai módszertan és gyakorlat elválaszthatatlanul összefügg, kiegészíti és fejleszti egymást. A statisztikai elmélet összefoglalja a gyakorlati munka tapasztalatait, új ötleteket, módszereket dolgoz ki, amelyek gazdagítják a gyakorlati statisztikai tevékenységet. A statisztikai gyakorlat tudományosan szervezett munka.

És így, statisztika- egy tudomány, amely a tömeges társadalmi jelenségek mennyiségi oldalát tanulmányozza, hogy a hely és az idő sajátos feltételei között elválaszthatatlan mintákat hozzon létre a minőségi oldalukkal összefüggésükben és kölcsönös függésükben (N. N. Ryauzovsky "A statisztika általános elmélete").

Ennek a definíciónak a lényege hat fő ponthoz kapcsolódik:

1. Nem minden jelenséget tanulmányozunk, csak a társadalmi és társadalmi-gazdasági jelenségeket. Ezek a jelenségek összetettek, szerteágazóak (például: termelés, munka, egészségügy, kulturális tevékenységek, népesség stb.), eltérnek a természeti jelenségektől, amelyek viszonylag stabil jellegűek, idővel ismétlődőek.

2. Tömeges társadalmi-gazdasági jelenségeket vizsgálunk, nem pedig egyedieket, hiszen a fejlődési mintázatok a kellően nagy egységszámú adatok általánosításánál tények sokaságán keresztül mutatkoznak meg (a nagy számok törvénye).

3. A jelenségek kvantitatív értékelést kapnak, amely alapján feltárul minőségi tartalmuk (például: a munkanélküliség kvantitatív elemzéséhez a foglalkoztatási mutatót és a munkanélküliségi rátát használják).

4. Ugyanazon jelenség számszerű jellemzői térben és időben eltérőek.

5. A társadalmi-gazdasági jelenségek dinamikus vizsgálata a fejlődési trendek, irányok azonosítása, a jövőbeli helyzetek előrejelzése érdekében.

6. A jelenségek vizsgálata az összekapcsolódásban és az egymásrautaltságban.



A statisztikai módszerek alkalmazásakor tehát fontos megjegyezni a vizsgált jelenség mennyiségi és minőségi vonatkozásainak egységét.

Tehát a statisztika a tömegjelenségek vagy aggregátumok tanulmányozása.

Összesített- valamilyen módon homogén csoport, amely a magból és az azt körülvevő jelenségekből ("rétegből") áll. A mag egy adott csoport összes olyan specifikus tulajdonságának koncentrált kifejezése, amely megkülönbözteti az egyik halmazt a többitől. "Réteg" - egy adott tulajdonságok hiányos halmazával rendelkező egységek, amelyek bizonyos valószínűséggel egy adott populációhoz tartoznak.

Például: a lakosság hallgató, a hallgatók között van:

- "ideális tanuló" - kiváló tanuló, sokat olvas, aktívan részt vesz a tanórán kívüli tevékenységekben - ez a lényeg.

Olyan tanuló, akinek csak az „érdekes”, speciális tudás a fontos; egy réteg.

Egy diák, akit csak a tanórán kívüli élet érdekel stb. egy másik réteg.

Így a tanulók egy részének „minősége” szinte félreérthetetlenül egy-egy típushoz köthető, míg mások meglehetősen nehézkesek.

A mag és környezetének aránya a különböző halmazokban eltérő, és a halmaz létezésének feltételeitől függ: időtartam, stabilitás, kölcsönhatás más halmazokkal stb. a halmazt, hiszen ez határozza meg annak jellemző tulajdonságait.

Mivel a statisztika a jelenségek vizsgálatával foglalkozik egy adott helyen és időben, korlátozott mennyiségű adattal rendelkezik.

Népesség- ez a vizsgált jelenség objektíven létező egységeinek halmaza, amelyeket egyetlen minőségi alap, közös kapcsolat egyesít, de egyedi jellemzőikben különböznek egymástól. (Például háztartások halmaza, családok halmaza, vállalkozások, cégek, egyesületek halmaza stb.).

A totalitást meg kell különböztetni a rendszertől és a struktúrától, hiszen a totalitásban nincs rend, itt minden elem elkülönül.

Jel - ez a népesség egységének minőségi jellemzője.

A vizsgált populáció egységeinek tulajdonságainak megjelenítésének jellege szerint a jelek két fő csoportra oszthatók:

1. Mennyiségi - olyan jelek, amelyeknek közvetlen mennyiségi kifejezésük van, vagyis összeadhatók (például: életkor, jövedelem, gyermekszám, iskolai végzettség, munkatapasztalat stb.). Tegyük fel a több-kevesebb kapcsolatokat.

2. Minőség - olyan jelek, amelyeknek nincs közvetlen mennyiségi kifejezésük, azaz nem adható jelek (például: nem, szakma, munka jellege, valamihez való hozzáállás). Tegyük fel az "egyenlőség-egyenlőtlenség" összefüggést. (! ne engedje meg a több-kevesebb kapcsolatokat.)

Minden minőségi jel a következőkre oszlik:

Attribútumok - amelyek ennek a jelenségnek a jellemzői (például: szakma, munka jellege stb.)

Alternatíva - egymással ellentétes értelmű lehetőségek (például: a termékek jók vagy sérültek, bizonyos korcsoportok képviselőinél van lehetőség a túlélésre vagy nem túlélésre a következő korosztályba; minden személy lehet házas vagy nem, férfi ill. egy nő stb.).

Ezenkívül a statisztika jelei alaptól függően különböző csoportokba sorolhatók. A jellemzők főbb osztályozását az 1.2. ábra mutatja.

Jellemzők osztályozása a statisztikákban

leíró- szóban kifejezett jelek (a vállalkozás tulajdoni formája, felhasznált alapanyagok típusa, szakma, stb.) A leíró jelek névleges, sorrendbe nem sorolható, rangsorolható (állampolgárság, a vállalkozás iparági hovatartozása stb.) és sorszámú jelekre oszthatók. , amely rangsorolható (tarifakategória , tanulói teljesítménypontszám, cégértékelések stb.).

mennyiségi jelek - azok, amelyek egyedi értékei numerikus kifejezéssel rendelkeznek (a régió területe, a vállalkozás pénzeszközeinek értéke, az áruk ára stb.).

Elsődleges jelek jellemzik a népesség egészét. Statisztikai vizsgálatuktól (a város lakosságának száma, bruttó gabonatermés, biztosítási befizetések összege) függetlenül mérhetők, számolhatók, mérlegelhetők és önállóan is létezhetnek.

Másodlagos előjeleket számítással kapunk az elsődleges jelek arányán keresztül. A másodlagos jelek az emberi tudat termékei, a vizsgált tárgy megismerésének eredményei.

Közvetlen jelek - az általuk jellemzett objektumban rejlő tulajdonságok.

Közvetett jelek - nem a vizsgált objektumban rejlő tulajdonságok, hanem az objektumhoz kapcsolódó egyéb halmazokban.

Alternatív jelek - azok, amelyek csak a jelentés alját veszik fel (az ember neme, lakóhelye (város-falu), valaminek a birtoklásának vagy nem birtoklásának jelei).

Diszkrét jelek. csak egész értékei vannak.

folyamatos előjelek - bármilyen értéket felvehetnek, egész és tört számot is. Minden másodlagos funkció folyamatos.

Pillanatnyi jelek - az állapot jellemzői, valaminek egy adott időpontban való jelenléte.

Intervallum jelek - a folyamat jellemzői egy bizonyos ideig: év, fél év, negyedév, hónap, nap stb.

A statisztikai vizsgálat sajátossága, hogy csak változó jeleket vizsgál, pl. olyan jelek, amelyek eltérő értéket vesznek fel (attribúciós, alternatív jelekre), vagy eltérő mennyiségi szinttel rendelkeznek a populáció egyes egységei számára.

A variáció a statisztikai sokaság jelentős tulajdonsága.

Variáció- ez a statisztikai sokaság olyan tulajdonsága, amely tükrözi a változási képességet, mind a külső, mind a belső tényezők hatására, amelyek a vizsgált objektum lényegéhez kapcsolódnak, és nem kapcsolódnak hozzá.

statisztikai szabályszerűség- ez a nagy számok törvénye által megállapított szabályszerűség tömegváltozós jelenségekben, statisztikai halmazba egyesítve.

A statisztikai szabályszerűség trendekben nyilvánul meg.

Statisztikai funkciók:

1. Leíró - ábrák és számok segítségével adjuk meg egy adott helyzet, folyamat, jelenség jellemzőjét

2. Magyarázó - a jelenségek és folyamatok közötti ok-okozati összefüggések feltárulnak; bizonyos kapcsolatokat meghatározó tényezőket azonosítanak.

A statisztikai adatok természete 3 fő tulajdonságnak köszönhető:

1. A statisztikai adatok bizonytalansága

2. A statisztikai adatok valószínűségi jellege (egy jellemző elfogadhatja ezt az értéket, de lehet, hogy nem)

3. Statisztikai adatok absztraktsága.


Eliseeva I.I. Workshop a statisztika általános elméletéről. M.: Pénzügy és statisztika, 2008. P.8.

A statisztika multidiszciplina, mert más tudományágaktól kölcsönzött módszereket és elveket használ. Tehát a szociológia és a gazdaságelmélet területén szerzett ismeretek elméleti alapként szolgálnak a statisztikai tudomány kialakulásához. E tudományágak keretein belül a társadalmi jelenségek törvényszerűségeit tanulmányozzák. A statisztika segít egy jelenség mértékének felmérésében, valamint az elemzési és vizsgálati módszerrendszer kidolgozásában. A statisztika kétségtelenül kapcsolódik a matematikához, hiszen a minták azonosításához, a vizsgálati tárgy értékeléséhez és elemzéséhez számos matematikai művelet, módszer és törvény szükséges, az eredmények rendszerezése pedig grafikonok és táblázatok formájában jelenik meg.

A statisztikai kutatások típusai

A megfigyelés, mint a vizsgálat kezdeti szakasza a vizsgált kérdéssel kapcsolatos kiindulási adatok gyűjtéséhez kapcsolódik. Sok tudományra jellemző. Azonban minden tudománynak megvannak a sajátosságai, amelyek megfigyelései különböznek egymástól. Ezért nem minden megfigyelés statisztikai jellegű.

A statisztikai kutatás az állami közélet társadalmi-gazdasági, demográfiai és egyéb jelenségeire, folyamataira vonatkozó adatok (tények) tudományosan szervezett gyűjtése, összegzése és elemzése, ezek legjelentősebb jellemzőinek számviteli dokumentációban történő rögzítésével, egységes rendszer szerint. program.

A statisztikai kutatás megkülönböztető jegyei (sajátosságai): céltudatosság, szervezettség, tömegjelleg, következetesség (komplexitás), összehasonlíthatóság, dokumentáltság, ellenőrizhetőség, gyakorlatiasság.

Általában egy statisztikai vizsgálatnak:

Társadalmilag hasznos célja és egyetemes (állami) jelentősége legyen;

Kapcsolódjon a statisztika tárgyához annak sajátos hely- és időviszonyaiban;

Adja meg a számvitel statisztikai típusát (és nem számviteli és nem működő);

Előre kidolgozott program szerint, annak tudományosan megalapozott módszertani és egyéb támogatásával;

Tömeges adatok (tények) gyűjtése, amelyek a jelenséget sokrétűen jellemző ok-okozati és egyéb tényezők teljes halmazát tükrözik;

Regisztráljon a megállapított formájú számviteli bizonylatok formájában;

Garantálja a megfigyelési hibák hiányát vagy a lehető legkisebbre csökkenti azokat;

Biztosítani kell bizonyos minőségi kritériumokat és módokat az összegyűjtött adatok ellenőrzésére, biztosítva azok megbízhatóságát, teljességét és tartalmát;

Fókuszban az adatgyűjtés és -feldolgozás költséghatékony technológiája;

Megbízható információs bázis lenni a statisztikai kutatás minden további szakaszában és a statisztikai információk minden felhasználójában.

Azok a vizsgálatok, amelyek nem felelnek meg ezeknek a követelményeknek, nem statisztikai jellegűek. A statisztikai vizsgálatok nem például megfigyelések és tanulmányok: játszó gyermekes anyák (személyes kérdés); nézők egy színházi produkcióban (nincs könyvelési dokumentáció a látványról); fizikai és kémiai kísérletek kutatója méréseivel, számításaival és okmányos nyilvántartásával (nem tömeges adatok); a betegek orvosa az egészségügyi kártyák (működési nyilvántartások) vezetésével; könyvelő a vállalkozás bankszámláján lévő pénzeszközök mozgásáért (könyvelés); újságírók a kormányzati tisztviselők vagy más hírességek közéleti és magánéletéhez (nem képezik statisztika tárgyát).

Statisztikai sokaság - olyan egységek halmaza, amelyek tömegjellegűek, tipikusak, minőségi egységesek és változatosságot mutatnak.

A statisztikai sokaság anyagilag létező objektumokból áll (munkavállalók, vállalkozások, országok, régiók), a statisztikai kutatás tárgya.

A statisztikai megfigyelés a statisztikai kutatás első szakasza, amely a társadalmi élet vizsgált jelenségeire, folyamataira vonatkozó, tudományosan szervezett adatgyűjtés.