Pojęcie „statystyka” pochodzi od łacińskiego słowa „status”, które w tłumaczeniu oznacza pozycję, stan, porządek zjawisk.

Rozwój arytmetyki politycznej (Anglia) i nauk o państwie

(Niemcy) doprowadziło do powstania nauki o statystyce.

Termin „statystyka” został wprowadzony do obiegu naukowego przez matematyków z Uniwersytetu w Getyndze w XVIII wieku (Gottfried Achenwall (1719-1772)).

Obecnie istnieje około 150 definicji statystyki jako dyscypliny naukowej. Jedną z najlepszych definicji statystyki podał austriacki matematyk Abraham Wald: „Statystyka to zbiór metod, które pozwalają nam podejmować optymalne decyzje w warunkach niepewności”.

Spośród różnych definicji statystyki w medycynie praktycznej najbardziej odpowiednia jest następująca:

"Statystyka to nauka o gromadzeniu, klasyfikowaniu i kwantyfikacji danych w celu uzyskania wiarygodnych wniosków, przewidywań i decyzji.”

Statystyka bada losowe zjawiska masowe. Zjawiska masowe- są to zjawiska, które występują w dużych ilościach, ale różnią się między sobą wielkością określonej cechy. Im większa liczba obiektów przyjętych do badań, tym wiarygodniejsze wnioski statystyczne.

Statystyka składa się ze statystyki teoretycznej (ogólnej) i stosowanej

statystyki (gospodarcze, społeczne, sektorowe).

Statystyki branżowe obejmują meteorologię (statystyki prognoz pogody), transport, ekonomię, biologię i medycynę.

Statystyki teoretyczne dzielą się na opisowy(opisowy) i analityczny (indukcyjny).

Opisowe statystyki- Są to statystyki służące do gromadzenia danych ogólnych. Jest to zestaw metod gromadzenia, grupowania, klasyfikowania danych źródłowych i przedstawiania ich w formie dogodnej do późniejszego przetwarzania (tabele, wykresy).

Statystyki analityczne to statystyka wniosków i przewidywań oparta na matematycznym przetwarzaniu wyników dostarczanych przez statystykę opisową. Zawiera metody uzyskiwania różnych wniosków statystycznych i wniosków w celu ich praktycznego zastosowania.

Statystyka medyczna to statystyka branżowa, zbiór metod statystyki stosowanej, które są stosowane w medycynie naukowej i praktycznej oraz opiece zdrowotnej.

Główne zadania statystyki medycznej:

ü statystyki płodności i umieralności;

ü statystyki zachorowalności;

ü statystyki dotyczące działalności zakładów opieki zdrowotnej.

Razem statystyka opisowa i analityczna rozwiązują następujący problem:

ü zbieranie danych i opisywanie ich w formie dogodnej do przetwarzania statystycznego;

ü przetwarzanie wyników z wykorzystaniem metod statystyki teoretycznej (ogólnej);

ü analiza uzyskanych wyników, prognozowanie, opracowywanie optymalnych rozwiązań.

2. PODSTAWOWE POJĘCIA STATYSTYKI OPISOWEJ

I ICH CHARAKTERYSTYKA.

Podstawowe pojęcia statystyki opisowej obejmują:

ü populacja statystyczna (ogólna i próbna);

ü wielkość populacji;

ü opcja statystyczna;

ü znak statystyczny;

ü częstotliwość statystyczna (częstotliwość bezwzględna);

ü częstotliwość (częstotliwość względna).

Populacja statystyczna- jest to zbiór obiektów połączonych według jakiejś cechy charakterystycznej dla badań statystycznych.

Rodzaje agregatów:

  1. Populacja ogólna (skończona lub nieskończona).
  2. Próbna populacja (próbka).

Populacja- jest to ogół wszystkich wybranych do badań obiektów zbioru statystycznego.

Skończona populacja- populacja statystyczna, w której liczba badanych obiektów o danej charakterystyce jest ograniczona.

Przykład: liczba studentów w akademii, mieszkańców miasta, liczba pomiarów w eksperymentach.

Nieskończona populacja to zbiór statystyczny, w którym liczba obiektów jest równa nieskończoności. Używany w obliczeniach teoretycznych jako abstrakcja matematyczna.

Próbna populacja (próbka)- jest to część populacji ogólnej wzięta do badań statycznych.

Wielkość populacji to liczba obiektów zawartych w kolekcji.

Liczebność populacji jest oznaczona symbolem N i selektywne - N .

Opcja statystyczna jest obiektem w zbiorze, pojedynczą obserwacją lub pomiarem.

Opcje są oznaczone literami łacińskimi x, y, z z indeksami wskazującymi numer opcji.

Przykład: x 1 - obiekt lub wymiar numer jeden,

x 2 - obiekt lub wymiar numer dwa itp.

Opcja bez podania numeru jest wywoływana uogólnioneopcja i jest oznaczony literą łacińską z indeksem dolnym, na przykład x ja .

Warianty (obiekty) populacji statystycznej charakteryzują się różnymi cechami, w tym także tymi, na podstawie których są łączone w populację.

Cecha, która zmienia swoje znaczenie z jednego obiektu na inny, nazywa się cecha zmienna, a samo zjawisko nazywa się zmiana.

Cechy jakościowe- są to znaki, które nie mają wyrazu ilościowego. To są cechy niemierzalne.

Przykład: kolor, smak, zapach.

Charakterystyka ilościowa- Są to cechy mierzalne, wyrażone określoną liczbą.

Przykład: waga, długość, gęstość, temperatura.

Dyskretne cechy ilościowe- Są to cechy ilościowe wyrażone w liczbach całkowitych.

Przykład: liczba uczniów w grupie, pasażerowie autobusu, płatki kwiatu.

Ciągłe cechy ilościowe- są to cechy ilościowe wyrażone zarówno w liczbach całkowitych, jak i ułamkowych.

Przykład: arbuz waży 7 kg, melon waży 1,7 kg.

Znak interwału jest cechą ilościową, której wartość liczbowa mieści się w pewnych granicach zwanych przedziałami.

Przykład: mierząc wzrost uczniów, można wyróżnić grupy interwałowe 160 - 169 cm, 170 - 179 cm, 180 - 190 cm.

Częstotliwość występowania (częstotliwość bezwzględna)- liczba pokazująca, ile razy obiekt o danej wartości liczbowej cechy występuje w populacji lub jej przedziale.

Częstotliwość bezwzględna jest oznaczona symbolem n ja (µi).

Suma wszystkich częstotliwości bezwzględnych jest równa objętości populacji N, dla której obliczane są częstości: ∑n i = N

Przykład: liczba mężczyzn i kobiet w grupie musi być równa całkowitej liczbie uczniów w tej grupie.

Częstotliwość (częstotliwość względna)- liczba równa stosunkowi częstotliwości bezwzględnej do objętości populacji.

Częstotliwość jest oznaczona symbolem F i obliczane ze wzoru:

w ułamkach jednostkowych: f ja = ,

w procentach: f ja = 100%

Tutaj n ja - częstotliwość bezwzględna, N - wielkość populacji równa sumie wszystkich częstotliwości bezwzględnych.

Suma wszystkich częstotliwości względnych jest równa 1: ∑ f ja = 1

Przykład: w grupie studenckiej składającej się z piętnastu osób (liczba ludności N=15) 12 studentek (częstotliwość bezwzględna N 1 =12) i 3 uczniów (częstotliwość bezwzględna N 2 =3). Częstotliwość F 1 będzie równa 12/15 i częstotliwość F 2 =3/15. W tym przypadku suma częstotliwości lub częstotliwości względnych jest równa jedności.

W statystyce częstotliwości względne lub częstotliwości nazywane są wagami.

3. SERIE DYSTRYBUCYJNE, ICH RODZAJE I SPOSOBY PRZEDSTAWIANIA.

Zakres dystrybucji to ciąg liczb wskazujący wartość jakościową lub ilościową cechy oraz częstotliwość jej występowania.

Rodzaje szeregów dystrybucyjnych są klasyfikowane według różnych zasad.

Ze względu na stopień uporządkowania rzędy dzielą się na:

ü nieuporządkowany

zamówiłem

Nieuporządkowany wiersz- jest to seria, w której zapisywane są wartości cechy w kolejności, w jakiej pojawiły się opcje w trakcie badania.

Przykład: Badając wzrost grupy uczniów, jego wartości zapisano w cm (175 170 168 173 179).

Zamówiona seria- jest to szereg uzyskany z nieuporządkowanej, w którym wartości cechy są przepisywane w kolejności rosnącej lub malejącej. Uporządkowaną serię nazywa się rankingową i procedurą rankingową

(porządkowanie) nazywa się sortowaniem.

Przykład: (Wysokość 168,170,173,175,179)

Ze względu na rodzaj cechy szeregi rozkładów dzielą się na:

ü atrybutywny

ü wariacyjny.

Seria atrybutywna- jest to seria opracowana na podstawie cechy jakościowej.

Seria odmian- jest to szereg opracowany na podstawie cechy ilościowej.

Szeregi zmienności dzielą się na dyskretne, ciągłe i interwałowe.

Wariacyjne szeregi dyskretne, ciągłe i całkowe nazywane są zgodnie z odpowiednią cechą leżącą u podstaw kompilacji szeregu. Na przykład seria według rozmiaru buta jest dyskretna w zależności od masy ciała - ciągła.

Metody przedstawiania serii w medycynie praktycznej i naukowej dzielą się na trzy grupy:

  1. Prezentacja tabelaryczna;
  2. Reprezentacja analityczna (w formie wzoru);
  3. Reprezentacja graficzna.

Przedmiotem badań statystyki stosowanej są dane statystyczne uzyskane w wyniku obserwacji lub eksperymentów. Dane statystyczne to zbiór obiektów (obserwacji, przypadków) i znaków (zmiennych), które je charakteryzują. Przedmiotem badań są na przykład kraje świata oraz cechy, wskaźniki geograficzne i ekonomiczne, które je charakteryzują: kontynent; wysokość nad poziomem morza; średnia roczna temperatura; miejsce kraju na liście pod względem jakości życia, udziału w PKB na mieszkańca; wydatki społeczeństwa na opiekę zdrowotną, edukację i wojsko; średnia długość życia; odsetek bezrobocia, analfabetyzm; wskaźnik jakości życia itp.
Zmienne to wielkości, które w wyniku pomiaru mogą przyjmować różne wartości.
Zmienne niezależne to zmienne, których wartości można zmieniać w trakcie eksperymentu, natomiast zmienne zależne to zmienne, których wartości można jedynie zmierzyć.
Zmienne można mierzyć w różnych skalach. O różnicy pomiędzy skalami decyduje ich zawartość informacyjna. Rozważane są następujące rodzaje skal, przedstawione w kolejności rosnącej ich zawartości informacyjnej: skala nominalna, porządkowa, przedziałowa, skala ilorazowa, bezwzględna. Skale te różnią się także liczbą dopuszczalnych operacji matematycznych. Skala „najbiedniejsza” jest skalą nominalną, gdyż nie jest zdefiniowana ani jedna operacja arytmetyczna, natomiast skala „najbogatsza” jest skalą bezwzględną.
Pomiar w skali nominalnej (klasyfikacyjnej) polega na ustaleniu, czy obiekt (obserwacja) należy do określonej klasy. Na przykład: płeć, branża, zawód, kontynent itp. W tej skali można policzyć jedynie liczbę obiektów w klasach – częstotliwość i częstotliwość względną.
Pomiar na skali porządkowej (rangi), oprócz określenia klasy przynależności, pozwala na uporządkowanie obserwacji poprzez porównanie ich ze sobą pod jakimś względem. Skala ta nie określa jednak odległości między klasami, a jedynie to, która z dwóch obserwacji jest preferowana. Dlatego porządkowe dane eksperymentalne, nawet jeśli są reprezentowane przez liczby, nie mogą być uważane za liczby i nie można na nich wykonywać działań arytmetycznych 5 . W tej skali oprócz obliczenia częstotliwości obiektu można obliczyć rangę obiektu. Przykładowe zmienne mierzone na skali porządkowej: oceny uczniów, nagrody w konkursach, stopnie wojskowe, miejsce kraju na liście jakości życia itp. Czasami zmienne nominalne i porządkowe nazywane są kategorialnymi lub grupującymi, ponieważ pozwalają na podzielenie obiektów badań na podgrupy.
Przy pomiarach na skali interwałowej kolejność obserwacji można ustalić na tyle precyzyjnie, że znane są odległości pomiędzy dowolnymi dwoma z nich. Skala przedziałowa jest jednoznaczna aż do przekształceń liniowych (y = ax + b). Oznacza to, że skala ma dowolny punkt odniesienia – umowne zero. Przykładowe wielkości mierzone na skali interwałowej: temperatura, czas, wysokość nad poziomem morza. Do określenia odległości między obserwacjami można wykorzystać zmienne na danej skali. Odległości są liczbami pełnymi i można na nich wykonywać dowolne operacje arytmetyczne.
Skala ilorazowa jest podobna do skali przedziałowej, lecz jest jedyna w swoim rodzaju aż do przekształcenia postaci y = ax. Oznacza to, że skala ma stały punkt odniesienia - zero absolutne, ale dowolną skalę pomiaru. Przykładowe zmienne mierzone w skali wskaźnikowej: długość, waga, prąd, ilość pieniędzy, wydatki społeczeństwa na opiekę zdrowotną, oświatę, wojsko, średnia długość życia itp. Pomiary na tej skali są pełnoprawnymi liczbami i można na nich wykonywać dowolne operacje arytmetyczne.
Skala absolutna ma zarówno zero absolutne, jak i absolutną jednostkę miary (skalę). Przykładem skali absolutnej jest oś liczbowa. Skala ta jest bezwymiarowa, więc pomiary na niej można wykorzystać jako wykładnik lub podstawę logarytmu. Przykłady pomiarów w skali bezwzględnej: stopa bezrobocia; odsetek analfabetów, wskaźnik jakości życia itp.
Większość metod statystycznych należy do metod statystyki parametrycznej, które opierają się na założeniu, że losowy wektor zmiennych tworzy rozkład wielowymiarowy, zwykle normalny lub przekształcony do rozkładu normalnego. Jeżeli założenie to nie zostanie potwierdzone, należy zastosować nieparametryczne metody statystyki matematycznej.

Analiza korelacji. Pomiędzy zmiennymi może istnieć związek funkcjonalny (zmiennymi losowymi), który objawia się tym, że jedna z nich jest definiowana jako funkcja drugiej. Ale pomiędzy zmiennymi może zachodzić także powiązanie innego rodzaju, objawiające się tym, że jedna z nich reaguje na zmianę drugiej, zmieniając swoje prawo rozkładu. Taka zależność nazywa się stochastyczną. Pojawia się, gdy istnieją wspólne czynniki losowe wpływające na obie zmienne. Jako miarę zależności między zmiennymi stosuje się współczynnik korelacji (r), który waha się od –1 do +1. Jeśli współczynnik korelacji jest ujemny, oznacza to, że wraz ze wzrostem wartości jednej zmiennej zmniejszają się wartości drugiej. Jeżeli zmienne są niezależne, wówczas współczynnik korelacji wynosi 0 (odwrotnie jest tylko w przypadku zmiennych o rozkładzie normalnym). Jeśli jednak współczynnik korelacji nie jest równy 0 (zmienne nazywane są nieskorelowanymi), oznacza to, że istnieje zależność między zmiennymi. Im wartość r jest bliższa 1, tym silniejsza jest zależność. Współczynnik korelacji osiąga wartości graniczne +1 lub -1 wtedy i tylko wtedy, gdy zależność między zmiennymi jest liniowa. Analiza korelacji pozwala określić siłę i kierunek stochastycznego związku pomiędzy zmiennymi (zmiennymi losowymi). Jeżeli zmienne są mierzone co najmniej w skali przedziałowej i mają rozkład normalny, wówczas analizę korelacji przeprowadza się poprzez obliczenie współczynnika korelacji Pearsona, w przeciwnym razie stosuje się korelacje Spearmana, tau Kendala lub korelacje Gamma.

Analiza regresji. Analiza regresji modeluje związek jednej zmiennej losowej z jedną lub większą liczbą innych zmiennych losowych. W tym przypadku pierwszą zmienną nazywamy zależną, a pozostałe nazywamy niezależnymi. Wybór lub przypisanie zmiennych zależnych i niezależnych ma charakter arbitralny (warunkowy) i dokonywany jest przez badacza w zależności od rozwiązywanego przez niego problemu. Zmienne niezależne nazywane są czynnikami, regresorami lub predyktorami, a zmienna zależna nazywana jest cechą wyniku lub reakcją.
Jeśli liczba predyktorów wynosi 1, regresję nazywa się prostą lub jednowymiarową; jeśli liczba predyktorów jest większa niż 1, nazywa się ją wielokrotną lub wieloczynnikową. Ogólnie model regresji można zapisać w następujący sposób:

Y = f(x 1, x 2, …, x n),

Gdzie y jest zmienną zależną (odpowiedzią), x i (i = 1,..., n) są predyktorami (czynnikami), n jest liczbą predyktorów.
Korzystając z analizy regresji, można rozwiązać szereg problemów ważnych dla badanego problemu:
1). Zmniejszenie wymiaru przestrzeni analizowanych zmiennych (przestrzeni czynnikowej) poprzez zastąpienie części czynników jedną zmienną – reakcją. Problem ten można pełniej rozwiązać za pomocą analizy czynnikowej.
2). Ilościowy pomiar wpływu każdego czynnika, tj. Regresja wielokrotna pozwala badaczowi zadać pytanie (i prawdopodobnie odpowiedzieć) „jaki jest najlepszy predyktor…”. Jednocześnie wpływ poszczególnych czynników na reakcję staje się wyraźniejszy, a badacz lepiej rozumie naturę badanego zjawiska.
3). Obliczanie przewidywanych wartości odpowiedzi dla określonych wartości czynników, tj. Analiza regresji tworzy podstawę do eksperymentu obliczeniowego w celu uzyskania odpowiedzi na pytania typu „Co się stanie, jeśli…”.
4). W analizie regresji mechanizm przyczynowo-skutkowy pojawia się w bardziej jednoznacznej formie. W tym przypadku prognoza lepiej poddaje się sensownej interpretacji.

Analiza kanoniczna. Analiza kanoniczna ma na celu analizę zależności pomiędzy dwiema listami cech (zmiennych niezależnych) charakteryzujących obiekty. Można na przykład badać związek między różnymi niekorzystnymi czynnikami a pojawieniem się określonej grupy objawów choroby lub związek między dwiema grupami parametrów klinicznych i laboratoryjnych (zespołów) pacjenta. Analiza kanoniczna to uogólnienie korelacji wielokrotnej jako miary związku między jedną zmienną a wieloma innymi zmiennymi. Jak wiadomo, korelacja wielokrotna to maksymalna korelacja między jedną zmienną a funkcją liniową innych zmiennych. Koncepcję tę uogólniono na przypadek powiązań pomiędzy zbiorami zmiennych – cech charakteryzujących obiekty. W tym przypadku wystarczy ograniczyć się do rozważenia niewielkiej liczby najbardziej skorelowanych kombinacji liniowych z każdego zbioru. Niech np. pierwszy zbiór zmiennych składa się z atrybutów y1, ..., ur, drugi zbiór składa się z - x1, ..., xq, wówczas związek pomiędzy tymi zbiorami można ocenić jako korelację pomiędzy kombinacjami liniowymi a1y1 + a2y2 + ... + apyp, b1x1 + b2x2 + ... + bqxq, co nazywa się korelacją kanoniczną. Zadaniem analizy kanonicznej jest znalezienie takich współczynników wagowych, aby korelacja kanoniczna była maksymalna.

Metody porównywania średnich. W badaniach stosowanych często zdarzają się przypadki, gdy średni wynik jakiejś cechy jednej serii eksperymentów różni się od średniego wyniku innej serii. Ponieważ średnie są wynikami pomiarów, z reguły zawsze się różnią, pytanie brzmi, czy wykrytą rozbieżność w średnich można wytłumaczyć nieuniknionymi przypadkowymi błędami eksperymentalnymi, czy też jest ona spowodowana pewnymi przyczynami. Jeśli mówimy o porównaniu dwóch średnich, można zastosować test Studenta (test t). Jest to kryterium parametryczne, gdyż zakłada się, że cecha ma rozkład normalny w każdej serii eksperymentów. Obecnie modne stało się stosowanie kryteriów nieparametrycznych do porównywania średnich.
Porównanie wyników średnich jest jednym ze sposobów identyfikacji zależności pomiędzy zmiennymi cechami charakteryzującymi badany zbiór obiektów (obserwacje). Jeżeli przy podziale obiektów badawczych na podgrupy za pomocą kategorycznej zmiennej niezależnej (predyktora) hipoteza o nierówności średnich jakiejś zmiennej zależnej w podgrupach jest prawdziwa, to oznacza to, że pomiędzy tą zmienną zależną a kategoryczną istnieje związek stochastyczny urządzenie prognozujące. Jeśli więc np. zostanie ustalone, że hipoteza o równości przeciętnych wskaźników rozwoju fizycznego i intelektualnego dzieci w grupach matek palących i niepalących w czasie ciąży jest błędna, oznacza to, że istnieje związek pomiędzy palenie przez matkę dziecka w czasie ciąży a jego rozwój intelektualny i fizyczny.
Najpopularniejszą metodą porównywania średnich jest analiza wariancji. W terminologii ANOVA predyktor kategoryczny nazywany jest czynnikiem.
Analizę wariancji można zdefiniować jako parametryczną metodę statystyczną, mającą na celu ocenę wpływu różnych czynników na wynik eksperymentu, a także późniejsze planowanie eksperymentów. Dlatego w analizie wariancji możliwe jest badanie zależności cechy ilościowej od jednej lub większej liczby cech jakościowych czynników. Jeżeli brany jest pod uwagę jeden czynnik, wówczas stosuje się jednoczynnikową analizę wariancji, w przeciwnym razie stosuje się wieloczynnikową analizę wariancji.

Analiza częstotliwości. Tablice częstości, zwane także tablicami jednokrotnego zapisu, są najprostszą metodą analizy zmiennych kategorycznych. Tablice częstości można z powodzeniem stosować także do badania zmiennych ilościowych, choć mogą powodować trudności w interpretacji wyników. Tego typu badania statystyczne są często wykorzystywane jako jedna z procedur analizy eksploracyjnej, aby sprawdzić, jak rozmieszczone są różne grupy obserwacji w próbie lub jak wartość cechy rozkłada się w przedziale od wartości minimalnej do maksymalnej. Zazwyczaj tabele częstości są ilustrowane graficznie za pomocą histogramów.

Tabela krzyżowa (koniugacja)– proces łączenia dwóch (lub więcej) tabel częstości w taki sposób, że każda komórka w skonstruowanej tabeli jest reprezentowana przez pojedynczą kombinację wartości lub poziomów tabelarycznych zmiennych. Tabela krzyżowa umożliwia łączenie częstości występowania obserwacji na różnych poziomach uwzględnianych czynników. Badając te częstotliwości, można zidentyfikować powiązania pomiędzy zmiennymi tabelarycznymi i zbadać strukturę tego powiązania. Zazwyczaj tabelaryczne są zmienne kategoryczne lub ilościowe o stosunkowo małej liczbie wartości. Jeśli chcesz zestawić zmienną ciągłą (powiedzmy poziom cukru we krwi), to powinieneś ją najpierw przekodować, dzieląc zakres zmian na niewielką liczbę przedziałów (na przykład poziom: niski, średni, wysoki).

Analiza korespondencji. Analiza korespondencji w porównaniu z analizą częstotliwości zapewnia skuteczniejsze metody opisowe i eksploracyjne do analizy tabel z dwoma i wieloma wpisami. Metoda, podobnie jak tablice kontyngencji, pozwala na badanie struktury i zależności zmiennych grupujących zawartych w tabeli. W klasycznej analizie korespondencji częstości w tabeli kontyngencji są standaryzowane (normalizowane), tak aby suma elementów we wszystkich komórkach była równa 1.
Jednym z celów analizy korespondencji jest przedstawienie zawartości tabeli częstości względnych jako odległości pomiędzy poszczególnymi wierszami i/lub kolumnami tabeli w przestrzeni o niższych wymiarach.

Analiza skupień. Analiza skupień jest metodą analizy klasyfikacyjnej; jego głównym celem jest podzielenie zbioru badanych obiektów i cech na grupy lub skupienia, które są w pewnym sensie jednorodne. Jest to wieloczynnikowa metoda statystyczna, dlatego zakłada się, że dane pierwotne mogą mieć znaczną objętość, tj. Zarówno liczba obiektów badawczych (obserwacji), jak i cechy charakteryzujące te obiekty mogą być znacznie duże. Wielką zaletą analizy skupień jest to, że umożliwia ona podział obiektów nie według jednego kryterium, ale według szeregu cech. Ponadto analiza skupień, w przeciwieństwie do większości metod matematycznych i statystycznych, nie nakłada żadnych ograniczeń co do rodzaju rozpatrywanych obiektów i pozwala na badanie różnorodnych danych wyjściowych o niemal dowolnym charakterze. Ponieważ skupienia są grupami jednorodności, zadaniem analizy skupień jest, na podstawie charakterystyki obiektów, podzielenie ich zbioru na m (m jest liczbą całkowitą) skupień tak, aby każdy obiekt należał tylko do jednej grupy podziału. W tym przypadku obiekty należące do jednego skupienia muszą być jednorodne (podobne), a obiekty należące do różnych skupień muszą być heterogeniczne. Jeżeli obiekty grupujące przedstawiamy jako punkty w n-wymiarowej przestrzeni cech (n jest liczbą cech charakteryzujących obiekty), wówczas podobieństwo obiektów określa się poprzez koncepcję odległości między punktami, gdyż intuicyjnie jest jasne, że im mniejsza odległość między obiektami, tym bardziej są one podobne.

Analiza dyskryminacyjna. Analiza dyskryminacyjna obejmuje statystyczne metody klasyfikacji obserwacji wielowymiarowych w sytuacji, gdy badacz dysponuje tzw. próbami uczącymi. Analiza tego typu jest wielowymiarowa, gdyż wykorzystuje kilka cech obiektu, których liczba może być dowolnie duża. Celem analizy dyskryminacyjnej jest zaklasyfikowanie go na podstawie pomiaru różnych cech (cech) obiektu, czyli przypisanie go w jakiś optymalny sposób do jednej z kilku określonych grup (klas). W tym przypadku zakłada się, że dane źródłowe wraz z charakterystyką obiektów zawierają zmienną kategorialną (grupującą), która określa, czy obiekt należy do określonej grupy. Dlatego analiza dyskryminacyjna polega na sprawdzeniu zgodności klasyfikacji przeprowadzonej metodą z pierwotną klasyfikacją empiryczną. Przez optymalną metodę rozumie się albo minimalne matematyczne oczekiwanie strat, albo minimalne prawdopodobieństwo fałszywej klasyfikacji. W ogólnym przypadku problem dyskryminacji (dyskryminacji) jest sformułowany w następujący sposób. Niech wynikiem obserwacji obiektu będzie konstrukcja k-wymiarowego wektora losowego X = (X1, X2, ..., XK), gdzie X1, X2, ..., XK są charakterystykami obiektu. Należy ustalić regułę, zgodnie z którą na podstawie wartości współrzędnych wektora X obiekt przypisuje się do jednego z możliwych zbiorów i, i = 1, 2, ..., n. Metody dyskryminacji można podzielić na parametryczne i nieparametryczne. W parametrycznych wiadomo, że rozkład wektorów cech w każdej populacji jest normalny, brak jednak informacji o parametrach tych rozkładów. Metody dyskryminacji nieparametrycznej nie wymagają znajomości dokładnej postaci funkcjonalnej rozkładów i pozwalają na rozwiązywanie problemów dyskryminacji w oparciu o nieistotne a priori informacje o populacjach, co jest szczególnie cenne w zastosowaniach praktycznych. Jeżeli spełnione są warunki stosowalności analizy dyskryminacyjnej – zmienne niezależne-znaki (zwane także predyktorami) muszą być mierzone przynajmniej na skali przedziałowej, ich rozkład musi odpowiadać prawu normalnemu, konieczne jest zastosowanie klasycznej analizy dyskryminacyjnej , w przeciwnym razie - metoda ogólnych modeli analizy dyskryminacyjnej.

Analiza czynników. Analiza czynnikowa jest jedną z najpopularniejszych metod statystyki wieloczynnikowej. Jeżeli metody skupieniowe i dyskryminacyjne klasyfikują obserwacje, dzieląc je na grupy jednorodności, to analiza czynnikowa klasyfikuje cechy (zmienne) opisujące obserwacje. Dlatego głównym celem analizy czynnikowej jest redukcja liczby zmiennych w oparciu o klasyfikację zmiennych i określenie struktury zależności między nimi. Redukcję osiąga się poprzez identyfikację ukrytych (utajonych) wspólnych czynników wyjaśniających zależności pomiędzy obserwowanymi cechami obiektu, tj. Zamiast pierwotnego zbioru zmiennych możliwa będzie analiza danych według wybranych czynników, których liczba jest znacznie mniejsza niż pierwotna liczba powiązanych ze sobą zmiennych.

Drzewa klasyfikacyjne. Drzewa klasyfikacyjne to metoda analizy klasyfikacyjnej, która pozwala przewidzieć, czy obiekty należą do określonej klasy w zależności od odpowiadających im wartości cech charakteryzujących obiekty. Charakterystyki nazywane są zmiennymi niezależnymi, a zmienna wskazująca przynależność obiektów do klas nazywana jest zależną. W przeciwieństwie do klasycznej analizy dyskryminacyjnej, drzewa klasyfikacyjne umożliwiają jednowymiarowe rozgałęzianie zmiennych różnych typów: kategorycznych, porządkowych i przedziałowych. Na prawo rozkładu zmiennych ilościowych nie nakłada się żadnych ograniczeń. Metoda ta, analogicznie do analizy dyskryminacyjnej, pozwala na analizę wkładu poszczególnych zmiennych do procedury klasyfikacyjnej. Drzewa klasyfikacyjne mogą być, a czasami są, bardzo złożone. Jednakże zastosowanie specjalnych procedur graficznych pozwala uprościć interpretację wyników nawet w przypadku bardzo skomplikowanych drzew. Możliwość graficznej prezentacji wyników oraz łatwość interpretacji w dużej mierze wyjaśniają dużą popularność drzew klasyfikacyjnych w obszarach zastosowań, jednak najważniejszymi cechami wyróżniającymi drzewa klasyfikacyjne jest ich hierarchia i szerokie zastosowanie. Struktura metody jest taka, że ​​użytkownik ma możliwość budowania drzew o dowolnej złożoności przy użyciu kontrolowanych parametrów, osiągając minimalne błędy klasyfikacji. Jednak przy użyciu złożonego drzewa, ze względu na duży zbiór reguł decyzyjnych, trudno jest sklasyfikować nowy obiekt. Dlatego konstruując drzewo klasyfikacyjne, użytkownik musi znaleźć rozsądny kompromis pomiędzy złożonością drzewa a złożonością procedury klasyfikacyjnej. Szeroki zakres zastosowań drzew klasyfikacyjnych czyni je bardzo atrakcyjnym narzędziem do analizy danych, nie należy jednak zakładać, że jest ono zalecane do stosowania w miejsce tradycyjnych metod analizy klasyfikacyjnej. Wręcz przeciwnie, jeśli zostaną spełnione bardziej rygorystyczne założenia teoretyczne narzucane metodami tradycyjnymi, a rozkład próby będzie miał pewne szczególne właściwości (np. rozkład zmiennych odpowiada prawu normalnemu), wówczas zastosowanie metod tradycyjnych będzie bardziej efektywne . Jednakże, jako metoda analizy eksploracyjnej lub jako ostateczność, gdy zawiodą wszystkie tradycyjne metody, Drzewa Klasyfikacyjne, zdaniem wielu badaczy, nie mają sobie równych.

Analiza i klasyfikacja głównych składników. W praktyce często pojawia się zadanie analizy danych wielowymiarowych. Metoda analizy i klasyfikacji głównych składowych pozwala rozwiązać ten problem i służy dwóm celom:
– ograniczanie całkowitej liczby zmiennych (redukcja danych) w celu uzyskania zmiennych „głównych” i „nieskorelowanych”;
– klasyfikacja zmiennych i obserwacji z wykorzystaniem konstruowanej przestrzeni czynnikowej.
Metoda jest podobna do analizy czynnikowej w formułowaniu rozwiązywanych problemów, ale ma wiele istotnych różnic:
– przy analizie składowych głównych nie stosuje się metod iteracyjnych w celu wyodrębnienia czynników;
– wraz z aktywnymi zmiennymi i obserwacjami używanymi do wyodrębniania składowych głównych można określić zmienne pomocnicze i/lub obserwacje; następnie rzutuje się zmienne pomocnicze i obserwacje na przestrzeń czynnikową obliczoną na podstawie aktywnych zmiennych i obserwacji;
– wymienione możliwości pozwalają na wykorzystanie metody jako potężnego narzędzia do klasyfikacji zarówno zmiennych, jak i obserwacji.
Rozwiązanie głównego problemu metody uzyskuje się poprzez utworzenie przestrzeni wektorowej ukrytych (ukrytych) zmiennych (czynników) o wymiarze mniejszym niż pierwotny. Wymiar początkowy jest określony przez liczbę zmiennych do analizy w danych oryginalnych.

Skalowanie wielowymiarowe. Metodę tę można traktować jako alternatywę dla analizy czynnikowej, w której redukcję liczby zmiennych osiąga się poprzez wyodrębnienie czynników ukrytych (nie bezpośrednio obserwowalnych), wyjaśniających zależności pomiędzy obserwowanymi zmiennymi. Celem skalowania wielowymiarowego jest znalezienie i zinterpretowanie ukrytych zmiennych, które umożliwiają użytkownikowi wyjaśnienie podobieństw między obiektami przy danych punktach w oryginalnej przestrzeni cech. Wskaźnikami podobieństwa obiektów w praktyce mogą być odległości lub stopnie powiązania między nimi. W analizie czynnikowej podobieństwa między zmiennymi wyraża się za pomocą macierzy współczynników korelacji. W skalowaniu wielowymiarowym jako dane początkowe można zastosować dowolny rodzaj macierzy podobieństwa obiektów: odległości, korelacje itp. Pomimo wielu podobieństw w charakterze badanych zagadnień, metody skalowania wielowymiarowego i analizy czynnikowej wykazują szereg istotnych różnic. Zatem analiza czynnikowa wymaga, aby badane dane podlegały wielowymiarowemu rozkładowi normalnemu, a zależności muszą mieć charakter liniowy. Skalowanie wielowymiarowe nie narzuca takich ograniczeń, można je zastosować, jeśli podana jest macierz podobieństw parami obiektów. Jeśli chodzi o różnice w uzyskanych wynikach, analiza czynnikowa ma tendencję do wyodrębniania większej liczby czynników – zmiennych ukrytych w porównaniu ze skalowaniem wielowymiarowym. Dlatego skalowanie wielowymiarowe często prowadzi do rozwiązań łatwiejszych do interpretacji. Co jednak ważniejsze, skalowanie wielowymiarowe można zastosować do dowolnego rodzaju odległości lub podobieństwa, podczas gdy analiza czynnikowa wymaga wykorzystania macierzy korelacji zmiennych jako danych wejściowych lub najpierw obliczenia macierzy korelacji z pliku danych wejściowych. Podstawowym założeniem skalowania wielowymiarowego jest istnienie pewnej przestrzeni metrycznej o zasadniczych podstawowych charakterystykach, która pośrednio posłużyła za podstawę uzyskanych danych empirycznych na temat bliskości par obiektów. Dlatego obiekty można przedstawić jako punkty w tej przestrzeni. Zakłada się także, że obiektom znajdującym się bliżej (zgodnie z pierwotną matrycą) odpowiadają mniejsze odległości w przestrzeni podstawowych charakterystyk. Skalowanie wielowymiarowe to zatem zestaw metod analizy danych empirycznych dotyczących bliskości obiektów, za pomocą których wyznacza się wymiar przestrzeni cech mierzonych obiektów, które są istotne dla danego sensownego zadania i konfiguruje konfigurację punktów (obiekty) w tej przestrzeni są zbudowane. Przestrzeń ta („skala wielowymiarowa”) przypomina skale powszechnie stosowane w tym sensie, że wartościom istotnych charakterystyk mierzonych obiektów odpowiadają określone pozycje na osiach przestrzeni. Logikę skalowania wielowymiarowego można zilustrować następującym prostym przykładem. Załóżmy, że istnieje macierz odległości parami (tj. podobieństw niektórych cech) pomiędzy niektórymi miastami. Analizując macierz, należy zlokalizować punkty posiadające współrzędne miast w przestrzeni dwuwymiarowej (na płaszczyźnie), zachowując w miarę możliwości rzeczywiste odległości między nimi. Powstałe w ten sposób rozmieszczenie punktów na płaszczyźnie można później wykorzystać jako przybliżoną mapę geograficzną. W ogólnym przypadku skalowanie wielowymiarowe pozwala na rozmieszczenie obiektów (w naszym przykładzie miast) w przestrzeni o pewnym małym wymiarze (w tym przypadku równym dwa), aby odpowiednio odtworzyć zaobserwowane odległości między nimi. W rezultacie odległości te można zmierzyć w oparciu o znalezione zmienne ukryte. Zatem w naszym przykładzie możemy wyjaśnić odległości za pomocą pary współrzędnych geograficznych Północ/Południe i Wschód/Zachód.

Modelowanie równań strukturalnych (modelowanie przyczynowe). Ostatni postęp w dziedzinie wielowymiarowej analizy statystycznej i analizy struktur korelacyjnych, w połączeniu z najnowszymi algorytmami obliczeniowymi, stał się punktem wyjścia do stworzenia nowej, ale już uznanej techniki modelowania równań strukturalnych (SEPATH). Ta niezwykle potężna technika analizy wielowymiarowej obejmuje metody z różnych dziedzin statystyki, w naturalny sposób rozwinięto i połączono tutaj regresję wielokrotną i analizę czynnikową.
Przedmiotem modelowania równań strukturalnych są układy złożone, których struktura wewnętrzna jest nieznana („czarna skrzynka”). Obserwując parametry systemu za pomocą SEPATH, można poznać jego strukturę i ustalić związki przyczynowo-skutkowe pomiędzy elementami systemu.
Sformułowanie problemu modelowania strukturalnego jest następujące. Niech istnieją zmienne, dla których znane są momenty statystyczne, na przykład macierz współczynników korelacji próbki lub kowariancji. Takie zmienne nazywane są jawnymi. Mogą to być cechy złożonego systemu. Rzeczywiste relacje między obserwowanymi zmiennymi jawnymi mogą być dość złożone, ale zakładamy, że istnieje szereg zmiennych ukrytych, które z pewnym stopniem dokładności wyjaśniają strukturę tych zależności. W ten sposób za pomocą zmiennych ukrytych budowany jest model zależności pomiędzy zmiennymi jawnymi i ukrytymi. W niektórych problemach zmienne ukryte można uznać za przyczyny, a jawne za konsekwencje, dlatego takie modele nazywa się przyczynowymi. Zakłada się, że zmienne ukryte mogą być ze sobą powiązane. Zakłada się, że struktura połączeń jest dość złożona, postuluje się jednak jej rodzaj - są to połączenia opisane równaniami liniowymi. Niektóre parametry modeli liniowych są znane, inne nie i są to parametry dowolne.
Podstawową ideą modelowania równań strukturalnych jest to, że można sprawdzić, czy zmienne Y i X są powiązane liniowo przez Y = aX, analizując ich wariancje i kowariancje. Pomysł ten opiera się na prostej właściwości średniej i wariancji: jeśli pomnożysz każdą liczbę przez pewną stałą k, średnia również zostanie pomnożona przez k, a odchylenie standardowe zostanie pomnożone przez moduł k. Rozważmy na przykład zbiór trzech liczb 1, 2, 3. Liczby te mają średnią 2 i odchylenie standardowe 1. Jeśli pomnożysz wszystkie trzy liczby przez 4, możesz łatwo obliczyć, że średnia wynosi 8, standardowa odchylenie wynosi 4, a wariancja wynosi 16. Zatem jeśli istnieją zbiory liczb X i Y powiązane zależnością Y = 4X, to wariancja Y powinna być 16 razy większa niż wariancja X. Dlatego możemy przetestować hipotezę, że Y i X są powiązanymi równaniami Y = 4X, porównanie wariancji zmiennych Y i X. Pomysł ten można uogólnić na różne sposoby na kilka zmiennych powiązanych układem równań liniowych. Jednocześnie zasady transformacji stają się bardziej kłopotliwe, obliczenia bardziej złożone, ale podstawowa idea pozostaje ta sama – można sprawdzić, czy zmienne są powiązane liniowo, badając ich wariancje i kowariancje.

Metody analizy przeżycia. Metody analizy przeżycia zostały pierwotnie opracowane w badaniach medycznych, biologicznych i ubezpieczeniowych, ale następnie stały się szeroko stosowane w naukach społecznych i ekonomicznych, a także w przemyśle w zagadnieniach inżynierskich (analiza niezawodności i czasów awarii). Wyobraź sobie, że badana jest skuteczność nowego leczenia lub leku. Oczywiście najważniejszą i obiektywną cechą jest średnia długość życia pacjentów od momentu przyjęcia do kliniki lub średni czas trwania remisji choroby. Do opisu średniego czasu przeżycia lub remisji można zastosować standardowe metody parametryczne i nieparametryczne. W analizowanych danych jest jednak istotna cecha – mogą zdarzać się pacjenci, którzy przeżyli cały okres obserwacji, a u części z nich choroba jest nadal w remisji. Może także utworzyć się grupa pacjentów, z którymi kontakt utracono przed zakończeniem eksperymentu (np. zostali przeniesieni do innych klinik). Stosując standardowe metody szacowania średniej, tę grupę pacjentów należałoby wykluczyć, tracąc w ten sposób ważne, ciężko zdobyte informacje. Ponadto większość tych pacjentów przeżyła (wyzdrowiała) w okresie obserwacji, co stanowi dowód na korzyść nowego leczenia (leku). Tego rodzaju informacje, gdy nie ma danych o wystąpieniu interesującego nas zdarzenia, nazywane są niekompletnymi. Jeśli istnieją dane o wystąpieniu interesującego nas zdarzenia, wówczas informację nazywa się pełną. Obserwacje zawierające niekompletne informacje nazywane są obserwacjami ocenzurowanymi. Obserwacje cenzurowane są typowe, gdy obserwowana wielkość reprezentuje czas do wystąpienia jakiegoś krytycznego zdarzenia, a czas trwania obserwacji jest ograniczony w czasie. Stosowanie ocenzurowanych obserwacji jest specyficzne dla rozważanej metody – analizy przeżycia. Metoda ta bada probabilistyczną charakterystykę odstępów czasu pomiędzy kolejnymi wystąpieniami zdarzeń krytycznych. Badania tego rodzaju nazywane są analizą czasów trwania do momentu zakończenia, który można zdefiniować jako odstępy czasu pomiędzy rozpoczęciem obserwacji obiektu a momentem zakończenia, w którym obiekt przestaje spełniać właściwości określone do obserwacji. Celem badania jest określenie prawdopodobieństw warunkowych związanych z czasem trwania umowy do rozwiązania umowy. Konstruowanie tablic trwania życia, dopasowywanie rozkładu przeżycia i szacowanie funkcji przeżycia za pomocą procedury Kaplana – Meiera to opisowe metody badania cenzurowanych danych. Niektóre z proponowanych metod pozwalają na porównanie przeżycia w dwóch lub większej liczbie grup. Wreszcie analiza przeżycia zawiera modele regresji w celu oszacowania zależności między wielowymiarowymi zmiennymi ciągłymi o wartościach podobnych do czasów życia.
Ogólne modele analizy dyskryminacyjnej. Jeżeli nie są spełnione warunki stosowalności analizy dyskryminacyjnej (DA) – zmienne niezależne (predyktory) należy mierzyć przynajmniej na skali przedziałowej, ich rozkład musi odpowiadać prawu normalnemu, konieczne jest zastosowanie ogólnego modelu analizy dyskryminacyjnej metoda analizy (GDA). Metoda została tak nazwana, ponieważ wykorzystuje ogólny model liniowy (GLM) do analizy funkcji dyskryminacyjnych. W tym module analiza funkcji dyskryminacyjnych jest postrzegana jako ogólny wielowymiarowy model liniowy, w którym kategoryczna zmienna zależna (odpowiedź) jest reprezentowana przez wektory z kodami oznaczającymi różne grupy dla każdej obserwacji. Metoda ODA ma wiele istotnych zalet w porównaniu z klasyczną analizą dyskryminacyjną. Na przykład nie ma ograniczeń co do rodzaju stosowanego predyktora (kategoryczny lub ciągły) ani rodzaju definiowanego modelu; możliwy jest stopniowy wybór predyktorów i wybór najlepszego podzbioru predyktorów; jeśli istnieje próba krzyżowo-walidacyjna w pliku danych wybór najlepszego podzbioru predyktorów może opierać się na błędnej klasyfikacji proporcji dla próby krzyżowej itp.

Szereg czasowy. Szeregi czasowe to najintensywniej rozwijający się, obiecujący obszar statystyki matematycznej. Przez szereg czasowy (dynamiczny) rozumiemy ciąg obserwacji jakiegoś atrybutu X (zmiennej losowej) w kolejnych, równomiernie rozmieszczonych momentach t. Poszczególne obserwacje nazywane są poziomami szeregu i oznaczane są xt, t = 1, …, n. Podczas badania szeregów czasowych wyróżnia się kilka składników:
x t =u t +y t +c t +e t , t = 1, …, n,
gdzie u t jest trendem, płynnie zmieniającym się składnikiem opisującym wpływ netto czynników długoterminowych (spadek liczby ludności, spadek dochodów itp.); – składnik sezonowy, odzwierciedlający powtarzalność procesów w niezbyt długim okresie (dzień, tydzień, miesiąc itp.); сt – składnik cykliczny, odzwierciedlający powtarzalność procesów w długich okresach czasu, przekraczających jeden rok; t – składnik losowy, odzwierciedlający wpływ czynników losowych, których nie można uwzględnić i zarejestrować. Pierwsze trzy składniki są składnikami deterministycznymi. Składowa losowa powstaje w wyniku superpozycji dużej liczby czynników zewnętrznych, z których każdy indywidualnie ma niewielki wpływ na zmiany wartości atrybutu X. Analiza i badanie szeregów czasowych pozwalają na budowanie modeli przewidywanie wartości atrybutu X na przyszłość, jeśli znana jest sekwencja obserwacji w przeszłości.

Sieci neuronowe. Sieci neuronowe to system komputerowy, którego architektura jest podobna do budowy tkanki nerwowej z neuronów. Neuronom najniższej warstwy dostarczane są wartości parametrów wejściowych, na podstawie których należy podjąć określone decyzje. Na przykład, zgodnie z wartościami parametrów klinicznych i laboratoryjnych pacjenta, konieczne jest przypisanie go do tej lub innej grupy w zależności od ciężkości choroby. Wartości te są odbierane przez sieć jako sygnały, które przekazywane są do kolejnej warstwy, osłabiając się lub wzmacniając w zależności od wartości liczbowych (wag) przypisanych do połączeń międzyneuronowych. W rezultacie na wyjściu neuronu warstwy wyższej generowana jest pewna wartość, która jest traktowana jako odpowiedź – odpowiedź całej sieci na parametry wejściowe. Aby sieć działała, należy ją „trenować” (trenować) na danych, dla których znane są wartości parametrów wejściowych i prawidłowe reakcje na nie. Trening polega na doborze wag połączeń międzyneuronowych zapewniających największą bliskość odpowiedzi do znanych poprawnych odpowiedzi. Do klasyfikacji obserwacji można wykorzystać sieci neuronowe.

Projekt eksperymentów. Sztuka układania obserwacji w określonej kolejności czy przeprowadzania specjalnie zaplanowanych badań, aby w pełni wykorzystać możliwości tych metod, jest treścią przedmiotu „planowanie eksperymentów”. Obecnie metody eksperymentalne są szeroko stosowane zarówno w nauce, jak i w różnych dziedzinach działalności praktycznej. Zazwyczaj głównym celem badań naukowych jest pokazanie statystycznego znaczenia wpływu określonego czynnika na badaną zmienną zależną. Z reguły głównym celem projektowania eksperymentów jest wydobycie jak największej ilości obiektywnej informacji o wpływie badanych czynników na interesujący badacza wskaźnik (zmienna zależna) przy wykorzystaniu jak najmniejszej liczby kosztownych obserwacji. Niestety w praktyce w większości przypadków za mało uwagi poświęca się planowaniu badań. Zbierają dane (tyle, ile mogą zebrać), a następnie dokonują przetwarzania i analizy statystycznej. Jednak sama właściwa analiza statystyczna nie wystarczy do osiągnięcia wiarygodności naukowej, ponieważ jakość wszelkich informacji uzyskanych w wyniku analizy danych zależy od jakości samych danych. Dlatego w badaniach stosowanych coraz częściej wykorzystuje się projektowanie eksperymentów. Celem metod projektowania eksperymentów jest badanie wpływu określonych czynników na badany proces i poszukiwanie optymalnych poziomów czynników determinujących wymagany poziom procesu.

Karty kontroli jakości. We współczesnym świecie problem jakości nie tylko wytwarzanych produktów, ale także usług świadczonych ludności jest niezwykle istotny. Od pomyślnego rozwiązania tego ważnego problemu w dużej mierze zależy dobro każdej firmy, organizacji czy instytucji. Jakość wyrobów i usług kształtuje się w procesie badań naukowych, projektowania i rozwoju technologicznego, a zapewniana jest przez dobrą organizację produkcji i usług. Jednak wytwarzanie produktów i świadczenie usług, niezależnie od ich rodzaju, zawsze wiąże się z pewną zmiennością warunków produkcji i świadczenia. Prowadzi to do pewnej zmienności ich cech jakościowych. Dlatego istotne są kwestie opracowania metod kontroli jakości, które pozwolą na terminową identyfikację oznak naruszenia procesu technologicznego lub świadczenia usług. Jednocześnie, aby osiągnąć i utrzymać wysoki poziom jakości satysfakcjonujący konsumenta, potrzebne są metody, które mają na celu nie eliminowanie wad gotowych produktów i niezgodności w usługach, ale zapobieganie i przewidywanie przyczyn ich wystąpienia. Karta kontrolna to narzędzie, które pozwala monitorować postęp procesu i wpływać na niego (poprzez odpowiednią informację zwrotną), zapobiegając jego odchyleniom od wymagań stawianych procesowi. Narzędzia wykresów kontroli jakości w szerokim zakresie wykorzystują metody statystyczne oparte na teorii prawdopodobieństwa i statystyce matematycznej. Zastosowanie metod statystycznych pozwala, przy ograniczonej objętości analizowanych produktów, ocenić z zadaną dokładnością i rzetelnością stan jakości wytwarzanych produktów. Zapewnia prognozowanie, optymalną regulację problemów w obszarze jakości, podejmowanie właściwych decyzji zarządczych nie w oparciu o intuicję, ale za pomocą badań naukowych i identyfikacji wzorców w zgromadzonych tablicach informacji liczbowych. />/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>

Tematyka statystyki zmieniała się na przestrzeni dziejów rozwoju nauk statystycznych i do chwili obecnej naukowcy nie znaleźli jednoznacznej odpowiedzi w tej kwestii.

Przedmiotem statystyki jest badanie zjawisk społecznych i ich analiza.

Dlatego angielscy statystycy J.E. Yula i M.J. Kendal uważają: „Bez względu na dziedzinę wiedzy, w której pozyskiwane są dane liczbowe, posiadają one pewnego rodzaju właściwości, których identyfikacja może wymagać szczególnego rodzaju naukowej metody przetwarzania. Ta ostatnia znana jest jako metoda statystyczna lub statystyka.

Uniwersalność statystyki jako nauki wynika z faktu, że zajmuje się ona metodami pomiaru i interpretacji, zarówno w naukach społecznych, jak i przyrodniczych. Statystyka jest uznawana za specjalną metodę stosowaną w różnych dziedzinach działalności przy rozwiązywaniu różnorodnych problemów, definiowaną jako „gromadzenie, prezentacja i interpretacja danych liczbowych”.

Metodologia i praktyka statystyczna są ze sobą nierozerwalnie powiązane, uzupełniają się i rozwijają. Teoria statystyki uogólnia doświadczenie pracy praktycznej, rozwija nowe pomysły i metody wzbogacające praktyczną działalność statystyczną. Praktyka statystyczna jest naukowo zorganizowaną pracą.

Zatem, Statystyka– nauka badająca ilościową stronę masowych zjawisk społecznych w celu ustalenia wzorców w nierozerwalnym związku z ich stroną jakościową w określonych warunkach miejsca i czasu w ich wzajemnych powiązaniach i współzależnościach (N.N. Ryauzovsky „Ogólna teoria statystyki”).

Istota tej definicji wiąże się z sześcioma głównymi punktami:

1. Nie bada się wszystkich zjawisk, a jedynie społeczne i społeczno-ekonomiczne. Zjawiska te są złożone, różnorodne (np. produkcja pracy, opieka zdrowotna, działalność kulturalna, populacja itp.), różnią się od zjawisk naturalnych, które są stosunkowo stabilne i powtarzalne w czasie.

2. Bada się masowe zjawiska społeczno-gospodarcze, a nie indywidualne, gdyż wzorce rozwoju manifestują się poprzez wiele faktów, gdy uogólnia się dane o wystarczająco dużej liczbie jednostek (prawo wielkich liczb).

3. Zjawiska poddawane są ocenie ilościowej, na podstawie której ujawnia się ich treść jakościowa (np. do analizy ilościowej bezrobocia wykorzystuje się wskaźnik zatrudnienia i stopę bezrobocia).

4. Charakterystyki liczbowe tego samego zjawiska różnią się w przestrzeni i czasie.

5. Zjawiska społeczno-gospodarcze bada się w dynamice w celu identyfikacji trendów i kierunków rozwoju oraz prognozowania sytuacji na przyszłość.

6. Badanie zjawisk w relacjach i współzależnościach.



Dlatego stosując metody statystyczne należy pamiętać o jedności ilościowego i jakościowego aspektu badanego zjawiska.

Statystyka zajmuje się więc badaniem zjawisk masowych lub agregatów.

Całość- jest grupą jednorodną pod względem jakiejkolwiek cechy, składającą się z rdzenia i otaczających go zjawisk („warstwy”). Rdzeń jest skoncentrowanym wyrazem wszystkich specyficznych właściwości danej grupy, które odróżniają jeden zbiór od innych. „Warstwa” - jednostki o niepełnym zestawie określonych właściwości, które z określonym prawdopodobieństwem należą do danej populacji.

Przykładowo: populacja to studenci, wśród studentów są:

- „uczeń idealny” – uczeń doskonały, dużo czyta, aktywnie uczestniczy w zajęciach pozalekcyjnych – to podstawa.

Student, dla którego ważna jest tylko „ciekawa”, specjalistyczna wiedza; - to jest jedna warstwa.

Student zainteresowany wyłącznie życiem pozalekcyjnym itp. – to kolejna warstwa.

Zatem „jakość” niektórych uczniów można niemal bezbłędnie przypisać temu czy innemu typowi, podczas gdy inni są dość trudni.

Relacja pomiędzy rdzeniem a jego otoczeniem jest odmienna w różnych agregatach i zależy od warunków istnienia agregatu: czasu trwania, stabilności, interakcji z innymi agregatami itp. Jednakże rdzeń powinien stanowić większość jednostek w agregacie, ponieważ określa jego cechy charakterystyczne.

Ponieważ statystyka zajmuje się badaniem zjawisk w określonym miejscu i czasie, dysponuje ograniczoną liczbą danych.

Populacja statystyczna- jest to zbiór obiektywnie istniejących jednostek badanego zjawiska, połączonych jedną podstawą jakościową, wspólnym połączeniem, ale różniących się od siebie indywidualnymi cechami. (Na przykład zbiór gospodarstw domowych, zbiór rodzin, zbiór przedsiębiorstw, firm, stowarzyszeń itp.).

Całość należy odróżnić od systemu i struktury, ponieważ w całości nie ma porządku, tutaj wszystkie elementy są oddzielone.

Podpisać - jest to cecha jakościowa jednostki agregatu.

Ze względu na charakter wyświetlania właściwości jednostek badanej populacji znaki dzieli się na dwie główne grupy:

1. Ilościowe – cechy mające bezpośredni wyraz ilościowy, czyli można je dodać (na przykład: wiek, dochód, liczba dzieci, liczba lat nauki, staż pracy itp.). Zakładają, że istnieje relacja więcej-mniej.

2. Jakość – cechy, które nie mają bezpośredniego wyrażenia ilościowego, tj cechy, których nie można dodać (np. płeć, zawód, charakter pracy, stosunek do czegoś). Zakładają relacje „równość-nierówność”. (!nie pozwalaj na relacje więcej-mniej.)

Wszystkie cechy jakościowe dzielą się na:

Atrybutywny – czyli cecha danego zjawiska (np. zawód, charakter pracy itp.)

Alternatywa - opcje o przeciwnym znaczeniu (na przykład: produkt jest dobry lub zły, dla przedstawicieli określonych grup wiekowych istnieje prawdopodobieństwo przeżycia lub nie dożycia do następnej grupy wiekowej; każda osoba może być w związku małżeńskim lub nie, mężczyzna lub kobieta itp.).

Ponadto znaki w statystykach można podzielić na różne grupy, w zależności od podstawy. Główne klasyfikacje cech przedstawiono na rysunku 1.2.

Klasyfikacje cech w statystyce

Opisowy- cechy wyrażone werbalnie (forma własności przedsiębiorstwa, rodzaj wykorzystywanych surowców, zawód itp.) Cechy opisowe dzielą się na nominalne, których nie da się uporządkować ani sklasyfikować (narodowość, branża przedsiębiorstwa itp.) oraz porządkowe, które można uszeregować (kategoria taryfowa, wyniki uczniów, oceny firm itp.).

Ilościowy cechy charakterystyczne - takie, których poszczególne wartości mają wyraz liczbowy (powierzchnia regionu, wartość majątku przedsiębiorstwa, cena towarów itp.).

Podstawowy cechy charakteryzują jednostkę populacji jako całość. Można je mierzyć, liczyć, ważyć i istnieć samodzielnie, niezależnie od ich opracowania statystycznego (liczba mieszkańców miasta, zbiory zbóż brutto, wysokość składek ubezpieczeniowych).

Wtórny charakterystyki uzyskuje się poprzez obliczenie poprzez stosunek cech pierwotnych. Cechy wtórne są wytworami ludzkiej świadomości, wynikami poznania badanego obiektu.

Bezpośredni Znaki są właściwościami właściwymi dla przedmiotu, który charakteryzują.

Pośredni znaki są właściwościami właściwymi nie samemu badanemu obiektowi, ale innym agregatom związanym z obiektem.

Alternatywny znaki - takie, które mają jedynie dolny sens (płeć osoby, miejsce zamieszkania (miasto-wieś), oznaki posiadania lub nieposiadania czegoś.

Oddzielny oznaki. mają tylko wartości całkowite.

Ciągły znaki - mogące przyjmować dowolne wartości, zarówno całkowite, jak i ułamkowe. Ciągłe obejmują wszystkie cechy drugorzędne.

Chwilowy znaki - cechy stanu, obecność czegoś w określonym momencie.

Interwał znaki - charakterystyka procesu na określony okres czasu: rok, pół roku, kwartał, miesiąc, dzień itp.

Cechą badań statystycznych jest to, że badają one jedynie zmienne cechy, tj. cechy, które przyjmują różne znaczenia (dla cech atrybutywnych, alternatywnych) lub mają różne poziomy ilościowe w poszczególnych jednostkach populacji.

Istotną właściwością populacji statystycznej jest zmienność.

Zmiana– jest to właściwość populacji statystycznej, wyrażająca zdolność do zmian pod wpływem czynników zewnętrznych i wewnętrznych, zarówno związanych z istotą badanego obiektu, jak i niezwiązanych z nią.

Wzór statystyczny- jest to wzór ustanowiony przez prawo wielkich liczb w zjawiskach zmiennych masowych połączonych w statystyczną całość.

W trendach widoczne są wzorce statystyczne.

Funkcje statystyczne:

1. Opisowy - za pomocą cyfr i liczb podaje się charakterystykę konkretnej sytuacji, procesu, zjawiska

2. Wyjaśniające – identyfikuje się związki przyczynowo-skutkowe pomiędzy zjawiskami i procesami; identyfikowane są czynniki determinujące pewne powiązania.

O charakterze danych statystycznych decydują 3 główne właściwości:

1. Niepewność statystyki

2. Probabilistyczny charakter danych statystycznych (atrybut może przyjmować tę wartość lub nie)

3. Abstrakcyjność danych statystycznych.


Eliseeva I.I. Warsztaty z ogólnej teorii statystyki. M.: Finanse i statystyka, 2008. s.8.

Statystyka jest dziedziną wielodyscyplinarną, gdyż wykorzystuje metody i zasady zapożyczone z innych dyscyplin. Zatem wiedza z zakresu socjologii i teorii ekonomii służy jako teoretyczna podstawa do kształtowania nauk statystycznych. W ramach tych dyscyplin badane są prawa zjawisk społecznych. Statystyka pomaga ocenić skalę konkretnego zjawiska, a także opracować system metod analizy i badania. Statystyka jest niewątpliwie związana z matematyką, gdyż identyfikowanie wzorców, ocena i analiza przedmiotu badań wymaga szeregu operacji, metod i praw matematycznych, a usystematyzowanie wyników znajduje odzwierciedlenie w postaci wykresów i tabel.

Rodzaje badań statystycznych

Obserwacja jako początkowy etap badań wiąże się z zebraniem wstępnych danych na temat badanego zagadnienia. Jest to charakterystyczne dla wielu nauk. Każda nauka ma jednak swoją specyfikę, różniącą się obserwacjami. Dlatego nie każda obserwacja ma charakter statystyczny.

Badania statystyczne to naukowo zorganizowane gromadzenie, podsumowywanie i analiza danych (fakty) o zjawiskach i procesach życia społecznego społeczno-gospodarczego, demograficznego i innych, z rejestracją ich najważniejszych cech w dokumentacji księgowej, zorganizowanej według jednolitego program.

Cechami wyróżniającymi (specyficznością) badań statystycznych są: celowość, organizacja, masowy udział, systematyczność (złożoność), porównywalność, dokumentacja, sterowalność, praktyczność.

Ogólnie rzecz biorąc, badanie statystyczne powinno:

Mają społecznie użyteczny cel i ogólne (państwowe) znaczenie;

Traktować przedmiot statystyki w specyficznych warunkach jej miejsca i czasu;

Wyraź statystyczny rodzaj rachunkowości (a nie rachunkowy lub operacyjny);

Prowadzone zgodnie z wcześniej opracowanym programem z naukowym wsparciem metodologicznym i innym;

Zbieraj dane masowe (fakty), które odzwierciedlają cały zestaw przyczyn i skutków oraz innych czynników charakteryzujących zjawisko na wiele sposobów;

Zarejestruj się w formie dokumentów księgowych o ustalonej formie;

Zadbaj o to, aby nie było błędów obserwacji lub ogranicz je do możliwego minimum;

Zapewnić określone kryteria jakości i metody monitorowania zbieranych danych, zapewniając ich wiarygodność, kompletność i zawartość;

Skoncentruj się na opłacalnej technologii gromadzenia i przetwarzania danych;

Być wiarygodną bazą informacyjną dla wszystkich kolejnych etapów badań statystycznych i wszystkich użytkowników informacji statystycznej.

Badania, które nie spełniają tych wymagań, nie są badaniami statystycznymi. Badania nie mają charakteru statystycznego, np. obserwacje i badania: matek obserwujących zabawę swoich dzieci (pytanie osobiste); widzowie na przedstawieniu teatralnym (spektakl nie posiada dokumentacji księgowej); naukowiec zajmujący się eksperymentami fizycznymi i chemicznymi wraz z ich pomiarami, obliczeniami i rejestracją dokumentów (nie masowymi danymi publicznymi); lekarz dla pacjentów prowadzący dokumentację medyczną (dokumentacja operacyjna); księgowy zajmujący się przepływem środków na rachunku bankowym firmy (księgowość); dziennikarzy o publicznej i osobistej działalności urzędników państwowych lub innych osobistości (niebędących przedmiotem statystyk).

Populacja statystyczna to zbiór jednostek charakteryzujących się masą, typowością, jednorodnością jakościową i obecnością zmienności.

Populacja statystyczna składa się z obiektów istniejących materialnie (Pracownicy, przedsiębiorstwa, kraje, regiony) i jest przedmiotem badań statystycznych.

Obserwacja statystyczna jest pierwszym etapem badań statystycznych, które stanowią naukowo zorganizowany zbiór danych o badanych zjawiskach i procesach życia społecznego.