Η έννοια της «στατιστικής» προέρχεται από τη λατινική λέξη «status», που στη μετάφραση σημαίνει - θέση, κατάσταση, τάξη φαινομένων.

Ανάπτυξη πολιτικών αριθμητικών (Αγγλία) και κρατικών σπουδών

(Γερμανία) οδήγησε στην εμφάνιση της επιστήμης της στατιστικής.

Ο όρος «στατιστική» εισήχθη στην επιστημονική κυκλοφορία από τους μαθηματικούς του Πανεπιστημίου του Γκέτινγκεν τον 18ο αιώνα (Gottfried Achenwal (1719-1772)).

Επί του παρόντος, υπάρχουν περίπου 150 ορισμοί της στατιστικής ως επιστημονικού κλάδου. Ένας από τους καλύτερους ορισμούς της στατιστικής δόθηκε από τον Αυστριακό μαθηματικό Abraham Wald: «Η στατιστική είναι ένα σύνολο μεθόδων που μας επιτρέπουν να λαμβάνουμε βέλτιστες αποφάσεις υπό αβεβαιότητα».

Από τους διάφορους ορισμούς των στατιστικών για την πρακτική ιατρική, οι πιο εφαρμόσιμοι είναι:

"Στατιστικήείναι η επιστήμη της συλλογής, ταξινόμησης και ποσοτικοποίησης δεδομένων προκειμένου να γίνουν έγκυρα συμπεράσματα, προβλέψεις και αποφάσεις."

Στατιστικήμελετά φαινόμενα τυχαίας μάζας. Μαζικά φαινόμενα- Πρόκειται για φαινόμενα που εμφανίζονται σε μεγάλες ποσότητες, αλλά διαφέρουν μεταξύ τους ως προς το μέγεθος ενός συγκεκριμένου χαρακτηριστικού. Όσο μεγαλύτερος είναι ο αριθμός των αντικειμένων που λαμβάνονται για έρευνα, τόσο πιο αξιόπιστα είναι τα στατιστικά συμπεράσματα.

Η στατιστική αποτελείται από θεωρητικές (γενικές) στατιστικές και εφαρμοσμένες

(οικονομικές, κοινωνικές, κλαδικές) στατιστικές.

Οι στατιστικές κλάδου περιλαμβάνουν μετεωρολογικές (στατιστικές πρόγνωσης καιρού), μεταφορικές, οικονομικές, βιολογικές, ιατρικές.

Οι θεωρητικές στατιστικές χωρίζονται σε περιγραφικός(περιγραφική) και αναλυτική (επαγωγική).

Περιγραφικά στατιστικάείναι τα στατιστικά στοιχεία της συλλογής γενικών δεδομένων. Είναι ένα σύνολο μεθόδων συλλογής, ομαδοποίησης, ταξινόμησης δεδομένων πηγής και παρουσίασής τους σε βολική μορφή για περαιτέρω επεξεργασία (πίνακες, γραφήματα).

Αναλυτικές στατιστικέςείναι η στατιστική των συμπερασμάτων και των προβλέψεων που βασίζονται στη μαθηματική επεξεργασία των αποτελεσμάτων που παρέχονται από την περιγραφική στατιστική. Περιλαμβάνει μεθόδους για τη λήψη διαφόρων στατιστικών συμπερασμάτων και συμπερασμάτων με σκοπό την πρακτική εφαρμογή τους.

ιατρικές στατιστικές- πρόκειται για τομεακές στατιστικές, ένα σύνολο εφαρμοσμένων στατιστικών μεθόδων που χρησιμοποιούνται στην επιστημονική, πρακτική ιατρική και υγειονομική περίθαλψη.

Τα κύρια καθήκοντα της ιατρικής στατιστικής:

ü στατιστικές γεννήσεων και θανάτων.

- στατιστικές επίπτωσης·

ü Στατιστικά στοιχεία δραστηριοτήτων ιδρυμάτων υγείας.

Μαζί, η περιγραφική και αναλυτική στατιστική λύνει το ακόλουθο πρόβλημα:

ü συλλογή δεδομένων και περιγραφή τους σε μορφή κατάλληλη για στατιστική επεξεργασία·

ü επεξεργασία των αποτελεσμάτων με μεθόδους θεωρητικής (γενικής) στατιστικής.

ü ανάλυση των ληφθέντων αποτελεσμάτων, πρόβλεψη, ανάπτυξη βέλτιστων λύσεων.

2. ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΕΡΙΓΡΑΦΙΚΗΣ ΣΤΑΤΙΣΤΙΚΗΣ

ΚΑΙ ΤΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΤΟΥΣ.

Οι κύριες έννοιες της περιγραφικής στατιστικής περιλαμβάνουν:

ü στατιστικός πληθυσμός (γενικός και δείγμα).

ü ο όγκος του πληθυσμού.

ü στατιστική επιλογή.

ü στατιστικό σημάδι.

ü στατιστική συχνότητα (απόλυτη συχνότητα).

ü συχνότητα (σχετική συχνότητα).

Πληθυσμόςείναι ένα σύνολο αντικειμένων που ενώνονται με κάποιο χαρακτηριστικό για στατιστική μελέτη.

Τύποι αδρανών:

  1. Γενικός πληθυσμός (πεπερασμένος ή άπειρος).
  2. Σετ δείγματος (δείγμα).

Πληθυσμόςείναι ένα σύνολο όλων των αντικειμένων του στατιστικού συνόλου που επιλέχθηκαν για τη μελέτη.

πεπερασμένος πληθυσμός- ένα στατιστικό σύνολο στο οποίο ο αριθμός των μελετημένων αντικειμένων με ένα δεδομένο χαρακτηριστικό είναι περιορισμένος.

Παράδειγμα: αριθμός μαθητών στην ακαδημία, κάτοικοι στην πόλη, αριθμός μετρήσεων σε πειράματα.

Άπειρος πληθυσμόςείναι ένα στατιστικό σύνολο στο οποίο ο αριθμός των αντικειμένων είναι ίσος με το άπειρο. Χρησιμοποιείται σε θεωρητικούς υπολογισμούς ως μαθηματική αφαίρεση.

Πληθυσμός δείγματος (δείγμα)- αυτό είναι το μέρος του γενικού πληθυσμού που λαμβάνεται για στατική μελέτη.

Μέγεθος πληθυσμούείναι ο αριθμός των αντικειμένων της συλλογής.

Ο όγκος του γενικού πληθυσμού υποδεικνύεται με το σύμβολο Ν και επιλεκτικά - n .

Στατιστική παραλλαγήείναι ένα αντικείμενο συλλογής, μια ενιαία παρατήρηση ή μέτρηση.

Οι επιλογές υποδηλώνονται με λατινικά γράμματα x, y, z με δείκτες που υποδεικνύουν τον αριθμό των επιλογών.

Παράδειγμα: x 1 - αντικείμενο ή διάσταση νούμερο ένα,

x 2 - αντικείμενο ή διάσταση νούμερο δύο κ.λπ.

Η παραλλαγή χωρίς αριθμό ονομάζεται γενικευμένηεπιλογήκαι συμβολίζεται με ένα λατινικό γράμμα με ευρετήριο δευτερεύοντος γράμματος, για παράδειγμα, x i .

Οι παραλλαγές (αντικείμενα) του στατιστικού πληθυσμού χαρακτηρίζονται από διάφορα χαρακτηριστικά, συμπεριλαμβανομένων εκείνων βάσει των οποίων συνδυάζονται σε έναν πληθυσμό.

Ένα χαρακτηριστικό που αλλάζει την τιμή του από ένα αντικείμενο σε άλλο ονομάζεται μεταβλητό σημάδι, και το ίδιο το φαινόμενο ονομάζεται παραλλαγή.

Ποιοτικά χαρακτηριστικά- Πρόκειται για ζώδια που δεν έχουν ποσοτική έκφραση. Αυτά είναι αμέτρητα σημάδια.

Παράδειγμα: χρώμα, γεύση, οσμή.

Ποσοτικά χαρακτηριστικά- Αυτά είναι μετρήσιμα σημάδια που εκφράζονται με έναν συγκεκριμένο αριθμό.

Παράδειγμα: βάρος, μήκος, πυκνότητα, θερμοκρασία.

Διακριτά Ποσοτικά Χαρακτηριστικά- Πρόκειται για ποσοτικά πρόσημα που εκφράζονται ως ακέραιοι αριθμοί.

Παράδειγμα: αριθμός μαθητών σε μια ομάδα, επιβάτες σε λεωφορείο, πέταλα σε λουλούδι.

Συνεχή Ποσοτικά Χαρακτηριστικά- Αυτά είναι ποσοτικά πρόσημα που εκφράζονται τόσο ως ακέραιοι όσο και ως κλασματικοί αριθμοί.

Παράδειγμα: το βάρος ενός καρπουζιού είναι 7 κιλά, το βάρος ενός πεπονιού είναι 1,7 κιλά.

χαρακτηριστικό διαστήματος- αυτό είναι ένα ποσοτικό πρόσημο, του οποίου η αριθμητική τιμή βρίσκεται εντός ορισμένων ορίων, που ονομάζονται διαστήματα.

Παράδειγμα: κατά τη μέτρηση του ύψους των μαθητών, οι ομάδες διαστήματος μπορούν να διακριθούν 160 - 169 cm, 170 - 179 cm, 180 - 190 cm.

Συχνότητα εμφάνισης (απόλυτη συχνότητα)- ένας αριθμός που δείχνει πόσες φορές ένα αντικείμενο με μια δεδομένη αριθμητική τιμή του χαρακτηριστικού εμφανίζεται στον πληθυσμό ή στο διάστημα του.

Η απόλυτη συχνότητα συμβολίζεται με το σύμβολο n i (µ i).

Το άθροισμα όλων των απόλυτων συχνοτήτων είναι ίσο με τον όγκο του πληθυσμού N για τον οποίο υπολογίζονται οι συχνότητες: ∑n i = N

Παράδειγμα: Ο αριθμός των ανδρών και των γυναικών σε μια ομάδα πρέπει να είναι ίσος με το άθροισμα του αριθμού των μαθητών σε αυτήν την ομάδα.

Συχνότητα (σχετική συχνότητα)- αριθμός ίσος με τον λόγο της απόλυτης συχνότητας προς τον όγκο του πληθυσμού.

Η συχνότητα συμβολίζεται με το σύμβολο φά και υπολογίζεται με τον τύπο:

σε κλάσματα μονάδας: fi = ,

σε ποσοστά: fi = 100%

Εδώ n i - απόλυτη συχνότητα, Ν - ο όγκος του πληθυσμού, ίσος με το άθροισμα όλων των απόλυτων συχνοτήτων.

Το άθροισμα όλων των σχετικών συχνοτήτων είναι ίσο με 1: ∑ fi = 1

Παράδειγμα: σε μια μαθητική ομάδα δεκαπέντε ατόμων (ο όγκος του πληθυσμού Ν=15) 12 φοιτήτριες (απόλυτη συχνότητα n 1 =12) και 3 μαθητές (απόλυτη συχνότητα n 2 =3). Συχνότητα φά 1 θα είναι ίση με 15/12, και η συχνότητα φά 2 =3/15. Στην περίπτωση αυτή, το άθροισμα των συχνοτήτων ή των σχετικών συχνοτήτων είναι ίσο με ένα.

Στη στατιστική, οι σχετικές συχνότητες ή συχνότητες ονομάζονται βάρη.

3. ΣΕΙΡΑ ΔΙΑΝΟΜΗΣ, ΤΑ ΕΙΔΗ ΚΑΙ ΤΡΟΠΟΙ ΑΝΑΠΡΟΣΩΠΗΣΗΣ ΤΟΥΣ.

Εύρος διανομής- αυτή είναι μια ακολουθία αριθμών που υποδεικνύει την ποιοτική ή ποσοτική αξία του χαρακτηριστικού και τη συχνότητα εμφάνισής του.

Οι τύποι σειρών διανομής ταξινομούνται σύμφωνα με διαφορετικές αρχές.

Ανάλογα με το βαθμό σειράς, οι σειρές χωρίζονται σε:

ü διαταραγμένος

ü παρήγγειλε

Σειρά χωρίς παραγγελία- αυτή είναι μια σειρά στην οποία οι τιμές του χαρακτηριστικού καταγράφονται με τη σειρά με την οποία λαμβάνονται οι παραλλαγές κατά τη διάρκεια της μελέτης.

Παράδειγμα: Κατά τη μελέτη του ύψους μιας ομάδας μαθητών, οι τιμές του καταγράφηκαν σε cm (175,170,168,173,179).

διατεταγμένη σειράείναι μια σειρά που λαμβάνεται από μια μη ταξινομημένη, στην οποία οι τιμές των χαρακτηριστικών αντικαθίστανται με αύξουσα ή φθίνουσα σειρά. Μια ταξινομημένη σειρά ονομάζεται σειρά κατάταξης και η διαδικασία κατάταξης

(παραγγελία) ονομάζεται ταξινόμηση.

Παράδειγμα: (Ύψος 168,170,173,175,179)

Ανάλογα με τον τύπο του χαρακτηριστικού, οι σειρές διανομής χωρίζονται σε:

ü αποδοτική

ü μεταβλητή.

Σειρά χαρακτηριστικών- αυτή είναι μια σειρά που συντάχθηκε με βάση ένα ποιοτικό χαρακτηριστικό.

Σειρά παραλλαγής- Αυτή είναι μια σειρά που συντάχθηκε με βάση ένα ποσοτικό χαρακτηριστικό.

Οι μεταβλητές σειρές χωρίζονται σε διακριτές, συνεχείς και διαλειμματικές.

Οι μεταβλητές διακριτές, συνεχείς και ολοκληρωμένες σειρές ονομάζονται σύμφωνα με το αντίστοιχο χαρακτηριστικό, το οποίο αποτελεί τη βάση της μεταγλώττισης της σειράς. Για παράδειγμα, μια σειρά ανά μέγεθος παπουτσιού είναι διακριτή κατά βάρος σώματος - συνεχής.

Οι μέθοδοι για την αναπαράσταση σειρών στην πρακτική και επιστημονική ιατρική χωρίζονται σε τρεις ομάδες:

  1. Προβολή πίνακα;
  2. Αναλυτική αναπαράσταση (με τη μορφή τύπου).
  3. ΓΡΑΦΙΚΗ ΑΝΑΠΑΡΑΣΤΑΣΗ.

Αντικείμενο μελέτης στην εφαρμοσμένη στατιστική είναι στατιστικά δεδομένα που λαμβάνονται ως αποτέλεσμα παρατηρήσεων ή πειραμάτων. Τα στατιστικά δεδομένα είναι ένα σύνολο αντικειμένων (παρατηρήσεις, περιπτώσεις) και χαρακτηριστικών (μεταβλητών) που τα χαρακτηρίζουν. Για παράδειγμα, τα αντικείμενα μελέτης είναι οι χώρες του κόσμου και τα σημεία, - γεωγραφικοί και οικονομικοί δείκτες που τις χαρακτηρίζουν: ήπειρος; ύψος της περιοχής πάνω από την επιφάνεια της θάλασσας· μέση ετήσια θερμοκρασία· θέση της χώρας στον κατάλογο όσον αφορά την ποιότητα ζωής, μερίδιο του κατά κεφαλήν ΑΕΠ· Δημόσιες δαπάνες για την υγεία, την εκπαίδευση, τον στρατό. ΜΕΣΟΣ ΟΡΟΣ ΖΩΗΣ; μερίδιο ανεργίας, αναλφάβητοι? δείκτης ποιότητας ζωής κ.λπ.
Οι μεταβλητές είναι μεγέθη που, ως αποτέλεσμα της μέτρησης, μπορούν να λάβουν διαφορετικές τιμές.
Οι ανεξάρτητες μεταβλητές είναι μεταβλητές των οποίων οι τιμές μπορούν να αλλάξουν κατά τη διάρκεια του πειράματος και οι εξαρτημένες μεταβλητές είναι μεταβλητές των οποίων οι τιμές μπορούν να μετρηθούν μόνο.
Οι μεταβλητές μπορούν να μετρηθούν σε διάφορες κλίμακες. Η διαφορά μεταξύ των κλιμάκων καθορίζεται από το πληροφοριακό τους περιεχόμενο. Θεωρούνται οι ακόλουθοι τύποι κλιμάκων, οι οποίοι παρουσιάζονται με αύξουσα σειρά του πληροφοριακού τους περιεχομένου: ονομαστική, τακτική, διαστήματα, κλίμακα αναλογίας, απόλυτη. Αυτές οι κλίμακες διαφέρουν μεταξύ τους και στον αριθμό των έγκυρων μαθηματικών πράξεων. Η «φτωχότερη» κλίμακα είναι ονομαστική, αφού δεν ορίζεται ούτε μία αριθμητική πράξη, η ίδια η «πλουσιότερη» είναι απόλυτη.
Η μέτρηση στην ονομαστική κλίμακα (ταξινόμηση) σημαίνει τον προσδιορισμό του εάν ένα αντικείμενο (παρατήρηση) ανήκει σε μια συγκεκριμένη κατηγορία. Για παράδειγμα: φύλο, κλάδος υπηρεσίας, επάγγελμα, ήπειρος κ.λπ. Σε αυτήν την κλίμακα, μπορεί κανείς να μετρήσει μόνο τον αριθμό των αντικειμένων στις κλάσεις - συχνότητα και σχετική συχνότητα.
Η μέτρηση στην τακτική (κατάταξη) κλίμακα, εκτός από τον προσδιορισμό της κατηγορίας μέλους, σας επιτρέπει να εξορθολογίσετε τις παρατηρήσεις συγκρίνοντάς τες μεταξύ τους από κάποια άποψη. Ωστόσο, αυτή η κλίμακα δεν καθορίζει την απόσταση μεταξύ των τάξεων, αλλά μόνο ποια από τις δύο παρατηρήσεις είναι προτιμότερη. Επομένως, τα τακτικά πειραματικά δεδομένα, ακόμη και αν αντιπροσωπεύονται με αριθμούς, δεν μπορούν να θεωρηθούν αριθμοί και μπορούν να εκτελεστούν αριθμητικές πράξεις σε αυτά 5 . Σε αυτήν την κλίμακα, εκτός από τον υπολογισμό της συχνότητας ενός αντικειμένου, μπορείτε να υπολογίσετε την κατάταξη του αντικειμένου. Παραδείγματα μεταβλητών που μετρώνται σε τακτική κλίμακα: βαθμολογίες μαθητών, βραβεία σε διαγωνισμούς, στρατιωτικές τάξεις, θέση μιας χώρας σε λίστα ποιότητας ζωής κ.λπ. Μερικές φορές οι ονομαστικές και οι τακτικές μεταβλητές ονομάζονται κατηγορικές ή ομαδοποιημένες, καθώς επιτρέπουν τη διαίρεση των ερευνητικών αντικειμένων σε υποομάδες.
Κατά τη μέτρηση σε κλίμακα διαστήματος, η σειρά των παρατηρήσεων μπορεί να γίνει με τόση ακρίβεια ώστε οι αποστάσεις μεταξύ οποιωνδήποτε δύο από αυτές να είναι γνωστές. Η κλίμακα διαστήματος είναι μοναδική μέχρι γραμμικούς μετασχηματισμούς (y = ax + b). Αυτό σημαίνει ότι η κλίμακα έχει ένα αυθαίρετο σημείο αναφοράς - υπό όρους μηδέν. Παραδείγματα μεταβλητών που μετρώνται σε κλίμακα διαστήματος: θερμοκρασία, χρόνος, υψόμετρο πάνω από την επιφάνεια της θάλασσας. Οι μεταβλητές σε μια δεδομένη κλίμακα μπορούν να χρησιμοποιηθούν για τον προσδιορισμό της απόστασης μεταξύ των παρατηρήσεων. Οι αποστάσεις είναι πλήρεις αριθμοί και μπορούν να γίνουν οποιεσδήποτε αριθμητικές πράξεις σε αυτές.
Η κλίμακα αναλογίας είναι παρόμοια με την κλίμακα διαστήματος, αλλά είναι μοναδική μέχρι τον μετασχηματισμό της μορφής y = ax. Αυτό σημαίνει ότι η κλίμακα έχει ένα σταθερό σημείο αναφοράς - απόλυτο μηδέν, αλλά μια αυθαίρετη κλίμακα μέτρησης. Παραδείγματα μεταβλητών που μετρώνται σε κλίμακα αναλογίας: μήκος, βάρος, ρεύμα, χρηματικό ποσό, δαπάνες της κοινωνίας για υγειονομική περίθαλψη, εκπαίδευση, στρατός, προσδόκιμο ζωής κ.λπ. Οι μετρήσεις σε αυτήν την κλίμακα είναι πλήρεις αριθμοί και μπορούν να γίνουν οποιεσδήποτε αριθμητικές πράξεις σε αυτές.
Μια απόλυτη κλίμακα έχει και απόλυτο μηδέν και απόλυτη μονάδα μέτρησης (κλίμακα). Ένα παράδειγμα απόλυτης κλίμακας είναι η αριθμητική γραμμή. Αυτή η κλίμακα είναι αδιάστατη, επομένως οι μετρήσεις σε αυτήν μπορούν να χρησιμοποιηθούν ως εκθέτης ή βάση ενός λογάριθμου. Παραδείγματα μετρήσεων σε απόλυτη κλίμακα: ποσοστό ανεργίας; αναλογία αναλφάβητων, δείκτης ποιότητας ζωής κ.λπ.
Οι περισσότερες από τις στατιστικές μεθόδους είναι μέθοδοι παραμετρικής στατιστικής που βασίζονται στην υπόθεση ότι ένα τυχαίο διάνυσμα μεταβλητών σχηματίζει κάποια πολυμεταβλητή κατανομή, συνήθως κανονική ή μετασχηματίζεται σε κανονική κατανομή. Εάν αυτή η υπόθεση δεν επιβεβαιωθεί, θα πρέπει να χρησιμοποιηθούν μη παραμετρικές μέθοδοι μαθηματικών στατιστικών.

Ανάλυση συσχέτισης.Μεταξύ των μεταβλητών (τυχαίες μεταβλητές) μπορεί να υπάρχει μια λειτουργική σχέση, που εκδηλώνεται στο γεγονός ότι η μία από αυτές ορίζεται ως συνάρτηση της άλλης. Αλλά μεταξύ των μεταβλητών μπορεί επίσης να υπάρχει μια σύνδεση άλλου είδους, που εκδηλώνεται στο γεγονός ότι η μία από αυτές αντιδρά σε μια αλλαγή στην άλλη αλλάζοντας τον νόμο κατανομής της. Μια τέτοια σχέση ονομάζεται στοχαστική. Εμφανίζεται όταν υπάρχουν κοινοί τυχαίοι παράγοντες που επηρεάζουν και τις δύο μεταβλητές. Ως μέτρο της εξάρτησης μεταξύ των μεταβλητών, χρησιμοποιείται ο συντελεστής συσχέτισης (r), ο οποίος κυμαίνεται από -1 έως +1. Εάν ο συντελεστής συσχέτισης είναι αρνητικός, αυτό σημαίνει ότι καθώς οι τιμές μιας μεταβλητής αυξάνονται, οι τιμές της άλλης μειώνονται. Εάν οι μεταβλητές είναι ανεξάρτητες, τότε ο συντελεστής συσχέτισης είναι 0 (το αντίστροφο ισχύει μόνο για μεταβλητές που έχουν κανονική κατανομή). Αν όμως ο συντελεστής συσχέτισης δεν είναι ίσος με 0 (οι μεταβλητές ονομάζονται μη συσχετισμένες), τότε αυτό σημαίνει ότι υπάρχει σχέση μεταξύ των μεταβλητών. Όσο πιο κοντά είναι η τιμή του r στο 1, τόσο ισχυρότερη είναι η εξάρτηση. Ο συντελεστής συσχέτισης φτάνει τις ακραίες τιμές του +1 ή -1 εάν και μόνο εάν η σχέση μεταξύ των μεταβλητών είναι γραμμική. Η ανάλυση συσχέτισης σάς επιτρέπει να καθορίσετε την ισχύ και την κατεύθυνση της στοχαστικής σχέσης μεταξύ των μεταβλητών (τυχαίες μεταβλητές). Εάν οι μεταβλητές μετρώνται τουλάχιστον σε κλίμακα διαστήματος και έχουν κανονική κατανομή, τότε η ανάλυση συσχέτισης πραγματοποιείται με υπολογισμό του συντελεστή συσχέτισης Pearson, διαφορετικά χρησιμοποιούνται συσχετίσεις Spearman, Kendal's tau ή Gamma.

Ανάλυση παλινδρόμησης.Η ανάλυση παλινδρόμησης μοντελοποιεί τη σχέση μιας τυχαίας μεταβλητής με μία ή περισσότερες άλλες τυχαίες μεταβλητές. Σε αυτή την περίπτωση, η πρώτη μεταβλητή ονομάζεται εξαρτημένη και η υπόλοιπη - ανεξάρτητη. Η επιλογή ή η ανάθεση εξαρτημένων και ανεξάρτητων μεταβλητών είναι αυθαίρετη (υπό όρους) και πραγματοποιείται από τον ερευνητή ανάλογα με το πρόβλημα που επιλύει. Οι ανεξάρτητες μεταβλητές ονομάζονται παράγοντες, παλινδρομικοί παράγοντες ή προγνωστικοί παράγοντες και η εξαρτημένη μεταβλητή ονομάζεται χαρακτηριστικό του αποτελέσματος ή απόκριση.
Εάν ο αριθμός των προβλέψεων είναι ίσος με 1, η παλινδρόμηση ονομάζεται απλή ή μονομεταβλητή, εάν ο αριθμός των προγνωστικών είναι περισσότερο από 1, πολλαπλή ή πολυπαραγοντική. Γενικά, το μοντέλο παλινδρόμησης μπορεί να γραφτεί ως εξής:

Y \u003d f (x 1, x 2, ..., x n),

Όπου y είναι η εξαρτημένη μεταβλητή (απόκριση), x i (i = 1,…, n) είναι προγνωστικοί παράγοντες (παράγοντες), n είναι ο αριθμός των προβλέψεων.
Μέσω της ανάλυσης παλινδρόμησης, είναι δυνατή η επίλυση μιας σειράς σημαντικών εργασιών για το υπό μελέτη πρόβλημα:
1). Μείωση της διάστασης του χώρου των αναλυόμενων μεταβλητών (factor space), με την αντικατάσταση μέρους των παραγόντων με μία μεταβλητή - την απόκριση. Αυτό το πρόβλημα επιλύεται πληρέστερα με παραγοντική ανάλυση.
2). Ποσοτικοποίηση της επίδρασης κάθε παράγοντα, δηλ. πολλαπλή παλινδρόμηση, επιτρέπει στον ερευνητή να κάνει μια ερώτηση (και πιθανώς να πάρει μια απάντηση) σχετικά με το «ποιος είναι ο καλύτερος προγνωστικός παράγοντας για ...». Ταυτόχρονα, η επίδραση μεμονωμένων παραγόντων στην απόκριση γίνεται πιο ξεκάθαρη και ο ερευνητής κατανοεί καλύτερα τη φύση του φαινομένου που μελετά.
3). Υπολογισμός τιμών προγνωστικής απόκρισης για ορισμένες τιμές παραγόντων, π.χ. Η ανάλυση παλινδρόμησης, δημιουργεί τη βάση για ένα υπολογιστικό πείραμα προκειμένου να ληφθούν απαντήσεις σε ερωτήσεις όπως "Τι θα συμβεί αν ...".
4). Στην ανάλυση παλινδρόμησης, ο αιτιώδης μηχανισμός εμφανίζεται με πιο σαφή μορφή. Σε αυτή την περίπτωση, η πρόγνωση προσφέρεται καλύτερα για ουσιαστική ερμηνεία.

Κανονική ανάλυση.Η κανονική ανάλυση έχει σχεδιαστεί για να αναλύει τις εξαρτήσεις μεταξύ δύο λιστών χαρακτηριστικών (ανεξάρτητες μεταβλητές) που χαρακτηρίζουν αντικείμενα. Για παράδειγμα, μπορείτε να μελετήσετε τη σχέση μεταξύ διαφόρων δυσμενών παραγόντων και την εμφάνιση μιας συγκεκριμένης ομάδας συμπτωμάτων μιας νόσου ή τη σχέση μεταξύ δύο ομάδων κλινικών και εργαστηριακών παραμέτρων (συνδρόμων) ενός ασθενούς. Η κανονική ανάλυση είναι μια γενίκευση της πολλαπλής συσχέτισης ως μέτρο της σχέσης μεταξύ μιας μεταβλητής και πολλών άλλων μεταβλητών. Όπως γνωρίζετε, η πολλαπλή συσχέτιση είναι η μέγιστη συσχέτιση μεταξύ μιας μεταβλητής και μιας γραμμικής συνάρτησης άλλων μεταβλητών. Αυτή η έννοια έχει γενικευτεί στην περίπτωση μιας σύνδεσης μεταξύ συνόλων μεταβλητών - χαρακτηριστικών που χαρακτηρίζουν αντικείμενα. Σε αυτήν την περίπτωση, αρκεί να περιοριστούμε στην εξέταση ενός μικρού αριθμού από τους πιο συσχετισμένους γραμμικούς συνδυασμούς από κάθε σύνολο. Έστω, για παράδειγμα, το πρώτο σύνολο μεταβλητών αποτελείται από πρόσημα y1, ..., ur, το δεύτερο σύνολο αποτελείται από - x1, ..., xq, τότε η σχέση μεταξύ αυτών των συνόλων μπορεί να εκτιμηθεί ως συσχέτιση μεταξύ γραμμικών συνδυασμών a1y1 + a2y2 + ... + apyp, b1x1 + b2x2 + ... + bqxq, που ονομάζεται κανονική συσχέτιση. Το καθήκον της κανονικής ανάλυσης είναι να βρει τους συντελεστές βάρους με τέτοιο τρόπο ώστε η κανονική συσχέτιση να είναι μέγιστη.

Μέθοδοι σύγκρισης μέσων όρων.Στην εφαρμοσμένη έρευνα, υπάρχουν συχνά περιπτώσεις όπου το μέσο αποτέλεσμα κάποιου χαρακτηριστικού μιας σειράς πειραμάτων διαφέρει από το μέσο αποτέλεσμα μιας άλλης σειράς. Δεδομένου ότι οι μέσοι όροι είναι τα αποτελέσματα των μετρήσεων, τότε, κατά κανόνα, διαφέρουν πάντα, το ερώτημα είναι αν η παρατηρούμενη απόκλιση μεταξύ των μέσων όρων μπορεί να εξηγηθεί από τα αναπόφευκτα τυχαία σφάλματα του πειράματος ή οφείλεται σε ορισμένους λόγους. Αν μιλάμε για σύγκριση δύο μέσων, τότε μπορείτε να εφαρμόσετε το τεστ Student (t-test). Αυτό είναι ένα παραμετρικό τεστ, αφού υποτίθεται ότι το χαρακτηριστικό έχει κανονική κατανομή σε κάθε σειρά πειραμάτων. Επί του παρόντος, έχει γίνει μόδα η χρήση μη παραμετρικών κριτηρίων για τη σύγκριση των μέσων όρων
Η σύγκριση των μέσων αποτελεσμάτων είναι ένας από τους τρόπους αναγνώρισης εξαρτήσεων μεταξύ μεταβλητών χαρακτηριστικών που χαρακτηρίζουν το μελετημένο σύνολο αντικειμένων (παρατηρήσεις). Εάν, κατά τη διαίρεση των αντικειμένων μελέτης σε υποομάδες χρησιμοποιώντας μια κατηγορική ανεξάρτητη μεταβλητή (πρόβλεψη), η υπόθεση για την ανισότητα των μέσων μιας εξαρτημένης μεταβλητής σε υποομάδες είναι αληθής, τότε αυτό σημαίνει ότι υπάρχει μια στοχαστική σχέση μεταξύ αυτής της εξαρτημένης μεταβλητής και της ο κατηγορηματικός προγνωστικός. Έτσι, για παράδειγμα, εάν διαπιστωθεί ότι η υπόθεση σχετικά με την ισότητα των μέσων δεικτών της σωματικής και πνευματικής ανάπτυξης των παιδιών στις ομάδες μητέρων που κάπνιζαν και δεν κάπνιζαν κατά τη διάρκεια της εγκυμοσύνης είναι εσφαλμένη, τότε αυτό σημαίνει ότι υπάρχει σχέση μεταξύ του καπνίσματος της μητέρας του παιδιού κατά τη διάρκεια της εγκυμοσύνης και της πνευματικής και σωματικής του ανάπτυξης.
Η πιο κοινή μέθοδος σύγκρισης μέσων είναι η ανάλυση διασποράς. Στην ορολογία ANOVA, ένας κατηγορικός προγνωστικός παράγοντας ονομάζεται παράγοντας.
Η ανάλυση διακύμανσης μπορεί να οριστεί ως μια παραμετρική, στατιστική μέθοδος που έχει σχεδιαστεί για την αξιολόγηση της επίδρασης διαφόρων παραγόντων στο αποτέλεσμα ενός πειράματος, καθώς και για τον μετέπειτα προγραμματισμό των πειραμάτων. Επομένως, στην ανάλυση της διακύμανσης, είναι δυνατό να διερευνηθεί η εξάρτηση ενός ποσοτικού χαρακτηριστικού από ένα ή περισσότερα ποιοτικά χαρακτηριστικά των παραγόντων. Εάν ληφθεί υπόψη ένας παράγοντας, τότε χρησιμοποιείται μονόδρομη ανάλυση διακύμανσης, διαφορετικά χρησιμοποιείται πολυμεταβλητή ανάλυση διακύμανσης.

Ανάλυση συχνότητας.Οι πίνακες συχνότητας, ή όπως ονομάζονται και πίνακες απλής εισαγωγής, είναι η απλούστερη μέθοδος για την ανάλυση κατηγορικών μεταβλητών. Οι πίνακες συχνότητας μπορούν επίσης να χρησιμοποιηθούν με επιτυχία για τη μελέτη ποσοτικών μεταβλητών, αν και αυτό μπορεί να οδηγήσει σε δυσκολίες στην ερμηνεία των αποτελεσμάτων. Αυτός ο τύπος στατιστικής μελέτης χρησιμοποιείται συχνά ως μία από τις διαδικασίες διερευνητικής ανάλυσης για να δούμε πώς κατανέμονται διαφορετικές ομάδες παρατηρήσεων στο δείγμα ή πώς η τιμή ενός χαρακτηριστικού κατανέμεται στο διάστημα από την ελάχιστη στη μέγιστη τιμή. Κατά κανόνα, οι πίνακες συχνοτήτων απεικονίζονται γραφικά χρησιμοποιώντας ιστογράμματα.

Crosstabulation (σύζευξη)– η διαδικασία συνδυασμού δύο (ή περισσότερων) πινάκων συχνοτήτων, έτσι ώστε κάθε κελί στον κατασκευασμένο πίνακα να αντιπροσωπεύεται από έναν μοναδικό συνδυασμό τιμών ή επιπέδων μεταβλητών σε πίνακα. Η διασταύρωση καθιστά δυνατό τον συνδυασμό των συχνοτήτων εμφάνισης των παρατηρήσεων σε διαφορετικά επίπεδα των εξεταζόμενων παραγόντων. Εξετάζοντας αυτές τις συχνότητες, είναι δυνατό να εντοπιστούν οι σχέσεις μεταξύ των μεταβλητών που παρουσιάζονται σε πίνακα και να διερευνηθεί η δομή αυτής της σχέσης. Συνήθως, ταξινομούνται σε πίνακα μεταβλητές κατηγοριών ή κλίμακας με σχετικά λίγες τιμές. Εάν μια συνεχής μεταβλητή πρόκειται να καταγραφεί σε πίνακα (ας πούμε, το σάκχαρο αίματος), τότε πρέπει πρώτα να επανακωδικοποιηθεί διαιρώντας το εύρος της αλλαγής σε μικρό αριθμό διαστημάτων (π.χ. επίπεδο: χαμηλό, μεσαίο, υψηλό).

Ανάλυση αντιστοιχίας.Η ανάλυση αντιστοιχίας, σε σύγκριση με την ανάλυση συχνότητας, περιέχει πιο ισχυρές περιγραφικές και διερευνητικές μεθόδους για την ανάλυση διπλών και πολλαπλών πινάκων. Η μέθοδος, όπως και οι πίνακες έκτακτης ανάγκης, σας επιτρέπει να εξερευνήσετε τη δομή και τη σχέση των μεταβλητών ομαδοποίησης που περιλαμβάνονται στον πίνακα. Στην κλασική ανάλυση αντιστοιχίας, οι συχνότητες στον πίνακα απρόβλεπτων τυποποιούνται (κανονικοποιούνται) με τέτοιο τρόπο ώστε το άθροισμα των στοιχείων σε όλα τα κελιά να είναι ίσο με 1.
Ένας από τους στόχους της ανάλυσης αντιστοιχίας είναι να αναπαραστήσει τα περιεχόμενα του πίνακα σχετικών συχνοτήτων με τη μορφή αποστάσεων μεταξύ μεμονωμένων γραμμών και/ή στηλών του πίνακα σε χώρο χαμηλότερης διάστασης.

ανάλυση συστάδων.Η ανάλυση συστάδων είναι μια μέθοδος ανάλυσης ταξινόμησης. Ο κύριος σκοπός του είναι να χωρίσει το σύνολο των υπό μελέτη αντικειμένων και χαρακτηριστικών σε ομάδες ή ομάδες που είναι ομοιογενείς υπό μια ορισμένη έννοια. Αυτή είναι μια πολυμεταβλητή στατιστική μέθοδος, επομένως θεωρείται ότι τα αρχικά δεδομένα μπορεί να είναι σημαντικού όγκου, δηλ. τόσο ο αριθμός των αντικειμένων μελέτης (παρατηρήσεις) όσο και τα χαρακτηριστικά που χαρακτηρίζουν αυτά τα αντικείμενα μπορεί να είναι σημαντικά μεγάλα. Το μεγάλο πλεονέκτημα της ανάλυσης συμπλέγματος είναι ότι καθιστά δυνατή την κατάτμηση αντικειμένων όχι από ένα χαρακτηριστικό, αλλά από έναν αριθμό χαρακτηριστικών. Επιπλέον, η ανάλυση συστάδων, σε αντίθεση με τις περισσότερες μαθηματικές και στατιστικές μεθόδους, δεν επιβάλλει περιορισμούς στον τύπο των υπό εξέταση αντικειμένων και σας επιτρέπει να εξερευνήσετε πολλά αρχικά δεδομένα σχεδόν αυθαίρετης φύσης. Δεδομένου ότι τα συμπλέγματα είναι ομάδες ομοιογένειας, το καθήκον της ανάλυσης συστάδων είναι να χωρίσει το σύνολο τους σε συστάδες m (m - ακέραιος αριθμός) με βάση τα χαρακτηριστικά των αντικειμένων, έτσι ώστε κάθε αντικείμενο να ανήκει σε μία μόνο ομάδα διαμερισμάτων. Ταυτόχρονα, τα αντικείμενα που ανήκουν στο ίδιο σύμπλεγμα πρέπει να είναι ομοιογενή (παρόμοια) και τα αντικείμενα που ανήκουν σε διαφορετικά συμπλέγματα πρέπει να είναι ετερογενή. Εάν τα αντικείμενα ομαδοποίησης αντιπροσωπεύονται ως σημεία στον n-διάστατο χώρο χαρακτηριστικών (n είναι ο αριθμός των χαρακτηριστικών που χαρακτηρίζουν αντικείμενα), τότε η ομοιότητα μεταξύ των αντικειμένων καθορίζεται μέσω της έννοιας της απόστασης μεταξύ σημείων, καθώς είναι διαισθητικά σαφές ότι το μικρότερο η απόσταση μεταξύ των αντικειμένων, τόσο πιο παρόμοια είναι.

Διακριτική ανάλυση.Η διακριτική ανάλυση περιλαμβάνει στατιστικές μεθόδους για την ταξινόμηση των πολυμεταβλητών παρατηρήσεων σε μια κατάσταση όπου ο ερευνητής έχει τα λεγόμενα δείγματα εκπαίδευσης. Αυτός ο τύπος ανάλυσης είναι πολυδιάστατος, αφού χρησιμοποιεί πολλά χαρακτηριστικά του αντικειμένου, ο αριθμός των οποίων μπορεί να είναι αυθαίρετα μεγάλος. Ο σκοπός της ανάλυσης διάκρισης είναι να ταξινομήσει ένα αντικείμενο με βάση τη μέτρηση διαφόρων χαρακτηριστικών (χαρακτηριστικών), δηλαδή να το αποδώσει σε μία από πολλές καθορισμένες ομάδες (τάξεις) με κάποιο βέλτιστο τρόπο. Υποτίθεται ότι τα αρχικά δεδομένα, μαζί με τα χαρακτηριστικά των αντικειμένων, περιέχουν μια μεταβλητή κατηγορίας (ομαδοποίησης) που καθορίζει εάν το αντικείμενο ανήκει σε μια συγκεκριμένη ομάδα. Ως εκ τούτου, η ανάλυση διάκρισης προβλέπει τον έλεγχο της συνοχής της ταξινόμησης που πραγματοποιήθηκε με τη μέθοδο με την αρχική εμπειρική ταξινόμηση. Η βέλτιστη μέθοδος νοείται είτε ως το ελάχιστο της μαθηματικής προσδοκίας των απωλειών, είτε ως το ελάχιστο της πιθανότητας λανθασμένης ταξινόμησης. Στη γενική περίπτωση, το πρόβλημα της διάκρισης (discrimination) διατυπώνεται ως εξής. Έστω το αποτέλεσμα της παρατήρησης πάνω από ένα αντικείμενο η κατασκευή ενός τυχαίου διανύσματος k-διαστάσεων Χ = (X1, X2, …, XК), όπου X1, X2, …, XК είναι τα χαρακτηριστικά του αντικειμένου. Απαιτείται να θεσπιστεί ένας κανόνας σύμφωνα με τον οποίο, σύμφωνα με τις τιμές των συντεταγμένων του διανύσματος X, το αντικείμενο εκχωρείται σε ένα από τα πιθανά σύνολα i, i = 1, 2, ..., n. Οι μέθοδοι διάκρισης μπορούν να χωριστούν υπό όρους σε παραμετρικές και μη παραμετρικές. Στην παραμετρική είναι γνωστό ότι η κατανομή των διανυσμάτων χαρακτηριστικών σε κάθε πληθυσμό είναι κανονική, αλλά δεν υπάρχουν πληροφορίες για τις παραμέτρους αυτών των κατανομών. Οι μέθοδοι μη παραμετρικής διάκρισης δεν απαιτούν γνώση της ακριβούς λειτουργικής μορφής των κατανομών και επιτρέπουν την επίλυση προβλημάτων διάκρισης με βάση ασήμαντες a priori πληροφορίες για πληθυσμούς, οι οποίες είναι ιδιαίτερα πολύτιμες για πρακτικές εφαρμογές. Εάν πληρούνται οι προϋποθέσεις εφαρμογής της διακριτικής ανάλυσης - οι ανεξάρτητες μεταβλητές-χαρακτηριστικά (ονομάζονται επίσης προγνωστικοί παράγοντες) πρέπει να μετρώνται τουλάχιστον σε κλίμακα διαστήματος, η κατανομή τους πρέπει να αντιστοιχεί στον κανονικό νόμο, είναι απαραίτητο να χρησιμοποιηθεί κλασική διακριτική ανάλυση , διαφορετικά - η μέθοδος των γενικών μοντέλων της διακριτικής ανάλυσης.

Παραγοντική ανάλυση.Η παραγοντική ανάλυση είναι μια από τις πιο δημοφιλείς πολυμεταβλητές στατιστικές μεθόδους. Εάν οι μέθοδοι συστάδας και διάκρισης ταξινομούν τις παρατηρήσεις, διαιρώντας τις σε ομάδες ομοιογένειας, τότε η παραγοντική ανάλυση ταξινομεί τα χαρακτηριστικά (μεταβλητές) που περιγράφουν τις παρατηρήσεις. Επομένως, ο κύριος στόχος της παραγοντικής ανάλυσης είναι η μείωση του αριθμού των μεταβλητών με βάση την ταξινόμηση των μεταβλητών και τον προσδιορισμό της δομής των σχέσεων μεταξύ τους. Η μείωση επιτυγχάνεται με την ανάδειξη των κρυφών (λανθάνον) κοινών παραγόντων που εξηγούν τη σχέση μεταξύ των παρατηρούμενων χαρακτηριστικών του αντικειμένου, δηλ. αντί για το αρχικό σύνολο μεταβλητών, θα είναι δυνατή η ανάλυση δεδομένων για επιλεγμένους παράγοντες, ο αριθμός των οποίων είναι πολύ μικρότερος από τον αρχικό αριθμό των αλληλένδετων μεταβλητών.

Ταξινόμηση δέντρων.Τα δέντρα ταξινόμησης είναι μια μέθοδος ανάλυσης ταξινόμησης που σας επιτρέπει να προβλέψετε την αναγωγή των αντικειμένων σε μια συγκεκριμένη κλάση, ανάλογα με τις αντίστοιχες τιμές των χαρακτηριστικών που χαρακτηρίζουν τα αντικείμενα. Τα χαρακτηριστικά ονομάζονται ανεξάρτητες μεταβλητές και μια μεταβλητή που δείχνει εάν τα αντικείμενα ανήκουν σε κλάσεις ονομάζεται εξαρτημένη. Σε αντίθεση με την κλασική ανάλυση διάκρισης, τα δέντρα ταξινόμησης είναι ικανά να εκτελούν μονοδιάστατη διακλάδωση σε μεταβλητές διαφόρων τύπων - κατηγορικές, τακτικές, διαστήματα. Δεν επιβάλλονται περιορισμοί στον νόμο της κατανομής των ποσοτικών μεταβλητών. Κατ' αναλογία με τη διακριτική ανάλυση, η μέθοδος καθιστά δυνατή την ανάλυση της συμβολής των επιμέρους μεταβλητών στη διαδικασία ταξινόμησης. Τα δέντρα ταξινόμησης μπορεί να είναι και μερικές φορές είναι πολύ περίπλοκα. Ωστόσο, η χρήση ειδικών γραφικών διαδικασιών καθιστά δυνατή την απλοποίηση της ερμηνείας των αποτελεσμάτων ακόμη και για πολύ πολύπλοκα δέντρα. Η δυνατότητα γραφικής παρουσίασης των αποτελεσμάτων και η ευκολία ερμηνείας εξηγούν σε μεγάλο βαθμό τη μεγάλη δημοτικότητα των δέντρων ταξινόμησης σε εφαρμοσμένα πεδία, ωστόσο, οι πιο σημαντικές διακριτικές ιδιότητες των δέντρων ταξινόμησης είναι η ιεραρχία και η ευρεία εφαρμογή τους. Η δομή της μεθόδου είναι τέτοια που ο χρήστης έχει τη δυνατότητα να κατασκευάζει δέντρα αυθαίρετης πολυπλοκότητας χρησιμοποιώντας ελεγχόμενες παραμέτρους, επιτυγχάνοντας ελάχιστα σφάλματα ταξινόμησης. Αλλά σύμφωνα με ένα σύνθετο δέντρο, λόγω του μεγάλου συνόλου κανόνων απόφασης, είναι δύσκολο να ταξινομηθεί ένα νέο αντικείμενο. Επομένως, κατά την κατασκευή ενός δέντρου ταξινόμησης, ο χρήστης πρέπει να βρει έναν εύλογο συμβιβασμό μεταξύ της πολυπλοκότητας του δέντρου και της πολυπλοκότητας της διαδικασίας ταξινόμησης. Η ευρεία δυνατότητα εφαρμογής των δέντρων ταξινόμησης τα καθιστά ένα πολύ ελκυστικό εργαλείο για την ανάλυση δεδομένων, αλλά δεν θα πρέπει να θεωρηθεί ότι συνιστάται η χρήση τους αντί για τις παραδοσιακές μεθόδους ανάλυσης ταξινόμησης. Αντίθετα, εάν πληρούνται αυστηρότερες θεωρητικές υποθέσεις που επιβάλλονται από τις παραδοσιακές μεθόδους και η δειγματοληπτική κατανομή έχει κάποιες ειδικές ιδιότητες (για παράδειγμα, η κατανομή των μεταβλητών αντιστοιχεί στον κανονικό νόμο), τότε η χρήση των παραδοσιακών μεθόδων θα είναι πιο αποτελεσματική. Ωστόσο, ως μέθοδος διερευνητικής ανάλυσης ή ως έσχατη λύση όταν όλες οι παραδοσιακές μέθοδοι αποτυγχάνουν, τα Δέντρα ταξινόμησης, σύμφωνα με πολλούς ερευνητές, είναι ασύγκριτα.

Ανάλυση και ταξινόμηση βασικών συστατικών.Στην πράξη, συχνά προκύπτει το πρόβλημα της ανάλυσης δεδομένων υψηλών διαστάσεων. Η μέθοδος ανάλυσης και ταξινόμησης των κύριων συστατικών επιτρέπει την επίλυση αυτού του προβλήματος και εξυπηρετεί την επίτευξη δύο στόχων:
– μείωση του συνολικού αριθμού μεταβλητών (μείωση δεδομένων) προκειμένου να ληφθούν οι «κύριες» και οι «μη συσχετισμένες» μεταβλητές.
– ταξινόμηση μεταβλητών και παρατηρήσεις, με τη βοήθεια του υπό κατασκευή χώρου παραγόντων.
Η μέθοδος είναι παρόμοια με την ανάλυση παραγόντων στη διατύπωση των εργασιών που επιλύονται, αλλά έχει μια σειρά από σημαντικές διαφορές:
– στην ανάλυση των κύριων συστατικών, δεν χρησιμοποιούνται επαναληπτικές μέθοδοι για την εξαγωγή παραγόντων.
– μαζί με τις ενεργές μεταβλητές και τις παρατηρήσεις που χρησιμοποιούνται για την εξαγωγή των κύριων συνιστωσών, μπορούν να καθοριστούν βοηθητικές μεταβλητές ή/και παρατηρήσεις· Στη συνέχεια, οι βοηθητικές μεταβλητές και οι παρατηρήσεις προβάλλονται στον παραγοντικό χώρο που υπολογίζεται από τις ενεργές μεταβλητές και τις παρατηρήσεις.
- οι αναφερόμενες δυνατότητες επιτρέπουν τη χρήση της μεθόδου ως ισχυρού εργαλείου για την ταξινόμηση τόσο των μεταβλητών όσο και των παρατηρήσεων.
Η λύση του κύριου προβλήματος της μεθόδου επιτυγχάνεται με τη δημιουργία ενός διανυσματικού χώρου λανθάνουσας (κρυφής) μεταβλητών (παραγόντων) με διάσταση μικρότερη από την αρχική. Η αρχική διάσταση καθορίζεται από τον αριθμό των μεταβλητών για ανάλυση στα δεδομένα πηγής.

Πολυδιάστατη κλιμάκωση. Η μέθοδος μπορεί να θεωρηθεί ως εναλλακτική στην παραγοντική ανάλυση, η οποία επιτυγχάνει μείωση του αριθμού των μεταβλητών εξάγοντας λανθάνοντες (όχι άμεσα παρατηρούμενους) παράγοντες που εξηγούν τις σχέσεις μεταξύ των παρατηρούμενων μεταβλητών. Ο σκοπός της πολυδιάστατης κλιμάκωσης είναι να βρει και να ερμηνεύσει λανθάνουσες μεταβλητές που επιτρέπουν στο χρήστη να εξηγήσει τις ομοιότητες μεταξύ αντικειμένων που δίνονται σημεία στον αρχικό χώρο χαρακτηριστικών. Στην πράξη, δείκτες της ομοιότητας των αντικειμένων μπορεί να είναι οι αποστάσεις ή οι βαθμοί σύνδεσης μεταξύ τους. Στην παραγοντική ανάλυση, οι ομοιότητες μεταξύ των μεταβλητών εκφράζονται χρησιμοποιώντας έναν πίνακα συντελεστών συσχέτισης. Στην πολυδιάστατη κλιμάκωση, ένας αυθαίρετος τύπος πίνακα ομοιότητας αντικειμένων μπορεί να χρησιμοποιηθεί ως δεδομένα εισόδου: αποστάσεις, συσχετίσεις κ.λπ. Παρά το γεγονός ότι υπάρχουν πολλές ομοιότητες στη φύση των υπό μελέτη θεμάτων, οι μέθοδοι πολυμεταβλητής κλιμάκωσης και παραγοντικής ανάλυσης έχουν μια σειρά από σημαντικές διαφορές. Έτσι, η παραγοντική ανάλυση απαιτεί τα υπό μελέτη δεδομένα να υπακούουν σε μια πολυμεταβλητή κανονική κατανομή και οι εξαρτήσεις να είναι γραμμικές. Η πολυδιάστατη κλιμάκωση δεν επιβάλλει τέτοιους περιορισμούς, μπορεί να εφαρμοστεί εάν δοθεί ο πίνακας ομοιοτήτων κατά ζεύγη αντικειμένων. Όσον αφορά τις διαφορές στα αποτελέσματα, η παραγοντική ανάλυση επιδιώκει να εξάγει περισσότερες λανθάνουσες μεταβλητές από την πολυμεταβλητή κλιμάκωση. Επομένως, η πολυδιάστατη κλιμάκωση οδηγεί συχνά σε ευκολότερες στην ερμηνεία λύσεις. Το πιο σημαντικό, ωστόσο, η πολυμεταβλητή κλιμάκωση μπορεί να εφαρμοστεί σε οποιοδήποτε τύπο απόστασης ή ομοιότητας, ενώ η παραγοντική ανάλυση απαιτεί έναν πίνακα συσχέτισης μεταβλητών που θα χρησιμοποιηθεί ως είσοδος ή ένας πίνακας συσχέτισης που θα υπολογιστεί πρώτα από το αρχείο δεδομένων εισόδου. Η κύρια υπόθεση της πολυδιάστατης κλιμάκωσης είναι ότι υπάρχει κάποιος μετρικός χώρος βασικών βασικών χαρακτηριστικών, ο οποίος έμμεσα χρησίμευσε ως βάση για τα ληφθέντα εμπειρικά δεδομένα σχετικά με την εγγύτητα μεταξύ ζευγών αντικειμένων. Επομένως, τα αντικείμενα μπορούν να αναπαρασταθούν ως σημεία σε αυτόν τον χώρο. Θεωρείται επίσης ότι τα πιο κοντινά (σύμφωνα με τον αρχικό πίνακα) αντικείμενα αντιστοιχούν σε μικρότερες αποστάσεις στο χώρο των βασικών χαρακτηριστικών. Επομένως, η πολυδιάστατη κλιμάκωση είναι ένα σύνολο μεθόδων για την ανάλυση εμπειρικών δεδομένων σχετικά με την εγγύτητα των αντικειμένων, με τη βοήθεια των οποίων καθορίζεται η διάσταση του χώρου των χαρακτηριστικών των μετρούμενων αντικειμένων που είναι απαραίτητα για μια δεδομένη ουσιαστική εργασία και η διαμόρφωση του σημεία (αντικείμενα) σε αυτόν τον χώρο κατασκευάζεται. Αυτός ο χώρος («πολυδιάστατη κλίμακα») είναι παρόμοιος με τις κλίμακες που χρησιμοποιούνται συνήθως με την έννοια ότι οι τιμές των βασικών χαρακτηριστικών των μετρούμενων αντικειμένων αντιστοιχούν σε ορισμένες θέσεις στους άξονες του χώρου. Η λογική της πολυδιάστατης κλιμάκωσης μπορεί να απεικονιστεί με το ακόλουθο απλό παράδειγμα. Ας υποθέσουμε ότι υπάρχει ένας πίνακας αποστάσεων κατά ζεύγη (δηλαδή ομοιότητες ορισμένων χαρακτηριστικών) μεταξύ ορισμένων πόλεων. Αναλύοντας τη μήτρα, είναι απαραίτητο να τοποθετηθούν σημεία με τις συντεταγμένες των πόλεων σε δισδιάστατο χώρο (σε επίπεδο), διατηρώντας όσο το δυνατόν περισσότερο τις πραγματικές αποστάσεις μεταξύ τους. Η προκύπτουσα τοποθέτηση σημείων στο επίπεδο μπορεί αργότερα να χρησιμοποιηθεί ως ένας κατά προσέγγιση γεωγραφικός χάρτης. Στη γενική περίπτωση, η πολυδιάστατη κλιμάκωση επιτρέπει σε αντικείμενα (πόλεις στο παράδειγμά μας) να βρίσκονται σε χώρο κάποιας μικρής διάστασης (στην περίπτωση αυτή ισούται με δύο) με τέτοιο τρόπο ώστε να αναπαράγονται επαρκώς οι παρατηρούμενες αποστάσεις μεταξύ τους. Ως αποτέλεσμα, αυτές οι αποστάσεις μπορούν να μετρηθούν με βάση τις λανθάνουσες μεταβλητές που βρέθηκαν. Έτσι, στο παράδειγμά μας, μπορούμε να εξηγήσουμε τις αποστάσεις με όρους ενός ζεύγους γεωγραφικών συντεταγμένων Βορράς/Νότος και Ανατολής/Δύσης.

Μοντελοποίηση με δομικές εξισώσεις (causal modeling).Η πρόσφατη πρόοδος στον τομέα της πολυμεταβλητής στατιστικής ανάλυσης και ανάλυσης δομών συσχέτισης, σε συνδυασμό με τους πιο πρόσφατους υπολογιστικούς αλγόριθμους, αποτέλεσαν το σημείο εκκίνησης για τη δημιουργία μιας νέας, αλλά ήδη αναγνωρισμένης τεχνικής μοντελοποίησης δομικών εξισώσεων (SEPATH). Αυτή η εξαιρετικά ισχυρή τεχνική πολυμεταβλητής ανάλυσης περιλαμβάνει μεθόδους από διάφορους τομείς της στατιστικής, η πολλαπλή παλινδρόμηση και η ανάλυση παραγόντων έχουν αναπτυχθεί και συνδυαστεί φυσικά εδώ.
Αντικείμενο μοντελοποίησης δομικών εξισώσεων είναι πολύπλοκα συστήματα, η εσωτερική δομή των οποίων δεν είναι γνωστή («μαύρο κουτί»). Παρατηρώντας τις παραμέτρους του συστήματος χρησιμοποιώντας το SEPATH, μπορείτε να εξερευνήσετε τη δομή του, να δημιουργήσετε σχέσεις αιτίου-αποτελέσματος μεταξύ των στοιχείων του συστήματος.
Η δήλωση του προβλήματος της δομικής μοντελοποίησης είναι η εξής. Έστω ότι υπάρχουν μεταβλητές για τις οποίες είναι γνωστές οι στατιστικές ροπές, για παράδειγμα, ένας πίνακας συσχέτισης δείγματος ή συντελεστές συνδιακύμανσης. Τέτοιες μεταβλητές ονομάζονται ρητές. Μπορούν να είναι χαρακτηριστικά ενός πολύπλοκου συστήματος. Οι πραγματικές σχέσεις μεταξύ των παρατηρούμενων ρητών μεταβλητών μπορεί να είναι αρκετά περίπλοκες, αλλά υποθέτουμε ότι υπάρχει ένας αριθμός κρυφών μεταβλητών που εξηγούν τη δομή αυτών των σχέσεων με έναν ορισμένο βαθμό ακρίβειας. Έτσι, με τη βοήθεια λανθάνουσας μεταβλητής, δημιουργείται ένα μοντέλο σχέσεων μεταξύ ρητών και άρρητων μεταβλητών. Σε ορισμένες εργασίες, οι λανθάνουσες μεταβλητές μπορούν να θεωρηθούν ως αιτίες και οι ρητές ως συνέπειες, επομένως, τέτοια μοντέλα ονομάζονται αιτιώδης. Υποτίθεται ότι οι κρυφές μεταβλητές, με τη σειρά τους, μπορούν να σχετίζονται μεταξύ τους. Η δομή των συνδέσεων υποτίθεται ότι είναι αρκετά περίπλοκη, αλλά ο τύπος της υποτίθεται - πρόκειται για συνδέσεις που περιγράφονται με γραμμικές εξισώσεις. Ορισμένες παράμετροι γραμμικών μοντέλων είναι γνωστές, άλλες όχι και είναι ελεύθερες παράμετροι.
Η κύρια ιδέα της μοντελοποίησης δομικών εξισώσεων είναι ότι μπορείτε να ελέγξετε εάν οι μεταβλητές Y και X σχετίζονται με μια γραμμική σχέση Y = aX αναλύοντας τις διακυμάνσεις και τις συνδιακυμάνσεις τους. Αυτή η ιδέα βασίζεται σε μια απλή ιδιότητα του μέσου όρου και της διακύμανσης: αν πολλαπλασιάσετε κάθε αριθμό με κάποια σταθερά k, ο μέσος όρος πολλαπλασιάζεται επίσης με k, με την τυπική απόκλιση πολλαπλασιασμένη με το μέτρο k. Για παράδειγμα, θεωρήστε ένα σύνολο τριών αριθμών 1, 2, 3. Αυτοί οι αριθμοί έχουν μέσο όρο ίσο με 2 και τυπική απόκλιση ίση με 1. Εάν πολλαπλασιάσετε και τους τρεις αριθμούς με 4, τότε είναι εύκολο να υπολογίσετε ότι ο μέσος όρος θα να είναι ίση με 8, η τυπική απόκλιση είναι 4 και η διακύμανση είναι 16. Έτσι, εάν υπάρχουν σύνολα αριθμών X και Y που σχετίζονται με Y = 4X, τότε η διακύμανση του Y πρέπει να είναι 16 φορές μεγαλύτερη από τη διακύμανση του X. Επομένως, μπορούμε να ελέγξουμε την υπόθεση ότι το Y και το X σχετίζονται με την εξίσωση Y = 4X, συγκρίνοντας τις διακυμάνσεις των μεταβλητών Y και X. Αυτή η ιδέα μπορεί να γενικευτεί με διάφορους τρόπους σε πολλές μεταβλητές που συνδέονται με ένα σύστημα γραμμικών εξισώσεων. Ταυτόχρονα, οι κανόνες μετασχηματισμού γίνονται πιο περίπλοκοι, οι υπολογισμοί πιο περίπλοκοι, αλλά η κύρια ιδέα παραμένει η ίδια - μπορείτε να ελέγξετε εάν οι μεταβλητές σχετίζονται γραμμικά μελετώντας τις διακυμάνσεις και τις συνδιακυμάνσεις τους.

Μέθοδοι ανάλυσης επιβίωσης. Οι μέθοδοι ανάλυσης επιβίωσης αναπτύχθηκαν αρχικά στην ιατρική, βιολογική έρευνα και ασφάλιση, αλλά στη συνέχεια χρησιμοποιήθηκαν ευρέως στις κοινωνικές και οικονομικές επιστήμες, καθώς και στη βιομηχανία σε προβλήματα μηχανικής (ανάλυση αξιοπιστίας και χρόνοι αποτυχίας). Φανταστείτε ότι μια νέα θεραπεία ή φάρμακο μελετάται. Προφανώς, το πιο σημαντικό και αντικειμενικό χαρακτηριστικό είναι το μέσο προσδόκιμο ζωής των ασθενών από τη στιγμή της εισαγωγής τους στην κλινική ή η μέση διάρκεια ύφεσης της νόσου. Θα μπορούσαν να χρησιμοποιηθούν τυπικές παραμετρικές και μη παραμετρικές μέθοδοι για την περιγραφή των μέσων χρόνων επιβίωσης ή ύφεσης. Ωστόσο, υπάρχει ένα σημαντικό χαρακτηριστικό στα δεδομένα που αναλύθηκαν - μπορεί να υπάρχουν ασθενείς που επέζησαν κατά τη διάρκεια ολόκληρης της περιόδου παρατήρησης και σε ορισμένους από αυτούς η νόσος εξακολουθεί να βρίσκεται σε ύφεση. Μπορεί επίσης να υπάρχει μια ομάδα ασθενών με τους οποίους χάθηκε η επαφή πριν από την ολοκλήρωση του πειράματος (για παράδειγμα, μεταφέρθηκαν σε άλλες κλινικές). Χρησιμοποιώντας τυπικές μεθόδους για την εκτίμηση του μέσου όρου, αυτή η ομάδα ασθενών θα έπρεπε να αποκλειστεί, χάνοντας έτσι σημαντικές πληροφορίες που συλλέχθηκαν με δυσκολία. Επιπλέον, οι περισσότεροι από αυτούς τους ασθενείς είναι επιζώντες (ανάρρωστοι) κατά το χρονικό διάστημα που παρατηρήθηκαν, γεγονός που υποδηλώνει υπέρ μιας νέας μεθόδου θεραπείας (φάρμακο). Αυτού του είδους οι πληροφορίες, όταν δεν υπάρχουν δεδομένα για την εμφάνιση του γεγονότος που μας ενδιαφέρει, ονομάζονται ελλιπείς. Εάν υπάρχουν δεδομένα σχετικά με την εμφάνιση ενός γεγονότος που μας ενδιαφέρει, τότε οι πληροφορίες ονομάζονται πλήρεις. Οι παρατηρήσεις που περιέχουν ελλιπείς πληροφορίες ονομάζονται λογοκριμένες παρατηρήσεις. Οι λογοκριμένες παρατηρήσεις είναι χαρακτηριστικές όταν η παρατηρούμενη τιμή αντιπροσωπεύει το χρόνο μέχρι να συμβεί κάποιο κρίσιμο γεγονός και η διάρκεια της παρατήρησης είναι περιορισμένη χρονικά. Η χρήση λογοκριμένων παρατηρήσεων είναι η ιδιαιτερότητα της υπό εξέταση μεθόδου - ανάλυσης επιβίωσης. Στη μέθοδο αυτή διερευνώνται τα πιθανοτικά χαρακτηριστικά των χρονικών διαστημάτων μεταξύ διαδοχικών εμφανίσεων κρίσιμων γεγονότων. Αυτό το είδος έρευνας ονομάζεται ανάλυση των διαρκειών μέχρι τη στιγμή του τερματισμού, η οποία μπορεί να οριστεί ως τα χρονικά διαστήματα μεταξύ της έναρξης της παρατήρησης του αντικειμένου και της στιγμής τερματισμού, κατά την οποία το αντικείμενο παύει να πληροί τις ιδιότητες που έχουν καθοριστεί για παρατήρηση. Σκοπός της έρευνας είναι ο προσδιορισμός των υπό όρους πιθανοτήτων που σχετίζονται με τις διάρκειες μέχρι τη στιγμή του τερματισμού. Η κατασκευή πινάκων διάρκειας ζωής, η προσαρμογή της κατανομής επιβίωσης, η εκτίμηση της συνάρτησης επιβίωσης χρησιμοποιώντας τη διαδικασία Kaplan-Meier είναι περιγραφικές μέθοδοι για τη μελέτη λογοκριμένων δεδομένων. Ορισμένες από τις προτεινόμενες μεθόδους επιτρέπουν τη σύγκριση της επιβίωσης σε δύο ή περισσότερες ομάδες. Τέλος, η ανάλυση επιβίωσης περιέχει μοντέλα παλινδρόμησης για την αξιολόγηση των σχέσεων μεταξύ πολυμεταβλητών συνεχών μεταβλητών με τιμές παρόμοιες με τους χρόνους ζωής.
Γενικά μοντέλα διακριτικής ανάλυσης. Εάν δεν πληρούνται οι προϋποθέσεις εφαρμογής της διακριτικής ανάλυσης (DA) - οι ανεξάρτητες μεταβλητές (προγνωστικοί παράγοντες) πρέπει να μετρώνται τουλάχιστον σε κλίμακα διαστήματος, η κατανομή τους πρέπει να αντιστοιχεί στον κανονικό νόμο, είναι απαραίτητο να χρησιμοποιηθεί η μέθοδος των γενικών μοντέλων διακριτική ανάλυση (GDA). Η μέθοδος ονομάζεται έτσι επειδή χρησιμοποιεί το γενικό γραμμικό μοντέλο (GLM) για την ανάλυση των συναρτήσεων διάκρισης. Σε αυτήν την ενότητα, η ανάλυση διακριτικής συνάρτησης αντιμετωπίζεται ως ένα γενικό πολυμεταβλητό γραμμικό μοντέλο στο οποίο η κατηγορική εξαρτημένη μεταβλητή (απόκριση) αντιπροσωπεύεται από διανύσματα με κωδικούς που δηλώνουν διαφορετικές ομάδες για κάθε παρατήρηση. Η μέθοδος ODA έχει μια σειρά από σημαντικά πλεονεκτήματα σε σχέση με την κλασική διακριτική ανάλυση. Για παράδειγμα, δεν υπάρχουν περιορισμοί στον τύπο του προγνωστικού δείκτη που χρησιμοποιείται (κατηγορικός ή συνεχής) ή στον τύπο του μοντέλου που ορίζεται, είναι δυνατή η σταδιακή επιλογή προγνωστικών και η επιλογή του καλύτερου υποσυνόλου προγνωστικών, εάν υπάρχει δείγμα διασταυρούμενης επικύρωσης στο αρχείο δεδομένων, η επιλογή του καλύτερου υποσυνόλου προγνωστικών μπορεί να βασίζεται σε εσφαλμένη ταξινόμηση μετοχών για δειγματοληψία διασταυρούμενης επικύρωσης κ.λπ.

Χρονική σειρά.Οι χρονοσειρές είναι η πιο εντατικά αναπτυσσόμενη, πολλά υποσχόμενη περιοχή μαθηματικών στατιστικών. Μια χρονική (δυναμική) σειρά είναι μια ακολουθία παρατηρήσεων ενός συγκεκριμένου χαρακτηριστικού X (τυχαία μεταβλητή) σε διαδοχικές ισαπέχουσες στιγμές t. Οι μεμονωμένες παρατηρήσεις ονομάζονται επίπεδα της σειράς και συμβολίζονται με xt, t = 1, ..., n. Κατά τη μελέτη μιας χρονοσειράς, διακρίνονται διάφορα στοιχεία:
x t \u003d u t + y t + c t + e t, t \u003d 1, ..., n,
όπου u t είναι μια τάση, μια ομαλά μεταβαλλόμενη συνιστώσα που περιγράφει τον καθαρό αντίκτυπο μακροπρόθεσμων παραγόντων (μείωση πληθυσμού, μείωση εισοδήματος κ.λπ.) - εποχιακό στοιχείο, που αντικατοπτρίζει τη συχνότητα των διεργασιών για μια όχι πολύ μεγάλη περίοδο (ημέρα, εβδομάδα, μήνας κ.λπ.). Το σt είναι μια κυκλική συνιστώσα που αντικατοπτρίζει τη συχνότητα των διεργασιών για μεγάλες χρονικές περιόδους για ένα έτος. Το t είναι ένα τυχαίο στοιχείο που αντικατοπτρίζει την επίδραση τυχαίων παραγόντων που δεν μπορούν να ληφθούν υπόψη και να καταχωρηθούν. Οι τρεις πρώτες συνιστώσες είναι ντετερμινιστικές συνιστώσες. Η τυχαία συνιστώσα σχηματίζεται ως αποτέλεσμα της υπέρθεσης ενός μεγάλου αριθμού εξωτερικών παραγόντων, ο καθένας μεμονωμένα έχει μια ασήμαντη επίδραση στην αλλαγή των τιμών του χαρακτηριστικού X. Η ανάλυση και η μελέτη των χρονοσειρών μας επιτρέπουν να κατασκευάσουμε μοντέλα για την πρόβλεψη των τιμών του χαρακτηριστικού X για το μέλλον, εάν είναι γνωστή η ακολουθία των παρατηρήσεων στο παρελθόν.

Νευρωνικά δίκτυα.Τα νευρωνικά δίκτυα είναι ένα υπολογιστικό σύστημα, η αρχιτεκτονική του οποίου είναι ανάλογη με την κατασκευή νευρικού ιστού από νευρώνες. Οι νευρώνες του χαμηλότερου στρώματος τροφοδοτούνται με τις τιμές των παραμέτρων εισόδου, βάσει των οποίων πρέπει να ληφθούν ορισμένες αποφάσεις. Για παράδειγμα, σύμφωνα με τις τιμές των κλινικών και εργαστηριακών παραμέτρων του ασθενούς, είναι απαραίτητο να αποδοθεί σε μια ή την άλλη ομάδα ανάλογα με τη σοβαρότητα της νόσου. Αυτές οι τιμές γίνονται αντιληπτές από το δίκτυο ως σήματα που μεταδίδονται στο επόμενο στρώμα, εξασθενώντας ή ενισχύονται ανάλογα με τις αριθμητικές τιμές (βάρη) που έχουν εκχωρηθεί στις ενδονευρωνικές συνδέσεις. Ως αποτέλεσμα, μια συγκεκριμένη τιμή δημιουργείται στην έξοδο του νευρώνα του ανώτερου στρώματος, η οποία θεωρείται ως απόκριση - η απόκριση ολόκληρου του δικτύου στις παραμέτρους εισόδου. Για να λειτουργήσει το δίκτυο, πρέπει να «εκπαιδευτεί» (εκπαιδευτεί) σε δεδομένα για τα οποία είναι γνωστές οι τιμές των παραμέτρων εισόδου και οι σωστές απαντήσεις σε αυτές. Η μάθηση συνίσταται στην επιλογή των βαρών των ενδονευρωνικών συνδέσεων που παρέχουν τις πλησιέστερες αποκρίσεις στις γνωστές σωστές απαντήσεις. Τα νευρωνικά δίκτυα μπορούν να χρησιμοποιηθούν για την ταξινόμηση των παρατηρήσεων.

Σχεδιασμός πειράματος.Η τέχνη της διευθέτησης των παρατηρήσεων με μια ορισμένη σειρά ή της διενέργειας ειδικά σχεδιασμένων ελέγχων για την πλήρη εκμετάλλευση των δυνατοτήτων αυτών των μεθόδων είναι το περιεχόμενο του θέματος «πειραματικός σχεδιασμός». Επί του παρόντος, οι πειραματικές μέθοδοι χρησιμοποιούνται ευρέως τόσο στην επιστήμη όσο και σε διάφορους τομείς πρακτικής δραστηριότητας. Συνήθως, ο κύριος στόχος της επιστημονικής έρευνας είναι να δείξει τη στατιστική σημασία της επίδρασης ενός συγκεκριμένου παράγοντα στην υπό μελέτη εξαρτημένη μεταβλητή. Κατά κανόνα, ο κύριος στόχος των πειραμάτων προγραμματισμού είναι η εξαγωγή του μέγιστου αριθμού αντικειμενικών πληροφοριών σχετικά με την επίδραση των υπό μελέτη παραγόντων στον δείκτη (εξαρτημένη μεταβλητή) που ενδιαφέρει τον ερευνητή χρησιμοποιώντας τον ελάχιστο αριθμό δαπανηρών παρατηρήσεων. Δυστυχώς, στην πράξη, στις περισσότερες περιπτώσεις, δεν δίνεται επαρκής προσοχή στον ερευνητικό σχεδιασμό. Συλλέγουν δεδομένα (όσα μπορούν να συλλέξουν) και στη συνέχεια πραγματοποιούν στατιστική επεξεργασία και ανάλυση. Όμως η σωστά διεξαχθείσα στατιστική ανάλυση από μόνη της δεν αρκεί για την επίτευξη επιστημονικής εγκυρότητας, καθώς η ποιότητα οποιασδήποτε πληροφορίας που λαμβάνεται από την ανάλυση δεδομένων εξαρτάται από την ποιότητα των ίδιων των δεδομένων. Ως εκ τούτου, ο σχεδιασμός των πειραμάτων χρησιμοποιείται όλο και περισσότερο στην εφαρμοσμένη έρευνα. Ο σκοπός των μεθόδων προγραμματισμού πειραμάτων είναι να μελετήσουν την επίδραση ορισμένων παραγόντων στην υπό μελέτη διαδικασία και να βρουν τα βέλτιστα επίπεδα παραγόντων που καθορίζουν το απαιτούμενο επίπεδο ροής αυτής της διαδικασίας.

Κάρτες ποιοτικού ελέγχου.Στις συνθήκες του σύγχρονου κόσμου, το πρόβλημα της ποιότητας όχι μόνο των κατασκευασμένων προϊόντων, αλλά και των υπηρεσιών που παρέχονται στον πληθυσμό είναι εξαιρετικά επίκαιρο. Η ευημερία κάθε επιχείρησης, οργανισμού ή ιδρύματος εξαρτάται σε μεγάλο βαθμό από την επιτυχή επίλυση αυτού του σημαντικού προβλήματος. Η ποιότητα των προϊόντων και των υπηρεσιών διαμορφώνεται στη διαδικασία της επιστημονικής έρευνας, του σχεδιασμού και της τεχνολογικής ανάπτυξης και διασφαλίζεται από την καλή οργάνωση της παραγωγής και των υπηρεσιών. Όμως η κατασκευή προϊόντων και η παροχή υπηρεσιών, ανεξάρτητα από το είδος τους, συνδέεται πάντα με μια ορισμένη μεταβλητότητα στις συνθήκες παραγωγής και παροχής. Αυτό οδηγεί σε κάποια μεταβλητότητα στα χαρακτηριστικά της ποιότητάς τους. Ως εκ τούτου, τα ζητήματα της ανάπτυξης μεθόδων ποιοτικού ελέγχου που θα επιτρέψουν την έγκαιρη ανίχνευση σημείων παραβίασης της τεχνολογικής διαδικασίας ή της παροχής υπηρεσιών είναι σχετικά. Ταυτόχρονα, για να επιτευχθεί και να διατηρηθεί ένα υψηλό επίπεδο ποιότητας που ικανοποιεί τον καταναλωτή, απαιτούνται μέθοδοι που να στοχεύουν όχι στην εξάλειψη των ελαττωμάτων στα τελικά προϊόντα και των ασυνεπειών στις υπηρεσίες, αλλά στην πρόληψη και πρόβλεψη των αιτιών εμφάνισής τους. Το γράφημα ελέγχου είναι ένα εργαλείο που σας επιτρέπει να παρακολουθείτε την πρόοδο μιας διαδικασίας και να την επηρεάζετε (χρησιμοποιώντας την κατάλληλη ανάδραση), αποτρέποντας την απόκλιση από τις απαιτήσεις της διαδικασίας. Το εργαλείο διαγραμμάτων ποιοτικού ελέγχου κάνει εκτενή χρήση στατιστικών μεθόδων που βασίζονται στη θεωρία πιθανοτήτων και στα μαθηματικά στατιστικά στοιχεία. Η χρήση στατιστικών μεθόδων καθιστά δυνατό, με περιορισμένους όγκους αναλυόμενων προϊόντων, να κρίνουμε την κατάσταση της ποιότητας των προϊόντων με δεδομένο βαθμό ακρίβειας και αξιοπιστίας. Παρέχει πρόβλεψη, βέλτιστη ρύθμιση προβλημάτων στον τομέα της ποιότητας, λήψη σωστών διαχειριστικών αποφάσεων όχι με βάση τη διαίσθηση, αλλά με τη βοήθεια επιστημονικής μελέτης και αναγνώρισης προτύπων στις συσσωρευμένες σειρές αριθμητικών πληροφοριών. />/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>

Το θέμα των στατιστικών έχει αλλάξει σε όλη την ιστορία της ανάπτυξης της στατιστικής επιστήμης, μέχρι στιγμής οι επιστήμονες δεν έχουν καταλήξει σε μια σαφή απάντηση σε αυτό το ζήτημα.

Αντικείμενο της στατιστικής είναι η μελέτη των κοινωνικών φαινομένων και η ανάλυσή τους.

Έτσι, οι Άγγλοι στατιστικολόγοι J.E. Yula, M.J. Kendall πιστεύουν: «Ανεξάρτητα από τον κλάδο της γνώσης στον οποίο λαμβάνονται τα αριθμητικά δεδομένα, έχουν ένα συγκεκριμένο είδος ιδιοτήτων, η αναγνώριση των οποίων μπορεί να απαιτεί ένα ειδικό είδος επιστημονικής μεθόδου επεξεργασίας. Η τελευταία είναι γνωστή ως στατιστική μέθοδος ή στατιστική».

Η καθολικότητα της στατιστικής ως επιστήμης οφείλεται στο γεγονός ότι ασχολείται με μεθόδους μέτρησης και ερμηνείας, τόσο στις κοινωνικές επιστήμες όσο και στις φυσικές επιστήμες. Η στατιστική αναγνωρίζεται ως μια ειδική μέθοδος που χρησιμοποιείται σε διάφορους τομείς δραστηριότητας, στην επίλυση διαφόρων προβλημάτων, που ορίζονται ως «συλλογή, παρουσίαση και ερμηνεία αριθμητικών δεδομένων».

Η στατιστική μεθοδολογία και πρακτική συνδέονται άρρηκτα, αλληλοσυμπληρώνονται και αναπτύσσονται. Η στατιστική θεωρία συνοψίζει την εμπειρία της πρακτικής εργασίας, αναπτύσσει νέες ιδέες και μεθόδους που εμπλουτίζουν τις πρακτικές στατιστικές δραστηριότητες. Η στατιστική πρακτική είναι επιστημονικά οργανωμένη εργασία.

Ετσι, στατιστική- μια επιστήμη που μελετά την ποσοτική πλευρά των μαζικών κοινωνικών φαινομένων για να δημιουργήσει πρότυπα σε άρρηκτη σύνδεση με την ποιοτική τους πλευρά στις συγκεκριμένες συνθήκες τόπου και χρόνου στη διασύνδεση και την αλληλεξάρτησή τους (N.N. Ryauzovsky "General Theory of Statistics").

Η ουσία αυτού του ορισμού συνδέεται με έξι βασικά σημεία:

1. Δεν μελετώνται όλα τα φαινόμενα, αλλά μόνο τα κοινωνικά και κοινωνικοοικονομικά. Τα φαινόμενα αυτά είναι πολύπλοκα, ποικιλόμορφα (π.χ. παραγωγή, εργασία, υγειονομική περίθαλψη, πολιτιστικές δραστηριότητες, πληθυσμός κ.λπ.), διαφέρουν από τα φυσικά φαινόμενα, που έχουν σχετικά σταθερό χαρακτήρα και επανεμφανίζονται με την πάροδο του χρόνου.

2. Μελετάμε μαζικά κοινωνικοοικονομικά φαινόμενα, και όχι μεμονωμένα, αφού τα πρότυπα ανάπτυξης εκδηλώνονται μέσα από ένα πλήθος γεγονότων, όταν γενικεύουμε δεδομένα με αρκετά μεγάλο αριθμό μονάδων (ο νόμος των μεγάλων αριθμών).

3. Στα φαινόμενα γίνεται ποσοτική αξιολόγηση, βάσει της οποίας αποκαλύπτεται το ποιοτικό τους περιεχόμενο (π.χ.: για την ποσοτική ανάλυση της ανεργίας, χρησιμοποιείται ο δείκτης απασχόλησης και το ποσοστό ανεργίας).

4. Τα αριθμητικά χαρακτηριστικά του ίδιου φαινομένου είναι διαφορετικά χωροχρονικά.

5. Τα κοινωνικοοικονομικά φαινόμενα μελετώνται σε δυναμική προκειμένου να εντοπιστούν οι τάσεις και οι κατευθύνσεις ανάπτυξης, να προβλεφθούν μελλοντικές καταστάσεις.

6. Η μελέτη των φαινομένων σε διασύνδεση και αλληλεξάρτηση.



Έτσι, όταν χρησιμοποιούνται στατιστικές μέθοδοι, είναι σημαντικό να θυμόμαστε την ενότητα των ποσοτικών και ποιοτικών πτυχών του υπό μελέτη φαινομένου.

Άρα, η στατιστική είναι η μελέτη μαζικών φαινομένων ή συσσωματωμάτων.

Σύνολο- είναι μια ομάδα ομοιογενής κατά κάποιο τρόπο, η οποία αποτελείται από τον πυρήνα και τα φαινόμενα που τον περιβάλλουν («στρώμα»). Ο πυρήνας είναι μια συμπυκνωμένη έκφραση όλων των ειδικών ιδιοτήτων μιας δεδομένης ομάδας που διακρίνουν ένα σύνολο από άλλα. "Επίπεδο" - μονάδες με ένα ημιτελές σύνολο συγκεκριμένων ιδιοτήτων που ανήκουν σε έναν δεδομένο πληθυσμό με μια ορισμένη πιθανότητα.

Για παράδειγμα: ο πληθυσμός είναι φοιτητές, μεταξύ των μαθητών υπάρχουν:

- «ιδανικός μαθητής» - άριστος μαθητής, πολύ διάβασμα, ενεργή συμμετοχή σε εξωσχολικές δραστηριότητες - αυτός είναι ο πυρήνας.

Ένας μαθητής για τον οποίο μόνο «ενδιαφέρουσες», ειδικές γνώσεις είναι σημαντικές. είναι ένα στρώμα.

Ένας μαθητής που ενδιαφέρεται μόνο για την εξωσχολική ζωή κ.λπ. είναι ένα άλλο στρώμα.

Έτσι, η «ποιότητα» ορισμένων μαθητών μπορεί να αποδοθεί σχεδόν αναμφισβήτητα στον έναν ή τον άλλο τύπο, ενώ άλλοι μπορεί να είναι αρκετά δύσκολο.

Η αναλογία του πυρήνα και του περιβάλλοντος του σε διαφορετικά σύνολα είναι διαφορετική και εξαρτάται από τις συνθήκες ύπαρξης του συνόλου: διάρκεια, σταθερότητα, αλληλεπίδραση με άλλα σύνολα κ.λπ. Ωστόσο, ο πυρήνας θα πρέπει να αποτελεί την πλειοψηφία των μονάδων το σύνολο, αφού καθορίζει τα χαρακτηριστικά γνωρίσματά του.

Δεδομένου ότι η στατιστική ασχολείται με τη μελέτη φαινομένων σε μια συγκεκριμένη στιγμή σε τόπο και χρόνο, έχει περιορισμένο αριθμό δεδομένων.

Πληθυσμός- αυτό είναι ένα σύνολο αντικειμενικά υπαρχουσών ενοτήτων του υπό μελέτη φαινομένου, που ενώνονται με μια ενιαία ποιοτική βάση, μια κοινή σύνδεση, αλλά διαφέρουν μεταξύ τους σε μεμονωμένα χαρακτηριστικά. (Για παράδειγμα, ένα σύνολο νοικοκυριών, ένα σύνολο από οικογένειες, ένα σύνολο επιχειρήσεων, εταιρειών, ενώσεων κ.λπ.).

Το σύνολο πρέπει να διακρίνεται από το σύστημα και τη δομή, αφού στο σύνολο δεν υπάρχει τάξη, εδώ όλα τα στοιχεία διαχωρίζονται.

Σημάδι -αυτό είναι ένα ποιοτικό χαρακτηριστικό της μονάδας του πληθυσμού.

Από τη φύση της εμφάνισης των ιδιοτήτων των μονάδων του υπό μελέτη πληθυσμού, τα σημάδια χωρίζονται σε δύο κύριες ομάδες:

1. Ποσοτική - σημάδια που έχουν άμεση ποσοτική έκφραση,δηλαδή μπορούν να αθροιστούν (π.χ.: ηλικία, εισόδημα, αριθμός παιδιών, αριθμός ετών φοίτησης, εργασιακή εμπειρία κ.λπ.). Υποθέστε περισσότερες-λιγότερες σχέσεις.

2. Ποιότητα - ζώδια που δεν έχουν άμεση ποσοτική έκφραση δηλαδήσημάδια που δεν μπορούν να προστεθούν (για παράδειγμα: φύλο, επάγγελμα, φύση εργασίας, στάση σε κάτι). Υποθέστε τη σχέση «ισότητας-ανισότητας». (! Μην επιτρέπετε σχέσεις περισσότερο-λιγότερο.)

Όλα τα ποιοτικά σημάδια χωρίζονται σε:

Αποδοτικές - που αποτελούν χαρακτηριστικό αυτού του φαινομένου (για παράδειγμα: επάγγελμα, φύση εργασίας κ.λπ.)

Εναλλακτικές - επιλογές που έχουν αντίθετη σημασία (για παράδειγμα: τα προϊόντα είναι καλά ή κατεστραμμένα, για εκπροσώπους ορισμένων ηλικιακών ομάδων υπάρχει πιθανότητα να επιβιώσουν ή να μην επιβιώσουν στην επόμενη ηλικιακή ομάδα· κάθε άτομο μπορεί να είναι παντρεμένο ή όχι, άνδρας ή μια γυναίκα, κλπ.).

Επιπλέον, τα σημάδια στις στατιστικές μπορούν να χωριστούν σε διαφορετικές ομάδες, ανάλογα με τη βάση. Οι κύριες ταξινομήσεις χαρακτηριστικών φαίνονται στο σχήμα 1.2.

Ταξινομήσεις χαρακτηριστικών στα στατιστικά στοιχεία

περιγραφικός- σημεία που εκφράζονται προφορικά (μορφή ιδιοκτησίας της επιχείρησης, τύπος πρώτων υλών που χρησιμοποιούνται, επάγγελμα κ.λπ.) Τα περιγραφικά σήματα χωρίζονται σε ονομαστικά, τα οποία δεν μπορούν να ταξινομηθούν, κατάταξη (ιθαγένεια, κλάδος υπαγωγής της επιχείρησης κ.λπ.) και τακτική , τα οποία μπορούν να ταξινομηθούν (κατηγορία τιμολογίων , βαθμολογία απόδοσης μαθητή, αξιολογήσεις εταιρειών κ.λπ.).

ποσοτικόςσημάδια - εκείνα των οποίων οι μεμονωμένες αξίες έχουν μια αριθμητική έκφραση (η περιοχή της περιοχής, η αξία των κεφαλαίων της επιχείρησης, η τιμή των αγαθών κ.λπ.).

Πρωταρχικόςτα σημάδια χαρακτηρίζουν τη μονάδα του πληθυσμού στο σύνολό της. Μπορούν να μετρηθούν, να μετρηθούν, να ζυγιστούν και να υπάρχουν μόνα τους, ανεξάρτητα από τη στατιστική τους μελέτη (αριθμός κατοίκων της πόλης, ακαθάριστη σοδειά, ποσό ασφαλιστικών πληρωμών).

Δευτερεύωντα σημάδια λαμβάνονται με υπολογισμό μέσω της αναλογίας των πρωταρχικών πρόσημων. Τα δευτερεύοντα σημάδια είναι τα προϊόντα της ανθρώπινης συνείδησης, τα αποτελέσματα της γνώσης του υπό μελέτη αντικειμένου.

Απευθείαςσημάδια - ιδιότητες εγγενείς στο αντικείμενο που χαρακτηρίζουν.

Εμμεσοςσημάδια - ιδιότητες που είναι εγγενείς όχι στο υπό μελέτη αντικείμενο, αλλά σε άλλα σύνολα που σχετίζονται με το αντικείμενο.

Εναλλακτική λύσησημάδια - αυτά που παίρνουν μόνο το κάτω μέρος της σημασίας (φύλο του ατόμου, τόπος κατοικίας (πόλη-χωριό), σημάδια κατοχής ή μη κατοχής κάτι.

Διακεκριμένοςσημάδια. έχουν μόνο ακέραιες τιμές.

Συνεχήςσημάδια - ικανά να λαμβάνουν οποιαδήποτε τιμή, τόσο ακέραια όσο και κλασματική. Όλα τα δευτερεύοντα χαρακτηριστικά είναι συνεχή.

Στιγμιαίοςσημάδια - χαρακτηριστικά του κράτους, η παρουσία κάτι σε μια συγκεκριμένη χρονική στιγμή.

Διάστημασημάδια - χαρακτηριστικά της διαδικασίας για ορισμένο χρονικό διάστημα: έτος, εξάμηνο, τρίμηνο, μήνας, ημέρα κ.λπ.

Ένα χαρακτηριστικό μιας στατιστικής μελέτης είναι ότι μελετά μόνο διαφορετικά σημεία, δηλ. ζώδια που παίρνουν διαφορετικές τιμές (για αποδοτικά, εναλλακτικά πρόσημα) ή έχουν διαφορετικά ποσοτικά επίπεδα για μεμονωμένες μονάδες του πληθυσμού.

Η παραλλαγή είναι μια σημαντική ιδιότητα ενός στατιστικού πληθυσμού.

Παραλλαγή- αυτή είναι μια ιδιότητα του στατιστικού πληθυσμού, που αντικατοπτρίζει την ικανότητα αλλαγής, τόσο λόγω εξωτερικών όσο και εσωτερικών παραγόντων, τόσο που σχετίζονται με την ουσία του υπό μελέτη αντικειμένου και δεν σχετίζονται με αυτό.

στατιστική κανονικότητα- αυτή είναι μια κανονικότητα που καθιερώνεται μέσω του νόμου των μεγάλων αριθμών σε φαινόμενα μεταβλητής μάζας, ενωμένα σε ένα στατιστικό σύνολο.

Η στατιστική κανονικότητα εκδηλώνεται στις τάσεις.

Συναρτήσεις στατιστικών:

1. Περιγραφικό - με τη βοήθεια ψηφίων και αριθμών, δίνεται ένα χαρακτηριστικό μιας συγκεκριμένης κατάστασης, διαδικασίας, φαινομένου

2. Αποκαλύπτονται επεξηγηματικές - αιτιώδεις σχέσεις μεταξύ φαινομένων και διεργασιών. προσδιορίζονται παράγοντες που καθορίζουν ορισμένες σχέσεις.

Η φύση των στατιστικών δεδομένων οφείλεται σε 3 κύριες ιδιότητες:

1. Αβεβαιότητα στατιστικών στοιχείων

2. Η πιθανολογική φύση των στατιστικών δεδομένων (ένα χαρακτηριστικό μπορεί να δέχεται ή να μην δέχεται αυτήν την τιμή)

3. Περίληψη στατιστικών στοιχείων.


Eliseeva I.I. Εργαστήριο για τη γενική θεωρία της στατιστικής. Μ.: Οικονομικά και στατιστική, 2008. Σελ.8.

Η στατιστική είναι μια πολυεπιστημονική επιστήμη επειδή χρησιμοποιεί μεθόδους και αρχές δανεισμένες από άλλους κλάδους. Έτσι, η γνώση στον τομέα της κοινωνιολογίας και της οικονομικής θεωρίας χρησιμεύει ως θεωρητική βάση για τη διαμόρφωση της στατιστικής επιστήμης. Στα πλαίσια αυτών των κλάδων μελετώνται οι νόμοι των κοινωνικών φαινομένων. Η στατιστική βοηθά στην αξιολόγηση της κλίμακας ενός φαινομένου, καθώς και στην ανάπτυξη ενός συστήματος μεθόδων ανάλυσης και μελέτης. Η στατιστική σχετίζεται αναμφίβολα με τα μαθηματικά, καθώς απαιτούνται πολλές μαθηματικές πράξεις, μέθοδοι και νόμοι για τον εντοπισμό προτύπων, την αξιολόγηση και την ανάλυση του αντικειμένου μελέτης και η συστηματοποίηση των αποτελεσμάτων αντικατοπτρίζεται με τη μορφή γραφημάτων και πινάκων.

Είδη στατιστικής έρευνας

Η παρατήρηση ως αρχικό στάδιο της μελέτης συνδέεται με τη συλλογή αρχικών δεδομένων για το υπό μελέτη θέμα. Είναι χαρακτηριστικό πολλών επιστημών. Ωστόσο, κάθε επιστήμη έχει τις δικές της ιδιαιτερότητες, που διαφέρουν στις παρατηρήσεις της. Επομένως, δεν είναι κάθε παρατήρηση στατιστική.

Η στατιστική έρευνα είναι μια επιστημονικά οργανωμένη συλλογή, περίληψη και ανάλυση δεδομένων (γεγονότων) για κοινωνικοοικονομικά, δημογραφικά και άλλα φαινόμενα και διαδικασίες της δημόσιας ζωής στο κράτος, με την καταγραφή των σημαντικότερων χαρακτηριστικών τους στη λογιστική τεκμηρίωση, επιστημονικά οργανωμένα σύμφωνα με ένα ενιαίο πρόγραμμα.

Διακριτικά χαρακτηριστικά (ιδιαιτερότητες) της στατιστικής έρευνας είναι: σκοπιμότητα, οργάνωση, μαζικός χαρακτήρας, συνέπεια (πολυπλοκότητα), συγκρισιμότητα, τεκμηρίωση, δυνατότητα ελέγχου, πρακτικότητα.

Γενικά, μια στατιστική μελέτη θα πρέπει:

Έχουν έναν κοινωνικά χρήσιμο στόχο και καθολική (κρατική) σημασία.

σχετίζονται με το αντικείμενο της στατιστικής στις ειδικές συνθήκες του τόπου και του χρόνου του·

Εκφράστε το στατιστικό είδος λογιστικής (και όχι λογιστικής και μη λειτουργικής).

Πραγματοποιήθηκε σύμφωνα με ένα προ-ανεπτυγμένο πρόγραμμα με την επιστημονικά τεκμηριωμένη μεθοδολογική και άλλη υποστήριξή του.

Να πραγματοποιήσει τη συλλογή μαζικών δεδομένων (γεγονότων), τα οποία αντικατοπτρίζουν ολόκληρο το σύνολο αιτιών-αποτελέσματος και άλλων παραγόντων που χαρακτηρίζουν το φαινόμενο με πολλούς τρόπους.

Εγγραφή με τη μορφή λογιστικών εγγράφων του καθιερωμένου εντύπου.

Να εγγυηθεί την απουσία σφαλμάτων παρατήρησης ή να τα μειώσει στο ελάχιστο δυνατό.

Να παρέχει ορισμένα κριτήρια ποιότητας και τρόπους ελέγχου των συλλεγόμενων δεδομένων, διασφαλίζοντας την αξιοπιστία, την πληρότητα και το περιεχόμενό τους·

Εστίαση σε οικονομικά αποδοτική τεχνολογία για τη συλλογή και την επεξεργασία δεδομένων.

Να αποτελεί μια αξιόπιστη βάση πληροφοριών για όλα τα επόμενα στάδια της στατιστικής έρευνας και όλους τους χρήστες στατιστικών πληροφοριών.

Οι μελέτες που δεν πληρούν αυτές τις απαιτήσεις δεν είναι στατιστικές. Οι στατιστικές μελέτες δεν είναι, για παράδειγμα, παρατηρήσεις και μελέτες: μητέρες με παιδί που παίζει (προσωπική ερώτηση). θεατές σε μια θεατρική παραγωγή (δεν υπάρχει λογιστική τεκμηρίωση για το θέαμα). ένας ερευνητής για πειράματα φυσικών και χημικών με τις μετρήσεις, τους υπολογισμούς και την εγγραφή τους σε έγγραφα (όχι μαζικά δημόσια δεδομένα)· γιατρός για ασθενείς με τήρηση ιατρικών καρτών (χειρουργικά αρχεία). λογιστής για την κίνηση των κεφαλαίων στον τραπεζικό λογαριασμό της επιχείρησης (λογιστική). δημοσιογράφων για τη δημόσια και ιδιωτική ζωή κυβερνητικών αξιωματούχων ή άλλων διασημοτήτων (όχι αντικείμενο στατιστικής).

Στατιστικός πληθυσμός - ένα σύνολο μονάδων που έχουν μαζικό χαρακτήρα, τυπικότητα, ποιοτική ομοιομορφία και παρουσία παραλλαγής.

Ο στατιστικός πληθυσμός αποτελείται από υλικά υπάρχοντα αντικείμενα (Εργαζόμενοι, επιχειρήσεις, χώρες, περιοχές), αποτελεί αντικείμενο στατιστικής έρευνας.

Η στατιστική παρατήρηση είναι το πρώτο στάδιο της στατιστικής έρευνας, η οποία είναι μια επιστημονικά οργανωμένη συλλογή δεδομένων για τα μελετημένα φαινόμενα και διαδικασίες της κοινωνικής ζωής.