Είναι ένα σύνολο στατιστικών διαδικασιών που στοχεύουν στην επιλογή από ένα δεδομένο σύνολο μεταβλητών υποσυνόλων μεταβλητών που σχετίζονται στενά (συσχετίζονται) μεταξύ τους. Οι μεταβλητές που βρίσκονται σε ένα υποσύνολο και συσχετίζονται μεταξύ τους, αλλά είναι σε μεγάλο βαθμό ανεξάρτητες από μεταβλητές από άλλα υποσύνολα, σχηματίζουν παράγοντες. Ο στόχος της παραγοντικής ανάλυσης είναι να εντοπίσει φαινομενικά μη παρατηρήσιμους παράγοντες χρησιμοποιώντας ένα σύνολο παρατηρήσιμων μεταβλητών. Ένας επιπλέον τρόπος για να ελέγξετε τον αριθμό των παραγόντων που προσδιορίστηκαν είναι να υπολογίσετε έναν πίνακα συσχέτισης που είναι κοντά στον αρχικό, εάν οι παράγοντες προσδιορίζονται σωστά. Αυτός ο πίνακας ονομάζεται αναπαράγονταιμήτρα συσχέτισης. Για να δούμε πώς αυτός ο πίνακας αποκλίνει από τον αρχικό πίνακα συσχέτισης (με τον οποίο ξεκίνησε η ανάλυση), μπορεί κανείς να υπολογίσει τη διαφορά μεταξύ τους. Ο υπολειπόμενος πίνακας μπορεί να υποδεικνύει μια "διαφωνία", δηλαδή ότι οι εν λόγω συντελεστές συσχέτισης δεν μπορούν να ληφθούν με επαρκή ακρίβεια με βάση τους διαθέσιμους παράγοντες. Στις μεθόδους των κύριων συνιστωσών και της παραγοντικής ανάλυσης, δεν υπάρχει τέτοιο εξωτερικό κριτήριο που να επιτρέπει σε κάποιον να κρίνει την ορθότητα της λύσης. Το δεύτερο πρόβλημα είναι ότι μετά την εξαγωγή των παραγόντων, προκύπτει ένας άπειρος αριθμός επιλογών περιστροφής, που βασίζονται στις ίδιες αρχικές μεταβλητές, αλλά δίνουν διαφορετικές λύσεις (οι δομές παραγόντων ορίζονται με ελαφρώς διαφορετικό τρόπο). Η τελική επιλογή μεταξύ πιθανών εναλλακτικών λύσεων μέσα σε ένα άπειρο σύνολο μαθηματικά ισοδύναμων λύσεων εξαρτάται από την ουσιαστική κατανόηση των αποτελεσμάτων της ερμηνείας από τους ερευνητές. Και δεδομένου ότι το αντικειμενικό κριτήριο για την αξιολόγηση διάφορες λύσειςΌχι, οι προτεινόμενες αιτιολογήσεις για την επιλογή λύσης μπορεί να φαίνονται αβάσιμες και μη πειστικές.


Πρέπει να σημειωθεί ότι δεν υπάρχουν σαφή στατιστικά κριτήρια για την πληρότητα της παραγοντοποίησης. Ωστόσο, οι χαμηλές τιμές του, για παράδειγμα, μικρότερες από 0,7, υποδεικνύουν ότι είναι επιθυμητό να μειωθεί ο αριθμός των χαρακτηριστικών ή να αυξηθεί ο αριθμός των παραγόντων.

Met Ο συντελεστής της σχέσης μεταξύ ενός συγκεκριμένου χαρακτηριστικού και ενός κοινού παράγοντα, που εκφράζει τον βαθμό επιρροής του παράγοντα στο χαρακτηριστικό, ονομάζεται συντελεστής φόρτισης αυτού του χαρακτηριστικού για αυτόν τον κοινό παράγοντα.

Ένας πίνακας που αποτελείται από φορτίσεις παραγόντων και έχει έναν αριθμό στηλών ίσο με τον αριθμό των κοινών παραγόντων και έναν αριθμό σειρών ίσο με τον αριθμό των αρχικών χαρακτηριστικών ονομάζεται πίνακας παραγόντων.

Η βάση για τον υπολογισμό του πίνακα παραγόντων είναι ο πίνακας των ζευγαρωμένων συντελεστών συσχέτισης των αρχικών χαρακτηριστικών.

Ο πίνακας συσχέτισης καταγράφει τον βαθμό σχέσης μεταξύ κάθε ζεύγους χαρακτηριστικών. Ομοίως, ο πίνακας παραγόντων καταγράφει τον βαθμό γραμμικής σχέσης κάθε χαρακτηριστικού με κάθε κοινό παράγοντα.

Το μέγεθος του συντελεστικού φορτίου δεν υπερβαίνει τη μονάδα συντελεστή και το πρόσημο του υποδεικνύει μια θετική ή αρνητική σχέση μεταξύ του χαρακτηριστικού και του παράγοντα.

Όσο μεγαλύτερη είναι η απόλυτη τιμή του συντελεστικού φορτίου ενός χαρακτηριστικού κατά έναν συγκεκριμένο παράγοντα, τόσο περισσότερο αυτός ο παράγοντας καθορίζει αυτό το χαρακτηριστικό.

Η τιμή του συντελεστικού φορτίου για έναν συγκεκριμένο παράγοντα, κοντά στο μηδέν, δείχνει ότι αυτός ο παράγοντας πρακτικά δεν επηρεάζει αυτό το χαρακτηριστικό.

Το μοντέλο παραγόντων καθιστά δυνατό τον υπολογισμό της συμβολής των παραγόντων στη συνολική διακύμανση όλων των χαρακτηριστικών. Συνοψίζοντας τα τετράγωνα των φορτίων παραγόντων για κάθε παράγοντα για όλα τα χαρακτηριστικά, λαμβάνουμε τη συμβολή του στη συνολική διακύμανση του συστήματος χαρακτηριστικών: όσο μεγαλύτερη είναι η αναλογία αυτής της συνεισφοράς, τόσο πιο σημαντικός και σημαντικός είναι αυτός ο παράγοντας.

Ταυτόχρονα, είναι δυνατό να εντοπιστεί ο βέλτιστος αριθμός κοινών παραγόντων που περιγράφουν αρκετά καλά το σύστημα αρχικών χαρακτηριστικών.

Η τιμή (μέτρο εκδήλωσης) του παράγοντα y ξεχωριστό αντικείμενοονομάζεται συντελεστής βάρους του αντικειμένου ως προς αυτόν τον παράγοντα. Τα βάρη παραγόντων σάς επιτρέπουν να ταξινομείτε, να ταξινομείτε αντικείμενα ανά παράγοντα.

Όσο μεγαλύτερο είναι το βάρος του παράγοντα ενός αντικειμένου, τόσο περισσότερο εκδηλώνεται αυτή η πλευρά του φαινομένου ή εκείνο το μοτίβο που αντανακλάται από αυτόν τον παράγοντα.

Τα βάρη των παραγόντων μπορεί να είναι είτε θετικά είτε αρνητικά.

Λόγω του γεγονότος ότι οι παράγοντες είναι τυποποιημένες τιμές με μέση τιμή ίση με το μηδέν, τα βάρη παραγόντων κοντά στο μηδέν υποδεικνύουν τον μέσο βαθμό εκδήλωσης του παράγοντα, θετικό - ότι αυτός ο βαθμός είναι πάνω από το μέσο όρο, αρνητικός - για αυτό. ότι είναι κάτω του μέσου όρου.

Στην πράξη, εάν ο αριθμός των κύριων συστατικών (ή παραγόντων) που έχουν ήδη βρεθεί δεν είναι μεγαλύτερος από Μ/2, η διακύμανση που εξηγείται από αυτά είναι τουλάχιστον 70%, και η επόμενη συνιστώσα δεν συνεισφέρει περισσότερο από 5% στη συνολική διακύμανση, το μοντέλο παραγόντων θεωρείται αρκετά καλό.

Εάν θέλετε να βρείτε τιμές παραγόντων και να τις αποθηκεύσετε ως πρόσθετες μεταβλητές, χρησιμοποιήστε τον διακόπτη Βαθμολογίες... (Τιμές) Η τιμή του παράγοντα είναι συνήθως μεταξύ -3 και +3.

Η παραγοντική ανάλυση είναι μια πιο ισχυρή και πολύπλοκη συσκευή από την κύρια μέθοδο.

συστατικό, οπότε εφαρμόζεται εάν τα αποτελέσματα

Η ανάλυση συστατικών δεν είναι αρκετά ικανοποιημένη. Επειδή όμως αυτές οι δύο μέθοδοι

επίλυση των ίδιων προβλημάτων, είναι απαραίτητο να συγκριθούν τα αποτελέσματα του στοιχείου και


παραγοντικές αναλύσεις, δηλαδή πίνακες φορτίου, καθώς και εξισώσεις παλινδρόμησης για

κύρια συστατικά και κοινοί παράγοντες, σχολιάστε ομοιότητες και διαφορές

Αποτελέσματα.

Ο μέγιστος δυνατός αριθμός παραγόντων Μγια δεδομένο αριθμό χαρακτηριστικών Rκαθορίζεται από την ανισότητα

(p+m)<(р-m)2,

Στο τέλος της όλης διαδικασίας της παραγοντικής ανάλυσης, χρησιμοποιώντας μαθηματικούς μετασχηματισμούς, οι παράγοντες fj εκφράζονται μέσω των αρχικών χαρακτηριστικών, δηλαδή λαμβάνονται ρητά οι παράμετροι του γραμμικού διαγνωστικού μοντέλου.

Οι μέθοδοι των κύριων συνιστωσών και η παραγοντική ανάλυση είναι ένα σύνολο στατιστικών διαδικασιών που στοχεύουν στην επιλογή από ένα δεδομένο σύνολο μεταβλητών υποσυνόλων μεταβλητών που συνδέονται στενά (συσχετίζονται) μεταξύ τους. Οι μεταβλητές που βρίσκονται σε ένα υποσύνολο και συσχετίζονται μεταξύ τους, αλλά είναι σε μεγάλο βαθμό ανεξάρτητες από μεταβλητές από άλλα υποσύνολα, αποτελούν παράγοντες 1 . Ο στόχος της παραγοντικής ανάλυσης είναι να εντοπίσει φαινομενικά μη παρατηρήσιμους παράγοντες χρησιμοποιώντας ένα σύνολο παρατηρήσιμων μεταβλητών.

Γενική έκφραση για ι-ο συντελεστής μπορεί να γραφτεί ως εξής:

όπου Fj (ιαλλάζει από 1 σε κ) είναι κοινοί παράγοντες, Ui- χαρακτηριστικό γνώρισμα, Aij- σταθερές που χρησιμοποιούνται σε γραμμικό συνδυασμό κπαράγοντες. Οι χαρακτηριστικοί παράγοντες μπορεί να μην συσχετίζονται μεταξύ τους και με κοινούς παράγοντες.

Οι διαδικασίες παραγοντικής αναλυτικής επεξεργασίας που εφαρμόζονται στα δεδομένα που λαμβάνονται είναι διαφορετικές, αλλά η δομή (αλγόριθμος) της ανάλυσης αποτελείται από τα ίδια κύρια βήματα: 1. Προετοιμασία του αρχικού πίνακα δεδομένων. 2. Υπολογισμός του πίνακα σχέσεων χαρακτηριστικών. 3. Παραγοντοποίηση(Ταυτόχρονα, είναι απαραίτητο να υποδειχθεί ο αριθμός των παραγόντων που προσδιορίστηκαν κατά την παραγοντική λύση και η μέθοδος υπολογισμού). Σε αυτό το στάδιο (όπως και στο επόμενο), μπορεί κανείς επίσης να αξιολογήσει πόσο καλά η παραγοντική λύση που προκύπτει προσεγγίζει τα αρχικά δεδομένα. 4. Περιστροφή - ο μετασχηματισμός των παραγόντων, που διευκολύνει την ερμηνεία τους. 5. Καταμέτρηση τιμών συντελεστώνγια κάθε παράγοντα για κάθε παρατήρηση. 6. Ερμηνεία δεδομένων.

η εφεύρεση της παραγοντικής ανάλυσης συνδέθηκε ακριβώς με την ανάγκη ταυτόχρονης ανάλυσης μεγάλου αριθμού συντελεστών συσχέτισης διαφόρων κλιμάκων μεταξύ τους. Ένα από τα προβλήματα που σχετίζονται με τις μεθόδους των κύριων συνιστωσών και της παραγοντικής ανάλυσης είναι ότι δεν υπάρχουν κριτήρια που θα επέτρεπαν τον έλεγχο της ορθότητας της λύσης που βρέθηκε. Για παράδειγμα, στην ανάλυση παλινδρόμησης, μπορεί κανείς να συγκρίνει δείκτες που λαμβάνονται εμπειρικά για εξαρτημένες μεταβλητές με δείκτες που υπολογίζονται θεωρητικά με βάση το προτεινόμενο μοντέλο και να χρησιμοποιήσει τη μεταξύ τους συσχέτιση ως κριτήριο για την ορθότητα της λύσης σύμφωνα με το σχήμα ανάλυσης συσχέτισης για δύο σύνολα των μεταβλητών. Στη διακριτική ανάλυση, η ορθότητα της απόφασης βασίζεται στο πόσο με ακρίβεια προβλέπεται η συμμετοχή των υποκειμένων σε μια ή την άλλη τάξη (σε σύγκριση με την πραγματική συμμετοχή που λαμβάνει χώρα στη ζωή). Δυστυχώς, στις μεθόδους των κύριων συνιστωσών και της ανάλυσης παραγόντων, δεν υπάρχει τέτοιο εξωτερικό κριτήριο που να επιτρέπει σε κάποιον να κρίνει την ορθότητα της λύσης.Το δεύτερο πρόβλημα είναι ότι μετά την εξαγωγή των παραγόντων προκύπτει ένας άπειρος αριθμός επιλογών περιστροφής, με βάση την ίδιες αρχικές μεταβλητές, αλλά δίνοντας διαφορετικές λύσεις (οι δομές παραγόντων ορίζονται με ελαφρώς διαφορετικό τρόπο). Η τελική επιλογή μεταξύ πιθανών εναλλακτικών λύσεων μέσα σε ένα άπειρο σύνολο μαθηματικά ισοδύναμων λύσεων εξαρτάται από την ουσιαστική κατανόηση των αποτελεσμάτων της ερμηνείας από τους ερευνητές. Και δεδομένου ότι δεν υπάρχει αντικειμενικό κριτήριο για την αξιολόγηση διαφορετικών λύσεων, οι προτεινόμενες αιτιολογήσεις για την επιλογή μιας λύσης μπορεί να φαίνονται αβάσιμες και μη πειστικές.

Το τρίτο πρόβλημα είναι ότι η ανάλυση παραγόντων χρησιμοποιείται συχνά για τη διάσωση της κακοσχεδιασμένης έρευνας όταν γίνεται σαφές ότι καμία μεμονωμένη στατιστική διαδικασία δεν παράγει το επιθυμητό αποτέλεσμα. Η δύναμη των μεθόδων των κύριων συνιστωσών και της παραγοντικής ανάλυσης σάς επιτρέπει να δημιουργήσετε μια διατεταγμένη ιδέα από χαοτικές πληροφορίες (που τους δίνει μια αμφίβολη φήμη).

Η δεύτερη ομάδα όρων αναφέρεται σε πίνακες που κατασκευάζονται και ερμηνεύονται ως μέρος της λύσης. Στροφήπαράγοντες είναι η διαδικασία εύρεσης της πιο εύκολα ερμηνεύσιμης λύσης για έναν δεδομένο αριθμό παραγόντων. Υπάρχουν δύο κύριες κατηγορίες στροφών: ορθογώνιοκαι λοξός. Στην πρώτη περίπτωση, όλοι οι παράγοντες επιλέγονται εκ των προτέρων ώστε να είναι ορθογώνιοι (δεν συσχετίζονται μεταξύ τους) και μήτρα συντελεστικής φόρτισης, που είναι ένας πίνακας σχέσεων μεταξύ παρατηρούμενων μεταβλητών και παραγόντων. Το μέγεθος των φορτίων αντανακλά τον βαθμό σχέσης μεταξύ κάθε παρατηρούμενης μεταβλητής και κάθε παράγοντα και ερμηνεύεται ως συντελεστής συσχέτισης μεταξύ της παρατηρούμενης μεταβλητής και του παράγοντα (λανθάνουσα μεταβλητή) και επομένως ποικίλλει από -1 έως 1. Η λύση που προκύπτει μετά την Η ορθογώνια περιστροφή ερμηνεύεται με βάση την ανάλυση του πίνακα των παραγοντικών φορτίων προσδιορίζοντας ποιος από τους παράγοντες σχετίζεται περισσότερο με τη μία ή την άλλη παρατηρούμενη μεταβλητή. Έτσι, κάθε παράγοντας αποδεικνύεται ότι δίνεται από μια ομάδα πρωτευουσών μεταβλητών που έχουν τα μεγαλύτερα φορτία παραγόντων σε αυτόν.

Εάν εκτελεστεί μια λοξή περιστροφή (δηλαδή, επιτρέπεται a priori η πιθανότητα συσχετισμού παραγόντων μεταξύ τους), τότε κατασκευάζονται αρκετοί επιπλέον πίνακες. Πίνακας συσχέτισης παραγόντωνπεριέχει συσχετισμούς μεταξύ παραγόντων. Πίνακας παραγοντικής φόρτωσης, που αναφέρθηκε παραπάνω, χωρίζεται σε δύο: δομική μήτρα σχέσεωνμεταξύ παραγόντων και μεταβλητών και παραγοντική μήτρα χαρτογράφησης, εκφράζοντας γραμμικές σχέσεις μεταξύ κάθε παρατηρούμενης μεταβλητής και κάθε παράγοντα (χωρίς να λαμβάνεται υπόψη η επίδραση της επιβολής ορισμένων παραγόντων σε άλλους, που εκφράζεται από τη συσχέτιση παραγόντων μεταξύ τους). Μετά την λοξή περιστροφή, οι παράγοντες ερμηνεύονται με βάση την ομαδοποίηση των πρωτευουσών μεταβλητών (όμοια με αυτό που περιγράφηκε παραπάνω), αλλά χρησιμοποιώντας πρώτα απ' όλα τον πίνακα αντιστοίχισης παραγόντων.

Τέλος, και για τις δύο περιστροφές, ο ένας υπολογίζει μήτρα συντελεστών παραγοντικών τιμών, χρησιμοποιείται σε ειδικές εξισώσεις τύπου παλινδρόμησης για τον υπολογισμό τιμών παραγόντων (βαθμολογίες παραγόντων, βαθμολογίες παραγόντων) για κάθε παρατήρηση με βάση τις τιμές των πρωταρχικών μεταβλητών για αυτούς.

Συγκρίνοντας τις μεθόδους των κύριων συνιστωσών και της παραγοντικής ανάλυσης, σημειώνουμε τα ακόλουθα. Η ανάλυση του κύριου συστατικού δημιουργεί ένα μοντέλο για την καλύτερη εξήγηση (μεγιστοποίηση της αναπαραγωγής) της συνολικής διακύμανσης των πειραματικών δεδομένων που λαμβάνονται για όλες τις μεταβλητές. Με αποτέλεσμα να ξεχωρίζουν οι «συνιστώσες». Στην παραγοντική ανάλυση, θεωρείται ότι κάθε μεταβλητή εξηγείται (καθορίζεται) από έναν αριθμό υποθετικών γενικών παραγόντων (που επηρεάζουν όλες τις μεταβλητές) και χαρακτηριστικών παραγόντων (κάθε μεταβλητή έχει τους δικούς της). Και οι υπολογιστικές διαδικασίες εκτελούνται με τέτοιο τρόπο ώστε να απαλλαγούμε τόσο από τη διακύμανση που προκύπτει από το σφάλμα μέτρησης όσο και από τη διακύμανση που εξηγείται από συγκεκριμένους παράγοντες, και να αναλύονται μόνο οι διακυμάνσεις που εξηγούνται από υποθετικά υπάρχοντες κοινούς παράγοντες. Το αποτέλεσμα είναι αντικείμενα που ονομάζονται παράγοντες. Ωστόσο, όπως ήδη αναφέρθηκε, από ψυχολογικής άποψης περιεχομένου, αυτή η διαφορά στα μαθηματικά μοντέλα δεν είναι σημαντική, επομένως, στο μέλλον, εκτός εάν δοθούν ειδικές εξηγήσεις για ποια συγκεκριμένη περίπτωση μιλάμε, θα χρησιμοποιήσουμε τον όρο " παράγοντας" όπως σε σχέση με συστατικά, και σε σχέση με παράγοντες.

Μεγέθη δειγμάτων και δεδομένα που λείπουν. Όσο μεγαλύτερο είναι το δείγμα, τόσο μεγαλύτερη είναι η αξιοπιστία των δεικτών σχέσης. Επομένως, είναι πολύ σημαντικό να έχουμε ένα αρκετά μεγάλο δείγμα. Το απαιτούμενο μέγεθος δείγματος εξαρτάται επίσης από τον βαθμό συσχέτισης των δεικτών στον πληθυσμό στο σύνολό του και τον αριθμό των παραγόντων: με μια ισχυρή και σημαντική σχέση και έναν μικρό αριθμό καλά καθορισμένων παραγόντων, ένα μικρό δείγμα θα είναι αρκετό.

Έτσι, ένα δείγμα 50 ατόμων βαθμολογείται ως πολύ φτωχό, 100 ως φτωχό, 200 ως μέσο όρο, 300 ως καλό, 500 ως πολύ καλό και 1000 ως άριστα ( Comrey, Lee, 1992). Με βάση αυτές τις σκέψεις, συνιστάται ως γενική αρχή η μελέτη δειγμάτων τουλάχιστον 300 ατόμων. Για μια απόφαση που βασίζεται σε επαρκή αριθμό μεταβλητών δεικτών με υψηλά φορτία παραγόντων (>0,80), αρκεί ένα δείγμα περίπου 150 ατόμων ( Guadagnoli, Velicer, 1988). Η κανονικότητα για κάθε μεταβλητή χωριστά ελέγχεται από ασυμμετρίες(πόσο η καμπύλη της υπό μελέτη κατανομής μετατοπίζεται προς τα δεξιά ή προς τα αριστερά σε σύγκριση με τη θεωρητικά κανονική καμπύλη) και υπέρβαση(ο βαθμός στον οποίο το «καμπάνα» της υπάρχουσας κατανομής, που απεικονίζεται οπτικά στο διάγραμμα συχνοτήτων, τεντώνεται προς τα πάνω ή προς τα κάτω, σε σύγκριση με το «καμπάνα» του γραφήματος πυκνότητας, χαρακτηριστικό της κανονικής κατανομής). Εάν μια μεταβλητή έχει σημαντική λοξότητα και κύρτωση, τότε μπορεί να μετασχηματιστεί εισάγοντας μια νέα μεταβλητή (ως συνάρτηση μίας τιμής αυτής που εξετάζουμε) με τέτοιο τρόπο ώστε αυτή η νέα μεταβλητή να κατανέμεται κανονικά (για περισσότερα σχετικά, βλ. : Tabachnik, Φιντέλ, 1996, Ch. τέσσερα).

Ιδιοδιανύσματα και αντίστοιχες ιδιοτιμές
για την υπό εξέταση περίπτωση μελέτης

Ιδιοδιάνυσμα 1

Ιδιοδιάνυσμα 2

Ιδιοτιμή 1

Ιδιοτιμή 2

Δεδομένου ότι ο πίνακας συσχέτισης είναι διαγωνιζόμενος, η άλγεβρα πινάκων των ιδιοδιανυσμάτων και των ιδιοτιμών μπορεί να εφαρμοστεί σε αυτόν για να ληφθούν τα αποτελέσματα της παραγοντικής ανάλυσης (βλ. Παράρτημα 1). Εάν ένας πίνακας μπορεί να διαγωνοποιηθεί, τότε όλες οι βασικές πληροφορίες σχετικά με τη δομή του παράγοντα περιέχονται στη διαγώνια μορφή του. Στην παραγοντική ανάλυση, οι ιδιοτιμές αντιστοιχούν στη διακύμανση που εξηγείται από τους παράγοντες. Ο παράγοντας με τη μεγαλύτερη ιδιοτιμή εξηγεί τη μεγαλύτερη διακύμανση και ούτω καθεξής, μέχρι να καταλήξει σε παράγοντες με μικρές ή αρνητικές ιδιοτιμές, οι οποίοι συνήθως μένουν εκτός ανάλυσης. Ο πίνακας φόρτωσης παραγόντων είναι ένας πίνακας σχέσεων (ερμηνεύονται ως συντελεστές συσχέτισης) μεταξύ παραγόντων και μεταβλητών. Η πρώτη στήλη είναι οι συσχετίσεις μεταξύ του πρώτου παράγοντα και κάθε μεταβλητής με τη σειρά: τιμή εισιτηρίου (-.400), άνεση του συγκροτήματος (.251), θερμοκρασία του αέρα (.932), θερμοκρασία νερού(.956). Η δεύτερη στήλη είναι οι συσχετίσεις μεταξύ του δεύτερου παράγοντα και κάθε μεταβλητής: τιμή εισιτηρίου (.900), άνεση του συγκροτήματος(-.947), θερμοκρασία αέρα (.348), θερμοκρασία νερού(.286). Ο παράγοντας ερμηνεύεται με βάση μεταβλητές που συνδέονται στενά με αυτόν (δηλαδή έχουν υψηλά φορτία σε αυτόν). Άρα, ο πρώτος παράγοντας είναι κυρίως «κλιματικός» ( θερμοκρασία αέρα και νερού), ενώ το δεύτερο είναι «οικονομικό» ( το κόστος του εισιτηρίου και την άνεση του συγκροτήματος).

Κατά την ερμηνεία αυτών των παραγόντων, θα πρέπει να δοθεί προσοχή στο γεγονός ότι οι μεταβλητές με υψηλά φορτία στον πρώτο παράγοντα ( θερμοκρασία του αέρακαι θερμοκρασία νερού) συσχετίζονται θετικά, ενώ οι μεταβλητές με υψηλά φορτία στον δεύτερο παράγοντα ( τιμή εισιτηρίουκαι άνεση του συγκροτήματος), διασυνδέονται αρνητικά (δεν μπορεί κανείς να περιμένει μεγάλη άνεση από ένα φτηνό θέρετρο). Ο πρώτος παράγοντας ονομάζεται μονοπολικός (όλες οι μεταβλητές ομαδοποιούνται σε έναν πόλο) και ο δεύτερος - διπολικός(οι μεταβλητές χωρίζονται σε δύο ομάδες αντίθετες ως προς το νόημα - δύο πόλοι). Οι μεταβλητές με συντελεστές φορτίου με πρόσημο συν σχηματίζουν θετικό πόλο και αυτές με αρνητικό πρόσημο σχηματίζουν αρνητικό πόλο. Ταυτόχρονα, οι ονομασίες των πόλων «θετικός» και «αρνητικός» κατά την ερμηνεία του παράγοντα δεν έχουν την αξιολογική σημασία του «κακού» και του «καλού». Το σύμβολο επιλέγεται τυχαία κατά τους υπολογισμούς. Ορθογώνια περιστροφή

Η περιστροφή εφαρμόζεται συνήθως μετά την εξαγωγή των παραγόντων για τη μεγιστοποίηση των υψηλών συσχετίσεων και την ελαχιστοποίηση των χαμηλών. Υπάρχουν πολλές μέθοδοι περιστροφής, αλλά η περιστροφή είναι η πιο συχνά χρησιμοποιούμενη. varimax, η οποία είναι μια διαδικασία για τη μεγιστοποίηση των αποκλίσεων. Αυτή η περιστροφή μεγιστοποιεί τις διακυμάνσεις της φόρτισης των συντελεστών καθιστώντας τα υψηλά φορτία υψηλότερα και τα χαμηλά χαμηλότερα για καθέναν από τους παράγοντες. Αυτός ο στόχος επιτυγχάνεται μέσω πίνακες μετασχηματισμού Λ:

Μετασχηματισμός πίνακαείναι ο πίνακας ημιτόνων και συνημιτόνων της γωνίας Ψ μέσω της οποίας εκτελείται η περιστροφή. (εξ ου και το όνομα του μετασχηματισμού - στροφή, γιατί από γεωμετρική άποψη, οι άξονες περιστρέφονται γύρω από την αρχή του χώρου των παραγόντων.) Έχοντας πραγματοποιήσει την περιστροφή και λάβει τη μήτρα συντελεστών φορτίων μετά την περιστροφή, μπορεί να αναλυθεί μια σειρά από άλλους δείκτες (βλ. Πίνακα 4). Γενικότητα μιας μεταβλητήςείναι η διακύμανση που υπολογίζεται χρησιμοποιώντας συντελεστές φόρτωσης. Αυτή είναι η τετραγωνική πολλαπλή συσχέτιση της μεταβλητής που προβλέπεται από το παραγοντικό μοντέλο. Η κοινότητα υπολογίζεται ως το άθροισμα των τετραγωνικών συντελεστών φορτίων (FSC) για μια μεταβλητή σε όλους τους παράγοντες. Στον πίνακα. 4 κοινά για τιμή εισιτηρίουισούται με (-,086)2+(,981)2 = ,970, δηλαδή 97% της διακύμανσης τιμή εισιτηρίουλόγω των παραγόντων 1 και 2.

Το κλάσμα της διακύμανσης ενός παράγοντα σε όλες τις μεταβλητές είναι το SKN έναντι του παράγοντα διαιρούμενο με τον αριθμό των μεταβλητών (στην περίπτωση μιας ορθογώνιας περιστροφής) 7 . Για τον πρώτο παράγοντα, το ποσοστό διακύμανσης είναι:

[(-.086)2+(-.071)2+(.994)2+(.997)2]/4 = 1.994/4 = .50,

Δηλαδή, ο πρώτος παράγοντας εξηγεί το 50% της διακύμανσης των μεταβλητών. Ο δεύτερος παράγοντας εξηγεί το 48% της διακύμανσης των μεταβλητών και (λόγω της ορθογωνικότητας περιστροφής) οι δύο παράγοντες μαζί εξηγούν το 98% της διακύμανσης των μεταβλητών.

Σχέση μεταξύ συντελεστών φορτίων, κοινότητα, SKN,
διακύμανση και συνδιακύμανση των ορθογώνιων παραγόντων μετά την περιστροφή

Γενικά ( h2)

Τιμή εισιτηρίου

∑a2=.970

Επίπεδο άνεσης

∑a2=.960

Θερμοκρασία του αέρα

∑a2=.989

Θερμοκρασία νερού

∑a2=.996

∑a2=1.994

∑a2=1.919

Μερίδιο διακύμανσης

Μερίδιο συνδιακύμανσης

Το κλάσμα της διακύμανσης του διαλύματος που εξηγείται από τον παράγοντα είναι το κλάσμα συνδιακυμάνσειςείναι το SKN για τον παράγοντα διαιρούμενο με το άθροισμα των γενικοτήτων (το άθροισμα του SKN επί των μεταβλητών). Ο πρώτος παράγοντας εξηγεί το 51% της διακύμανσης του διαλύματος (1.994/3.915). το δεύτερο - 49% (1.919/3.915); οι δύο παράγοντες μαζί εξηγούν ολόκληρη τη συνδιακύμανση.

Eigenval - αντικατοπτρίζει το μέγεθος της διασποράς του αντίστοιχου αριθμού παραγόντων. Ως άσκηση, συνιστούμε να γράψετε όλους αυτούς τους τύπους για να λάβετε τις υπολογισμένες τιμές για τις μεταβλητές. Για παράδειγμα, για τον πρώτο ανταποκρινόμενο:

1.23 = -.086(1.12) + .981(-1.16)

1.05 = -.072(1.12) - .978(-1.16)

1.08 = .994(1.12) + .027(-1.16)

1.16 = .997(1.12) - .040(-1.16)

Ή σε αλγεβρική μορφή:

Z κόστος της ξενάγησης = ένα 11φά 1 + ένα 12φά 2

Z άνεση του συγκροτήματος = ένα 2l φά 1 + ένα 22φά 2

Z θερμοκρασία αέρα = ένα 31φά 1 + ένα 32φά 2

Z θερμοκρασία νερού = ένα 41φά 1 + ένα 42φά 2

Όσο μεγαλύτερο είναι το φορτίο, τόσο πιο σίγουρο μπορεί να είναι ότι η μεταβλητή καθορίζει τον παράγοντα. Κόμρι και Λι ( Comrey, Lee, 1992) προτείνουν ότι φορτίσεις μεγαλύτερες από 0,71 (εξηγώντας το 50% της διακύμανσης) είναι εξαιρετικές, 0% της διακύμανσης) είναι πολύ καλές, 0%) είναι καλές, 0%) είναι δίκαιες και 0,32 (εξηγήστε το 10% της διακύμανση) είναι αδύναμα.

Ας υποθέσουμε ότι κάνετε μια (κάπως «ηλίθια») μελέτη στην οποία μετράτε το ύψος εκατό ανθρώπων σε ίντσες και εκατοστά. Έτσι, έχετε δύο μεταβλητές. Εάν θέλετε να διερευνήσετε περαιτέρω, για παράδειγμα, την επίδραση διαφόρων συμπληρωμάτων διατροφής στην ανάπτυξη, θα συνεχίσετε να χρησιμοποιείτε και τα δυομεταβλητές; Μάλλον όχι, γιατί το ύψος είναι ένα χαρακτηριστικό ενός ατόμου, ανεξάρτητα από τις μονάδες που μετριέται.

Η σχέση μεταξύ των μεταβλητών μπορεί να βρεθεί χρησιμοποιώντας οικόπεδα διασποράς. Η γραμμή παλινδρόμησης που προκύπτει από την προσαρμογή δίνει γραφική αναπαράστασηεξαρτήσεις. Εάν μια νέα μεταβλητή οριστεί με βάση τη γραμμή παλινδρόμησης που απεικονίζεται σε αυτό το διάγραμμα, τότε μια τέτοια μεταβλητή θα περιλαμβάνει τα πιο σημαντικά χαρακτηριστικά και των δύο μεταβλητών. Έτσι, στην πραγματικότητα, έχετε μειώσει τον αριθμό των μεταβλητών και έχετε αντικαταστήσει δύο με μία. Σημειώστε ότι ο νέος παράγοντας (μεταβλητή) είναι στην πραγματικότητα ένας γραμμικός συνδυασμός των δύο αρχικών μεταβλητών.

Στη γενική περίπτωση, για να εξηγηθεί ο πίνακας συσχέτισης, θα απαιτηθούν όχι ένας, αλλά πολλοί παράγοντες. Κάθε παράγοντας χαρακτηρίζεται από μια στήλη , κάθε μεταβλητή είναι μια γραμμή του πίνακα. Ο παράγοντας ονομάζεται γενικός,εάν όλα τα φορτία του διαφέρουν σημαντικά από το μηδέν και έχει φορτία από όλες τις μεταβλητές. Ο γενικός παράγοντας έχει φορτία από όλες τις μεταβλητές και ένας τέτοιος παράγοντας φαίνεται σχηματικά στο Σχ.1. στήλη Ο παράγοντας ονομάζεται γενικός, εάν τουλάχιστον δύο από τα φορτία του διαφέρουν σημαντικά από το μηδέν. Στήλες, επάνω ρύζι. ένας.αντιπροσωπεύουν τέτοιους κοινούς παράγοντες. Έχουν φορτία από περισσότερες από δύο μεταβλητές. Εάν ένας παράγοντας έχει μόνο ένα φορτίο που είναι σημαντικά διαφορετικό από το μηδέν, τότε καλείται χαρακτηριστικός παράγοντας(βλ. στήλες στο ρύζι. ένας.) Κάθε τέτοιος παράγοντας αντιπροσωπεύει μόνο μία μεταβλητή. Οι κοινοί παράγοντες είναι κρίσιμοι στην παραγοντική ανάλυση. Εάν καθοριστούν οι γενικοί παράγοντες, τότε οι χαρακτηριστικοί παράγοντες λαμβάνονται αυτόματα. Ο αριθμός των υψηλών μεταβλητών φορτίων σε κοινούς παράγοντες ονομάζεται περίπλοκο. Για παράδειγμα, μια μεταβλητή για εικ.1.έχει πολυπλοκότητα 2 και η μεταβλητή έχει πολυπλοκότητα τρία.

Ρύζι. 1. Σχηματική αναπαράσταση της εμφάνισης συντελεστών. Ένας σταυρός υποδηλώνει υψηλό συντελεστή φόρτισης.

Ας φτιάξουμε λοιπόν ένα μοντέλο

, (4)

όπου υπάρχουν μη παρατηρήσιμοι παράγοντες Μ< κ,

Παρατηρούμενες μεταβλητές (αρχικά χαρακτηριστικά),

συντελεστικά φορτία,

Τυχαίο σφάλμα που σχετίζεται μόνο με μηδενικό μέσο όρο και διακύμανση:

I - ασύνδετο,

Μη συσχετισμένες τυχαίες μεταβλητές με μηδενικό μέσο όρο και διακύμανση μονάδων .

(5)

Εδώ - ΕγώΗ γενικότητα, που είναι το μέρος της διακύμανσης, λόγω των παραγόντων, είναι το μέρος της διακύμανσης, λόγω του σφάλματος. Στη σημειογραφία του πίνακα, το παραγοντικό μοντέλο έχει τη μορφή:

(6)

όπου είναι ο πίνακας φορτίου, είναι το διάνυσμα παράγοντα, είναι το διάνυσμα σφάλματος.

Οι συσχετίσεις μεταξύ μεταβλητών, που εκφράζονται με παράγοντες, μπορούν να προκύψουν ως εξής:

όπου - διαγώνιος πίνακας σειράς που περιέχει διακυμάνσεις σφάλματος[i]. Βασική προϋπόθεση: - διαγώνιος, - μη αρνητικός οριστικός πίνακας. Πρόσθετη προϋπόθεσηη μοναδικότητα της λύσης είναι η διαγώνια του πίνακα .

Υπάρχουν πολλές μέθοδοι για την επίλυση μιας παραγοντικής εξίσωσης. Η παλαιότερη μέθοδος παραγοντικής ανάλυσης είναι μέθοδος κύριου παράγοντα, στην οποία η τεχνική της ανάλυσης κύριας συνιστώσας εφαρμόζεται σε έναν μειωμένο πίνακα συσχέτισης με κοινά σημεία στην κύρια διαγώνιο. Για την αξιολόγηση της κοινότητας, συνήθως χρησιμοποιείται ο συντελεστής πολλαπλής συσχέτισης μεταξύ της αντίστοιχης μεταβλητής και του συνόλου των άλλων μεταβλητών.

Η παραγοντική ανάλυση πραγματοποιείται με βάση τη χαρακτηριστική εξίσωση, όπως στην ανάλυση των κύριων συνιστωσών:

(8)

Επίλυση του οποίου, λαμβάνει κανείς τις ιδιοτιμές λ i και τον πίνακα κανονικοποιημένων (χαρακτηριστικών) διανυσμάτων V και στη συνέχεια βρίσκει τον πίνακα αντιστοίχισης παραγόντων:

Για να ληφθούν εκτιμήσεις των γενικοτήτων και των φορτίων παραγόντων, χρησιμοποιείται ένας εμπειρικός επαναληπτικός αλγόριθμος που συγκλίνει στις πραγματικές εκτιμήσεις των παραμέτρων. Η ουσία του αλγορίθμου είναι η εξής: οι αρχικές εκτιμήσεις των συντελεστών φορτίων καθορίζονται χρησιμοποιώντας τη μέθοδο των κύριων παραγόντων. Με βάση τον πίνακα συσχέτισης R, προσδιορίζονται επίσημα οι εκτιμήσεις των κύριων συνιστωσών και των κοινών παραγόντων:

(9)

πού είναι η αντίστοιχη ιδιοτιμή του πίνακα R;

Αρχικά δεδομένα (διανύσματα στηλών).

Συντελεστές για κοινούς παράγοντες.

Κύρια στοιχεία (διανύσματα στηλών).

Οι εκτιμήσεις των συντελεστών φορτίων είναι οι τιμές

Οι εκτιμήσεις των γενικοτήτων λαμβάνονται ως

Στην επόμενη επανάληψη, ο πίνακας R τροποποιείται - αντί για τα στοιχεία της κύριας διαγωνίου, αντικαθίστανται οι εκτιμήσεις των γενικοτήτων που ελήφθησαν στην προηγούμενη επανάληψη. με βάση τον τροποποιημένο πίνακα R, χρησιμοποιώντας το υπολογιστικό σχήμα ανάλυσης συνιστωσών, επαναλαμβάνεται ο υπολογισμός των κύριων συνιστωσών (που δεν είναι τέτοιοι από την άποψη της ανάλυσης συνιστωσών), εκτιμήσεις των κύριων παραγόντων, φορτίσεις παραγόντων, γενικότητες και αναζητούνται ιδιαιτερότητες. Η παραγοντική ανάλυση μπορεί να θεωρηθεί πλήρης όταν οι εκτιμήσεις της κοινότητας αλλάζουν ελάχιστα σε δύο γειτονικές επαναλήψεις.

Σημείωση.Οι μετασχηματισμοί του πίνακα R μπορεί να παραβιάζουν τη θετική οριστικότητα του πίνακα R + και, κατά συνέπεια, ορισμένες από τις ιδιοτιμές του R + μπορεί να είναι αρνητικές.

Εθνικό Ερευνητικό Πυρηνικό Πανεπιστήμιο MEPhI
Σχολή Επιχειρηματικής Πληροφορικής και Διοίκησης
πολύπλοκα συστήματα
Τμήμα Οικονομίας και Διοίκησης
στη βιομηχανία (αρ. 71)
Μαθηματικές και ενόργανες μέθοδοι επεξεργασίας
στατιστικές πληροφορίες
Kireev V.S.,
Ph.D., Αναπληρωτής Καθηγητής
ΗΛΕΚΤΡΟΝΙΚΗ ΔΙΕΥΘΥΝΣΗ:
Μόσχα, 2017
1

Ομαλοποίηση

Δεκαδική κλιμάκωση
Minimax κανονικοποίηση
Κανονικοποίηση με Standard Transform
Κανονικοποίηση με μετασχηματισμούς βάσει στοιχείων
2

Δεκαδική κλιμάκωση

Vi
"
Vi k , μέγιστο (Vi) 1
10
"
3

Minimax κανονικοποίηση

Vi
Vi min (Vi)
"
Εγώ
μέγ. (Vi) ελάχ. (Vi)
Εγώ
Εγώ
4

Κανονικοποίηση με Τυπική Απόκλιση

Vi
"
V
V
Vi V
V
- επιλεκτική
μέση τιμή
- δείγμα μέσου τετραγώνου
απόκλιση
5

Κανονικοποίηση με μετασχηματισμούς βάσει στοιχείων

Vi f Vi
"
Vi 1
"
log Vi
, Vi log Vi
"
Vi exp Vi
"
Vi Vi , Vi 1 y
Vi
"
y
"
6

Παραγοντική ανάλυση

(FA) είναι ένα σύνολο μεθόδων που
τη βάση των πραγματικών συνδέσεων των αναλυόμενων χαρακτηριστικών, τις ίδιες τις συνδέσεις
παρατηρούμενα αντικείμενα, σας επιτρέπουν να αναγνωρίσετε κρυμμένα (σιωπηρά, λανθάνοντα)
γενικευτικά χαρακτηριστικά της οργανωτικής δομής και του μηχανισμού ανάπτυξης
μελέτησε φαινόμενα, διαδικασίες.
Χρησιμοποιούνται κυρίως μέθοδοι παραγοντικής ανάλυσης στην ερευνητική πρακτική
τρόπο για να συμπιέσει τις πληροφορίες, να αποκτήσει έναν μικρό αριθμό γενίκευσης
χαρακτηριστικά που εξηγούν τη μεταβλητότητα (διασπορά) των στοιχειωδών χαρακτηριστικών (τεχνική ανάλυσης παράγοντα R) ή τη μεταβλητότητα των παρατηρούμενων αντικειμένων (Q-technique
παραγοντική ανάλυση).
Οι αλγόριθμοι παραγοντικής ανάλυσης βασίζονται στη χρήση ενός μειωμένου
πίνακες συσχέτισης κατά ζεύγη (συνδιακύμανση). Ένας μειωμένος πίνακας είναι ένας πίνακας
η κύρια διαγώνιος της οποίας δεν είναι μονάδες (εκτιμήσεις) της συνολικής συσχέτισης ή
εκτιμήσεις της συνολικής διακύμανσης και τις μειωμένες, κάπως μειωμένες τιμές τους. Στο
Αυτό προϋποθέτει ότι η ανάλυση δεν θα εξηγήσει όλη τη διακύμανση
μελέτησε σημεία (αντικείμενα), και κάποιο μέρος του, συνήθως μεγάλο. Παραμένων
το ανεξήγητο μέρος της διακύμανσης είναι το χαρακτηριστικό που προκύπτει από την ιδιαιτερότητα
παρατηρούμενα αντικείμενα ή σφάλματα που έγιναν κατά την καταγραφή φαινομένων, διεργασιών,
εκείνοι. αναξιοπιστία των δεδομένων εισόδου.
7

Ταξινόμηση μεθόδων FA

8

Μέθοδος κύριου στοιχείου

(MGK) χρησιμοποιείται για τη μείωση της διάστασης
χώρο παρατηρούμενων διανυσμάτων, χωρίς να οδηγεί σε σημαντική απώλεια
πληροφοριακός. Η υπόθεση του PCA είναι ο κανονικός νόμος διανομής
πολυδιάστατα διανύσματα. Στο PCA, ορίζονται γραμμικοί συνδυασμοί τυχαίων μεταβλητών
χαρακτηριστικό γνώρισμα
φορείς
συνδιακύμανση
μήτρες.
Κύριος
τα στοιχεία είναι ένα ορθογώνιο σύστημα συντεταγμένων στο οποίο οι διακυμάνσεις
στοιχεία χαρακτηρίζουν τις στατιστικές τους ιδιότητες. Το MGK δεν ταξινομείται ως FA, αν και έχει
παρόμοιο αλγόριθμο και λύνει παρόμοια αναλυτικά προβλήματα. Η βασική του διαφορά
έγκειται στο γεγονός ότι δεν είναι η μειωμένη, αλλά η συνήθης μήτρα που υπόκειται σε επεξεργασία
συσχετίσεις ζευγαριών, συνδιακυμάνσεις, στην κύρια διαγώνιο των οποίων υπάρχουν.
Έστω ένα αρχικό σύνολο διανυσμάτων X του γραμμικού χώρου Lk. Εφαρμογή
μέθοδος των κύριων συστατικών μας επιτρέπει να περάσουμε στη βάση του χώρου Lm (m≤k), όπως
ότι: η πρώτη συνιστώσα (το πρώτο διάνυσμα της βάσης) αντιστοιχεί στην κατεύθυνση, κατά μήκος
το οποίο η διακύμανση των διανυσμάτων του αρχικού συνόλου είναι μέγιστη. Κατεύθυνση δεύτερη
συστατικά (του δεύτερου διανύσματος βάσης) επιλέγεται με τέτοιο τρόπο ώστε η διακύμανση του αρχικού
διανύσματα κατά μήκος του ήταν μέγιστο υπό την προϋπόθεση της ορθογωνικότητας στο πρώτο διάνυσμα
βάση. Άλλα διανύσματα βάσης ορίζονται παρόμοια. Ως αποτέλεσμα, οδηγίες
Τα διανύσματα βάσης επιλέγονται έτσι ώστε να μεγιστοποιείται η διακύμανση του αρχικού συνόλου
κατά μήκος των πρώτων στοιχείων, που ονομάζονται κύρια συστατικά (ή κύριος
άξονες).Αποδεικνύεται ότι η κύρια μεταβλητότητα των διανυσμάτων του αρχικού συνόλου των διανυσμάτων
αντιπροσωπεύεται από τα πρώτα συστατικά, και γίνεται δυνατό, με απόρριψη
λιγότερο βασικά εξαρτήματα, πηγαίνετε σε χώρο χαμηλότερης διάστασης.
9

10. Μέθοδος των κύριων συστατικών. Σχέδιο

10

11. Μέθοδος των κύριων συστατικών. Matrix χρέωσης

Ο πίνακας βαθμολογίας T μας δίνει τις προβολές των αρχικών δειγμάτων (J-dimensional
φορείς
x1,…,xI)
στο
υποχώρος
μείζων
συστατικό
(Α-διάσταση).
Οι σειρές t1,…,tI του πίνακα T είναι οι συντεταγμένες των δειγμάτων νέο σύστημασυντεταγμένες.
Οι στήλες t1,…,tA του πίνακα T είναι ορθογώνιες και αντιπροσωπεύουν τις προβολές όλων των δειγμάτων σε
ένας νέος άξονας συντεταγμένων.
Κατά την εξέταση δεδομένων χρησιμοποιώντας τη μέθοδο PCA, δίνεται ιδιαίτερη προσοχή στα γραφήματα
λογαριασμούς. Μεταφέρουν πληροφορίες χρήσιμες για την κατανόηση του πώς
δεδομένα. Στο διάγραμμα βαθμολογίας, κάθε δείγμα απεικονίζεται σε συντεταγμένες (ti, tj), τις περισσότερες φορές
– (t1, t2), που συμβολίζεται με PC1 και PC2. Η εγγύτητα δύο σημείων σημαίνει την ομοιότητά τους, δηλ.
θετική συσχέτιση. Τα σημεία σε ορθή γωνία είναι
ασύνδετα, και βρίσκονται διαμετρικά αντίθετα - έχουν
αρνητική συσχέτιση.
11

12. Μέθοδος των κύριων συστατικών. Φόρτωση Matrix

Ο πίνακας φορτίου P είναι ο πίνακας μετάβασης από τον αρχικό χώρο
μεταβλητές x1, …xJ (J-dimensional) στο χώρο των κύριων συνιστωσών (A-dimensional). Καθε
η σειρά του πίνακα P αποτελείται από συντελεστές που σχετίζονται με τις μεταβλητές t και x.
Για παράδειγμα, α-η γραμμήείναι η προβολή όλων των μεταβλητών x1, …xJ επάνω άξονας α-ουμείζων
συστατικό. Κάθε στήλη του P είναι μια προβολή της αντίστοιχης μεταβλητής xj σε μια νέα
σύστημα συντεταγμένων.
Το γράφημα φορτίου χρησιμοποιείται για τη μελέτη του ρόλου των μεταβλητών. Για το θέμα αυτό
γράφημα, κάθε μεταβλητή xj αντιπροσωπεύεται από ένα σημείο σε συντεταγμένες (pi, pj), για παράδειγμα
(σελ. 1, σελ. 2). Αναλύοντάς το με τρόπο παρόμοιο με ένα λογιστικό σχέδιο, μπορεί κανείς να καταλάβει ποιες μεταβλητές
σχετικές και οι οποίες είναι ανεξάρτητες. Κοινή μελέτη ζευγαρωμένων λογιστικών σχεδίων και
φορτία, μπορεί επίσης να δώσει πολλά ΧΡΗΣΙΜΕΣ ΠΛΗΡΟΦΟΡΙΕΣσχετικά με τα δεδομένα.
12

13. Χαρακτηριστικά της μεθόδου του κύριου συστατικού

Η μέθοδος του κύριου συστατικού βασίζεται στις ακόλουθες παραδοχές:
την υπόθεση ότι η διάσταση των δεδομένων μπορεί να μειωθεί αποτελεσματικά
με γραμμικό μετασχηματισμό.
την υπόθεση ότι οι περισσότερες πληροφορίες μεταφέρονται από εκείνες τις κατευθύνσεις στις οποίες
η διακύμανση των δεδομένων εισόδου είναι μέγιστη.
Μπορεί εύκολα να διαπιστωθεί ότι αυτές οι προϋποθέσεις σε καμία περίπτωση δεν ικανοποιούνται πάντα. Για παράδειγμα,
εάν τα σημεία του συνόλου εισόδου βρίσκονται στην επιφάνεια της υπερσφαίρας, τότε όχι
Ο γραμμικός μετασχηματισμός δεν θα είναι σε θέση να μειώσει τη διάσταση (αλλά αυτό μπορεί να γίνει εύκολα
μη γραμμικός μετασχηματισμός που βασίζεται στην απόσταση από ένα σημείο στο κέντρο μιας σφαίρας).
Αυτό το μειονέκτημα είναι εξίσου κοινό για όλους γραμμικούς αλγόριθμουςκαι ίσως
ξεπεραστεί χρησιμοποιώντας πρόσθετες εικονικές μεταβλητές που είναι
μη γραμμικές συναρτήσεις των στοιχείων του συνόλου δεδομένων εισόδου (το λεγόμενο kernel trick).
Το δεύτερο μειονέκτημα της μεθόδου του κύριου συστατικού είναι ότι οι κατευθύνσεις
ότι μεγιστοποιούν τη διακύμανση δεν μεγιστοποιούν πάντα το περιεχόμενο πληροφοριών.
Για παράδειγμα, μια μεταβλητή με την υψηλότερη διακύμανση μπορεί να έχει σχεδόν καμία
πληροφορίες, ενώ η μεταβλητή ελάχιστης διακύμανσης επιτρέπει
χωρίζουν εντελώς τις τάξεις. Η μέθοδος του κύριου συστατικού σε αυτή την περίπτωση θα δώσει
προτίμηση για την πρώτη (λιγότερο πληροφοριακή) μεταβλητή. Όλα επιπλέον
πληροφορίες που σχετίζονται με το διάνυσμα (για παράδειγμα, εάν η εικόνα ανήκει σε ένα από τα
τάξεις) αγνοείται.
13

14. Παράδειγμα δεδομένων για το PCA

Κ. Έσμπενσεν. Ανάλυση πολυμεταβλητών δεδομένων, συντομ. ανά. από τα Αγγλικά. υπό
εκδ. O. Rodionova, IPCP RAS, 2005
14

15. Παράδειγμα δεδομένων για το PCA. Σημειογραφία

Υψος
Ύψος: σε εκατοστά
Βάρος
Βάρος: σε κιλά
Μαλλιά
Μαλλιά: κοντά: -1 ή μακριά:
+1
Παπούτσια
Παπούτσια: Μέγεθος ΕΕ
πρότυπο
Ηλικία
Ηλικία: σε χρόνια
Εισόδημα
Εισόδημα: σε χιλιάδες ευρώ ετησίως
μπύρα
Μπύρα: κατανάλωση σε λίτρα το χρόνο
Κρασί
Οίνος: κατανάλωση σε λίτρα το χρόνο
φύλο
Φύλο: αρσενικό: -1 ή θηλυκό: +1
Δύναμη
Δύναμη: δείκτης με βάση
δοκιμή σωματικών ικανοτήτων
περιοχή
Περιοχή: βόρεια: -1, ή νότια: +1
IQ
IQ,
μετράται με τυπική δοκιμή
15

16. Πίνακας λογαριασμών

16

17. Πίνακας φορτίου

17

18. Δείγμα αντικειμένων στο χώρο νέων εξαρτημάτων

Οι γυναίκες (F) υποδεικνύονται με κύκλους ● και ● και
άνδρες (Μ) - τετράγωνα ■ και ■. Βόρεια (Β)
αντιπροσωπεύεται από κυανό ■ και νότια (S) με κόκκινο
χρώμα ●.
Το μέγεθος και το χρώμα των συμβόλων αντικατοπτρίζει το εισόδημα - παρά
μεγαλύτερο και ελαφρύτερο, τόσο μεγαλύτερο είναι. Αριθμοί
αντιπροσωπεύουν την ηλικία
18

19. Αρχικές μεταβλητές στο χώρο των νέων στοιχείων

19

20. Οικόπεδο οθόνης

20

21. Μέθοδος κύριου παράγοντα

Στο παράδειγμα της μεθόδου των κύριων παραγόντων, το πρόβλημα της μείωσης της διάστασης του ενδεικτικού
Ο χώρος μοιάζει με n χαρακτηριστικά μπορούν να εξηγηθούν χρησιμοποιώντας ένα μικρότερο
ο αριθμός των m-λανθάνοντα χαρακτηριστικά - κοινοί παράγοντες, όπου m<αρχικά χαρακτηριστικά και εισαγόμενοι κοινοί παράγοντες (γραμμικοί συνδυασμοί)
λαμβάνονται υπόψη χρησιμοποιώντας τους λεγόμενους χαρακτηριστικούς παράγοντες.
Απώτερος στόχος μιας στατιστικής μελέτης που πραγματοποιήθηκε με τη συμμετοχή
Η συσκευή ανάλυσης παραγόντων, κατά κανόνα, συνίσταται στον εντοπισμό και την ερμηνεία
λανθάνοντες κοινούς παράγοντες με ταυτόχρονη επιθυμία να ελαχιστοποιηθούν και οι δύο τους
αριθμός και βαθμός εξάρτησης από το συγκεκριμένο υπολειπόμενο τυχαίο τους
συστατικό.
Κάθε σημάδι
είναι το αποτέλεσμα
έκθεση σε μ υποθετικό σύνολο και
ένας χαρακτηριστικός παράγοντας:
X 1 a11 f1 a12 f 2 a1m f m d1V1
X a f a f a f d V
2
21 1
22 2
2μ μ
2
X n a n1 f1 a n 2 f 2 a nm f m d nVn
21

22. Περιστροφή παραγόντων

Η περιστροφή είναι ένας τρόπος μετασχηματισμού των παραγόντων που ελήφθησαν στο προηγούμενο βήμα,
σε πιο ουσιαστικές. Η περιστροφή χωρίζεται σε:
γραφικοί (άξονες σχεδίασης, δεν ισχύει για περισσότερα από δισδιάστατα
ανάλυση),
αναλυτικό (επιλέγεται ένα συγκεκριμένο κριτήριο περιστροφής, ορθογώνιο και
λοξή) και
μήτρα-κατά προσέγγιση (η περιστροφή συνίσταται στην προσέγγιση ενός συγκεκριμένου δεδομένου
μήτρα στόχου).
Το αποτέλεσμα της περιστροφής είναι η δευτερεύουσα δομή των παραγόντων. Πρωταρχικός
δομή συντελεστή (αποτελούμενη από πρωτεύοντα φορτία (που ελήφθησαν στο προηγούμενο
στάδιο) είναι, στην πραγματικότητα, προβολές σημείων σε ορθογώνιους άξονες συντεταγμένων. Είναι προφανές ότι
αν οι προβολές είναι μηδέν, τότε η δομή θα είναι απλούστερη. Και οι προβολές θα είναι μηδενικές,
αν το σημείο βρίσκεται σε κάποιον άξονα. Έτσι, η περιστροφή μπορεί να θεωρηθεί ως μετάβαση από
ένα σύστημα συντεταγμένων σε ένα άλλο με γνωστές συντεταγμένες σε ένα σύστημα (
πρωτεύοντες παράγοντες) και επαναληπτικά επιλεγμένες συντεταγμένες σε άλλο σύστημα
(δευτερεύοντες παράγοντες). Όταν αποκτούν μια δευτερεύουσα δομή, τείνουν να μετακινούνται σε τέτοια
σύστημα συντεταγμένων προκειμένου να περάσει από σημεία (αντικείμενα) όσο το δυνατόν περισσότερους άξονες προκειμένου να
όσο το δυνατόν περισσότερες προβολές (και επομένως φορτία) ήταν μηδενικές. Ταυτόχρονα, μπορούν
άρση των περιορισμών στην ορθογωνία και μείωση της σημασίας από το πρώτο στο τελευταίο
παράγοντες που χαρακτηρίζουν την πρωτογενή δομή.
22

23. Ορθογώνια περιστροφή

σημαίνει ότι θα εναλλάξουμε τους παράγοντες, αλλά όχι
θα παραβιάσουμε την ορθογωνία τους μεταξύ τους. Ορθογώνια περιστροφή
υπονοεί τον πολλαπλασιασμό του αρχικού πίνακα των πρωτευόντων φορτίων με το ορθογώνιο
μήτρας R (πίνακας τέτοιος ώστε
V=BR
Ο αλγόριθμος ορθογώνιας περιστροφής στη γενική περίπτωση είναι ο εξής:
0. Β - μήτρα πρωτογενών παραγόντων.
1.
Ψάχνουν για
ορθογώνιο
μήτρα
RT
Μέγεθος
2*2
Για
δύο
στήλες (παράγοντες) bi και bj του πίνακα Β έτσι ώστε το κριτήριο για τον πίνακα
R μέγ.
2.
Αντικαταστήστε τις στήλες bi και bj με στήλες
3.
Ελέγξτε εάν όλες οι στήλες έχουν ταξινομηθεί. Εάν όχι, τότε μεταβείτε στο 1.
4.
Ελέγχουμε ότι το κριτήριο για ολόκληρο τον πίνακα έχει μεγαλώσει. Εάν ναι, τότε μεταβείτε στο 1. Εάν
όχι, τότε το τέλος του αλγορίθμου.
.
23

24. Περιστροφή Varimax

Αυτό το κριτήριο χρησιμοποιεί την επισημοποίηση
μεταβλητή διακύμανσης τετραγωνικών φορτίων:
δυσκολίες
παράγοντας α
διά μέσου
Τότε το κριτήριο σε γενική μορφή μπορεί να γραφτεί ως εξής:
Ταυτόχρονα, τα φορτία παραγόντων μπορούν να ομαλοποιηθούν για να απαλλαγούμε από αυτά
επιρροή επιμέρους μεταβλητών.
24

25. Περιστροφή Quartimax

Επισημοποιούμε την έννοια της παραγοντικής πολυπλοκότητας της q i-ης μεταβλητής ως προς
διακύμανση τετραγωνικών συντελεστών φορτίων παραγόντων:
όπου r είναι ο αριθμός των στηλών του πίνακα παραγόντων, bij είναι το συντελεστικό φορτίο του j-ου
παράγοντας στην i-η μεταβλητή, - η μέση τιμή. Κριτήριο Quartimax προσπαθεί
να μεγιστοποιήσει την πολυπλοκότητα ολόκληρου του συνόλου των μεταβλητών προκειμένου να επιτευχθεί
ευκολία ερμηνείας των παραγόντων (προσπαθεί να διευκολύνει την περιγραφή των στηλών):
Δεδομένου ότι
- σταθερά (άθροισμα ιδιοτιμών του πίνακα
συνδιακύμανση) και αποκαλύπτοντας τον μέσο όρο (και λαμβάνοντας υπόψη ότι η συνάρτηση ισχύος
αυξάνεται ανάλογα με το επιχείρημα), λαμβάνουμε την τελική μορφή του κριτηρίου για
μεγιστοποίηση:
25

26. Κριτήρια για τον προσδιορισμό του αριθμού των παραγόντων

Το κύριο πρόβλημα της παραγοντικής ανάλυσης είναι η επιλογή και η ερμηνεία
κύριοι παράγοντες. Κατά την επιλογή των στοιχείων, ο ερευνητής συνήθως έρχεται αντιμέτωπος με
σημαντικές δυσκολίες, καθώς δεν υπάρχει σαφές κριτήριο επιλογής
παράγοντες, και επομένως η υποκειμενικότητα των ερμηνειών των αποτελεσμάτων είναι αναπόφευκτη εδώ.
Υπάρχουν αρκετά συχνά χρησιμοποιούμενα κριτήρια για τον προσδιορισμό του αριθμού των παραγόντων.
Μερικά από αυτά είναι εναλλακτικές σε άλλα, και μερικά από αυτά
Τα κριτήρια μπορούν να χρησιμοποιηθούν μαζί, έτσι ώστε το ένα να συμπληρώνει το άλλο:
Κριτήριο Kaiser ή κριτήριο ιδιοτιμής. Αυτό το κριτήριο έχει προταθεί
Kaiser, και είναι ίσως το πιο ευρέως χρησιμοποιούμενο. Μόνο επιλεγμένα
παράγοντες με ιδιοτιμές ίσες ή μεγαλύτερες από 1. Αυτό σημαίνει ότι αν
παράγοντας δεν επισημαίνει μια διακύμανση ισοδύναμη με τουλάχιστον τη διακύμανση ενός
μεταβλητή, παραλείπεται.
Κριτήριο Scree (Αγγλικό scree) ή κριτήριο προβολής. Αυτός είναι
γραφική μέθοδος, που προτάθηκε για πρώτη φορά από τον ψυχολόγο Cattell. Το δικό
Οι τιμές μπορούν να εμφανιστούν με τη μορφή ενός απλού γραφήματος. Ο Cattell πρότεινε να βρουν τέτοια
η θέση στο γράφημα όπου η μείωση των ιδιοτιμών από αριστερά προς τα δεξιά είναι μέγιστη
επιβραδύνει. Υποτίθεται ότι στα δεξιά αυτού του σημείου είναι μόνο
"factorial scree" - "scree" είναι ένας γεωλογικός όρος για
θραύσματα βράχων που συσσωρεύονται στο κάτω μέρος μιας βραχώδους πλαγιάς.
26

27. Κριτήρια για τον προσδιορισμό του αριθμού των παραγόντων. Συνέχιση

Κριτήριο σημαντικότητας. Είναι ιδιαίτερα αποτελεσματικό όταν το γενικό μοντέλο
Ο πληθυσμός είναι γνωστός και δεν υπάρχουν δευτερεύοντες παράγοντες. Αλλά το κριτήριο είναι ακατάλληλο
να αναζητήσετε αλλαγές στο μοντέλο και να εφαρμόσετε μόνο σε παραγοντική ανάλυση χρησιμοποιώντας τη μέθοδο
ελάχιστα τετράγωνα ή μέγιστη πιθανότητα.
Κριτήριο αναπαραγώγιμου μεριδίου διασποράς. Οι παράγοντες ταξινομούνται ανά μερίδιο
ντετερμινιστική διακύμανση, όταν το ποσοστό διακύμανσης είναι ασήμαντο,
η εξαγωγή πρέπει να σταματήσει. Είναι επιθυμητό οι επισημασμένοι παράγοντες να εξηγούν
περισσότερο από 80% εξάπλωση. Μειονεκτήματα του κριτηρίου: πρώτον, η επιλογή είναι υποκειμενική και, δεύτερον, η ιδιαιτερότητα των δεδομένων μπορεί να είναι τέτοια που όλοι οι κύριοι παράγοντες δεν μπορούν
εξηγήστε συλλογικά το επιθυμητό ποσοστό διασποράς. Ως εκ τούτου, οι κύριοι παράγοντες
πρέπει μαζί να εξηγούν τουλάχιστον το 50,1% της διακύμανσης.
Κριτήριο ερμηνευσιμότητας και αμετάβλητης. Αυτό το κριτήριο συνδυάζεται
στατιστική ακρίβεια με υποκειμενικά ενδιαφέροντα. Σύμφωνα με τον ίδιο, οι κύριοι παράγοντες
μπορούν να διακριθούν εφόσον είναι δυνατή η σαφής ερμηνεία τους. Αυτή, μέσα της
στροφή, εξαρτάται από το μέγεθος των φορτίων παραγόντων, δηλαδή εάν ο συντελεστής περιέχει τουλάχιστον
ένα ισχυρό φορτίο, μπορεί να ερμηνευτεί. Το αντίθετο είναι επίσης πιθανό -
αν υπάρχουν δυνατά φορτία, αλλά η ερμηνεία είναι δύσκολη, από αυτό
τα συστατικά κατά προτίμηση απορρίπτονται.
27

28. Ένα παράδειγμα χρήσης του MGK

Αφήνω
υπάρχουν
το ακόλουθο
δείκτες
οικονομικός
δραστηριότητες
επιχειρήσεις: ένταση εργασίας (x1), μερίδιο αγορασθέντων ειδών στην παραγωγή (x2),
αναλογία μετατόπισης εξοπλισμού (x3), μερίδιο εργαζομένων στην επιχείρηση
(x4), μπόνους και αμοιβές ανά εργαζόμενο (x5), κερδοφορία (y). Γραμμικός
το μοντέλο παλινδρόμησης μοιάζει με:
y = b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4 + b5*x5
x1
x2
x3
x4
x5
y
0,51
0,2
1,47
0,72
0,67
9,8
0,36
0,64
1,27
0,7
0,98
13,2
0,23
0,42
1,51
0,66
1,16
17,3
0,26
0,27
1,46
0,69
0,54
7,1
0,27
0,37
1,27
0,71
1,23
11,5
0,29
0,38
1,43
0,73
0,78
12,1
0,01
0,35
1,5
0,65
1,16
15,2
0,02
0,42
1,35
0,82
2,44
31,3
0,18
0,32
1,41
0,8
1,06
11,6
0,25
0,33
1,47
0,83
2,13
30,1
28

29. Ένα παράδειγμα χρήσης του MGK

Η κατασκευή ενός μοντέλου παλινδρόμησης σε ένα στατιστικό πακέτο δείχνει ότι
Ο συντελεστής X4 δεν είναι σημαντικός (p-Value > α = 5%) και μπορεί να εξαιρεθεί από το μοντέλο.
τι
Μετά την εξάλειψη του X4, η διαδικασία κατασκευής μοντέλου ξεκινά ξανά.
29

30. Ένα παράδειγμα χρήσης του MGK

Το κριτήριο Kaiser για το PCA δείχνει ότι είναι δυνατό να αφήσουμε 2 στοιχεία να εξηγούν
περίπου το 80% της αρχικής διακύμανσης.
Για επιλεγμένα στοιχεία, οι εξισώσεις μπορούν να κατασκευαστούν στο αρχικό σύστημα συντεταγμένων:
U1 = 0,41*x1 - 0,57*x2 + 0,49*x3 - 0,52*x5
U2 = 0,61*x1 + 0,38*x2 - 0,53*x3 - 0,44*x5
30

31. Ένα παράδειγμα χρήσης του MGK

Τώρα μπορείτε να δημιουργήσετε ένα νέο μοντέλο παλινδρόμησης στα νέα στοιχεία:
y = 15,92 - 3,74*U1 - 3,87*U2
31

32. Μέθοδος Singular Decomposition (SVD)

Οι Beltrami και Jordan θεωρούνται οι ιδρυτές της θεωρίας της μοναδικότητας.
αποσύνθεση. Beltrami - για την πρώτη που δημοσίευσε έργο
μοναδικής αξίας αποσύνθεση, και Jordan για την κομψότητα και την πληρότητα του
δουλειά. Το έργο του Beltrami εμφανίστηκε στο Journal of Mathematics για
η Χρήση των Φοιτητών των Ιταλικών Πανεπιστημίων» το 1873, κύρια
Σκοπός του οποίου ήταν η εξοικείωση των μαθητών με
διγραμμικές μορφές Η ουσία της μεθόδου είναι στην αποσύνθεση του πίνακα Α μεγέθους n
x m με κατάταξη d = κατάταξη (M)<= min(n,m) в произведение матриц меньшего
τάξη:
A=UDVT,
όπου οι πίνακες U μεγέθους n x d και V μεγέθους m x d αποτελούνται από
ορθοκανονικές στήλες που είναι ιδιοδιανύσματα για
μη μηδενικές ιδιοτιμές των πινάκων AAT και ATA, αντίστοιχα, και
UTU = V TV = I , και το D μεγέθους d x d είναι ένας διαγώνιος πίνακας με
θετικά διαγώνια στοιχεία, ταξινομημένα σε
φθίνουσα σειρά. Οι στήλες του πίνακα U είναι:
ορθοκανονική βάση του χώρου στηλών του πίνακα Α και των στηλών
Ο πίνακας V είναι μια ορθοκανονική βάση του χώρου των σειρών του πίνακα Α.
32

33. Μέθοδος Singular Decomposition (SVD)

Μια σημαντική ιδιότητα της αποσύνθεσης SVD είναι το γεγονός ότι αν
για κ μόνο από τα k μεγαλύτερα διαγώνια στοιχεία, και επίσης
Αφήστε μόνο τις πρώτες k στήλες στους πίνακες U και V και μετά τον πίνακα
Ak=UkDkVkT
θα είναι η καλύτερη προσέγγιση του πίνακα Α σε σχέση με
Κανόνες Frobenius μεταξύ όλων των πινάκων με κατάταξη k.
Αυτή η περικοπή αρχικά μειώνει τη διάσταση του διανύσματος
χώρο, μειώνει τις απαιτήσεις αποθήκευσης και υπολογιστών
απαιτήσεις μοντέλου.
Δεύτερον, απορρίπτοντας μικρούς ενικούς αριθμούς, μικρούς
η παραμόρφωση που προκύπτει από το θόρυβο στα δεδομένα αφαιρείται, αφήνοντας
μόνο τα ισχυρότερα αποτελέσματα και τάσεις σε αυτό το μοντέλο.

Έχοντας εξοικειωθεί με τις έννοιες της συντελεστικής φόρτισης και της περιοχής των αλλαγών της άρθρωσης, μπορούμε να προχωρήσουμε περαιτέρω, χρησιμοποιώντας ξανά τη συσκευή των πινάκων για παρουσίαση, τα στοιχεία των οποίων αυτή τη φορά θα είναι συντελεστές συσχέτισης.

Ο πίνακας των συντελεστών συσχέτισης που λαμβάνεται, κατά κανόνα, πειραματικά, ονομάζεται πίνακας συσχέτισης ή πίνακας συσχέτισης.

Τα στοιχεία αυτού του πίνακα είναι οι συντελεστές συσχέτισης μεταξύ όλων των μεταβλητών του δεδομένου πληθυσμού.

Εάν έχουμε, για παράδειγμα, ένα σύνολο που αποτελείται από δοκιμές, τότε ο αριθμός των συντελεστών συσχέτισης που λαμβάνονται πειραματικά θα είναι

Αυτοί οι συντελεστές γεμίζουν το μισό του πίνακα που βρίσκεται στη μία πλευρά της κύριας διαγωνίου του. Από την άλλη πλευρά είναι, προφανώς, οι ίδιοι συντελεστές, αφού κλπ. Επομένως, ο πίνακας συσχέτισης είναι συμμετρικός.

Σχήμα 3.2. Πλήρης πίνακας συσχέτισης

Υπάρχουν κάποιες στη διαγώνιο αυτού του πίνακα επειδή κάθε μεταβλητή έχει συσχετισμό +1 με τον εαυτό της.

Ένας πίνακας συσχέτισης του οποίου τα κύρια διαγώνια στοιχεία είναι ίσα με 1 ονομάζεται «πλήρης πίνακας» συσχέτισης (Σχήμα 3.2) και συμβολίζεται

Θα πρέπει να σημειωθεί ότι τοποθετώντας μονάδες, ή συσχετισμούς κάθε μεταβλητής με τον εαυτό της, στην κύρια διαγώνιο, λαμβάνουμε υπόψη τη συνολική διακύμανση κάθε μεταβλητής που αναπαρίσταται στον πίνακα. Έτσι, λαμβάνεται υπόψη η επιρροή όχι μόνο γενικών, αλλά και ειδικών παραγόντων.

Αντίθετα, εάν στην κύρια διαγώνιο του πίνακα συσχέτισης υπάρχουν στοιχεία που αντιστοιχούν στις γενικότητες και σχετίζονται μόνο με τη γενική διακύμανση των μεταβλητών, τότε λαμβάνεται υπόψη μόνο η επιρροή γενικών παραγόντων, η επιρροή συγκεκριμένων παραγόντων και σφαλμάτων είναι εξαλείφεται, δηλ. απορρίπτεται η ειδικότητα και η διακύμανση των σφαλμάτων.

Ο πίνακας συσχέτισης, στον οποίο τα στοιχεία της κύριας διαγωνίου αντιστοιχούν στις γενικότητες, ονομάζεται ανηγμένη και συμβολίζεται με R (Σχήμα 3.3).

Σχήμα 3.3. Μειωμένος πίνακας συσχέτισης

Έχουμε ήδη μιλήσει για τη φόρτωση παραγόντων ή την πλήρωση μιας δεδομένης μεταβλητής με έναν συγκεκριμένο παράγοντα. Ταυτόχρονα, τονίστηκε ότι το συντελεστικό φορτίο έχει τη μορφή συντελεστή συσχέτισης μεταξύ μιας δεδομένης μεταβλητής και ενός δεδομένου παράγοντα.

Ένας πίνακας του οποίου οι στήλες αποτελούνται από τις φορτίσεις ενός δεδομένου παράγοντα σε σχέση με όλες τις μεταβλητές ενός δεδομένου πληθυσμού και τις σειρές των φορτίων παραγόντων μιας δεδομένης μεταβλητής, ονομάζεται πίνακας παραγόντων ή πίνακας παραγόντων. Εδώ μπορείτε επίσης να μιλήσετε για τον πλήρη και μειωμένο πίνακα παραγόντων. Τα στοιχεία του πλήρους παραγοντικού πίνακα αντιστοιχούν στη συνολική μοναδιαία διακύμανση κάθε μεταβλητής από τον δεδομένο πληθυσμό. Εάν τα φορτία σε γενικούς παράγοντες συμβολίζονται με c και τα φορτία συγκεκριμένων παραγόντων συμβολίζονται με και, τότε ο πλήρης πίνακας παραγόντων μπορεί να αναπαρασταθεί ως εξής:

Σχήμα 3.4. Πλήρης παράγοντας μήτρας για τέσσερις μεταβλητές

Ο πίνακας παραγόντων που παρουσιάζεται εδώ αποτελείται από δύο μέρη Το πρώτο μέρος περιέχει στοιχεία που σχετίζονται με τέσσερις μεταβλητές και τρεις κοινούς παράγοντες, όλοι από τους οποίους υποτίθεται ότι ισχύουν για όλες τις μεταβλητές. Αυτό δεν είναι απαραίτητη προϋπόθεση, καθώς ορισμένα στοιχεία του πρώτου μέρους του πίνακα μπορεί να είναι ίσα με μηδέν, πράγμα που σημαίνει ότι ορισμένοι παράγοντες δεν ισχύουν για όλες τις μεταβλητές. Τα στοιχεία του πρώτου μέρους του πίνακα είναι τα φορτία των κοινών παραγόντων (για παράδειγμα, το στοιχείο δείχνει το φορτίο του δεύτερου κοινού παράγοντα με την πρώτη μεταβλητή).

Στο δεύτερο μέρος του πίνακα, βλέπουμε 4 φορτώσεις χαρακτηριστικών παραγόντων, έναν σε κάθε σειρά, που αντιστοιχεί στην ιδιαιτερότητά τους. Καθένας από αυτούς τους παράγοντες αναφέρεται σε μία μόνο μεταβλητή. Όλα τα άλλα στοιχεία αυτού του τμήματος του πίνακα είναι ίσα με μηδέν. Οι χαρακτηριστικοί παράγοντες μπορούν προφανώς να αναλυθούν σε συγκεκριμένους και σε σχέση με σφάλματα.

Η στήλη του πίνακα παραγόντων χαρακτηρίζει τον παράγοντα και την επιρροή του σε όλες τις μεταβλητές. Η γραμμή χαρακτηρίζει τη μεταβλητή και το περιεχόμενό της με διάφορους παράγοντες, με άλλα λόγια, την παραγοντική δομή της μεταβλητής.

Όταν αναλύουμε μόνο το πρώτο μέρος του πίνακα, έχουμε να κάνουμε με έναν πίνακα παραγόντων που δείχνει τη συνολική διακύμανση κάθε μεταβλητής. Αυτό το τμήμα του πίνακα ονομάζεται μειωμένο τμήμα και συμβολίζεται με F. Αυτός ο πίνακας δεν λαμβάνει υπόψη το φορτίο των χαρακτηριστικών παραγόντων και δεν λαμβάνει υπόψη τη συγκεκριμένη διακύμανση. Θυμηθείτε ότι, σύμφωνα με όσα αναφέρθηκαν παραπάνω για τις γενικές διακυμάνσεις και τα φορτία παραγόντων, που είναι οι τετραγωνικές ρίζες των γενικών διακυμάνσεων, το άθροισμα των τετραγώνων των στοιχείων κάθε σειράς του μειωμένου συντελεστή πίνακα F είναι ίσο με τη γενικότητα της δεδομένης μεταβλητής

Αντίστοιχα, το άθροισμα των τετραγώνων όλων των στοιχείων της σειράς του πλήρους πίνακα των παραγόντων είναι ίσο με ή τη συνολική διακύμανση αυτής της μεταβλητής.

Δεδομένου ότι η παραγοντική ανάλυση εστιάζει σε κοινούς παράγοντες, θα χρησιμοποιήσουμε κυρίως τη μήτρα μειωμένης συσχέτισης και μειωμένων παραγόντων σε όσα ακολουθούν.


Εάν η παραγοντική ανάλυση γίνει σωστά, αντί να ικανοποιηθεί με τις προεπιλεγμένες ρυθμίσεις («μικρό τζίφι», όπως ονομάστηκε χλευαστικά το σύνολο μεθοδολογιών του τυπικού κυρίου), η προτιμώμενη μέθοδος εξαγωγής παραγόντων είναι είτε η μέγιστη πιθανότητα είτε τα γενικευμένα ελάχιστα τετράγωνα. Εδώ μπορεί να μας περιμένουν προβλήματα: η διαδικασία δίνει ένα μήνυμα σφάλματος: ο πίνακας συσχέτισης δεν είναι θετικός καθορισμένος. Τι σημαίνει αυτό, γιατί συμβαίνει και πώς αντιμετωπίζεται το πρόβλημα;
Το γεγονός είναι ότι στη διαδικασία της παραγοντοποίησης, η διαδικασία αναζητά τον λεγόμενο αντίστροφο πίνακα σε σχέση με τον συσχετιστικό. Υπάρχει μια αναλογία εδώ με τους συνηθισμένους πραγματικούς αριθμούς: πολλαπλασιάζοντας έναν αριθμό με την αμοιβαία του, θα πρέπει να πάρουμε μια μονάδα (για παράδειγμα, 4 και 0,25). Ωστόσο, για ορισμένους αριθμούς δεν υπάρχουν αντίστροφα σε αυτούς - το μηδέν δεν μπορεί να πολλαπλασιαστεί με κάτι που τελικά θα δώσει ένα. Η ίδια ιστορία με τις μήτρες. Ένας πίνακας πολλαπλασιασμένος με το αντίστροφό του δίνει έναν πίνακα ταυτότητας (αυτές είναι διαγώνιες και όλες οι άλλες τιμές είναι μηδέν). Ωστόσο, για ορισμένους πίνακες δεν υπάρχουν αντίστροφα, πράγμα που σημαίνει ότι καθίσταται αδύνατη η διεξαγωγή παραγοντικής ανάλυσης για τέτοιες περιπτώσεις. Μπορείτε να μάθετε αυτό το γεγονός χρησιμοποιώντας έναν ειδικό αριθμό που ονομάζεται ορίζουσα (ορίζουσα). Αν τείνει στο μηδέν ή είναι αρνητικό για τον πίνακα, τότε βρισκόμαστε αντιμέτωποι με πρόβλημα.
Ποιοι είναι οι λόγοι αυτής της κατάστασης; Τις περισσότερες φορές, προκύπτει λόγω της ύπαρξης μιας γραμμικής σχέσης μεταξύ των μεταβλητών. Ακούγεται περίεργο, αφού ακριβώς τέτοιες εξαρτήσεις αναζητούμε χρησιμοποιώντας πολυδιάστατες μεθόδους. Ωστόσο, στην περίπτωση που τέτοιες εξαρτήσεις παύουν να είναι πιθανολογικές και καθορίζονται αυστηρά, οι αλγόριθμοι πολυμεταβλητής ανάλυσης αποτυγχάνουν. Εξετάστε το ακόλουθο παράδειγμα. Ας υποθέσουμε ότι έχουμε το ακόλουθο σύνολο δεδομένων:
λίστα δεδομένων δωρεάν / V1 έως V3. δεδομένα έναρξης. 1 2 3 2 1 2 3 5 4 4 4 5 5 3 1 τελικά δεδομένα. υπολογίστε V4 ​​= V1 + V2 + V3.
Η τελευταία μεταβλητή είναι το ακριβές άθροισμα των τριών πρώτων. Πότε συμβαίνει αυτή η κατάσταση σε μια πραγματική μελέτη; Όταν συμπεριλάβουμε στο σύνολο των μεταβλητών ακατέργαστες βαθμολογίες για υποδοκιμές και το τεστ στο σύνολό του. όταν ο αριθμός των μεταβλητών είναι πολύ μεγαλύτερος από τον αριθμό των θεμάτων (ειδικά εάν οι μεταβλητές έχουν υψηλή συσχέτιση ή έχουν περιορισμένο σύνολο τιμών). Σε αυτή την περίπτωση, ακριβείς γραμμικές σχέσεις μπορεί να προκύψουν τυχαία. Οι εξαρτήσεις είναι συχνά ένα τεχνούργημα της διαδικασίας μέτρησης - για παράδειγμα, εάν υπολογίζονται ποσοστά εντός των παρατηρήσεων (π.χ. το ποσοστό δηλώσεων ενός συγκεκριμένου τύπου), χρησιμοποιείται μέθοδος κατάταξης ή κατανομή σταθερού αθροίσματος, εισάγονται ορισμένοι περιορισμοί στην επιλογή εναλλακτικών λύσεων και ούτω καθεξής. Όπως μπορείτε να δείτε, αρκετά συνηθισμένες καταστάσεις.
Εάν παραγγείλετε την έξοδο της ορίζουσας και του πίνακα αντίστροφης συσχέτισης κατά την παραγοντική ανάλυση στο SPSS του παραπάνω πίνακα, τότε το πακέτο θα αναφέρει πρόβλημα.
Πώς να προσδιορίσετε μια ομάδα μεταβλητών που δημιουργούν πολυσυγγραμμικότητα; Αποδεικνύεται ότι η παλιά καλή μέθοδος των κύριων εξαρτημάτων, παρά τη γραμμική εξάρτηση, συνεχίζει να λειτουργεί και δίνει κάτι ασυνήθιστο. Εάν δείτε ότι η κοινότητα ορισμένων από τις μεταβλητές πλησιάζει το 0,90-0,99 και οι ιδιοτιμές ορισμένων παραγόντων γίνονται πολύ μικρές (ή ακόμα και αρνητικές), αυτό δεν είναι καλό σημάδι. Επιπλέον, παραγγείλετε μια περιστροφή varimax και δείτε ποια ομάδα μεταβλητών τα πήγε καλά με τον φίλο που είναι ύποπτος για εγκληματική σχέση. Συνήθως, το φορτίο του σε αυτόν τον παράγοντα είναι ασυνήθιστα μεγάλο (0,99, για παράδειγμα). Εάν αυτό το σύνολο μεταβλητών είναι μικρό, ετερογενές σε περιεχόμενο, αποκλείεται η πιθανότητα τεχνητής γραμμικής εξάρτησης και το δείγμα είναι αρκετά μεγάλο, τότε η ανακάλυψη μιας τέτοιας σχέσης μπορεί να θεωρηθεί ένα όχι λιγότερο πολύτιμο αποτέλεσμα. Μπορείτε να στρίψετε μια τέτοια ομάδα στην ανάλυση παλινδρόμησης: κάντε τη μεταβλητή που έδειξε το μεγαλύτερο φορτίο να εξαρτάται και δοκιμάστε όλες τις υπόλοιπες ως προβλέψεις. R, δηλ. ο πολλαπλός συντελεστής συσχέτισης, σε αυτήν την περίπτωση, θα πρέπει να είναι ίσος με 1. Εάν η γραμμική σχέση παραμεληθεί πολύ, τότε η παλινδρόμηση θα πετάξει σιωπηλά μερικούς ακόμη από τους προγνωστικούς παράγοντες, κοιτάξτε προσεκτικά τι λείπει. Παραγγέλνοντας μια πρόσθετη έξοδο των διαγνωστικών πολυσυγγραμμικότητας, μπορείτε τελικά να βρείτε το κακόμοιρο σύνολο που σχηματίζει μια ακριβή γραμμική σχέση.
Και, τέλος, υπάρχουν μερικοί ακόμη δευτερεύοντες λόγοι που ο πίνακας συσχέτισης δεν είναι θετικός ορισμένος. Αυτό είναι, πρώτον, η παρουσία μεγάλου αριθμού μη απαντήσεων. Μερικές φορές, για να χρησιμοποιήσει το μέγιστο των διαθέσιμων πληροφοριών, ο ερευνητής διατάζει την επεξεργασία των κενών ανά ζεύγη. Το αποτέλεσμα μπορεί να είναι ένας τόσο «παράλογος» πίνακας σχέσεων που το μοντέλο της παραγοντικής ανάλυσης θα είναι πολύ σκληρό για αυτό. Δεύτερον, εάν αποφασίσετε να παραγοντοποιήσετε τον πίνακα συσχέτισης που δίνεται στη βιβλιογραφία, μπορεί να συναντήσετε την αρνητική επίδραση της στρογγυλοποίησης αριθμών.