Sú súborom štatistických postupov zameraných na výber z daného súboru premenných podmnožín premenných, ktoré spolu úzko súvisia (korelujú). Premenné, ktoré sú v jednej podmnožine a navzájom korelujú, ale sú do značnej miery nezávislé od premenných z iných podmnožín, tvoria faktory. Cieľom faktorovej analýzy je identifikovať zjavne nepozorovateľné faktory pomocou súboru pozorovateľných premenných. Ďalším spôsobom, ako skontrolovať počet identifikovaných faktorov, je vypočítať korelačnú maticu, ktorá je blízka pôvodnej, ak sú faktory identifikované správne. Táto matica sa nazýva reprodukované korelačnej matice. Aby sme videli, ako sa táto matica odchyľuje od pôvodnej korelačnej matice (s ktorou začala analýza), môžeme vypočítať rozdiel medzi nimi. Reziduálna matica môže naznačovať "nesúhlas", t. j. že príslušné korelačné koeficienty nemožno získať s dostatočnou presnosťou na základe dostupných faktorov. V metódach hlavných komponentov a faktorovej analýzy neexistuje také vonkajšie kritérium, ktoré by umožnilo posúdiť správnosť riešenia. Druhým problémom je, že po extrakcii faktorov vzniká nekonečné množstvo možností rotácie, ktoré sú založené na rovnakých počiatočných premenných, ale poskytujú rôzne riešenia (faktorové štruktúry sú definované trochu iným spôsobom). Konečný výber medzi možnými alternatívami v rámci nekonečného súboru matematicky ekvivalentných riešení závisí od zmysluplného pochopenia výsledkov interpretácie výskumníkmi. A keďže objektívne kritérium hodnotenia rôzne riešenia nie, navrhované zdôvodnenia výberu riešenia sa môžu zdať neopodstatnené a nepresvedčivé.


Treba poznamenať, že neexistujú žiadne jasné štatistické kritériá pre úplnosť faktorizácie. Jeho nízke hodnoty, napríklad menšie ako 0,7, však naznačujú, že je žiaduce znížiť počet znakov alebo zvýšiť počet faktorov.

Met Koeficient vzťahu medzi určitým znakom a spoločným faktorom, vyjadrujúci mieru vplyvu faktora na znak, sa pre tento spoločný faktor nazýva faktorové zaťaženie tohto znaku.

Matica pozostávajúca z faktorových zaťažení a s počtom stĺpcov rovným počtu spoločných faktorov a počtom riadkov rovným počtu pôvodných prvkov sa nazýva faktorová matica.

Základom pre výpočet faktorovej matice je matica párových korelačných koeficientov pôvodných znakov.

Korelačná matica zachytáva stupeň vzťahu medzi každým párom znakov. Podobne faktorová matica zachytáva stupeň lineárneho vzťahu každého znaku s každým spoločným faktorom.

Veľkosť faktorového zaťaženia nepresahuje jednotku modulu a jeho znamienko označuje pozitívny alebo negatívny vzťah medzi znakom a faktorom.

Čím väčšia je absolútna hodnota faktorového zaťaženia prvku určitým faktorom, tým viac tento faktor určuje tento prvok.

Hodnota faktorového zaťaženia pre určitý faktor, blízka nule, naznačuje, že tento faktor prakticky neovplyvňuje túto vlastnosť.

Faktorový model umožňuje vypočítať príspevky faktorov k celkovému rozptylu všetkých znakov. Sčítaním druhých mocnín faktorových zaťažení pre každý faktor pre všetky vlastnosti dostaneme jeho príspevok k celkovému rozptylu systému prvkov: čím vyšší je podiel tohto príspevku, tým významnejší a významnejší je tento faktor.

Zároveň je možné identifikovať optimálny počet spoločných faktorov, ktoré celkom dobre popisujú systém počiatočných znakov.

Hodnota (miera prejavu) faktora y samostatný objekt sa nazýva faktorová váha objektu vzhľadom na tento faktor. Váhy faktorov vám umožňujú zoradiť a zoradiť objekty podľa každého faktora.

Čím väčšia je váha faktora objektu, tým viac sa v ňom prejavuje tá stránka javu alebo vzor, ​​ktorý tento faktor odráža.

Váhy faktorov môžu byť kladné alebo záporné.

Vzhľadom na to, že faktory sú štandardizované hodnoty s priemernou hodnotou rovnajúcou sa nule, váhy faktorov blízke nule označujú priemerný stupeň prejavu faktora, pozitívne - že tento stupeň je nadpriemerný, negatívne - asi tak. že je podpriemerná.

V praxi, ak počet už nájdených hlavných komponentov (alebo faktorov) nie je väčší ako m/2, nimi vysvetlený rozptyl je najmenej 70 % a ďalšia zložka sa na celkovom rozptyle podieľa najviac 5 %, faktorový model sa považuje za celkom dobrý.

Ak chcete nájsť hodnoty faktorov a uložiť ich ako ďalšie premenné, použite prepínač Skóre.... (Hodnoty) Hodnota faktora je zvyčajne medzi -3 a +3.

Faktorová analýza je výkonnejší a komplexnejší prístroj ako hlavná metóda.

komponentu, tak sa aplikuje ak výsledky

analýza komponentov nie je celkom spokojná. Ale keďže tieto dve metódy

riešiť rovnaké problémy, je potrebné porovnať výsledky súčiastky a


faktoriálne analýzy, teda matice zaťaženia, ako aj regresné rovnice pre

hlavné komponenty a spoločné faktory, komentovať podobnosti a rozdiely

výsledky.

Maximálny možný počet faktorov m pre daný počet funkcií R je určená nerovnosťou

(p+m)<(р-m)2,

Na konci celého postupu faktorovej analýzy sú pomocou matematických transformácií faktory fj vyjadrené prostredníctvom počiatočných znakov, to znamená, že sa explicitne získajú parametre lineárneho diagnostického modelu.

Metódy hlavných komponentov a faktorová analýza sú súborom štatistických postupov zameraných na výber podmnožín premenných z daného súboru premenných, ktoré spolu úzko súvisia (korelujú). Premenné, ktoré sú v jednej podmnožine a navzájom korelujú, ale sú do značnej miery nezávislé od premenných z iných podmnožín, formové faktory 1 . Cieľom faktorovej analýzy je identifikovať zjavne nepozorovateľné faktory pomocou súboru pozorovateľných premenných.

Všeobecný výraz pre j- faktor možno zapísať takto:

kde Fj (j sa mení z 1 na k) sú spoločné faktory, Ui- charakteristický, Aij- konštanty používané v lineárnej kombinácii k faktory. Charakteristické faktory nemusia korelovať medzi sebou a so spoločnými faktormi.

Faktorovo-analytické postupy spracovania získaných údajov sú rôzne, ale štruktúra (algoritmus) analýzy pozostáva z rovnakých základných krokov: 1. Príprava matice počiatočných údajov. 2. Výpočet matice vzťahov funkcií. 3. Faktorizácia(zároveň je potrebné uviesť počet faktorov zistených pri faktorovom riešení a spôsob výpočtu). V tejto fáze (rovnako ako v ďalšej) možno tiež vyhodnotiť, ako dobre sa získané faktoriálové riešenie približuje pôvodným údajom. 4. Rotácia - transformácia faktorov, uľahčenie ich interpretácie. 5. Hodnoty koeficientov počítania pre každý faktor pre každé pozorovanie. 6. Interpretácia údajov.

vynález faktorovej analýzy bol spojený práve s potrebou súčasne medzi sebou analyzovať veľké množstvo korelačných koeficientov rôznych mierok. Jedným z problémov metód hlavných komponentov a faktorovej analýzy je, že neexistujú kritériá, ktoré by umožňovali kontrolu správnosti nájdeného riešenia. Napríklad pri regresnej analýze je možné porovnať empiricky získané ukazovatele pre závislé premenné s ukazovateľmi vypočítanými teoreticky na základe navrhovaného modelu a použiť koreláciu medzi nimi ako kritérium správnosti riešenia podľa schémy korelačnej analýzy pre dve sady premenných. V diskriminačnej analýze je správnosť rozhodnutia založená na tom, ako presne sa predpovedá príslušnosť subjektov k určitým triedam (v porovnaní so skutočnou príslušnosťou, ktorá sa odohráva v živote). Žiaľ, v metódach hlavných komponentov a faktorovej analýzy neexistuje také externé kritérium, ktoré by umožnilo posúdiť správnosť riešenia Druhým problémom je, že po výbere faktorov vzniká nekonečné množstvo možností rotácie na základe rovnaké počiatočné premenné, ale poskytujúce rôzne riešenia (faktorové štruktúry sú definované trochu iným spôsobom). Konečný výber medzi možnými alternatívami v rámci nekonečného súboru matematicky ekvivalentných riešení závisí od zmysluplného pochopenia výsledkov interpretácie výskumníkmi. A keďže neexistuje žiadne objektívne kritérium na hodnotenie rôznych riešení, navrhované zdôvodnenia výberu riešenia sa môžu zdať nepodložené a nepresvedčivé.

Tretím problémom je, že faktorová analýza sa často používa na záchranu zle navrhnutého výskumu, keď je jasné, že žiadny jednotlivý štatistický postup neprináša požadovaný výsledok. Sila metód hlavných komponentov a faktorovej analýzy vám umožňuje zostaviť usporiadaný koncept z chaotických informácií (čo im dáva pochybnú reputáciu).

Druhá skupina termínov sa týka matíc, ktoré sú zostavené a interpretované ako súčasť riešenia. Otočte sa faktorov je proces hľadania najľahšie interpretovateľného riešenia pre daný počet faktorov. Existujú dve hlavné triedy zákrut: ortogonálne a šikmé. V prvom prípade sú všetky faktory a priori vybrané tak, aby boli ortogonálne (nekorelujú navzájom) a matica zaťaženia faktorov, čo je matica vzťahov medzi pozorovanými premennými a faktormi. Veľkosť zaťažení odráža stupeň vzťahu medzi každou pozorovanou premennou a každým faktorom a je interpretovaná ako korelačný koeficient medzi pozorovanou premennou a faktorom (latentná premenná), a preto sa mení od -1 do 1. Riešenie získané po ortogonálna rotácia sa interpretuje na základe analýzy matice faktorových zaťažení identifikáciou, ktorý z faktorov je najviac spojený s jednou alebo druhou pozorovanou premennou. Ukazuje sa teda, že každý faktor je daný skupinou primárnych premenných, ktoré sú zaťažené najväčšími faktormi.

Ak sa vykoná šikmá rotácia (t. j. možnosť korelácie faktorov medzi sebou je a priori povolená), potom sa vytvorí niekoľko dodatočných matíc. Faktorová korelačná matica obsahuje korelácie medzi faktormi. Matica zaťaženia faktorov, uvedené vyššie, sa delí na dve časti: štruktúrna matica vzťahov medzi faktormi a premennými a faktoriálna matica mapovania, vyjadrujúce lineárne vzťahy medzi každou pozorovanou premennou a každým faktorom (bez zohľadnenia vplyvu kladenia niektorých faktorov na iné, vyjadrené koreláciou faktorov medzi sebou). Po šikmej rotácii sú faktory interpretované na základe zoskupenia primárnych premenných (podobne ako bolo popísané vyššie), ale predovšetkým pomocou matice mapovania faktorov.

Nakoniec pre obe rotácie jeden počíta koeficientová matica faktoriálnych hodnôt, ktorý sa používa v špeciálnych rovniciach regresného typu na výpočet hodnôt faktorov (skóre faktorov, skóre faktorov) pre každé pozorovanie na základe hodnôt ich primárnych premenných.

Pri porovnaní metód hlavných komponentov a faktorovej analýzy si všimneme nasledovné. Analýza hlavných komponentov vytvára model, ktorý najlepšie vysvetľuje (maximalizuje reprodukciu) celkového rozptylu experimentálnych údajov získaných pre všetky premenné. Vo výsledku vyniknú „komponenty“. Vo faktorovej analýze sa predpokladá, že každá premenná je vysvetlená (určená) určitým počtom hypotetických spoločných faktorov (ovplyvňujúcich všetky premenné) a charakteristických faktorov (každá premenná má svoje vlastné). A výpočtové postupy sa vykonávajú takým spôsobom, aby sa zbavili rozptylu vyplývajúceho z chyby merania a rozptylu vysvetleného špecifickými faktormi a analyzovali iba rozptyly vysvetlené hypoteticky existujúcimi spoločnými faktormi. Výsledkom sú objekty nazývané faktory. Ako však už bolo spomenuté, z obsahovo-psychologického hľadiska tento rozdiel v matematických modeloch nie je významný, preto v budúcnosti, pokiaľ nebudú poskytnuté špeciálne vysvetlenia, o ktorom konkrétnom prípade hovoríme, budeme používať výraz „ faktor“ ako vo vzťahu ku komponentom a vo vzťahu k faktorom.

Veľkosti vzoriek a chýbajúce údaje. Čím väčšia je vzorka, tým väčšia je spoľahlivosť ukazovateľov vzťahu. Preto je veľmi dôležité mať dostatočne veľkú vzorku. Požadovaná veľkosť vzorky závisí aj od miery korelácie ukazovateľov v populácii ako celku a od množstva faktorov: pri silnom a významnom vzťahu a malom počte presne definovaných faktorov bude postačovať nie príliš veľká vzorka.

Vzorka 50 subjektov je teda hodnotená ako veľmi slabá, 100 ako slabá, 200 ako priemerná, 300 ako dobrá, 500 ako veľmi dobrá a 1000 ako výborná ( Comrey, Lee, 1992). Na základe týchto úvah sa ako všeobecný princíp odporúča študovať vzorky aspoň 300 subjektov. Pre rozhodnutie založené na dostatočnom počte markerových premenných s vysokými faktormi (>0,80) je dostatočná vzorka asi 150 subjektov ( Guadagnoli, Velicer, 1988). normalita pre každú premennú samostatne sa kontroluje podľa asymetrie(o koľko je krivka študovaného rozdelenia posunutá doprava alebo doľava v porovnaní s teoreticky normálnou krivkou) a prebytok(miera, do akej je „zvonček“ existujúceho rozdelenia, vizuálne znázornený vo frekvenčnom diagrame, natiahnutý nahor alebo nadol v porovnaní s „zvončekom“ grafu hustoty, ktorý je charakteristický pre normálne rozdelenie). Ak má premenná významnú šikmosť a špičatosť, možno ju transformovať zavedením novej premennej (ako jednohodnotovej funkcie danej premennej) takým spôsobom, že táto nová premenná je normálne rozložená (viac o tom pozri : Tabachnik, Fidell, 1996, Ch. štyri).

Vlastné vektory a zodpovedajúce vlastné hodnoty
pre uvažovanú prípadovú štúdiu

Vlastný vektor 1

Vlastný vektor 2

Vlastná hodnota 1

Vlastná hodnota 2

Keďže korelačná matica je diagonalizovaná, možno na ňu použiť maticovú algebru vlastných vektorov a vlastných hodnôt, aby sa získali výsledky faktorovej analýzy (pozri prílohu 1). Ak je matica diagonalizovaná, potom sú všetky podstatné informácie o štruktúre faktorov obsiahnuté v jej diagonálnej forme. Vo faktorovej analýze vlastné hodnoty zodpovedajú rozptylu vysvetlenému faktormi. Faktor s najväčšou vlastnou hodnotou vysvetľuje najväčší rozptyl atď., až kým nedôjde k faktorom s malými alebo zápornými vlastnými hodnotami, ktoré sú zvyčajne vynechané z analýzy. Matica zaťaženia faktorov je maticou vzťahov (interpretovaných ako korelačné koeficienty) medzi faktormi a premennými. Prvý stĺpec je korelácia medzi prvým faktorom a každou premennou v poradí: cena lístku (-.400), pohodlie komplexu (.251), teplota vzduchu (.932), teplota vody(0,956). V druhom stĺpci sú korelácie medzi druhým faktorom a každou premennou: cena lístku (.900), pohodlie komplexu(-,947), teplota vzduchu (0,348), teplota vody(0,286). Faktor sa interpretuje na základe premenných, ktoré sú s ním silne spojené (t. j. majú vysoké zaťaženie). Prvým faktorom je teda hlavne „klima“ ( teplota vzduchu a vody), zatiaľ čo druhý je „ekonomický“ ( náklady na lístok a pohodlie komplexu).

Pri interpretácii týchto faktorov je potrebné venovať pozornosť skutočnosti, že premenné s vysokým zaťažením na prvý faktor ( teplota vzduchu a teplota vody) sú pozitívne korelované, zatiaľ čo premenné s vysokým zaťažením na druhý faktor ( cena lístku a pohodlie komplexu), sú vzájomne prepojené negatívne (od lacného rezortu nemožno očakávať veľký komfort). Prvý faktor sa nazýva unipolárny (všetky premenné sú zoskupené na jednom póle) a druhý - bipolárne(premenné sa delia na dve významovo opačné skupiny – dva póly). Premenné s faktorovým zaťažením so znamienkom plus tvoria kladný pól a premenné so znamienkom mínus tvoria záporný pól. Zároveň pomenovania pólov „pozitívny“ a „negatívny“ pri interpretácii faktora nemajú hodnotiaci význam „zlý“ a „dobrý“. Znamienko sa pri výpočtoch volí náhodne. Ortogonálne otáčanie

Rotácia sa zvyčajne aplikuje po extrakcii faktorov, aby sa maximalizovali vysoké korelácie a minimalizovali nízke. Existuje mnoho spôsobov rotácie, ale rotácia je najčastejšie používaná. varimax, čo je postup na maximalizáciu rozptylov. Táto rotácia maximalizuje odchýlky faktorového zaťaženia tým, že vysoké zaťaženie zvyšuje a nízke zaťaženie znižuje pre každý z faktorov. Tento cieľ sa dosahuje prostredníctvom transformačné matice Λ:

Transformovať maticu je matica sínusov a kosínusov uhla Ψ, cez ktorý sa rotácia vykonáva. (Odtiaľ názov transformácie - otočiť, pretože z geometrického hľadiska sa osi otáčajú okolo začiatku faktorového priestoru.) Po vykonaní rotácie a prijatí matice faktorových zaťažení po rotácii je možné analyzovať sériu ďalších ukazovateľov (pozri tabuľku 4). Všeobecnosť premennej je rozptyl vypočítaný pomocou faktorových zaťažení. Toto je kvadratická viacnásobná korelácia premennej predpovedanej faktoriálovým modelom. Zhoda sa vypočíta ako súčet štvorcových faktorov zaťaženia (FSC) pre premennú zo všetkých faktorov. V tabuľke. 4 spoločné pre cena lístku rovná sa (-,086)2+(0,981)2 = 0,970 t.j. 97 % rozptylu cena lístku kvôli faktorom 1 a 2.

Podiel rozptylu faktora nad všetkými premennými je SKN nad faktorom vydelený počtom premenných (v prípade ortogonálnej rotácie) 7 . Pre prvý faktor je podiel rozptylu:

[(-.086)2+(-.071)2+(.994)2+(.997)2]/4 = 1.994/4 = .50,

t.j. prvý faktor vysvetľuje 50 % rozptylu premenných. Druhý faktor vysvetľuje 48 % rozptylu premenných a (z dôvodu ortogonality rotácie) tieto dva faktory spolu vysvetľujú 98 % rozptylu premenných.

Vzťah medzi faktormi zaťaženia, zhoda, SKN,
rozptyl a kovariancia ortogonálnych faktorov po rotácii

Všeobecné informácie ( h2)

Cena lístku

∑a2=.970

Úroveň pohodlia

∑a2=.960

Teplota vzduchu

∑a2=.989

Teplota vody

∑a2=.996

∑a2=1.994

∑a2=1.919

Podiel rozptylu

Podiel kovariancie

Zlomok rozptylu riešenia vysvetlený faktorom je zlomok kovariancie je SKN pre faktor vydelená súčtom všeobecností (súčet SKN nad premennými). Prvý faktor vysvetľuje 51 % rozptylu riešenia (1,994/3,915); druhý - 49 % (1,919/3,915); tieto dva faktory spolu vysvetľujú celú kovarianciu.

Eigenval - odrážajú veľkosť rozptylu zodpovedajúceho počtu faktorov. Ako cvičenie vám odporúčame zapísať všetky tieto vzorce, aby ste získali vypočítané hodnoty premenných. Napríklad pre prvého respondenta:

1.23 = -.086(1.12) + .981(-1.16)

1.05 = -.072(1.12) - .978(-1.16)

1.08 = .994(1.12) + .027(-1.16)

1.16 = .997(1.12) - .040(-1.16)

Alebo v algebraickej forme:

Z náklady na zájazd = a 11F 1 + a 12F 2

Z komfort komplexu = a 2l F 1 + a 22F 2

Z teplota vzduchu = a 31F 1 + a 32F 2

Z teplota vody = a 41F 1 + a 42F 2

Čím väčšie je zaťaženie, tým je väčšia istota, že premenná určuje faktor. Comrie a Lee ( Comrey, Lee, 1992) naznačujú, že zaťaženia väčšie ako 0,71 (vysvetľujúce 50 % rozptylu) sú vynikajúce, 0 % rozptylu) sú veľmi dobré, 0 % sú dobré, 0 %) sú spravodlivé a 0,32 (vysvetlite 10 % rozptylu rozptyl) sú slabé.

Predpokladajme, že robíte (trochu „hlúpu“) štúdiu, v ktorej meriate výšku sto ľudí v palcoch a centimetroch. Máte teda dve premenné. Ak chcete ďalej skúmať napríklad vplyv rôznych doplnkov výživy na rast, budete v užívaní pokračovať oboje premenné? Pravdepodobne nie, pretože výška je jednou z charakteristík človeka, bez ohľadu na to, v akých jednotkách sa meria.

Vzťah medzi premennými možno nájsť pomocou rozptylové plochy. Regresná priamka získaná preložením dáva grafické znázornenie závislosti. Ak je nová premenná definovaná na základe regresnej priamky znázornenej v tomto diagrame, potom takáto premenná bude zahŕňať najvýznamnejšie znaky oboch premenných. V skutočnosti ste teda znížili počet premenných a dve nahradili jednou. Všimnite si, že nový faktor (premenná) je vlastne lineárnou kombináciou dvoch pôvodných premenných.

Vo všeobecnom prípade bude na vysvetlenie korelačnej matice potrebný nie jeden, ale niekoľko faktorov. Každý faktor je charakterizovaný stĺpcom , každá premenná je riadok matice. Faktor sa nazýva všeobecný, ak sú všetky jeho zaťaženia výrazne odlišné od nuly a má zaťaženia zo všetkých premenných. Všeobecný faktor má zaťaženia zo všetkých premenných a takýto faktor je schematicky znázornený na obr.1. Faktor sa nazýva všeobecný, ak sa aspoň dve jeho zaťaženia výrazne líšia od nuly. Stĺpce, zapnuté ryža. jeden. predstavujú takéto spoločné faktory. Majú zaťaženia z viac ako dvoch premenných. Ak má faktor iba jedno zaťaženie, ktoré sa výrazne líši od nuly, potom sa nazýva charakteristický faktor(pozri stĺpce na ryža. jeden.) Každý takýto faktor predstavuje iba jednu premennú. Pri faktorovej analýze sú rozhodujúce spoločné faktory. Ak sú stanovené všeobecné faktory, potom sa automaticky získajú charakteristické faktory. Počet vysokých premenlivých zaťažení na spoločné faktory sa nazýva zložitosť. Napríklad premenná pre obr.1. má zložitosť 2 a premenná má zložitosť tri.

Ryža. 1. Schematické znázornenie zobrazenia faktorov. Krížik označuje vysoké zaťažovanie faktorom.

Poďme teda postaviť model

, (4)

kde sú nepozorovateľné faktory m< k,

Pozorované premenné (počiatočné znaky),

faktor zaťaženia,

Náhodná chyba spojená iba s nulovým priemerom a rozptylom:

I - nekorelované,

Nekorelované náhodné premenné s nulovým priemerom a jednotkovým rozptylom .

(5)

Tu - i Všeobecnosť, ktorá je súčasťou rozptylu, je v dôsledku faktorov súčasťou rozptylu v dôsledku chyby. V maticovom zápise má faktoriálny model tvar:

(6)

kde je matica zaťaženia, je vektor faktora, je vektor chyby.

Korelácie medzi premennými vyjadrené faktormi možno odvodiť takto:

kde - diagonálna matica poriadku obsahujúca odchýlky chýb[i]. Základná podmienka: - diagonálna, - nezáporná definitná matica. Ďalšou podmienkou jednoznačnosti riešenia je uhlopriečka matice .

Existuje mnoho metód na riešenie faktoriálnej rovnice. Najskoršia metóda faktorovej analýzy je metóda hlavného faktora, v ktorom je technika analýzy hlavných komponentov aplikovaná na redukovanú korelačnú maticu so spoločnými znakmi na hlavnej diagonále. Na posúdenie zhody sa zvyčajne používa koeficient viacnásobnej korelácie medzi zodpovedajúcou premennou a množinou iných premenných.

Faktorová analýza sa vykonáva na základe charakteristickej rovnice, ako pri analýze hlavných komponentov:

(8)

Vyriešením čoho sa získajú vlastné hodnoty λ i a matica normalizovaných (charakteristických) vektorov V a potom sa nájde matica mapovania faktorov:

Na získanie odhadov všeobecností a faktorových zaťažení sa používa empirický iteračný algoritmus, ktorý konverguje k skutočným odhadom parametrov. Podstata algoritmu je nasledovná: počiatočné odhady faktorových zaťažení sa určujú pomocou metódy hlavných faktorov. Na základe korelačnej matice R sa formálne určia odhady hlavných komponentov a spoločných faktorov:

(9)

kde je zodpovedajúca vlastná hodnota matice R;

Počiatočné údaje (stĺpcové vektory);

Koeficienty pre spoločné faktory;

Hlavné zložky (stĺpcové vektory).

Odhady faktorových zaťažení sú hodnoty

Odhady všeobecností sa získajú ako

Pri ďalšej iterácii sa matica R upraví - namiesto prvkov hlavnej diagonály sa dosadia odhady všeobecností získané v predchádzajúcej iterácii; na základe modifikovanej matice R sa pomocou výpočtovej schémy komponentovej analýzy opakuje výpočet hlavných komponentov (ktoré z pohľadu komponentovej analýzy takým nie sú), odhady hlavných faktorov, faktorové zaťaženia, všeobecnosti, resp. hľadajú sa špecifiká. Faktorovú analýzu možno považovať za úplnú, keď sa odhady zhodnosti zmenia len málo v dvoch susedných iteráciách.

Poznámka. Transformácie matice R môžu narušiť kladnú jednoznačnosť matice R + a v dôsledku toho môžu byť niektoré z vlastných hodnôt R + záporné.

Národná výskumná jadrová univerzita MEPhI
Fakulta hospodárskej informatiky a manažmentu
komplexné systémy
Katedra ekonomiky a manažmentu
v priemysle (č. 71)
Matematické a inštrumentálne metódy spracovania
štatistické informácie
Kireev V.S.,
Ph.D., docent
Email:
Moskva, 2017
1

Normalizácia

Desatinné škálovanie
Minimax normalizácia
Normalizácia so štandardnou transformáciou
Normalizácia s transformáciami po elementoch
2

Desatinné škálovanie

Vi
"
Vi k, max (Vi) 1
10
"
3

Minimax normalizácia

Vi
Vi min (Vi)
"
i
max (Vi) min (Vi)
i
i
4

Normalizácia so štandardnou odchýlkou

Vi
"
V
V
Vi V
V
- selektívny
priemer
- vzorový stredný štvorec
odchýlka
5

Normalizácia s transformáciami po elementoch

Vi f Vi
"
Vi 1
"
log Vi
, Vi log Vi
"
Vi exp Vi
"
Vi Vi , Vi 1 r
Vi
"
r
"
6

Faktorová analýza

(FA) je súbor metód, ktoré
základ reálnych súvislostí analyzovaných prvkov, samotných súvislostí
pozorované objekty, umožňujú identifikovať skryté (implicitné, latentné)
zovšeobecňujúca charakteristika organizačnej štruktúry a mechanizmu rozvoja
študované javy, procesy.
Vo výskumnej praxi sa využívajú najmä metódy faktorovej analýzy
spôsob, ako komprimovať informácie, získať malý počet zovšeobecnení
znaky, ktoré vysvetľujú variabilitu (rozptyl) elementárnych znakov (technika R-faktorovej analýzy) alebo variabilitu pozorovaných objektov (Q-technika
faktorová analýza).
Algoritmy faktorovej analýzy sú založené na použití redukovaných
párových korelačných (kovariančných) matíc. Redukovaná matica je matica
ktorých hlavná uhlopriečka nie sú jednotkami (odhadmi) celkovej korelácie resp
odhady celkového rozptylu a ich znížené, o niečo znížené hodnoty. O
To predpokladá, že analýza nevysvetlí všetky rozdiely
študované znaky (predmety) a nejakú ich časť, zvyčajne veľkú. Zostávajúce
nevysvetliteľnou časťou rozptylu je charakteristika vyplývajúca zo špecifickosti
pozorované objekty alebo chyby pri registrácii javov, procesov,
tie. nespoľahlivosť vstupných údajov.
7

Klasifikácia metód FA

8

Metóda hlavnej zložky

(MGK) sa používa na zmenšenie rozmeru
priestoru pozorovaných vektorov, bez toho, aby to viedlo k výraznej strate
informatívny. Predpokladom PCA je zákon normálnej distribúcie
viacrozmerné vektory. V PCA sú definované lineárne kombinácie náhodných premenných
charakteristický
vektory
kovariancia
matice.
Hlavné
komponenty sú ortogonálny súradnicový systém, v ktorom sú odchýlky
komponenty charakterizujú ich štatistické vlastnosti. MGK nie je klasifikovaný ako FA, hoci áno
podobný algoritmus a rieši podobné analytické problémy. Jeho hlavný rozdiel
spočíva v tom, že nie redukovaná, ale obvyklá matica podlieha spracovaniu
párové korelácie, kovariancie, na ktorých hlavnej diagonále sú jednotky.
Nech je daná počiatočná množina vektorov X lineárneho priestoru Lk. Aplikácia
metóda hlavných komponentov nám umožňuje prejsť na bázu priestoru Lm (m≤k), napr
že: prvá zložka (prvý vektor bázy) zodpovedá smeru, pozdĺž
ktorý je rozptyl vektorov pôvodnej množiny maximálny. Smer druhý
zložky (druhého bázového vektora) sa volí tak, aby bol rozptyl originálu
vektorov pozdĺž nej bola maximálna za podmienky ortogonality k prvému vektoru
základ. Ostatné základné vektory sú definované podobne. V dôsledku toho smery
bázové vektory sú zvolené tak, aby sa maximalizoval rozptyl pôvodného súboru
pozdĺž prvých komponentov, nazývaných hlavné komponenty (alebo hlavné komponenty
osi).Ukazuje sa, že hlavná variabilita vektorov pôvodnej množiny vektorov
reprezentované niekoľkými prvými komponentmi, a je to možné vyradením
menej podstatné komponenty, prejdite do priestoru nižšej dimenzie.
9

10. Metóda hlavných komponentov. Schéma

10

11. Metóda hlavných komponentov. Fakturačná matica

Skórová matica T nám poskytuje projekcie pôvodných vzoriek (J-rozmerný
vektory
x1,…,xI)
na
podpriestor
hlavný
komponent
(A-rozmerný).
Riadky t1,…,tI matice T sú súradnice vzoriek v nový systém súradnice.
Stĺpce t1,…,tA matice T sú ortogonálne a predstavujú projekcie všetkých vzoriek na
jednu novú súradnicovú os.
Pri skúmaní údajov metódou PCA sa osobitná pozornosť venuje grafom
účtov. Prinášajú informácie užitočné na pochopenie toho, ako
údajov. Na výsledkovej tabuľke je každá vzorka najčastejšie znázornená v súradniciach (ti, tj).
– (t1, t2), označené PC1 a PC2. Blízkosť dvoch bodov znamená ich podobnosť, t.j.
pozitívna korelácia. Body v pravom uhle sú
nekorelované a nachádzajúce sa diametrálne opačné - majú
negatívna korelácia.
11

12. Metóda hlavných komponentov. Načítať maticu

Záťažová matica P je prechodová matica z pôvodného priestoru
premenných x1, …xJ (J-rozmerný) do priestoru hlavných komponentov (A-rozmerný). Každý
riadok matice P pozostáva z koeficientov vzťahujúcich sa k premenným t a x.
Napríklad, a-tý riadok je projekcia všetkých premenných x1, …xJ na a-tá os hlavný
komponent. Každý stĺpec P je projekciou zodpovedajúcej premennej xj na novú
súradnicový systém.
Graf zaťaženia sa používa na štúdium úlohy premenných. Na toto
grafe je každá premenná xj reprezentovaná bodom v súradniciach (pi, pj), napr
(p1, p2). Analýzou podobným spôsobom ako účtovná osnova je možné pochopiť, ktoré premenné
súvisiace a ktoré sú nezávislé. Spoločné štúdium párových účtových osnov a
zaťaženie, môže tiež dať veľa užitočná informácia o údajoch.
12

13. Vlastnosti metódy hlavného komponentu

Metóda hlavných komponentov je založená na nasledujúcich predpokladoch:
predpoklad, že dimenzionalitu údajov možno efektívne zmenšiť
lineárnou transformáciou;
predpoklad, že najviac informácií nesú tie smery, v ktorých
rozptyl vstupných údajov je maximálny.
Je ľahko vidieť, že tieto podmienky nie sú v žiadnom prípade vždy splnené. Napríklad,
ak sa body vstupnej množiny nachádzajú na povrchu hypersféry, tak nie
lineárna transformácia nebude schopná zmenšiť rozmer (ale dá sa to ľahko urobiť
nelineárna transformácia založená na vzdialenosti od bodu k stredu gule).
Tento nedostatok je rovnako charakteristický pre všetky lineárne algoritmy a môže byť
prekonať pomocou dodatočných fiktívnych premenných, ktoré sú
nelineárne funkcie prvkov súboru vstupných údajov (tzv. kernel trik).
Druhou nevýhodou metódy hlavného komponentu sú smery
ktoré maximalizujú rozptyl nie vždy maximalizujú informačný obsah.
Napríklad premenná s najvyšším rozptylom môže niesť takmer žiadny
informácie, pričom premenná s minimálnym rozptylom umožňuje
úplne oddeliť triedy. Metóda hlavného komponentu v tomto prípade poskytne
preferencie prvej (menej informatívnej) premennej. Všetky dodatočné
informácie spojené s vektorom (napríklad, či obrázok patrí do jedného z
triedy) sa ignoruje.
13

14. Príklad údajov pre PCA

K. Esbensen. Analýza viacrozmerných dát, skr. za. z angličtiny. pod
vyd. O. Rodionová, IPCP RAS, 2005
14

15. Príklad údajov pre PCA. Notový zápis

Výška
Výška: v centimetroch
Hmotnosť
Hmotnosť: v kilogramoch
Vlasy
Vlasy: krátke: -1 alebo dlhé:
+1
Topánky
Topánky: EU veľkosť
štandardná
Vek
Vek: v rokoch
príjem
Príjem: v tisíckach eur ročne
pivo
Pivo: spotreba v litroch za rok
Víno
Víno: spotreba v litroch za rok
sex
Pohlavie: muž: -1 alebo žena: +1
Pevnosť
Sila: index založený na
testovanie fyzických schopností
regiónu
Región: sever: -1, alebo juh: +1
IQ
IQ,
merané štandardným testom
15

16. Účtovná matica

16

17. Matica zaťaženia

17

18. Ukážka predmetov v priestore nových komponentov

Ženy (F) sú označené kruhmi ● a ● a
muži (M) - štvorce ■ a ■. sever (N)
reprezentované azúrovou ■ a juh (S) červenou
farba ●.
Veľkosť a farba symbolov odráža príjem - než
čím je väčší a ľahší, tým je väčší. čísla
predstavujú vek
18

19. Počiatočné premenné v priestore nových komponentov

19

20. Sutinový pozemok

20

21. Metóda hlavného faktora

V paradigme metódy hlavných faktorov problém redukcie rozmeru indikatívu
priestor vyzerá, že n funkcií možno vysvetliť pomocou menšej
počet m-latentných znakov - spoločné faktory, kde m<počiatočné vlastnosti a zavedené spoločné faktory (lineárne kombinácie)
zohľadnené pomocou takzvaných charakteristických faktorov.
Konečným cieľom štatistickej štúdie vykonanej so zapojením
Faktorová analýza spravidla spočíva v identifikácii a interpretácii
latentné spoločné faktory so súčasnou túžbou minimalizovať oba svoje
počet a stupeň závislosti od ich špecifickej zvyškovej náhodnosti
komponent.
Každé znamenie
je výsledkom
expozícia m hypotetická celková a
jeden charakteristický faktor:
X 1 a11 f1 a12 f 2 a1m f m d1V1
X a f a f a f d V
2
21 1
22 2
2 m m
2
X n a n1 f1 a n 2 f 2 a nm f m d nVn
21

22. Rotácia faktorov

Rotácia je spôsob transformácie faktorov získaných v predchádzajúcom kroku,
do zmysluplnejších. Rotácia sa delí na:
grafické (osi kreslenia, neaplikovateľné pre viac ako dvojrozmerné
analýza),
analytické (je zvolené určité rotačné kritérium, ortogonálne a
šikmé) a
maticovo-približné (rotácia spočíva v približovaní sa k určitému danému
cieľová matica).
Výsledkom rotácie je sekundárna štruktúra faktorov. Primárny
faktorová štruktúra (pozostávajúca z primárnych zaťažení (získaných v predchádzajúcich
etapa) sú v skutočnosti projekcie bodov na ortogonálne súradnicové osi. To je zrejmé
ak sú projekcie nulové, štruktúra bude jednoduchšia. A projekcie budú nulové,
ak bod leží na nejakej osi. Rotáciu teda možno považovať za prechod z
z jedného súradnicového systému do druhého so známymi súradnicami v jednom systéme (
primárne faktory) a iteratívne vybrané súradnice v inom systéme
(sekundárne faktory). Pri získavaní sekundárnej štruktúry majú tendenciu prechádzať do takej
súradnicový systém s cieľom prechádzať bodmi (objektmi) čo najviac osí, aby bolo možné
čo najviac projekcií (a teda aj zaťažení) bolo nulových. Zároveň môžu
odstrániť obmedzenia ortogonality a znížiť dôležitosť od prvého k poslednému
faktory charakteristické pre primárnu štruktúru.
22

23. Ortogonálne otáčanie

znamená, že budeme striedať faktory, ale nie
narušíme ich vzájomnú ortogonalitu. Ortogonálne otáčanie
znamená násobenie pôvodnej matice primárnych zaťažení ortogonálom
matica R (matica taká, že
V=BR
Algoritmus ortogonálnej rotácie je vo všeobecnom prípade nasledujúci:
0. B - matica primárnych faktorov.
1.
hľadajú
ortogonálne
matice
RT
veľkosť
2*2
pre
dva
stĺpcov (faktorov) bi a bj matice B také, že kritérium pre maticu
R max.
2.
Nahraďte stĺpce bi a bj stĺpcami
3.
Skontrolujte, či boli zoradené všetky stĺpce. Ak nie, prejdite na 1.
4.
Skontrolujeme, či kritérium pre celú maticu narástlo. Ak áno, prejdite na 1. Ak
nie, potom koniec algoritmu.
.
23

24. Varimax rotácia

Toto kritérium používa formalizáciu
rozptyl premenných štvorcových zaťažení:
ťažkosti
faktor a
cez
Potom môže byť kritérium vo všeobecnej forme napísané ako:
Zároveň je možné normalizovať zaťaženie faktorov, aby ste sa ich zbavili
vplyv jednotlivých premenných.
24

25. Quartimax rotácia

Pojem faktoriálnej zložitosti q i-tej premennej formalizujeme v zmysle
rozptyl kvadratických faktorových zaťažení faktorov:
kde r je počet stĺpcov faktorovej matice, bij je faktorové zaťaženie j-tej
faktor i-tej premennej, - priemerná hodnota. Kritérium quartimax sa snaží
maximalizovať zložitosť celého súboru premenných s cieľom dosiahnuť
jednoduchosť interpretácie faktorov (snaží sa uľahčiť popis stĺpcov):
Vzhľadom na to
- konštanta (súčet vlastných hodnôt matice
kovariancia) a odhalenie priemeru (a s prihliadnutím na mocenskú funkciu
rastie úmerne s argumentom), získame konečnú podobu kritéria pre
maximalizácia:
25

26. Kritériá na určenie počtu faktorov

Hlavným problémom faktorovej analýzy je výber a interpretácia
hlavné faktory. Pri výbere komponentov sa výskumník zvyčajne stretáva s
značné ťažkosti, keďže neexistuje jednoznačné kritérium výberu
faktorov, a preto je tu nevyhnutná subjektivita interpretácií výsledkov.
Existuje niekoľko často používaných kritérií na určenie počtu faktorov.
Niektoré z nich sú alternatívami k iným a niektoré z nich
Kritériá môžu byť použité spoločne tak, že jedno dopĺňa druhé:
Kaiserovo kritérium alebo kritérium vlastnej hodnoty. Toto kritérium bolo navrhnuté
Kaiser, a je pravdepodobne najpoužívanejší. Iba vybraté
faktory s vlastnými hodnotami rovnými alebo väčšími ako 1. To znamená, že ak
faktor nezvýrazňuje rozptyl ekvivalentný aspoň rozptylu jedného
premenná, vynecháva sa.
Kritérium scree (anglicky scree) alebo screeningové kritérium. On je
grafická metóda, ktorú ako prvý navrhol psychológ Cattell. vlastné
hodnoty je možné zobraziť vo forme jednoduchého grafu. Cattell navrhol nájsť také
miesto na grafe, kde je pokles vlastných hodnôt zľava doprava maximálny
spomaluje. Predpokladá sa, že napravo od tohto bodu je len
„faktoriálna suť“ – „suť“ je geologický výraz pre
úlomky hornín hromadiace sa v spodnej časti skalnatého svahu.
26

27. Kritériá na určenie počtu faktorov. Pokračovanie

Kritérium významnosti. Je to obzvlášť účinné, keď všeobecný model
populácia je známa a neexistujú žiadne sekundárne faktory. Kritérium je však nevhodné
hľadať zmeny v modeli a implementovať len do faktorovej analýzy pomocou metódy
najmenšie štvorce alebo maximálna pravdepodobnosť.
Kritérium podielu reprodukovateľného rozptylu. Faktory sú zoradené podľa podielu
deterministický rozptyl, keď je percento rozptylu nevýznamné,
extrakcia by sa mala zastaviť. Je žiaduce, aby zvýraznené faktory vysvetlili
viac ako 80% spread. Nevýhody kritéria: po prvé, výber je subjektívny a po druhé, špecifickosť údajov môže byť taká, že všetky hlavné faktory nemôžu
kolektívne vysvetliť požadované percento rozptylu. Preto hlavné faktory
musí spolu vysvetliť aspoň 50,1 % rozptylu.
Kritérium interpretovateľnosti a invariantnosti. Toto kritérium sa kombinuje
štatistická presnosť so subjektívnymi záujmami. Podľa neho hlavné faktory
možno rozlíšiť, pokiaľ je možná ich jasná interpretácia. Ona, v nej
obrat, závisí od veľkosti faktorových zaťažení, teda ak faktor obsahuje min
jedno silné zaťaženie, dá sa to interpretovať. Možný je aj opak -
ak existujú silné bremená, ale interpretácia je ťažká, z toho
zložky sú výhodne vyradené.
27

28. Príklad použitia MGK

Nechaj
existujú
nasledujúci
ukazovatele
ekonomické
činnosti
podniky: pracovná náročnosť (x1), podiel nakúpených položiek vo výrobe (x2),
zmenový pomer zariadení (x3), podiel pracovníkov v podniku
(x4), bonusy a odmeny na zamestnanca (x5), ziskovosť (y). Lineárne
regresný model vyzerá takto:
y = b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4 + b5*x5
x1
x2
x3
x4
x5
r
0,51
0,2
1,47
0,72
0,67
9,8
0,36
0,64
1,27
0,7
0,98
13,2
0,23
0,42
1,51
0,66
1,16
17,3
0,26
0,27
1,46
0,69
0,54
7,1
0,27
0,37
1,27
0,71
1,23
11,5
0,29
0,38
1,43
0,73
0,78
12,1
0,01
0,35
1,5
0,65
1,16
15,2
0,02
0,42
1,35
0,82
2,44
31,3
0,18
0,32
1,41
0,8
1,06
11,6
0,25
0,33
1,47
0,83
2,13
30,1
28

29. Príklad použitia MGK

To ukazuje vytvorenie regresného modelu v štatistickom balíku
koeficient X4 nie je významný (p-hodnota > α = 5 %) a možno ho z modelu vylúčiť.
čo
Po odstránení X4 sa proces vytvárania modelu znova spustí.
29

30. Príklad použitia MGK

Kaiserovo kritérium pre PCA ukazuje, že je možné ponechať vysvetlenia 2 komponentov
približne 80 % pôvodného rozptylu.
Pre vybrané komponenty je možné zostaviť rovnice v pôvodnom súradnicovom systéme:
U1 = 0,41*x1 - 0,57*x2 + 0,49*x3 - 0,52*x5
U2 = 0,61*x1 + 0,38*x2 - 0,53*x3 - 0,44*x5
30

31. Príklad použitia MGK

Teraz môžete vytvoriť nový regresný model v nových komponentoch:
y = 15,92 - 3,74 * U1 - 3,87 * U2
31

32. Metóda singulárneho rozkladu (SVD)

Beltrami a Jordan sú považovaní za zakladateľov teórie singularity.
rozklad. Beltrami – za to, že ako prvý publikoval dielo o
jedinečný rozklad hodnôt a Jordánsko pre jeho eleganciu a úplnosť
práca. Beltramiho práca sa objavila v časopise Journal of Mathematics for
využitie študentov talianskych univerzít“ v roku 1873, hlavná
Cieľom bolo oboznámiť žiakov s
bilineárne formy.Podstata metódy je v rozklade matice A veľkosti n
x m s hodnosťou d = poradie (M)<= min(n,m) в произведение матриц меньшего
hodnosť:
A=UDVT,
kde matice U veľkosti n x d a V veľkosti m x d pozostávajú z
ortonormálne stĺpce, pre ktoré sú vlastné vektory
nenulové vlastné hodnoty matíc AAT a ATA, resp
UTU = V TV = I a D veľkosti d x d je diagonálna matica s
kladné diagonálne prvky, zoradené v
zostupnom poradí. Stĺpce matice U sú,
ortonormálny základ stĺpcového priestoru matice A a stĺpcov
matica V je ortonormálna báza priestoru riadkov matice A.
32

33. Metóda singulárneho rozkladu (SVD)

Dôležitou vlastnosťou rozkladu SVD je skutočnosť, že ak
vidlička len z k najväčších diagonálnych prvkov, a tiež
v maticiach U a V ponechajte len prvých k stĺpcov, potom maticu
Ak=UkDkVkT
bude najlepšou aproximáciou matice A vzhľadom na
Frobeniove normy medzi všetkými maticami s hodnosťou k.
Toto skrátenie najprv zmenšuje rozmer vektora
priestor, znižuje nároky na úložisko a výpočtovú techniku
modelové požiadavky.
Po druhé, odhodiť malé jednotné čísla, malé
skreslenie vyplývajúce zo šumu v údajoch sa odstráni a zanechá
len tie najsilnejšie efekty a trendy v tomto modeli.

Po oboznámení sa s pojmami faktorové zaťaženie a oblasťou spoločných zmien môžeme ísť ďalej, opäť s použitím aparátu matíc na prezentáciu, ktorých prvkami budú tentokrát korelačné koeficienty.

Matica korelačných koeficientov získaná spravidla experimentálne sa nazýva korelačná matica alebo korelačná matica.

Prvky tejto matice sú korelačné koeficienty medzi všetkými premennými danej populácie.

Ak máme napríklad súbor zložený z testov, potom počet korelačných koeficientov získaných experimentálne bude

Tieto koeficienty vypĺňajú polovicu matice umiestnenú na jednej strane jej hlavnej uhlopriečky. Na druhej strane sú samozrejme rovnaké koeficienty, keďže atď. Preto je korelačná matica symetrická.

Schéma 3.2. Úplná korelačná matica

Na diagonále tejto matice sú jedničky, pretože každá premenná má so sebou koreláciu +1.

Korelačná matica, ktorej hlavné diagonálne prvky sa rovnajú 1, sa nazýva „úplná matica“ korelácie (schéma 3.2) a označuje sa

Treba poznamenať, že umiestnením jednotiek alebo korelácií každej premennej so sebou samým na hlavnú uhlopriečku berieme do úvahy celkový rozptyl každej premennej reprezentovanej v matici. Zohľadňuje sa teda vplyv nielen všeobecných, ale aj špecifických faktorov.

Naopak, ak na hlavnej diagonále korelačnej matice sú prvky zodpovedajúce všeobecnostiam a vzťahujúce sa len na všeobecný rozptyl premenných, potom sa berie do úvahy iba vplyv všeobecných faktorov, vplyv špecifických faktorov a chýb eliminované, t. j. špecifickosť a rozptyl chýb sa zahodia.

Korelačná matica, v ktorej prvky hlavnej diagonály zodpovedajú všeobecnostiam, sa nazýva redukovaná a označuje sa R ​​(schéma 3.3).

Schéma 3.3. Znížená korelačná matica

O faktorovom zaťažení, alebo naplnení danej premennej konkrétnym faktorom sme už hovorili. Zároveň bolo zdôraznené, že faktorové zaťaženie má podobu korelačného koeficientu medzi danou premennou a daným faktorom.

Matica, ktorej stĺpce pozostávajú zo zaťažení daného faktora vo vzťahu ku všetkým premenným danej populácie a ktorej riadky pozostávajú z faktorových zaťažení danej premennej, sa nazýva faktorová matica alebo faktorová matica. Tu môžete hovoriť aj o úplnej a zníženej faktorovej matici. Prvky plnej faktoriálnej matice zodpovedajú celkovému jednotkovému rozptylu každej premennej z danej populácie. Ak sú zaťaženia na všeobecných faktoroch označené c a zaťaženia špecifických faktorov sú označené a, potom úplná matica faktorov môže byť reprezentovaná takto:

Schéma 3.4. Úplná faktorová matica pre štyri premenné

Faktorová matica sa skladá z dvoch častí: Prvá časť obsahuje prvky týkajúce sa štyroch premenných a troch spoločných faktorov, o ktorých sa predpokladá, že sa vzťahujú na všetky premenné. Toto nie je nevyhnutná podmienka, pretože niektoré prvky prvej časti matice sa môžu rovnať nule, čo znamená, že niektoré faktory sa nevzťahujú na všetky premenné. Prvky prvej časti matice sú zaťaženia spoločných faktorov (napríklad prvok zobrazuje zaťaženie druhého spoločného faktora prvou premennou).

V druhej časti matice vidíme 4 zaťaženia charakteristických faktorov, jeden v každom riadku, čo zodpovedá ich špecifickosti. Každý z týchto faktorov sa vzťahuje len na jednu premennú. Všetky ostatné prvky tejto časti matice sa rovnajú nule. Charakteristické faktory možno samozrejme rozdeliť na špecifické a súvisiace s chybami.

Stĺpec faktorovej matice charakterizuje faktor a jeho vplyv na všetky premenné. Čiara charakterizuje premennú a jej obsah s rôznymi faktormi, inými slovami faktorovú štruktúru premennej.

Keď analyzujeme iba prvú časť matice, máme do činenia s faktorovou maticou zobrazujúcou celkový rozptyl každej premennej. Táto časť matice sa nazýva redukovaná časť a označuje sa F. Táto matica nezohľadňuje zaťaženie charakteristických faktorov a nezohľadňuje špecifický rozptyl. Pripomeňme si, že v súlade s tým, čo bolo povedané vyššie o všeobecných rozptyloch a faktorových zaťaženiach, čo sú druhé odmocniny všeobecných rozptylov, súčet druhých mocnín prvkov každého riadku redukovanej matice faktorov F sa rovná všeobecnosti. danej premennej

Súčet druhých mocnín všetkých prvkov riadku plnej matice faktorov sa teda rovná , alebo celkovému rozptylu tejto premennej.

Keďže faktorová analýza sa zameriava na spoločné faktory, v ďalšom budeme používať hlavne redukovanú koreláciu a redukovanú faktorovú maticu.


Ak je faktorová analýza vykonaná správne, namiesto toho, aby ste sa uspokojili s predvolenými nastaveniami („malá chvíľka“, ako sa štandardná džentlmenská sada metodológií posmešne nazýva), preferovanou metódou extrakcie faktorov je buď maximálna pravdepodobnosť, alebo zovšeobecnené najmenšie štvorce. Tu nás môžu čakať problémy: procedúra zobrazí chybové hlásenie: korelačná matica nie je pozitívne jednoznačná. Čo to znamená, prečo sa to deje a ako sa s problémom vysporiadať?
Faktom je, že v procese faktorizácie procedúra hľadá takzvanú inverznú maticu vzhľadom na korelačnú. Existuje tu analógia s bežnými reálnymi číslami: vynásobením čísla jeho recipročným číslom by sme mali dostať jednotku (napríklad 4 a 0,25). Pre niektoré čísla však neexistujú žiadne inverzné hodnoty – nulu nemožno vynásobiť niečím, čo nakoniec dá jednotku. Rovnaký príbeh s matrikami. Matica vynásobená jej inverznou hodnotou dáva maticu identity (jednotky sú diagonálne a všetky ostatné hodnoty sú nulové). Pre niektoré matice však neexistujú žiadne inverzné hodnoty, čo znamená, že v takýchto prípadoch nie je možné vykonať faktorovú analýzu. Túto skutočnosť zistíte pomocou špeciálneho čísla nazývaného determinant (determinant). Ak má tendenciu k nule alebo je pre maticu záporná, potom stojíme pred problémom.
Aké sú dôvody tohto stavu? Najčastejšie vzniká v dôsledku existencie lineárneho vzťahu medzi premennými. Znie to zvláštne, keďže takéto závislosti hľadáme pomocou viacrozmerných metód. Avšak v prípade, keď takéto závislosti prestanú byť pravdepodobnostné a stanú sa pevne určenými, algoritmy multivariačnej analýzy zlyhajú. Zvážte nasledujúci príklad. Povedzme, že máme nasledujúci súbor údajov:
zoznam údajov voľný / V1 až V3. počiatočné údaje. 1 2 3 2 1 2 3 5 4 4 4 5 5 3 1 koncové údaje. vypočítajte V4 = V1 + V2 + V3.
Posledná premenná je presným súčtom prvých troch. Kedy táto situácia nastáva v reálnej štúdii? Keď do súboru premenných zahrnieme hrubé skóre pre podtesty a test ako celok; keď je počet premenných oveľa väčší ako počet subjektov (najmä ak sú premenné vysoko korelované alebo majú obmedzený súbor hodnôt). V tomto prípade sa môžu náhodne vyskytnúť presné lineárne vzťahy. Závislosti sú často artefaktom postupu merania – ak sa napríklad počítajú percentá v rámci pozorovaní (povedzme percento tvrdení určitého typu), používa sa metóda hodnotenia alebo distribúcia konštantných súčtov, zavádzajú sa určité obmedzenia výberu. alternatív a tak ďalej. Ako vidíte, celkom bežné situácie.
Ak si objednáte výstup determinantu a inverznej korelačnej matice počas faktorovej analýzy v SPSS vyššie uvedeného poľa, balík ohlási problém.
Ako identifikovať skupinu premenných, ktoré vytvárajú multikolinearitu? Ukazuje sa, že stará dobrá metóda hlavných komponentov, napriek lineárnej závislosti, naďalej funguje a dáva niečo von. Ak vidíte, že zhodnosť niektorých premenných sa blíži k 0,90-0,99 a vlastné hodnoty niektorých faktorov sú veľmi malé (alebo dokonca negatívne), nie je to dobré znamenie. Okrem toho si objednajte rotáciu varimaxu a uvidíte, ktorá skupina premenných si rozumela s kamarátom podozrivým z kriminálneho spojenia. Zvyčajne je jeho zaťaženie týmto faktorom nezvyčajne veľké (napríklad 0,99). Ak je tento súbor premenných malý, obsahovo heterogénny, možnosť artefaktovej lineárnej závislosti je vylúčená a vzorka je dostatočne veľká, potom objavenie takéhoto vzťahu možno považovať za nemenej hodnotný výsledok. Takúto skupinu môžete v regresnej analýze prekrútiť: urobte závislú premennú, ktorá vykazovala najväčšie zaťaženie, a zvyšok vyskúšajte ako prediktory. R, t.j. koeficient viacnásobnej korelácie by sa v tomto prípade mal rovnať 1. Ak je lineárny vzťah veľmi zanedbaný, potom regresia potichu vyhodí niektoré ďalšie prediktory, pozorne sa pozrite, čo chýba. Objednaním dodatočného výstupu diagnostiky multikolinearity môžete nakoniec nájsť nešťastnú zostavu, ktorá tvorí presný lineárny vzťah.
A nakoniec, existuje niekoľko ďalších menších dôvodov, prečo korelačná matica nie je pozitívne jednoznačná. V prvom rade ide o prítomnosť veľkého počtu neodpovedí. Niekedy, aby sa využilo maximum dostupných informácií, výskumník objednáva spracovanie medzier vo dvojiciach. Výsledkom môže byť taká „nelogická“ matica vzťahov, že model faktorovej analýzy bude pre ňu príliš náročný. Po druhé, ak sa rozhodnete faktorizovať korelačnú maticu uvedenú v literatúre, môžete naraziť na negatívny efekt zaokrúhľovania čísel.