Faktorska analiza. Metoda glavne komponente. Metoda glavne komponente Kriterijumi za izbor glavnih komponenti

Metoda glavne komponente je metoda koja prevodi veliki broj povezanih (ukorijenjenih) varijabli u manji broj nezavisnih varijabli, a veliki broj varijabli često otežava analizu i interpretaciju informacija. Strogo kazhuchi, tsey metoda se ne razmatra prije faktorske analize, iako može biti bogata njome. Konkretno, prije svega oni koji u toku postupka prebrojavanja odmah oduzmu sve komponente smuta i njihov broj veći od polovine cijene posljednjih izmjena; na drugačiji način se postulira mogućnost nove distribucije disperzije svih vanjskih promjena, tj. njeno vanjsko objašnjenje kroz latentne faktore (naglašene znakove).

Na primjer, po svemu sudeći, sproveli smo istraživanje u kojem je intelekt učenika mjeren Wechslerovim testom, Eysenckovim testom, Ravenovim testom, kao i uspjeh iz socijalne, kognitivne i globalne psihologije. Koliko god je to moguće, pokazatelji raznih testova inteligencije međusobno koreliraju, tako da smrdi vimiruju jednu karakteristiku nižeg - yogo intelektualnog zdravlja, čak i ako je drugačija. Yakscho zminnyh i doslízhenny prebogat ( x 1 , x 2 , …, x str ) , Deyakí ih vzaêmopov'yazaní, a zatim u posljednjem vinikaê bazhannya mijenja savijanje podataka, skraćujući broj promjena. Za koji i služi metoda komponenti glave, koja stvara papunu novih promjena y 1 , y 2 , …, y str, koža s nekom linearnom kombinacijom promjena klipa x 1 , x 2 , …, x str :

y 1 =a 11 x 1 +a 12 x 2 +…+a 1p x p

y 2 \u003d a 21 x 1 + a 22 x 2 + ... + a 2p x p

… (1)

y p =a p1 x 1 +a p2 x 2 +…+a pp x p

Promjene y 1 , y 2 , …, y str chinniks nazivaju komponente glave. Na taj način faktor predstavlja statistički dokaz, koji je uzrok posebnih transformacija korelacione matrice. . Procedura za faktorizaciju naziva se faktorizacija matrice. Kao rezultat faktorizacije iz korelacijske matrice, broj faktora može varirati čak i do broja koji je jednak broju izlaznih promjena. Međutim, faktori koji se pojavljuju u rezultatu faktorizacije, po pravilu, nisu jednaki svojim vrijednostima.

Koeficijent a ij, koji označavaju novu promjenu, biraju se na način da nove promjene (komponente glave, faktori) opisuju maksimalnu količinu varijabilnosti podataka i da se međusobno ne svađaju. Često jasno pokazuju koeficijente a ij na način da je smrad bio koeficijent korelacije između vanjske promjene i nove promjene (faktora). Tse doseg višestruke a ij standardna devijacija faktora. Za većinu statističkih paketa to radi na ovaj način (i za program STATISTICA). Koeficijenta ij Zvuk smrdi se servira na izgled tablica, defektno se roztashovuyutsya na izgled kolona, a mijenja se na izgled redova:

Takva tabela se naziva tabela (matrica) faktorskih preferencija. Brojevi usmjereni na níy, ê koeficijentima a ij. Broj 0,86 znači da je korelacija između prvog faktora i vrijednosti Wechslerovog testa 0,86. Što veći faktor nije favorizovan u apsolutnom smislu, to je jača veza između promene i faktora.

Analiza glavnih komponenti (PCA) pojednostavljuje savijanje visokodimenzionalnih podataka, čuvajući trendove i obrasce. Vín rob tse, pretvaranje podataka u manje, poput sažetka funkcija. Takvi podaci su još širi u različitim oblastima nauke i tehnologije, a okrivljuju ih, ako za zrazka kože postoji nekoliko znakova, na primjer, takav izraz bogatih pogleda. Ova vrsta počasti predstavlja probleme uzrokovane učestalošću pomilovanja kroz višestruke ispravke tributa.

Metoda je slična grupiranju - znati obrasce bez njihovog slanja i analize, pereveryayuchi, chi zrazki iz različitih grupa studija, a smrad može istotní vídmínností. Kao i sve statističke metode, joga se može pogrešno dijagnosticirati. Skaliranje promjena se u analizi može dovesti do različitih rezultata, a važno je da nije ispravljeno prema prethodnoj vrijednosti podataka.

Svrha analize komponenti

Glavna meta metoda je da se otkrije ta promjena u skupu podataka, da se identifikuju nove značajne osnovne promjene. U tu svrhu potrebno je koristiti posebne alate, na primjer, odabrati bogate podatke u matrici podataka TableOfReal, u istim redovima kako bi se uskladile promjene i promjene. Stoga se TableOfReal tumači kao vektor i broj podataka numberOfRows, skin vektor takvog broja kolona elemenata.

Tradicionalno, metoda glavne komponente se zasniva na matrici kovarijanse ili korelacionoj matrici, koja se može izračunati iz matrice podataka. Kovarijansna matrica se može koristiti za skaliranje sume kvadrata i unakrsnih kreacija. Korelaciona matrica je slična matrici kovarijanse, ali se na prvom mestu menja, pa su kolone standardizovane. Ponekad se dešava da se podaci standardizuju, jer se varijanse nekih od njih jako razlikuju. Da biste analizirali podatke, izaberite matricu podataka TabelOfReal sa liste objekata i pritisnite da krenete.

Tse prizvede prije pojave novog objekta na listi objekata za metodu glavnih komponenti. Sada možete dodati grafikon zakrivljenih vrijednosti, tako da možete uzeti u obzir važnost kože. A program može predložiti i diyu: oduzeti dio disperzije ili obrnuti jednakost broja vrijednosti snage i oduzeti jednakost. Oskílki komponenti otrimani na način rješavanja specifičnih zadataka optimizacije, smrad djela "pupanja" snage, na primjer, maksimalna minlivost. Osim toga, postoji nizak nivo drugih moći, koje mogu pružiti faktorsku analizu:

disperzija kože, u svom dijelu ukupne disperzije vanjskih promjena, određena je vrijednostima snage;
izračun procjene, koji ilustruje značaj komponente kože za sat opreza;
otrimannya navantage, kako opisati korelaciju između komponente kože i promjene kože;
korelacija između eksternih promjena, kreirana za dodatnu p-komponentu;
u radu vikenda podaci se mogu vršiti u obliku p-komponenti;
"rotacije" komponenti, kako bi se unaprijedila njihova interpretacija.

Odaberite broj bodova za spremanje

Postoje dva načina da odaberete potreban broj komponenti za uštedu. Uvredljive metode su zasnovane na vídnosinah mizh vlasnymi značenjima. Za koga se preporučuje korištenje vrijednosti rasporeda. Kako tačke na grafikonu mogu težiti virívnyuvatisya i blizu nule, mogu se zanemariti. Posredite broj komponenti na broj, kao da spada u jedan dio globalne disperzije. Na primjer, da bismo bili zadovoljni sa 95% ukupne disperzije - broj komponenti (VAF) je 0,95.

Glavne komponente se koriste za dizajniranje bogate statističke analize metode glavnih komponenti u vektorima podataka u velikom broju javnih vektora. Možete ga kreirati na dva načina - direktno iz TableOfReal bez frontalnog formiranja PCA objekta i tada možete prikazati konfiguraciju ili brojeve. Odaberite objekt i TableOfReal u isto vrijeme i "Konfiguracija", na ovaj način, analiza mokro poliranih komponenti je pobjednička.

Kao polazna tačka, to je prikazano simetričnom matricom, na primer, kovarijansom, prvo se skraćuje da se formira, a zatim QL algoritamom sa implicitnim greškama. Pošto je tačka prava tačka i matrica podataka, onda je nemoguće formirati matricu od zbira kvadrata. Natomist, pređite na brojčano stabilniji način i uredite raspored prema singularnim vrijednostima. Ista matrica je dobar vektor, a kvadratni dijagonalni elementi su dobre vrijednosti.

Glavna komponenta ê je korištena za normalizaciju linearne kombinacije vanjskih prediktora u skupu podataka korištenjem metode komponente glave za lutke. Na slici, PC1 i PC2 su glavne komponente. Dopušteno, niski prediktor, jak X1, X2 ..., XP.

Glavna komponenta se može napisati kao: Z1 = 11X1 + 21X2 + 31X3 + .... + p1Xp

Z1 je prva komponenta glave;
p1 - vektor taštine koji se sabira sa taštinom (1, 2.) prve glavne komponente.

Profitabilnost se razmjenjuje sa zbirom kvadrata 1. S tim je povezano da velika vrijednost profitabilnosti može dovesti do velike disperzije. Vín također direktno ukazuje na glavnu komponentu (Z1), za koju je data najveća razlika. Tse dovesti do činjenice da je linija u prostranstvu r-mjera, bliže n-stražu.

Blizina vymíryuêtsya z vikoristannyam Euklidski val srednjeg kvadrata. X1..Xp su normalizirani prediktori. Normalizirani prediktori mogu imati srednju vrijednost koja je jednaka nuli, a standardna devijacija je jednaka jedan. Takođe, prva komponenta glave je čitava kombinacija promena eksternih zvučnika, koja fiksira maksimalnu varijansu u setu podataka. Vín vyznaê direktno najveća tromost podataka. Što je više minuskula fiksirano u prvoj komponenti, on oduzima više informacija. Zhoden ínshiy ne može majka minlivíst više od prve osnovne.

Dovedite prvu glavnu komponentu u red, koji je najbliži podacima i dovedite do minimalne sume kvadrata između tačke podataka i linije. Druga komponenta glave (Z2) je također linearna kombinacija vanjskih prediktora, jer fiksira varijansu, koja nedostaje, u skupu podataka, a Z1 nije u korelaciji. Drugim riječima, korelacija između prve i ostalih komponenti može doseći nulu. Vín se može predstaviti kao: Z2 = 12X1 + 22X2 + 32X3 + .... + p2Xp.

Kao da nisu u korelaciji, mogu biti direktno ortogonalne.

Osim toga, kao proračun glavnih komponenti započinje proces predviđanja testnih podataka za sve selekcije. Proces metode glavne komponente za čajnike je jednostavan.

Na primjer, potrebno je poraditi na konverziji u test set, uključujući funkciju centra i skaliranja u filmu R (ver.3.4.2) i joga biblioteci rvest. R - besplatno programiranje jezika za statističke proračune i grafiku. Vín buv rekonstrukcije iz 1992. do stijene za ostvarivanje statističkih zadataka od strane koristuvača. Cijeli proces modeliranja nakon PCA.

Da biste implementirali PCA u python, uvezite podatke iz sklearn biblioteke. Tumačenje ostaje isto kao i R. Samo nekoliko podataka koji su predstavljeni za Python su očišćena verzija, u kojoj se vrijednosti stavljaju u isti dan, a kategoričke promjene se pretvaraju u brojeve. Proces modeliranja ostaje isti, kao što je opisano u primjeru za korteks R.

Ideja metode glavne komponente korisna je za blisku virazu za razvoj faktorske analize. Umjesto zbrajanja od 1 do p, sada sabiranja od 1 do m, zanemarujući ostatak p-m članova u zbiru, oduzimajući treći vir. Moguće je prepisati tse, kao što je prikazano u stihu, koji je izabran za oznaku faktorske matrice preferencije L, što daje rezidualni izraz matrice notacije. U pravilu, standardizirano vimirovanje je potvrđeno, zamijenjeno matricom korelacijske selekcije R.

Tse formiraju matricu L faktor-preovlađujući u faktorskoj analizi koju prati transponovani L. Za procjenu specifičnih varijansi, faktorski model za matricu varijanse-kovarijance.

Sada imamo bolju varijansu matrice-kovarijanca minus LL".

Xi je vektor čuvara za i-ti subjekt.
S označava našu matricu vibracione varijance-kovarijance.

Iste p vrijednosti snage za qi matricu varijanse kovarijanse, kao i isti vektori snage za qi matricu.

Važeće vrijednosti S:λ^1, λ^2, ..., λ^p.

Vektori snage S: e^1, e^2, ..., e^n.

PCA analiza je najteža i najpopularnija metoda multivarijantne analize, koja omogućava dodavanje bogatih skupova podataka iz velikog broja promjena. Iza ove metode, metoda glavnih komponenti se široko koristi u bioinformatici, marketingu, sociologiji i bogatstvu drugih. XLSTAT pruža potpunu i fleksibilnu funkciju za prikazivanje podataka bez posrednika u Excelu i širi nekoliko standardnih i proširenih opcija, kako bi vam omogućio da dublje pogledate izvještaj podataka u Excelu.

Možete pokrenuti program na nedovršenim matricama podataka informacija, dodati dodatne izmjene u guard, filtrirati promjene prema različitim kriterijima za optimizaciju čitanja kartica. Štaviše, možete se okrenuti. Lako je kreirati korelativnu kolonu, graf je čuvar kao standardni Excel grafikoni. Dovoljno je prenijeti podatke o rezultatima, kako bi oni pobijedili u analizi.

XLSTAT uvodi brojne metode obrade podataka koje će se koristiti na ulaznim podacima prije izračunavanja glavne komponente:

Pearson, klasični PCA, koji automatski standardizira podatke za proračun, kako bi se eliminisao prenapuhan priliv promjena iz velikih inspiracija u rezultatu.
Kovarijansa koja radi sa nestandardnim polascima.
Poligorički, za redne podatke.

Primijenite analizu datih podataka

Možete pogledati metodu glavnih komponenti uz korištenje simetrične korelacijske kovarijansne matrice. Tse znači da matrica može biti numerička i majka standardiziranih podataka. Dozvoljeno je, ê biranje podataka je 300 (n) × 50 (p). Gdje je n broj upozorenja, a p broj prediktora.

Oskílki je odličan p = 50, p(p-1)/2 je moguće. U ovom slučaju, uobičajen pristup bi bio odabir submnožitelja prediktora p (str<< 50), который фиксирует количество информации. Затем следует составление графика наблюдения в полученном низкоразмерном пространстве. Не следует забывать, что каждое измерение является линейной комбинацией р-функций.

Kundak za matricu iz dvije promjene. U ovoj primjeni metode komponenti glave kreira se skup podataka od dva naizmjenična (velika i dijagonalna dožina) sa brojem komada podataka Devisa.

Komponente se na ovaj način mogu oslikati na dijagramu distribucije.

Ovaj graf ilustrira ideju prve ili glavne komponente, koja osigurava optimalnu vezu podataka - na takvom grafu je nacrtana još jedna linija, ona ne stvara skup predviđenih vrijednosti tačaka podataka na liniji sa manje disperzija.

Prva komponenta se takođe može dodati regresiji sa promenjenom težinom glave (RMA), u kojoj se prenosi, kao x-, pa i y-promena može imati oprost ili beznačajnost, ili nema jasne razlike između glava i vetar.

Metoda komponenti glave u ekonometriji je analiza promjena, kao što su GNP, inflacija, devizni kursevi, itd. Zatim ih procjenjujemo za očigledne doprinose, rang glave i ukupne vremenske serije. Međutim, ekonometrijski modeli se mogu prilagoditi za bogate programe, ali ne i za makroekonomske. Dakle, ekonometrija znači ekonomski svijet.

Razvoj statističkih metoda do najbolje ekonometrije podataka pokazuje međusobnu povezanost ekonomskih promjena. Jednostavan primjer ekonometrijskog modela. Očekuje se da će se većina ljudi oporaviti linearno u zavisnosti od prihoda preživjelih u prethodnom mjesecu. Isti model je sklopiv

Zadatak ekonometrije je da procijeni procjene parametara a i b. Broj procenjenih parametara, pošto su pobednički u modelu jednakosti, omogućavaju predviđanje buduće vrednosti života, jer zavisi od prihoda iz prethodnog meseca. Ispod sata za razvoj ovih tipova modela potrebno je osigurati nekoliko trenutaka:

priroda pokretnog procesa koji generiše podatke;
ríven znati o tse;
proširenje sistema;
oblik analize;
obriy forecast;
matematičko savijanje sistema.

Svi razlozi su važni, krhotine u njima leže džerela pardon, poput modela. Osim toga, za rješavanje ovih problema potrebno je osmisliti metodu prognoze. Može se dovesti do linearnog modela, ali to je još uvijek mali izbor. Ova vrsta je jedna od najvažnijih, za koju možete napraviti prediktivnu analizu.

Neparametrijska statistika

Metoda glavnih komponenti za neparametarske podatke treba da bude ispred svjetskih metoda, za koje se podaci rangiraju od donje linije. Neparametarske statističke metode se široko koriste u različitim vrstama studija. U praksi, ako se pretpostavka o normalnosti ne prevaziđe, parametarske statističke metode mogu dovesti do rezultata koji se mogu uvesti u Oman. Navpaki, neparametarske metode za izbjegavanje manje suvori dodatak za rozpodíl za wimirami.

Smrad je pouzdan, bez obzira na rozpodílív stražare koji leže u njihovim temeljima. Kroz ovo istraživanje, za analizu različitih tipova eksperimentalnih dizajna, podijeljeno je mnogo različitih tipova neparametarskih testova. Takvi projekti uključuju dizajn iz jedne selekcije, dizajn iz dvije pruge, dizajn iz nasumičnih blokova. Niní neparametarski bayesivsky pídkhíd íz zastosuvannym metoda osnovnymi komponentív vykoristovuêtsya pojednostavljuje analizu pouzdanosti nadzemnih sistema.

Sistem ograda je tipičan preklopni sistem velikih razmera sa međusobnim podsistemima, kao da zamenjuje numeričke komponente. Pouzdanost sistema se uzima u obzir prilikom druge posete tehničke službe, a ekonomsko upravljanje imovinom će zahtevati tačnu procenu pouzdanosti na najnižem nivou. Zaštita podataka stvarne í̈ nadíností manje od jednakih komponenti vazdušnog sistema, što je uvek dostupno u praksi, ali o završetku. Rozpodil zhittêvih tsiklív komponentív víd virobnikív često hovaêêêêê sladnyuêêêêê sladnyuêêsya stvarni vikoristannyam i radnu sredinu. Na ovaj način se vrši analiza validnosti analize vitalnosti metodologije za procjenu sata života komponente u svijesti prisutnosti podataka o govoru.

Metoda glavnih komponenti u modernim naukama pobjeđuje za postizanje dva glavna zadatka:

analiza podataka socioloških studija;
inspirirati modele suspílnyh yavisch.

Algoritmi za distribuciju modela

Algoritmi metode glavnih komponenti daju više informacija o strukturi modela i njegovoj interpretaciji. Smrad ukazuje na to kako PCA pobjeđuje u raznim disciplinama. Algoritam za nelinearne iterativne parcijalne najmanjih kvadrata NIPALS koristeći metodu izračuna posljednje komponente. Izračun se može zakačiti na kraj reda, ako vam je dovoljno stalo da je dovoljno. Više računarskih paketa može imati tendenciju da osvoji NIPALS algoritam, ali postoje dvije glavne prednosti:

Vín opratsovuê vídsutní podaci;
sekvencijalno izračunati komponente.

Meta prikaz algoritma:

dati dodatne informacije o onima koji znače promociju te ocjene;
pokazuje kako komponenta kože ne leži ortogonalno s drugim komponentama;
pokazati kako algoritam može obraditi podatke koji su dostupni.

Algoritam sekvencijalno crta komponentu kože, počevši od prve direktno sa najvećom varijansom, a zatim druge, i tako dalje. NIPALS izračunava jednu po jednu komponentu. Izračunavanje prvog ekvivalenta t1t1, kao i p1p1 vektora, ako biste znali iz vrijednosti snage ili distribucije za singularne vrijednosti, možete obraditi podatke u XX. Vín se uvijek približavaju, ali zbízhníst ínodí mozhe bílnoy. Takođe je poznat, kao i algoritam čvrstoće za izračunavanje vektora snage i vrednosti snage, i dobro radi za velike skupove podataka. Google je hakovao algoritam za rane verzije sistema zagonetki zasnovanog na snazi.

Algoritam za NIPALS očitavanja je u nastavku.

Procjene koeficijenta matrice T se tada izračunavaju kao T=XW i često se koeficijenti regresije kvadrata B od Y na X izračunavaju kao B = WQ. Alternativna metoda za procjenu dijelova regresije parcijalnih najmanjih kvadrata može se opisati na sljedeći način.

Metoda komponenti glave je alat za označavanje glavnih osa disperzije u skupu podataka i omogućava vam da lako pratite ključne promjene u podacima. Pravilna metoda skladištenja jedna je od najnaprednijih u setu alata za analizu podataka.

Komponentna analiza se smatra različitim metodama smanjenja volumena. Vín osveta jedan način - način glavnih komponenti. Glavne komponente su u ortogonalnom koordinatnom sistemu, a varijansa komponenti karakteriše njihovu statističku moć.

Vrahovyuchi, čije objekte uspjeha u privredi karakteriše veliki broj znakova koji utiču na toliki broj vipadkovih razloga.

Proračun glavnih komponenti

Prva glavna komponenta Z1 znaka sekundarnog sistema X1, X2, X3, X4, ..., Xn naziva se takva centrirana-normalizirana linearna kombinacija znakova, jer srednje centrirano-normalizirane linearne kombinacije znakova imaju najveću disperziju.

Kao drugu komponentu glave Z2, uzet ćemo takvu centriranu - normaliziranu kombinaciju znakova, kao što su:

nije u korelaciji sa prvom komponentom glave,

nije u korelaciji sa prvom komponentom glave, ova kombinacija ima najveću disperziju.

K-ta komponenta glave Zk (k=1…m) naziva se takav centriran - normalizirani kombinacijski znak, kao:

nije u korelaciji sa do -1 komponentama prednje glave,

sredina najveće moguće kombinacije vanjskih znakova, ako ne

ne koreliraju sa do -1 komponentama prednje glave, ova kombinacija ima najveću disperziju.

Hajde da uvedemo ortogonalnu matricu U i pređimo sa promene X na promenu Z, štaviše

Vektor se bira tako da je disperzija maksimalna. Ako se izabere posjedovanje, tako da je disperzija maksimalna za um, što nije u korelaciji sa itd.

Oskílki znaka vymiryaní u neporívnyannymi vrijednostima, onda je bolje ići na centrirane normalizirane vrijednosti. Matrica eksternih centrirano-normaliziranih vrijednosti poznata je iz reference:

nepristrasno, moguće je da je moguća efikasna procjena matematičkog ocjenjivanja,

Nepromijenjena, moguća je efikasna procjena disperzije.

Na matricu upozorenja značenja spoljašnjih znakova ukazao je Dodatku.

Centriranje i standardizacija se vrši uz pomoć programa "Stadia".

Ako postoje znakovi centriranja i normalizacije, tada se procjena korelacijske matrice može razviti pomoću formule:

Prije toga, dok provodimo analizu komponenti, analizirat ćemo nezavisnost vanjskih znakova.

Ponovna validacija značaja matrice muških korelacija za dodatni Wilksov kriterijum.

Postavljamo hipotezu:

H0: beznačajan

H1: značajno

125,7; (0,05;3,3) = 7,8

budući da je > , tada se razmatra hipoteza H0 i matrica je značajna, stoga je moguće provesti komponentnu analizu.

Preokretanje hipoteze o dijagonalnosti matrice kovarijanse

Postavljamo hipotezu:

Budêmo statistika, rozpodílenu za zakon sa stepenica slobode.

123,21, (0,05;10) =18,307

pošto >, onda se razmatra hipoteza H0 i moguće je provesti komponentnu analizu.

Da bi se izazvala faktorizacija matrice, potrebno je dodijeliti odgovarajuće brojeve matrice, narušavajući poravnanje.

Za operaciju je neophodno koristiti funkciju svojstvenih vrednosti MathCAD sistema, jer ona rotira brojeve matrice koristeći snagu:

Jer oduzeli smo ne moć broja i moć matričnog vektora, već procjenu. Nas tsíkavitime naskílki "dobar" zí statisticheskij točka zor vibrkoví karakteristike opisuju vídpovídní parametri za opće í̈ sukupností.

Interval pouzdanosti za i-ti broj stepena slijedi ovu formulu:

Komplementarni intervali za njihove brojeve u rezultatu izgledaju ovako:

Procjena vrijednosti broja najboljih brojeva uzima se iz intervala povjerenja najmanjih brojeva. Neophodno je obrnuti hipotezu o višestrukosti stepena brojeva.

Za dodatnu statistiku potrebna je ponovna provjera višestrukosti

de r-broj višestrukih korijena.

Tsya statistika u vrijeme pravde podijeljena je prema zakonu od broja stepenica slobode. Visunemo hipoteze:

Oskílki hipoteza vydkidaetsya, tako da je snaga broja, a ne višestruka.

Potrebno je sagledati glavne komponente samo na nivou informativnosti od 0,85. Svijet informativnosti pokazuje dio ili dio varijanse vanjskih znakova kako bi se formirale komponente k-prve glave. Za svijet informacija vrijednost imenujemo:

Na datom nivou informacija uočene su tri glavne komponente.

Napišimo matricu =

Da biste uklonili normalizirani vektor na prijelaz sa vanjskih znakova na glavne komponente, potrebno je promijeniti sistem izjednačavanja: Nakon korekcije rješenja sistema, potrebno je normalizirati vektor korekcije.

Za implementaciju ovog zadatka koristimo svojstvenu funkciju MathCAD sistema za ubrzanje vektora normalizacije za promjenjivi broj snage.

Po našem mišljenju, prve četiri glavne komponente su dovoljne za dostizanje datog nivoa informacija, pa je matrica U

Mi ćemo biti matrica U, čiji su stupci vektori snage:

Matrica vaših koeficijenata:

Matrični koeficijenti A ê koeficijenti korelacije između centriranih - normalizovanih vizuelnih znakova i nenormalizovanih komponenti glave, i pokazuju očiglednost, snagu i direktnu linearnu vezu između vizuelnih znakova i glavnih komponenti glave.

Metoda glavne komponente

Metoda glavne komponente(engl. Analiza glavnih komponenti, PCA ) je jedan od glavnih načina za promjenu raznolikosti podataka korištenjem najmanje količine informacija. Vinaydeny K. Pearson Karl Pearson ) na r. Zastosovuetsya u bogatim oblastima, kao što su prepoznavanje slika, kompjuterski zir, nered podataka i tako dalje. Drugi metod glavnih komponenti se zove transformacijama Karhunen-Loeva(engl. Karhunen-Loeve) ili transformacija Hotellinga (eng. Hotelling transform). Drugi načini za promjenu raznolikosti podataka su metoda nezavisnih komponenti, bogato skaliranje, kao i numeričko nelinearno agregiranje: metoda krivulja glave i varijacije, metoda opružnih mapa, metoda najbolje projekcije (eng. Projection Pursuit), neuromerezhev metoda "Glasovno grlo", da ín.

Formalna izjava o problemu

Zadatak analize glavnih komponenti, barem, barem, barem neke od osnovnih verzija:

aproksimirati podatke sa linearnim razlikama manje dimenzionalnosti;
poznavati podprostor manje veličine, u ortogonalnoj projekciji na yak_rozkid danih (tako da je odstupanje srednjeg kvadrata od prosječne vrijednosti) maksimalno;
znati podprostor manje veličine, u ortogonalnoj projekciji na srednju kvadratnu udaljenost jaka između tačaka što je više moguće;
za datu bogatu varijabilnu vrijednost varijable, inducirati takvu ortogonalnu transformaciju koordinata koja se, kao rezultat korelacije između ostalih koordinata, pretvara u nulu.

Prve tri verzije rade s konačnim rezultatima podataka. Smrad je ekvivalentan i nije zamjenski za bilo koju hipotezu o statističkom generiranju podataka. Četvrta verzija je zasnovana na vertikalnim vrijednostima. Kíntseví mulíníy yavlyayutsya yavlyayutsya ovdje kao vybírki z dati rozpodílu, i viríshennya tri prva zavdan - kao blizu "prave" reinkarnacije Karhunen-Loev. Okrivljujemo dodatak i čitavu trivijalnu ponudu tačnosti pristupa.

Aproksimacija podataka linearnim razlikama

Ilustracija poznatog rada K. Pirsona (1901): date tačke na ravni, - idite pravo na pravu liniju. Shukaetsya ravno, scho minimizirati sumu

Metoda komponenti glave proizašla je iz zadatka najbolje aproksimacije terminalnog množitelja tačaka pravim linijama i ravnima (K. Pirson, 1901). Dana kíntseva anonimni vektori. Za okruženja kože, moramo znati da je zbir kvadrata zdravlja minimalan:

de - Euklidski od tačke do linearne razlike. Be-yak - mirno linearna raznomanittya se može dati kao anonimne linearne kombinacije, de parametri prolaze kroz govornu liniju, i - ortonormalno kucanje vektora

de Euklidska norma, - Euklidski skalarni twir, ili u koordinatnom obliku:

Razvoj aproksimacionog problema za je dat skupom ulaza linearnih razlika, . Brojevi linearnih razlika određeni su ortonormiranim skupom vektora (vektora glavnih komponenti) i vektora. Vektor izgleda kao rješenje problema minimizacije za:

Vektori glavnih komponenti mogu se naći kao rješenje za slične probleme optimizacije:

1) centralizovani podaci (vidljivi prosek): . Sad; 2) prvu komponentu glave poznajemo kao zadatak; . Ako ne postoji jedno rješenje, onda biramo jedno od njih. 3) Iz ove projekcije prve komponente glave vidimo: ; 4) druga komponenta glave zna kako da reši problem. Ako ne postoji jedno rješenje, onda biramo jedno od njih. … 2k-1) Vidimo projekciju na -toj komponenti glave (pogodite da su projekcije na prednjim glavnim komponentama već vidljive): ; 2k) k-ta komponenta glave je poznata kao rješenje problema: . Ako ne postoji jedno rješenje, onda biramo jedno od njih. …

U dermalnoj fazi vidimo projekciju na prednjoj komponenti glave. Vektori ortonormalizacije se pronalaze jednostavno kao rezultat razvoja opisanog problema optimizacije, da ne bi oprostili proračun i uništili međusobnu ortogonalnost vektora u komponentama glave, možete uključiti zadatak optimizacije.

Neadekvatnost dodijeljenog crim-a trivijalnog svavilla u izboru znaka (i ostvarivanju istog zadatka) može biti preciznija i razmatrana, na primjer, iz uma simetrije podataka. Ostatak komponente glave je jedan vektor ortogonan na prednji.

Tražite ortogonalne projekcije s najvećim razlikama

Prva komponenta glave maksimizira vibracionu varijansu projekcije podataka

Neka nam je dato centriranje skupa vektora podataka (aritmetička sredina vrijednosti jednaka je nuli). Zadatak - znati takvu ortogonalnu transformaciju u novi koordinatni sistem, koji bi bio ispravan u takvim uslovima:

Teoriju singularnog poravnanja stvorio je J. J. Sylvester (eng. James Joseph Sylvester ) u m.

Jednostavan iterativni algoritam singularne dekompozicije

Glavni postupak je traženje najbolje aproksimacije dovoljno velike matrice u obliku matrice (de - svjetski vektor, a - svjetski vektor) metodom najmanjih kvadrata:

Rješenje problema je dato uzastopnim iteracijama slijedeći eksplicitne formule. Sa fiksnim vektorom, vrijednosti koje isporučuju minimalni oblik su jedinstveno i eksplicitno dodijeljene jednakosti:

Slično, sa fiksnim vektorom, dodjeljuju se sljedeće vrijednosti:

Kao aproksimaciju vektora, uzimamo promenljivi vektor jedne vrednosti, vektor koji treba izračunati, vektor koji treba izračunati za koji vektor, itd. Vrednost se menja. Kao kriterij za fluktuaciju, postoje tri različite promjene u vrijednosti minimiziranog funkcionala za kratku iteraciju () ili tri od najznačajnijih.

Rezultat matrice je oduzet od najbliže aproksimacije tipa matrice (ovdje je gornji indeks vrijednosti broj aproksimacije). Dalje, iz matrice vidim matricu i za uklonjenu matricu trik je opet traženje najbolje aproksimacije iste vrste, itd., sve dok npr. norma ne postane dovoljno mala. Kroz rat smo oduzeli iterativni postupak postavljanja matrice kao sume matrica ranga 1, tobto . Kao rezultat toga, eliminirana je aproksimacija singularnih brojeva i singularnih vektora (desno - i lijevo - ).

Prije nego što ga algoritam može savladati, njegova jednostavnost i mogućnost prijenosa bez promjene u podatke sa prazninama, kao i važne podatke.

Uspostaviti različite modifikacije osnovnog algoritma za poboljšanje tačnosti i stabilnosti. Na primjer, vektori komponenti glave u slučaju različitih kvarova su ortogonalni "prema navikama", zaštićeni velikim brojem iteracija (velika raznolikost, bogata komponenta)

Singularni raspored tenzora i tenzorski metod komponenti glave

Često, vektor podataka može dodati strukturi pravokutne tablice (na primjer, ravan slike) kako bi se stvorila bogata tabela - tob do tenzora : , . Takođe je efikasno da ova osoba ima jedinstven raspored. Označeno, glavne formule algoritama mogu se prenijeti praktično bez promjena: zamjena matrice podataka može biti vrijednost indeksa, prvi indeks je broj tačke (tenzor) podataka.

Glavni postupak je traženje najbolje aproksimacije tenzora pomoću tenzora oblika (de - vektor mira ( - broj tačaka podataka), - vektor veličine na ) metodom najmanjih kvadrata:

Rješenje problema je dato uzastopnim iteracijama slijedeći eksplicitne formule. U stvari, svi vektori-množitelji jednog grimiza su postavljeni, a onaj koji je izostavljen je jasno predstavljen barem dovoljnim umovima.

Na početku blizine vektora () uzmite suprotni vektor i jednu vrijednost, izračunajte vektor , dajte za ovaj vektor i ove vektore u vektoru proračuna, itd. (ciklično sortiranje kroz indeks) Algoritam, možda konvergiraju. Kao kriterijum za fluktuaciju, postoje tri značajne promene u vrednosti minimiziranog funkcionala za ciklus, odnosno tri najznačajnije. Dalje, od tenzora se vidi blizina a višak opet šukajemo najbolju blizinu iste vrste. bud., poke, na primjer, norma chergovog viška će biti mala.

Ovaj singularni raspored sa bogatom komponentom (tenzorski metod komponenti glave) uspešno se koristi pri obradi slika, video signala i, šire, više ili manje podataka, tako da se može formirati tabelarna ili tenzorska struktura.

Transformacija matrice u glavne komponente

Matrica pretvaranja podataka u glavne komponente sastavljena je od vektora glavnih komponenti, sortiranih po redoslijedu promjene njihovih vrijednosti:

(znači transpozicija),

Tobto, matrica je ortogonalna.

Većina varijacija ovih podataka će biti označena u prvim koordinatama, što vam omogućava da odete u prostranstvo sa manje prostora.

Zalishkov disperzija

Dajte podatke za centriranje, . Prilikom zamjene vektora podataka na glavnoj projekciji na prvoj komponenti glave upisuje se prosječni kvadrat pomilovanja od uskrsnuća po jednom vektoru podataka:

gdje su vrijednosti empirijske matrice kovarijanse sortirane po redoslijedu promjene, sa prilagođenom multiplicitetom.

Tsya vrijednost se zove višak disperzije. Vrijednost

pozvao objašnjena disperzija. Í̈hnya sum dorivnyuê vibrkovíy varijansa. Vídpovídny kvadrat vídnoí̈ pardon - tsí vídnennia višak varijanse prema vibríkovo varijansi (tobto dio neobjašnjive varijanse):

Za izvanredno oprost, ocjenjuje se ocjena metode glavnih komponenti sa dizajnom na prvim komponentama.

Poštovanje: u većini algoritama za numerisanje, brojevi snaga sa najmoćnijim vektorima snage - komponente glave se broje redom "od najvećeg do najmanjeg". Za proračun je dovoljno izračunati prve brojeve i sljedeću empirijsku matricu kovarijanse (zbir dijagonalnih elemenata, odnosno varijanse duž osa). Todi

Odabir glavnih komponenti prema Kaiserovom pravilu

Tsílovy pídkhíd prije procjene broja komponenti glave za neophodnu čestu objašnjenu varijansu formalno zastosovuê zavzhd, prote implicitno prenosi, scho podíl na "signal" i "šum", i da li je preciznost senzora unaprijed određena. Zbog toga je često produktivna druga heuristika, koja se zasniva na hipotezi o prisutnosti “signala” (jednako mala jačina, jasno velika amplituda) i “šuma” (veliki volumen, jasno mala amplituda). Na prvi pogled, metoda glavnih komponenti radi kao filter: signal se uklanja, što je još važnije, u projekciji prvih glavnih komponenti, a udio šuma je bogatiji u ostalim komponentama.

Ishrana: kako procijeniti broj potrebnih glavnih komponenti, kao da omjer signal/šum nije unaprijed poznat?

Dat je najjednostavniji i najstariji metod za odabir komponenti glave Kajzerovo pravilo(engl. Kajzerovo pravilo): značajne glavne komponente, koje

za promjenu prosječne vrijednosti (prosječna vibrirajuća disperzija koordinata vektora podataka). Kaiserovo pravilo se dobro praktikuje u najjednostavnijim slučajevima, ako postoji nekoliko glavnih komponenti, prosječna vrijednost je bogato preokrenuta, a ostali brojevi stepena su manji od novog. U situacijama preklapanja može dati još značajnije glavne komponente. Kako je data normalizacija na jednu disperziju vibracija duž osi, Kaiserovo pravilo je posebno jednostavno po izgledu: značajne glavne komponente koje

Procjena broja glavnih komponenti prema pravilu zlog štapa

Primjer: Procjena broja glavnih komponenti prema pravilu slomljenih trska u veličini 5.

Jedan od najpopularnijih heurističkih pristupa procjeni broja potrebnih komponenti glave je vlada zla trska(engl. Model slomljenog štapa). Skup normalizacija za jedan zbir svih brojeva (, ) jednak je razlici između tačaka trske ulamkív jedne dožine, izlomljena tačka je prekinuta (tačke vibriraju nezavisno i jednake su tačkama trske ). Hajde () - Dovzhini otrimanih shmatkív trske, numerirane u redoslijedu promjene dozhini:. Nije važno znati matematičku prefinjenost:

Prema pravilu zlog štapa, vektor th snage (po redoslijedu promjene brojeva snaga) uzima se sa liste komponenti glave, što znači

Rice. kundak za 5-struki vipad je bio zašiljen:

=(1+1/2+1/3+1/4+1/5)/5; =(1/2+1/3+1/4+1/5)/5; =(1/3+1/4+1/5)/5; =(1/4+1/5)/5; =(1/5)/5.

Odabrano za zadnjicu

=0.5; =0.3; =0.1; =0.06; =0.04.

Prema pravilu zle trske, u ovoj guzi se nalaze 2 komponente smuta:

Prema procjenama koristuvača, vladavina zle trske može imati tendenciju da potcijeni broj značajnih glavnih komponenti.

Racioniranje

Racioniranje nakon redukcije na glavne komponente

Poslije projektovanje na prvim glavnim komponentama i ručno normalizovanje na jednu (selektivnu) disperziju duž osi. Disperzija zraka i komponente glave je skuplja), pa je za normalizaciju potrebno odgovarajuću koordinatu podijeliti sa . Ova transformacija nije ortogonalna i ne uzima skalarnu kreaciju. Matrica kovarijanse projekcije podataka postaje jednostruka nakon normalizacije, projekcije o tome da li dvije ortogonalne prave postaju nezavisne veličine ili ne i da li ortonormalna baza postaje osnova glavnih komponenti (pogađajući da normalizacija mijenja ortogonalnost vektor). Vídobrazhennya iz prostranstva izlaznih podataka o prvim komponentama glave i istovremeno s normalizacijom daje matricu

Sama transformacija se najčešće naziva Karhunen-Loev transformacija. Ovdje su vektori, a gornji indeks označava transpoziciju.

Racioniranje do proračuna glavnih komponenti

Napred: ni traga pogrešne normalizacije, koja će se izvršiti nakon transformacije na glavne komponente, uz normalizaciju i "nerviranje" kada redistribucija podataka, koji se provodi prije proračuna glavnih komponenti. Prednja normalizacija je neophodna za zaokružen izbor metrike, u kojoj se može izračunati najbolja aproksimacija podataka, ili treba izračunati najravniju liniju najveće distribucije (koja je ekvivalentna). Na primjer, ako se daju trivimerskim vektorima od “metara, litara i kilograma”, tada će s varijacijom standardne euklidske razlike od 1 metar duž prve koordinate raditi isti doprinos, da razlika od 1 litre na drugi, ili 1 kg na treći. Nazovite sisteme od 1, za koje su prikazani vizuelni podaci, nedovoljno precizno odražavaju naše izjave o prirodnim skalama duž osa, i izvršite „razoružavanje“: koordinata kože je podeljena na sing skalu, koja je označena kao podaci, brojevi njihove obrade i procesa vimiryuvannya i prikupljanja podataka.

Postoje tri različita standardna pristupa takvoj standardizaciji: pojedinačna varijansa duž osa (skala duž osa je jednaka srednjem kvadratnom poboljšanju - nakon druge transformacije matrice kovarijanse se skaliraju sa matricom koeficijenata korelacije), na jednaka tačnosti svijeta(Skala duž ose proporcionalne tačnosti date vrednosti) i dalje jednaki vimogi na zadatku (skala duž ose je određena potrebnom tačnošću prognoze date vrednosti, ili dozvoljenim događajima - jednaka tolerancija). Uvod u vibilizaciju zadataka u vibraciji zadataka, a radio sam na sticanju Donesa (misao Yakschko Dia Dia Dia Dani nije završena, a zatim nerazíonialno Vyibrates Normuvnaya striktno na disperziju identiteta, Navischko Tsevaê Vídpoví Zm_sta Delivani, Oskilki Tsey otrimannya novu porciju, mudro odabrati razumnu skalu, grubo procjenjujući standardni unos, i ne mijenjajte ga dalje).

Normalizacija naprijed na pojedinačnu disperziju duž osa ruši se okretanjem koordinatnog sistema, jer su ose komponente glave, a normalizacija pri ponovnom izvođenju podataka ne zamjenjuje normalizaciju nakon redukcije na komponente glave.

Mehanička analogija i metoda komponenti glave za rangiranje podataka

Da bi se skin vektor podataka uskladio s jednom masom, tada se empirijska matrica kovarijanse mijenja sa tenzorom inercije sistema masa tačaka (podijelimo sa istom masom), a problem komponenti glave - iz zadataka smanjenja tenzora inercije na osi glave. Moguće je osvojiti dodatnu slobodu u odabiru vrijednosti mase zbog važnosti tačaka podataka ili superiornosti njihovih vrijednosti (velikim masama se pripisuju važne počasti ili počasti od većeg superiornog džerela). Yakscho vektor podataka nade masa, tada se vrši zamjena empirijske matrice kovarijanse

Sve dalje operacije od redukcije do glavnih komponenti vibriraju se na isti način, kao u glavnoj verziji metode: prosuđujemo ortonormalizaciju baze snage, uredno je moguća promjena vrijednosti snage, procjenjujemo srednju vrijednost vrijednost aproksimacije normalizacije brojeva datih zbirom prvih komponenti,

Dat je veći vrući način pozivanja maksimiziranje vrijednosti zbira uparenih pogleda između projekcija. Za skin dve tačke podataka, uvodi se vaga; to . Zamjena empirijske matrice kovarijanse je pobjednička

Kada je simetrična matrica pozitivno dodijeljena, skale su pozitivnog kvadratnog oblika:

Dali smo ortonormalizaciju baze snage, poredajući je nakon pada vrijednosti snage, procjenjujući prosječno oprost aproksimacije podataka po prvim komponentama, itd. - potpuno na isti način, kao u glavnom algoritmu.

Čiji put da stagnira za vidljivost klasa: za različite klase, vaga vaga se bira više, niže za bodove iste klase. Na taj način, u projekciji na redove, glavne komponente različite klase "rozsuvaju se" u većem obimu.

Više zastosuvannya - snižavanje infuzije odličnih trikova(Outlayer, eng. Outlier ); Na ovaj način je opisana modifikacija metode komponente glave, koja je robusnija, manje klasična.

Posebna terminologija

Statistika za metodu komponente glave ima niz posebnih pojmova.

Data Matrix; kožni red - vektor prekvalifikacija danih ( centriranje i pravo racioniranje), broj redova - (broj vektora podataka), broj kolona - (proširivanje podataka);

Navantagena matrica(Utovari); kozhen stovpets - vektor komponenti glave, broj redova - (proširenje podataka o prostoru), broj stovpta - (broj vektora komponenti glave, odabrani dizajn);

Rachunkiv matrica(rezultati); red kože - projekcija vektora podataka na komponentu glave; broj redova - (broj vektora u podacima), broj kolona - (broj vektora u glavnim komponentama, odabranih za dizajn);

Matrix Z-rachunkiv(Z rezultati); skin row - projekcija vektora podataka na glavne komponente, normalizovana na jednu vibracijsku varijansu; broj redova - (broj vektora u podacima), broj kolona - (broj vektora u glavnim komponentama, odabranih za dizajn);

pardon matrix(inače višak) (Greške ili ostaci) .

osnovna formula:

Mezhí zastosuvannya i zamezhennya effektivnosti metoda

Metoda glavne komponente Šira tvrdnja o onima koji stagniraju samo na normalno raspoređenim podacima (inače, za ruže koje su blizu normale) nije tako: K. Pearsonova standardna formula bi trebala biti aproksimacije posljednje umnožavanje podataka i sljedećeg dana stvoriti hipotezu o njihovoj statističkoj generaciji, a da se već o tome ne čini.

Prote metoda, koja uvijek efikasno smanjuje rozmírníst pri postavljanju kamenca za preciznost. Prave ravni ne daju uvijek dobru aproksimaciju. Na primjer, podaci mogu s dobrom preciznošću pratiti bez obzira da li je riječ o krivulji, a ta kriva se može uredno sortirati u prostranstvu podataka. U ovom slučaju, metoda komponenti glave za prihvatljivu tačnost treba biti veća od broja komponenti (zamjena jedne), inače neće dati smanjenje veličine s prihvatljivom preciznošću. Za rad sa takvim „zakrivljenim“ komponentama glave pronađena je metoda razlika glava i različite verzije metode nelinearne komponente glave. Više nepreciznosti može dovesti do date topologije savijanja. Za njihove aproksimacije pronašli smo i različite metode, na primjer, Kohonenove mape, koje su samoorganizirajuće, neuronske plinove ili topološke gramatike. Ako su dati podaci statistički generirani iz korijenske komponente, koja izgleda kao normalna, onda da se aproksimira korijenska komponenta, da se aproksimira korijenska komponenta nezavisne komponente, iako više nije ortogonalno na spoljašnju skalarnu kreaciju Nareštija, za izotropni rozpodíl (navít normal) zamenu elípsoí̈da rozsiyuvannya preuzima lopta, i nemoguće je promeniti rozmirníst metodama aproksimacije.

Primijeni victoria

Vizualizacija podataka

Vizualizacija podataka – predstavljanje u originalnom obliku podataka za eksperimentiranje i rezultata teorijskih istraživanja.

Prvi izbor u vizualizaciji množitelja podataka je ortogonalna projekcija na ravan prve dvije komponente glave (ili 3-dimenzionalni prostor prve tri komponente glave). Područje dizajna je, u stvari, ravan dvodimenzionalni "ekran", naboran na način da daje "sliku" podataka sa najsitnijim kreacijama. Takva projekcija će biti optimalna (srednje ortogonalne projekcije na različitim dvodimenzionalnim ekranima) za tri projekcije:

Minimalni zbir kvadrata između podataka ukazuje na projekcije na području prvih komponenti glave, tako da ekran proširenja bude što bliži u smislu projekcije sumornim tačkama.
Minimalna količina kreiranja kvadrata između kvadrata je par tačaka iz mraka podataka nakon dizajniranja tačke na ravni.
Minimalna količina kreiranja kvadrata je između tačaka podataka i “centra gravitacije”.

Vizualizacija podataka je jedan od najčešće korištenih dodataka metodi komponenti glave i nelinearnih razmatranja.

Kompresija slike i videa

Da bi se promijenila prostranost vanjskog prostora piksela, sat kodiranja slike i videa će se reproducirati linearnom transformacijom blokova piksela. Koraci kvantizacije koeficijenata izostavljanja i kodiranja bez otpada omogućavaju izostavljanje značajnih koeficijenata kompresije. Alternativna transformacija PCA kao linearna transformacija je optimalna za određene vrste podataka u smislu veličine podataka uzetih iz istih podataka u isto vrijeme. Trenutno se ova metoda ne promovira aktivno, uglavnom zbog velike računske složenosti. Tako se stiskanjem ovih podataka može doći, pokazujući preostale koeficijente transformacije.

Suzbijanje šuma na slikama

Hemometrija

Metoda komponente glave je jedna od glavnih metoda u kemometriji. Hemometrija ). Omogućava vam da podijelite matricu izlaznih podataka X na dva dijela: “zamjena” i “šum”. Za naybílsh popularne viznachennyam "Chemometrics - tse hímíchna distsiplína scho zastosovuê matematichní, statistichní da je INSHI metoda zasnovaní na formalníy logítsí za pobudovi abo vídboru optimalno metodív vimíryuvannya i takozhe za planív ot eksperimentízívínía da planív ot eksperimentízíva".

Psihodijagnostika

analiza podataka (opis rezultata eksperimenta na nekim drugim rezultatima, kao u slučaju gledanja nizova numeričkih podataka);
opis društvenih pojava (pozitivni modeli fenomena, zokrema i matematički modeli).

U političkim naukama, metod komponenti glave je glavni alat projekta „Politički atlas svijeta“ za linearnu i nelinearnu analizu rejtinga u 192 zemlje svijeta za pet posebnih integriranih integralnih indeksa (jednakosti života, međunarodni prihod, prijetnje, ovlasti). Za kartografiju rezultata ove analize razvijen je poseban GIS (Geoinformacioni sistem), koji je znak geografskog prostranstva. Takođe, napravljena je mapa podataka političkog atlasa, koja je osnova dvosvjetskih glavnih razlika u petosvjetskom prostranstvu zemlje. Identitet podatkovnih kartica u obliku geografske karte u tome što na geografskoj karti upute prikazuju objekte koji mogu imati slične geografske koordinate, dok na karti podataka upute prikazuju objekte (rubove) sa sličnim oznakama (indeksima) .

U ovom članku želim govoriti o njima, kao najpraktičnijoj metodi analize glavnih komponenti (PCA - principal component analysis) sa stanovišta uvida, koja stoji iza matematičkog aparata. Naib_sh je jednostavan, ali je prijavljen.

Matematika je već uzagala tu vitonchen nauku, ali u isto vrijeme ljepota se hovaetsya iza gomile kuglica apstrakcije. Najljepse pokazi svoju ljepotu na prostim guzicama, kao, neka bude, mozes da je zavrtis, smrskas i dotaknes, do onog sto si u krivu sve je lakse vidjeti, lakse je pogledati na prvi pogled , to je razumljivije i razotkrivenije.

U analizi podataka, kao i u svakoj drugoj analizi, za sat vremena nećemo moći napraviti jednostavan model koji što preciznije opisuje stvarnu situaciju. Često se dešava tako da znaci budu jako deponovani, jedna vrsta jednog od tih jednosatnih prisustva je transcendentalna.

Na primjer, količina goriva kod nas se mjeri u litrama na 100 km, a u Sjedinjenim Državama u miljama po galonu. Na prvi pogled, veličina razlike, ali u stvari smrad leže jedan za drugim. Milja je 1600 km, a galon je 3,8 litara. Jedan znak je strogo deponovan u drugom pravcu, poznavajući jedno, poznavajući drugo.

Ali češće je toliko bogat da znakovi laganja jedan po jedan nisu tako strogi i (važno!) nisu toliko očigledni. Zapremina motora u cjelini pozitivno doprinosi vožnji do 100 km / godišnje, ali ne pali. A može se pokazati i da zbog poboljšanja faktora koji nisu vidljivi na prvi pogled (poput povećanja jačine vatre, upotrebe lakih materijala i drugih trenutnih dostignuća), zvuk automobila nije jak. , ali se također prelijeva u jogu.

Znajući ustajalost te snage, možemo koristiti znak papaline kroz jedan, kupiti još ljutnje, pa ga pomjeriti i vježbati već s većim jednostavnim modelom. Prije svega, sačuvajte sebi informacije, bolje za sve, ne odustajte, ali u najmanju ruku pomozite nam da koristimo PCA metodu.

Vyslovlyuyuchis suvoro, tsey metoda približno n-dimenzija khmara štitnik za elípsoí̈da (tezh n-virírnogo), pívosí kakogo ja će biti buduće glavne komponente. Í za projekcije takvih osa (smanjene dimenzionalnosti) prikuplja se najviše informacija.

Krok 1. Priprema podataka

Ovdje, radi jednostavnosti, neću uzimati pravi primarni skup podataka za desetke znakova i stotine upozorenja, već ću proširiti svoju najjednostavniju igračku. 2 znaka i 10 upozorenja biće dovoljno da opišete šta, a najvažnije je pogledati algoritam.

Proizvodimo vibrator:

X = np.arange(1,11) y = 2 * x + np.random.randn(10)*2 X = np.vstack((x,y)) print X OUT: [[ 1. 2. 3. 4.5.6.7.8.9.10.] [ 2.73446908 4.35122722 7.21132988 11.24872601 9.58103444 12.09865079 129 3.9

U ovom izboru imamo dva znaka, koji su u snažnoj korelaciji jedan sa jednim. Uz pomoć PCA algoritma lako možemo znati kombinaciju znakova i cijenu dijela informacije i jednim novim utvrditi prekršaj znakova. Pa hajde da se razbacimo!

Za statistiku klipa trohi. Nagađajući da postoje momenti u opisu vipadične veličine. Trebamo matyuki. ochíkuvannya tu varijaciju. Možete hrabro reći kakva prostirka. ochíkuvannya - tse "centar gravitacije" magnituda, a varijansa - tse í̈í "razmíri". Otprilike kazhuchi, matyuki. skaliranje ukazuje na poziciju vertikalne vrijednosti, a varijansa - í̈í razmír.

Proces projektovanja na vektor ni na koji način ne doprinosi prosječnim vrijednostima, tako da kako bi se smanjio gubitak informacija, naš vektor može proći kroz centar naše selekcije. Nema ništa strašno za to, pošto centriramo naš izbor - linearno destruktivan, tako da je prosječna vrijednost znaka dostigla 0.
Operator, koji vraća vrijednost vektoru prosječnih vrijednosti - vin je potreban za ažuriranje odabira vanjskog volumena.

Xcentered = (X - x.mean(), X - y.mean()) m = (x.mean(), y.mean()) print Xcentered print "Mean vector: ", m OUT: (array([ -4.5, -1,5, -0,5, 0,5, 1,5, 2,5, 3,5, 4,5]), niz ([- 8.44644233, -8.93314426, -2.56723136, 1.01013491, 7.00558491, 0.58413491, 4.21440647, 9.59501658])) Srednji vektor : (5.5, 10.314393916)

Varijanca je da padne u red veličine vrijednosti pada, tj. osetljiv na razmer. Stoga, kao znak usamljenosti u svijetu, snažno su uznemireni vlastitim naredbama, preporučuje se njihovo standardiziranje. U našem slučaju, značenja nisu mnogo promijenjena u nalozima, tako da radi jednostavnosti, neću mijenjati ovu operaciju.

Krok 2. Matrica kovarijanse

U vipadu sa bogatom vipad vrednošću (vipad vektor), pozicija centra će biti ista. ochíkuvannyami íí̈ projekcije na osi. A osa za opis njenih oblika je već nedovoljna samo njena varijansa duž osa. Pogledajte grafikone, u tri fluktuacije istih vrijednosti, očekivanje i varijansa, kao i projekcije na osi, su iste!

Za opisivanje oblika vipad vektora potrebna je matrica.

Tse matrix, yak maê (i,j)-Element - znak korelacije (X i, X j). Pogodimo formulu kovarijanse:

Lako je našem umu reći da je E(X i) = E(X j) = 0:

S poštovanjem, ako je X i = X j:

I to vrijedi za sve vipadkovyh vrijednosti.

Ovim redom, naša matrica duž dijagonale će imati predznak varijanse (jer je i = j), a u centru matrice - kovarijanse dva para predznaka. A zbog simetrije kovarijanse, matrica će također biti simetrična.

poštovanje: Matrica kovarijanse je zagalnennya varijansa u različitim bogatim varijabilnim vrijednostima - won yak i definira oblik (rozkid) vypadkovy vrijednosti, yak í varijansu.

Prije svega, varijansa vrijednosti jednodimenzionalne varijable je matrica 1x1, u kojoj postoji jedan član zadataka po formuli Cov(X,X) = Var(X).

Zatim, formirajmo matricu kovarijanse Σ za naš izbor. Za koju varijansu X i í X j, kao i njihovu kovarijansu. Možete ubrzati napisanom formulom, ali ako smo se navikli na Python, onda je grijeh ne ubrzati funkciju numpy.cov(X). Ona prihvata kao ulaz listu svih znakova promenljive veličine i rotira matricu kovarijanse i de X - n-univerzalni vektor varijabli (n-broj redova). Funkcija vídmínno í dkhodit í za proširenje nepristrasne varijanse, í za kovarijansu dvije veličine, í za savijanje matrice kovarijanse.
(Pretpostavljam da je u Pythonu matrica niz-red nizova-redova.)

Covmat = np.cov(Xcentered) print covmat, "n" ispis "Varijanca X:", np.cov(Xcentered) print "Varijanca Y: ", np.cov(Xcentered) print "Kovarijansa X i Y: " , np.cov(Xcentered) OUT: [[ 9.16666667 17.93002811] [ 17.93002811 37.26438587]] Varijanca X: 9.16666666667 Varijanca Y:3

Krok 3

Ok, uzeli smo matricu koja opisuje oblik naše veličine kapi, tako da je možemo rastaviti za x i y (to su X 1 i X 2), kao i za ravan oblik na ravni. Sada moramo znati takav vektor (samo jedan tip), dok maksimiziramo ekspanziju (disperziju) projekcije naše selekcije na novi.

poštovanje: Glavna varijanta realnog svijeta je dostupna matrica, a dva koncepta su ekvivalentna. Kada se projektuje na vektor, varijansa projekcije je maksimizirana, kada se projektuje na ogromno prostranstvo velikih naloga, maksimizira se cijela matrica kovarijanse.

Također, uzmite jedan vektor na neku projekciju našeg vektora projekcije X. Zatim projekciju na novu putanju v T X. Varijanca projekcije na vektor će biti slična Var(v T X). U globalnom pogledu, u vektorskom obliku (za centriranje vrijednosti), varijansa se izražava na sljedeći način:

Očigledno, disperzija projekcije:

Lako je zapamtiti da je varijansa maksimizirana iznad maksimalne vrijednosti v T Σv. Ovdje će nam pomoći Rayleighova postavka. Ne ulazeći previše duboko u matematiku, samo ću reći da Rayleighovi nacrti mogu napraviti poseban slučaj za matrice kovarijanse:

Ostatak formule može biti poznat za temu postavljanja matrice na val vektora i tu vrijednost. x je proizvoljan vektor i proizvoljna vrijednost. Broj vlastitih vektora i ta vrijednost jednaki su veličini matrice (i vrijednosti se mogu ponoviti).

Prije govora, u engleskom jeziku, nazivaju se značenja tog vektora sopstvene vrijednostiі sopstveni vektori očigledno.
Meni zdaêtsya, tse zvuči bogato lijepo (i stil), spusti naše pojmove.

Na ovaj način se direktno maksimalna varijansa projekcije uvijek mijenja sa svojstvenim vektorom, koji može imati maksimalnu vrijednost, što je vrijednije za varijansu.

To vrijedi i za projekcije na veći broj varijabli - varijansa (matrica kovarijanse) projekcije na prostor m svijeta bit će maksimalna za direktne vlastite vektore, koji mogu imati maksimalnu vrijednost snage.

Raznolikost našeg izbora je dobra za dvoje i broj sopstvenih vektora u njoj je evidentan 2. Znamo ih.

Biblioteka numpy implementirala je funkciju numpy.linalg.eig(X) gdje je X kvadratna matrica. Okrećete 2 niza - niz svojstvenih vrijednosti i niz svojstvenih vektora (vektora). Í vektori normalizacije - í̈hnya dozhina dorívnyuê 1. Upravo oni koji su potrebni. Qi 2 vektori postavljaju novu osnovu za selekciju, tako da se njegova osa zasniva na principima aproksimirajuće elipse naše selekcije.

Na ovom grafikonu smo naš izbor aproksimirali elipsom poluprečnika 2 sigma (zato je 95% svih upozorenja krivo za osvetu - šta možemo ovdje i plakat). Invertirao sam veći vektor (funkcija eig(X) ga je usmjerila u obrnutom smjeru) - važno nam je da ga usmjerimo, a ne orijentacija vektora.

Krok 4. Smanjeni volumen (projekcija)

Najveći vektor može biti pravolinijski, sličan regresijskoj liniji i projektovan na novu našu selekciju i uvodnu informaciju, izvedenu iz zbira viška članova regresije (samo sada euklidski, a ne delta u Y). Ponekad je prisustvo znakova između znakova već jako, tako da će gubitak informacija biti minimalan. "Cijena" projekcije - disperzija iza manjeg svojstvenog vektora - kao što se može vidjeti iz prednjeg grafikona, već je mala.

poštovanje: dijagonalni elementi matrice kovarijanse pokazuju varijanse prema primarnoj bazi, a one njene vrijednosti snage - prema novoj (po glavnim komponentama).

Često je potrebno procijeniti količinu potrošenih (i sačuvanih) informacija. Najbolji način da saznate je na stotine. Uzimamo varijansu duž osi kože i dijelimo s ukupnim zbirom varijansi duž osi (to jest, zbirom svih brojeva stepena dostupne matrice).
Dakle, naš veći vektor opisuje 45,994/46,431*100% = 99,06%, a čini se da je manji oko 0,94%. Uvođenjem manjeg vektora i projektovanjem podataka za veći, trošimo manje od 1% informacija! Vidminny rezultat!

poštovanje: Zaista, zdebíshogo, kao ukupan unos informacija da postane više od 10-20%, možete mirno smanjiti rozmirníst.

Za izvođenje projekcije, kako je ranije planirano na croc 3, potrebno je izvršiti operaciju v T X (vektor je zbog buti dozhini 1). Inače, pošto nemamo jedan vektor, već hiperravninu, onda umjesto vektora v T uzimamo matricu baznih vektora V T . Oduzeti vektor (ili matrica) će biti niz projekcija.

V = (-vecs, -vecs) Xnew = dot(v, Xcentered)

tačka (X,Y)- članski tvir (ovako množimo vektore i matrice u Pythonu)

Nije važno zapamtiti koje je značenje projekcija na slikama na prednjem grafikonu.

Krok 5

Iz projekcije, ručno razraditi, biti na bazi hipoteze i proširiti model. Ne zaboravite da oduzmete glavne komponente i matimut očigledne, razumne treće strane, sens. Ponekad, puše corisno, na primjer, vyyavlení wikidi, schob za razgovor, scho za čuvanje nad njima.

Tse duzhe je jednostavno. Imamo sve potrebne informacije, i same koordinate baznih vektora u vanjskoj bazi (vektori na kojima su dizajnirani) i vektor prosjeka (za centriranje). Uzmimo, na primjer, maksimalnu vrijednost: 10.596… Za koje množimo iogo desno sa vektorom transpozicije i dodajemo vektorom srednjih, ili u globalnom pogledu za sve viboke: X T v T +m

Xrestored = dot(Xnew,v) + m print "Vraćeno: ", Xrestored print "Original: ", X[:,9] VAN: Vraćeno: [ 10.13864361 19.84190935] Original: [ 10. 19.9094

Maloprodaja je mala, ali ima više. Adzhe vtrachena informacija nije potvrđena. Prote, jer je jednostavnost važna za tačnost, dokazano je da je vrijednost približna danu.

Zamjenik polaganja - ponovna provjera algoritma

Kasnije je svijet uzeo algoritam, pokazao kako funkcionira na guzi igrački, sada više nije dovoljno da se yoga uskladi sa PCA, implementiraćemo ga u sklearnu - čak i ako ćemo se samoispravljati.

sklearn.decomposition import PCA pca = PCA(n_components = 1) XPCAreduced = pca.fit_transform(transpose(X))

Parametar n_components Navodim broj vimiryuvana, kako se projekcija izvodi, tako da želimo da svedemo naš skup podataka na nivo vimiryuvana. Drugim riječima - broj n vlastitih vektora sa najvećim mogućim brojevima. Razmotrimo još jednom rezultat smanjenja volumena:

Ispis "Naš snižen X: N", XNew Print "SKLERN Smanjeni X: N", XPcareDuct: Naš smanjeni X: [-9.56404106 -9482223858421262 0.39338597333492 7.39307974 5.3212742 10.59672425] SKLEDERN Smanjena X: [[-9.56404106 ] [ -9,02021625] [ -5,52974822] [ -2,96481262] [ 0,68933859] [ 0,74406645] [ 2,33433492] [ 7,39307954] [7]

Rotirali smo rezultat kao matricu vektorskih kolona (najkanoničkiji pogled sa stanovišta linearne algebre), PCA u sklearnu je rotirao vertikalni niz.

U principu cijena nije kritična, samo varto označava da je u linearnoj algebri kanonsko pisati matrice kroz vektor-stovptove, a u analizi podataka (onih drugih aspekata DB područja) upozorenja (transakcije, zapisi) su evidentirano u redovima.

Preokretanje tih drugih parametara modela - funkcija može imati niz atributa koji vam omogućavaju pristup srednjim varijablama:

Srednji vektor: podlo_
- Vektor projekcije (matrica): komponente_
- Disperzija osi projekcije (vibracije): objašnjeno_varijance_
- dio informacija (dio globalne disperzije): objašnjeno_omjer_varijance_

poštovanje: objašnjeno_varijance_ show vibirkova varijansu, kao i funkciju cov() za generiranje matrice kovarijanse neoprostivi disperzija!

Vrijednosti uzimamo jednako sa vrijednostima funkcije biblioteke.

Ispiši "Srednji vektor: ", pca.mean_, m ispiši "Projekcija: ", pca.components_, v ispiši "Objašnjeni omjer varijance: ", pca.explained_variance_ratio_, l/sum(l) OUT: Srednja vrijednost vektora: [ 5,5 10,31439 ( 5.5, 10.314393916) Projection: [[0.43774316 0.89910006]] (0.43774316434772387, 0.89910006232167594) Objašnjena varijanca: [41.39455058] 45.9939450918 Objašnjeni omjer varijacije: [0.99058588] 0.99058588818

Jedina razlika je u varijansama, ali kao što smo već pretpostavili, mi pobjedonosna funkcija cov(), poput pobjedničke nepristrasne varijanse, onda se atribut objašnjeno_variance_ pretvara u vibrkov. Smrad vídríznyayutsya manje tim, scho persha za otrimannya mat. podijeliti rezultat sa (n-1), a prijatelja sa n. Lako je pogrešno protumačiti da je 45,99 ∙ (10 - 1) / 10 = 41,39.

Sve ostale vrijednosti variraju, što znači da su naši algoritmi ekvivalentni. Poštujem da atributi bibliotečkog algoritma mogu imati manju preciznost, krhotine vina, singl-song, optimizacije za swidcode, ili jednostavno zaokružuju vrijednosti radi jasnoće (inače imam neke greške).

poštovanje: Metoda biblioteke se automatski projektuje na osu koja maksimizira varijansu. Ne budi racionalan. Na primjer, doveo sam ovu malu bebu netačno umanjujući do tačke u kojoj klasifikacija postaje nemoguća. Zaštitna projekcija na manji vektor može uspješno promijeniti veličinu i sačuvati klasifikator.

Kasnije smo se osvrnuli na principe rada PCA algoritma i njegovu implementaciju u sklearnu. Siguran sam da je ovaj članak bio jasan onima koji tek počinju da se upoznaju sa analizom podataka, a i barem malo informativan za one koji dobro poznaju algoritam. Intuitivni izgled je prikladniji za razumijevanje načina prakticiranja metode, a razumijevanje je još važnije za pravilno prilagođavanje odabranog modela. Za postovanje!

PS: Prohannya nemojte lajati autora zbog mogućih netačnosti. I sam autor je u procesu učenja o analizi podataka i želi da pomogne na isti način, jer je u procesu savladavanja vrijednosti čudesnog znanja! Ale, konstruktivna kritika i ríznomanítny dosvíd u vitayutsya!