Faktorska analiza. Metoda glavne komponente. Metoda glavne komponente Merila za izbor glavnih komponent

Metoda komponente glave je metoda, ki prevede veliko število sorodnih (lehih, ukoreninjenih) spremenljivk v manjše število neodvisnih spremenljivk, veliko število spremenljivk pa pogosto otežuje analizo in interpretacijo informacij. Strogo kazhuchi, tsey metoda ni upoštevana pred faktorsko analizo, čeprav je lahko bogata z njo. Natančneje, v prvi vrsti tisti, ki med postopki štetja takoj odvzamejo vse sestavne dele smuti in njihovo število več kot polovico stroškov zadnjih sprememb; na drugačen način se postulira možnost nove porazdelitve razpršenosti vseh zunanjih sprememb, tj. її zunanja razlaga skozi latentne faktorje (poudarjeni znaki).

Na primer, očitno smo izvedli raziskavo, v kateri smo intelekt študentov merili z Wechslerjevim testom, Eysenckovim testom, Ravenovim testom ter uspešnost iz socialne, kognitivne in globalne psihologije. Kolikor je mogoče, da so kazalniki različnih testov za inteligenco med seboj povezani, tako da smrdi vimiryuyut eno značilnost nižjega - yogo intelektualno dobro počutje, čeprav je drugačno. Yakscho zminnyh pri doslіzhenny prebogat ( x 1 , x 2 , …, x str ) , Deyakі їх vzaєmopov'yazanі, nato pa v zadnjem vinikaє bazhannya spremenite zlaganje podatkov, skrajšajte število sprememb. Za kar in služijo metodi komponent glave, ki ustvarja papalino novih sprememb y 1 , y 2 , …, y str, koža z neko linearno kombinacijo sprememb storža x 1 , x 2 , …, x str :

y 1 =a 11 x 1 +a 12 x 2 +…+a 1p x p

y 2 \u003d a 21 x 1 + a 22 x 2 + ... + a 2p x p

… (1)

y p =a p1 x 1 +a p2 x 2 +…+a pp x p

Spremembe y 1 , y 2 , …, y str chinniki imenujejo komponente glave. Na ta način je faktor statistični dokaz, ki je vzrok za posebne transformacije korelacijske matrike. . Postopek faktorizacije se imenuje faktorizacija matrik. Zaradi faktorizacije iz korelacijske matrike se lahko število faktorjev spreminja tudi do števila, ki je enako številu izhodnih sprememb. Vendar pa dejavniki, ki se pojavijo v rezultatu faktorizacije, praviloma niso enaki svojim vrednostim.

koeficient a ij, ki pomenijo novo spremembo, so izbrane tako, da nove spremembe (komponente glave, faktorji) opisujejo največjo količino variabilnosti podatkov in se med seboj ne prepirajo. Pogosto jasno pokažejo koeficiente a ij na način, da je bil smrad korelacijski koeficient med zunanjo spremembo in novo spremembo (faktorjem). Tse doseže večkratnike a ij standardni odmik faktorja. Za večino statističnih paketov deluje tako (tudi za program STATISTICA). koeficienta ij Zvok smrdi se postreže ob videzu tabel, pokvarjen roztashovuyutsya na videz stolpcev, in sprememba na videz vrstic:

Takšna tabela se imenuje tabela (matrika) faktorskih preferenc. Številke kažejo na nіy, є s koeficienti a ij. Število 0,86 pomeni, da je korelacija med prvim faktorjem in vrednostjo Wechslerjevega testa 0,86. Višji kot faktor ni naklonjen v absolutnem smislu, močnejša je povezava med spremembo in faktorjem.

Analiza glavnih komponent (PCA) poenostavlja zlaganje visokodimenzionalnih podatkov ter ohranja trende in vzorce. Vіn rob tse, pretvarjanje podatkov v manjše, kot je povzetek funkcij. Takšni podatki so na različnih področjih znanosti in tehnologije še širši in jih krivijo, če je za kožno zrazko nekaj znakov, na primer tako izražanje bogatih pogledov. Ta vrsta poklona predstavlja težave, ki jih povzroča pogostost pomilostitev z večkratnimi popravki poklona.

Metoda je podobna združevanju v skupine - poznati vzorce, ne da bi jih pošiljali in analizirali, pereveryayuchi, chi zrazki iz različnih skupin študij, smrad pa lahko istotnі vіdmіnnostі. Kot vse statistične metode je jogo mogoče napačno diagnosticirati. Skaliranje sprememb je mogoče v analizi pripeljati do različnih rezultatov, pri čemer je pomembno, da ni bilo popravljeno glede na prejšnjo vrednost podatkov.

Namen analize komponent

Glavna meta metoda je razkriti to spremembo v naboru podatkov, identificirati nove pomembne osnovne spremembe. V ta namen je treba uporabiti posebna orodja, na primer izbrati bogate podatke v matriki podatkov TableOfReal, v istih vrsticah, da se ujemajo s spremembami in spremembami. Zato se TableOfReal interpretira kot vektor in podatkovno številoOfRows, preoblečeni vektor takšnega števila stolpcev elementov.

Tradicionalno metoda glavne komponente temelji na kovariančni matriki ali korelacijski matriki, ki ju je mogoče izračunati iz podatkovne matrike. Kovariacijska matrika se lahko uporablja za spreminjanje vsote kvadratov in navzkrižnih ustvarjanj. Korelacijska matrika je podobna kovariančni matriki, vendar se v prvi vrsti spreminja, zato so stolpci standardizirani. Včasih se zgodi, da se podatki standardizirajo, saj se variance nekaterih zelo razlikujejo. Če želite analizirati podatke, s seznama objektov izberite podatkovno matriko TabelOfReal in pritisnite za nadaljevanje.

Tse prizvede pred pojavom novega predmeta na seznamu predmetov za metodo glavnih komponent. Zdaj lahko dodate graf ukrivljenih vrednosti, tako da lahko upoštevate pomembnost kože. In program lahko predlaga tudi diyu: odvzame del disperzije ali obrne enakost števila vrednosti moči in odvzame enakost. Oskіlki komponenti otrimani na način za reševanje specifičnih nalog optimizacije, smrad dejanj "brsteče" moči, na primer največja minlivost. Poleg tega obstaja nizka raven drugih moči, ki lahko zagotovijo faktorsko analizo:

disperzijo kože, v njenem delu celotne razpršenosti zunanjih sprememb, določajo vrednosti moči;
izračun ocene, ki ponazarja pomen komponente kože za uro previdnosti;
otrimannya navantage, kako opisati korelacijo med kožno komponento in kožno spremembo;
korelacija med zunanjimi spremembami, ustvarjena za dodatno p-komponento;
pri delu vikenda podatke lahko izvedemo v obliki p-komponent;
"rotacije" komponent, da bi pospešili njihovo interpretacijo.

Izberite število shranjevalnih točk

Obstajata dva načina za izbiro potrebnega števila komponent za shranjevanje. Žalljive metode temeljijo na pomenih vіdnosinah mizh vlasnymi. Za koga je priporočljiva uporaba vrednosti urnika. Ker se točke na grafu lahko nagibajo k virіvnyuvatisya in blizu nič, jih je mogoče prezreti. Vmesno število komponent na številko, kot da spada v en sam del globalne disperzije. Na primer, da bi bili zadovoljni s 95% celotne disperzije - število komponent (VAF) je 0,95.

Glavne komponente se uporabljajo za oblikovanje bogate statistične analize metode glavnih komponent v podatkovnih vektorjih v množici javnih vektorjev. Ustvarite ga lahko na dva načina - neposredno iz TableOfReal, ne da bi vnaprej oblikovali objekt PCA, nato pa lahko prikažete konfiguracijo ali številke. Izberite objekt in TableOfReal hkrati in "Konfiguracija", na ta način je analiza mokro poliranih komponent zmagovita.

Kot izhodišče je prikazana s simetrično matriko, na primer kovarianca, najprej se skrajša, da se oblikuje, nato algoritem QL z implicitnimi napakami. Ker je točka prava točka in matrika podatkov, potem je nemogoče oblikovati matriko iz vsote kvadratov. Natomist, premaknite na številčno stabilnejši način in uredite razpored glede na singularne vrednosti. Ista matrika je dober vektor, kvadratni diagonalni elementi pa so dobre vrednosti.

Glavna komponenta ê je bila uporabljena za normalizacijo linearne kombinacije zunanjih napovedovalcev v naboru podatkov z uporabo metode glavne komponente za lutke. Na sliki sta PC1 in PC2 glavna komponenta. Dopustno, je nizek napovedovalec, jak X1, X2 ..., XP.

Glavno komponento lahko zapišemo kot: Z1 = 11X1 + 21X2 + 31X3 + .... + p1Xp

Z1 je prva komponenta glave;
p1 - vektor nečimrnosti, ki sešteje nečimrnost (1, 2.) prve glavne komponente.

Dobičkonosnost se zamenja z vsoto kvadrata 1. S tem je povezano, da lahko velika vrednost dobičkonosnosti vodi do velike disperzije. Vіn tudi neposredno označuje glavno komponento (Z1), za katero je podana največja razlika. Tse pripeljati do dejstva, da je črta v prostranstvu r-mer bližje n-zaščitu.

Bližina vymіryuєtsya z vikoristannyam srednji kvadratni evklidski val. X1..Xp so normalizirani napovedovalci. Normalizirani napovedovalci imajo lahko povprečno vrednost, ki je enaka nič, standardni odklon pa je enak eni. Prav tako je prva komponenta glave celotna kombinacija sprememb zunanjih zvočnikov, ki popravi največjo odstopanje v nizu podatkov. Vіn vyznaє neposredno največjo počasnost podatkov. Bolj ko je v prvi komponenti fiksiran minuskul, več informacij mu odvzame. Zhoden іnshiy ne more mati minlivіst več kot prvi osnovni.

Prvo glavno komponento prinesite v vrstico, ki je najbližja podatkom, in prinesite najmanjšo vsoto kvadrata med podatkovno točko in črto. Druga komponenta glave (Z2) je tudi linearna kombinacija zunanjih napovedovalcev, saj fiksira manjkajočo varianco v naboru podatkov in Z1 ni koreliran. Z drugimi besedami, korelacija med prvo in drugimi komponentami lahko doseže nič. Vіn je mogoče predstaviti kot: Z2 = 12X1 + 22X2 + 32X3 + .... + p2Xp.

Kot da bi bili nekorelirani, bi lahko bili neposredno ortogonalni.

Poleg tega se pri izračunu glavnih komponent začne postopek napovedovanja testnih podatkov za vse izbire. Postopek glavne komponente za čajnike je preprost.

Na primer, potrebno je delati na pretvorbi v testni niz, vključno s funkcijo centra in skaliranja v filmu R (ver.3.4.2) in joga knjižnici rvest. R - brezplačni jezikovni program za statistične izračune in grafike. Vіn buv rekonstrukcije iz leta 1992 na skalo za opravljanje statističnih nalog s strani koristuvačev. Celoten proces modeliranja po PCA.

Za implementacijo PCA v python uvozite podatke iz knjižnice sklearn. Interpretacija ostaja enaka kot R. Le nekaj podatkov, ki so predstavljeni za Python, je očiščena različica, v kateri se vrednosti vnesejo isti dan, kategorične spremembe pa se pretvorijo v številke. Postopek modeliranja ostane enak, kot je opisano v primeru za skorjo R.

Ideja metode glavne komponente je uporabna za tesno virazo za razvoj faktorske analize. Namesto da bi sešteli od 1 do p, zdaj seštejemo od 1 do m, prezremo preostale p-m člene v vsoti, odvzamemo tretji viraz. Možno je prepisati tse, kot je prikazano v verzu, ki je izbran za označevanje faktorske preferencne matrike L, ki daje rezidualni izraz matričnega zapisa. Praviloma se potrdi standardizirano vimirovanje, ki ga nadomesti matrika korelacijskega izbora R.

Tse tvorijo matriko L faktorja, ki prevladuje v faktorski analizi, ki jo spremlja transponirani L. Za oceno specifičnih variance, faktorski model za variančno-kovariančno matriko.

Zdaj imamo boljšo varianco matrike-kovarianca minus LL".

Xi je vektor varoval za i-ti subjekt.
S pomeni našo vibracijsko variančno-kovariančno matriko.

Enake vrednosti p moči za matriko qi variance kovariance, kot tudi enaki vektorji moči za matriko qi.

Veljavne vrednosti S:λ^1, λ^2, ..., λ^p.

Vektorji moči S: e^1, e^2, ..., e^n.

Analiza PCA je najtežja in najbolj priljubljena metoda multivariatne analize, ki omogoča dodajanje bogatih podatkovnih nizov iz velikega števila sprememb. Za to metodo se metoda komponent glave pogosto uporablja v bioinformatiki, marketingu, sociologiji in bogastvu drugih. XLSTAT ponuja popolno in prilagodljivo funkcijo za prikaz podatkov brez posrednika v Excelu in širi nekaj standardnih in razširjenih možnosti, da si lahko poglobljeno ogledate poročilo o podatkih v Excelu.

Program lahko zaženete na nedokončanih podatkovnih matrikah informacij, dodajate dodatne spremembe varovanju, filtrirate spremembe po različnih kriterijih za optimizacijo branja kartic. Poleg tega se lahko obrnete. Enostavno je ustvariti korelativni stolpec, graf je varuh kot standardni Excelovi grafikoni. Dovolj je, da prenesete podatke o rezultatih, da zmagajo v analizi.

XLSTAT uvaja številne metode obdelave podatkov, ki bodo uporabljene pri vhodnih podatkih pred izračunom glavne komponente:

Pearson, klasični PCA, ki samodejno standardizira podatke za izračun, da bi odstranil prenapihnjen priliv sprememb zaradi velikih navdihov v rezultatu.
Kovarianca, ki deluje pri nestandardnih odhodih.
Poligorično, za redne podatke.

Uporabite analizo danih podatkov

Metodo glavnih komponent si lahko ogledate z uporabo simetrične korelacijske kovariančne matrike. Tse pomeni, da je matrika lahko številčna in mati standardiziranih podatkov. Dovoljeno je, ê podatkovno klicanje je 300 (n) × 50 (p). Kjer je n število opozoril, p pa število napovedovalcev.

Oskіlki є velik p = 50, p(p-1)/2 je možen. V tem primeru bi bil običajen pristop izbrati podmnožitelj napovedovalca p (str<< 50), который фиксирует количество информации. Затем следует составление графика наблюдения в полученном низкоразмерном пространстве. Не следует забывать, что каждое измерение является линейной комбинацией р-функций.

Zadka za matriko iz dveh sprememb. Pri tej uporabi metode komponent glave se iz dveh izmeničnih (velike in diagonalne dožine) ustvari niz podatkov s številom podatkov o kosih Devis.

Komponente lahko na ta način narišemo na diagram porazdelitve.

Ta graf ponazarja idejo prve ali glavne komponente, ki zagotavlja optimalno podatkovno povezavo - na takem grafu je narisana še ena črta, ne ustvari nabora predvidenih vrednosti podatkovnih točk na črti z manj disperzija.

Prvo komponento lahko regresiji dodamo tudi s spremenjeno težo glave (RMA), v kateri se prenese, kot je x-, torej in y-sprememba imata lahko oprostitev ali nepomembnost, ali pa ni jasne razlike med glava in veter.

Metoda komponent glave v ekonometriki je analiza sprememb, kot so BNP, inflacija, devizni tečaji itd. Nato jih ovrednotimo glede na očitne poklone, uvrstitev glave in skupne časovne vrste. Vendar pa je ekonometrične modele mogoče prilagoditi za bogate programe, ne pa za makroekonomske. Ekonometrija torej pomeni ekonomski svet.

Razvoj statističnih metod do najboljše ekonometrije podatkov kaže na medsebojno povezanost gospodarskih sprememb. Preprost primer ekonometričnega modela. Pričakuje se, da bo večina ljudi okrevala linearno, odvisno od dohodka preživelih v preteklem mesecu. Isti model je zložljiv

Naloga ekonometrike je ovrednotiti ocene parametrov a in b. Število ocenjenih parametrov, saj so zmagovalni v enakovrednem modelu, omogoča napovedovanje prihodnje vrednosti življenja, saj leži v dohodku prejšnjega meseca. Pod uro za razvoj tovrstnih modelov je potrebno zavarovati nekaj trenutkov:

narava gibljivega procesa, ki ustvarja podatke;
rіven vedeti o tse;
razširitev sistema;
oblika analize;
obriy napoved;
matematično zlaganje sistema.

Vsi razlogi so pomembni, drobci v njih ležijo dzherela pardons, kot modeli. Poleg tega je za rešitev teh problemov potrebno oblikovati metodo napovedovanja. Lahko ga pripeljemo do linearnega modela, vendar je še vedno majhna izbira. Ta vrsta je ena najpomembnejših, za katero lahko ustvarite napovedno analizo.

Neparametrična statistika

Metoda komponent glave za neparametrične podatke bi morala biti pred metodami sveta, za katere so podatki razvrščeni od spodnje vrstice. Neparametrične statistične metode se pogosto uporabljajo v različnih vrstah študij. V praksi, če predpostavka o normalnosti ni presežena, lahko parametrične statistične metode vodijo do rezultatov, ki jih je mogoče uvesti v Oman. Navpaki, neparametrične metode za izogibanje manj suvori dodatek za rozpodіl za wimirami.

Smrad je zanesljiv, ne glede na rozpodіlіv varovala, ki ležijo v njihovih temeljih. Skozi to raziskavo je bilo za analizo različnih vrst eksperimentalnih načrtov razdeljenih veliko različnih vrst neparametričnih testov. Takšni projekti vključujejo oblikovanje iz enega izbora, oblikovanje iz dveh črt, oblikovanje iz naključnih blokov. Ninі neparametrični bayesivsky pіdkhіd іz zastosuvannym metoda osnovnymi komponentіv vykoristovuєtsya poenostavlja analizo zanesljivosti nadzemnih sistemov.

Sistem ograj je tipičen obsežni zložljivi sistem z medsebojnimi podsistemi, kot da bi nadomestil numerične komponente. Zanesljivost sistema se upošteva ob upoštevanju drugih obiskov tehnične službe, gospodarno upravljanje sredstev pa bo zahtevalo natančno oceno zanesljivosti na najnižji ravni. Zaščita podatkov resnične ї nadіnostі manj kot enake komponente zračnega sistema, ki je vedno na voljo v praksi, vendar o dokončanju. Rozpodil zhittєvih tsiklіv komponentіv vіd virobnikіv pogosto hovaєєєєє sladnyuєєєє sladnyuєєsya dejansko vikoristannyam in delovno sredino. Na ta način analiza veljavnosti analize vitalnosti metodologije za ocenjevanje ure življenja komponente v glavah prisotnosti podatkov o govoru.

Metoda glavnih komponent v sodobnih znanostih zmaga pri doseganju dveh glavnih nalog:

analiza podatkov socioloških študij;
navdihujejo modele suspіlnyh yavisch.

Algoritmi za distribucijo modelov

Algoritmi metode glavnih komponent dajejo več informacij o strukturi modela in njegovi interpretaciji. Smrad je pokazatelj, kako PCA zmaguje v različnih disciplinah. Algoritem za nelinearne iterativne delne najmanjše kvadratne NIPALS z uporabo metode izračuna zadnje komponente. Izračun lahko pripnete na konec vrstice, če vam je dovolj, da je dovolj. Več računalniških paketov lahko zmaga algoritem NIPALS, vendar obstajata dve glavni prednosti:

Vіn opratsovuє vіdsutnі podatke;
zaporedno izračunajte komponente.

Meta pogled algoritma:

podati dodatne informacije o tistih, ki pomenijo promocijo te ocene;
prikazuje, kako komponenta kože ne leži pravokotno z drugimi komponentami;
pokaže, kako lahko algoritem obdela podatke, ki so na voljo.

Algoritem zaporedoma nariše komponento kože, začenši s prvo neposredno z največjo varianco, nato drugo itd. NIPALS izračuna eno komponento naenkrat. Izračun prvega ekvivalenta vektorjev t1t1 in p1p1, če bi vedeli iz vrednosti moči ali porazdelitve za singularne vrednosti, lahko podatke obdelate v XX. Vіn vedno konvergirajo, vendar zbіzhnіst іnоdі mоzhe bіlnoy. Poznan je tudi, kot je algoritem tesnosti za izračun vektorjev moči in vrednosti moči, in dobro deluje za odlične nabore podatkov. Google je vdrl v algoritem za zgodnje različice sistema zganjanja, ki temelji na moči.

Algoritem za odčitke NIPALS je spodaj.

Ocene koeficienta matrike T se nato izračunajo kot T=XW in pogosto se koeficienti regresije kvadratov B iz Y na X izračunajo kot B = WQ. Alternativno metodo za ocenjevanje delov regresije delnih najmanjših kvadratov lahko opišemo kot sledi.

Metoda komponent glave je orodje za označevanje glavnih osi disperzije v podatkovnem nizu in omogoča enostavno spremljanje ključnih sprememb v podatkih. Pravilna metoda shranjevanja je ena najnaprednejših v naboru orodij za analizo podatkov.

Komponentna analiza se šteje za različne metode zmanjševanja volumna. Vіn maščevanje na en način - način glavnih komponent. Glavne komponente so v ortogonalnem koordinatnem sistemu, variance komponent pa označujejo njihovo statistično moč.

Vrahovyuchi, za katere cilje uspeha v gospodarstvu je značilno veliko število znakov, ki vplivajo na tako veliko število vipadkovih razlogov.

Izračun glavnih komponent

Prva komponenta glave Z1 sekundarnega sistemskega znaka X1, X2, X3, X4, ..., Xn se imenuje taka centrirano normalizirana linearna kombinacija predznakov, saj imajo srednje centrirano normalizirane linearne kombinacije znakov največjo disperzijo.

Kot drugo komponento glave Z2 bomo vzeli tako centrirano - normalizirano kombinacijo znakov, kot so:

ni v korelaciji s prvo komponento glave,

ni v korelaciji s prvo komponento glave, ima ta kombinacija največjo disperzijo.

K-ta komponenta glave Zk (k=1…m) se imenuje tak centriran - normaliziran kombinacijski znak, kot je:

ni v korelaciji z do -1 komponentami sprednje glave,

sredina najbolj možnih kombinacij zunanjih znakov, če ne

ne korelirajo z do -1 komponentami sprednje glave, ta kombinacija ima največjo disperzijo.

Uvedemo ortogonalno matriko U in preidimo s spreminjanja X na spreminjanje Z

Vektor je izbran tako, da je disperzija največja. Če je posest izbrana tako, da je razpršenost za um največja, kar ni v korelaciji s itd.

Oskіlki znaka vymiryanі v vrednostih neporіvnyannymi, potem je bolje, da greste na centrirano-normalizirane vrednosti. Matrica zunanjih centralno normaliziranih vrednosti je znana iz reference:

nepristransko, je možno, da je možna učinkovita ocena matematičnega ocenjevanja,

Nespremenjena je možna učinkovita ocena razpršenosti.

Na matrico opozoril o pomenu zunanjih znakov je opozoril Dodatku.

Centriranje in standardizacija poteka s pomočjo programa "Stadia".

Če obstajajo znaki centriranja in normalizacije, se lahko vrednotenje korelacijske matrike razvije s formulo:

Pred tem, ko izvajamo komponentno analizo, bomo analizirali neodvisnost zunanjih znakov.

Ponovna potrditev pomena matrike moških korelacije za dodatni Wilksov kriterij.

Postavimo hipotezo:

H0: nepomemben

H1: pomembno

125,7; (0,05;3,3) = 7,8

ker > , potem se upošteva hipoteza H0 in matrika je pomembna, zato je mogoče izvesti komponentno analizo.

Obrnitev hipoteze o diagonalnosti kovariančne matrike

Postavimo hipotezo:

Budєmo statistika, rozpodіlenu za zakon od stopnic svobode.

123,21, (0,05;10) =18,307

ker >, potem se upošteva hipoteza H0 in je mogoče izvesti komponentno analizo.

Za induciranje faktorizacije matrike je potrebno dodeliti ustrezne številke matrike, ki kršijo poravnavo.

Za operacijo je potrebno uporabiti lastne vrednosti sistema MathCAD, saj s pomočjo moči vrti matrične številke:

Ker nismo odvzeli moči števila in moči matričnega vektorja, temveč oceno. Us tsіkavitime naskіlki "dobre" zі statisticheskij točka zor vibrkovі značilnosti opisujejo vіdpovіdnі parametre za splošno ї sukupnostі.

Interval zaupanja za i-to število moči sledi tej formuli:

Brezplačni intervali za njihovo število v rezultatu so videti tako:

Ocena vrednosti števila najboljših števil se vzame iz intervala zaupanja najmanjših števil. Treba je obrniti hipotezo o večkratnosti številk moči.

Za dodatno statistiko je potrebno ponovno preverjanje večkratnosti

de r-število več korenin.

Tsya statistika v času pravice je po zakonu razdeljena od števila stopenj svobode. Visunemo hipoteze:

Oskіlki hipoteza vydkidaetsya, tako da je moč števila in ne večkratnik.

Glavne komponente je treba videti le na stopnji informativnosti 0,85. Svet informativnosti kaže del ali del variance zunanjih znakov, da tvorijo komponente k-prve glave. Za svet informacij poimenujemo vrednost:

Na dani ravni informacij so bile vidne tri glavne komponente.

Zapišemo matriko =

Če želite odstraniti normalizirani vektor za prehod iz zunanjih znakov na glavne komponente, je treba spremeniti sistem izravnave: Po korekciji rešitve sistema je potrebno normalizirati korekcijski vektor.

Za izvedbo te naloge uporabljamo lastno funkcijo sistema MathCAD za pospešitev normalizacijskega vektorja za spremenljivo potensko število.

Po našem mnenju prve štiri komponente glave zadostujejo za dosego dane ravni informacij, zato je matrika U

Mi bomo matrika U, katere stolpci so vektorji moči:

Matrica vaših koeficientov:

Matrični koeficienti A є korelacijski koeficienti med centriranimi - normaliziranimi vidnimi znaki in nenormaliziranimi komponentami glave ter kažejo očitnost, moč in neposredno linearno povezavo med vidnimi znaki in glavnimi komponentami glave.

Metoda glavne komponente

Metoda glavne komponente(angl. Analiza glavnih komponent, PCA ) je eden od glavnih načinov za spreminjanje raznolikosti podatkov z uporabo najmanjše količine informacij. Vinaydeny K. Pearson Karl Pearson ) pri r. Zastosovuetsya na bogatih področjih, kot so prepoznavanje slik, računalniški zir, nered podatkov itd. Druga metoda glavnih komponent se imenuje do preobrazb Karhunen-Loeva(angl. Karhunen-Loeve) ali preoblikovanje Hotellinga (eng. Hotelska transformacija). Drugi načini za spreminjanje raznovrstnosti podatkov so metoda neodvisnih komponent, bogato skaliranje, pa tudi numerično nelinearno združevanje: metoda krivulj in variacije glave, metoda vzmetnih kart, metoda najboljše projekcije (eng. Zasledovanje projekcij), nevromerezhev metoda "Glasovno grlo", da іn.

Formalna izjava o problemu

Naloga analize glavnih komponent, vsaj, vsaj, vsaj nekaj osnovnih različic:

približati podatke z linearnimi razlikami manjše dimenzij;
poznati podprostor manjše velikosti, v ortogonalni projekciji na yak_rozkid danih (tako da je srednji kvadratni odklon od povprečne vrednosti) največji;
poznati podprostor manjše velikosti v pravokotni projekciji na povprečno kvadratno razdaljo jaka med točkama kolikor je mogoče;
za dano bogato spremenljivko vrednost spremenljivke inducirati tako pravokotno transformacijo koordinat, da se kot rezultat korelacije med drugimi koordinatami pretvori v nič.

Prve tri različice delujejo s končnimi rezultati podatkov. Smrad je enakovreden in ne nadomešča nobene hipoteze o statističnem ustvarjanju podatkov. Četrta različica temelji na vertikalnih vrednostih. Kіntsevі mulіnіy yavlyayutsya yavlyayutsya tukaj kot vybіrki z dano rozpodіlu, in virіshennya tri prvi zavdan - kot blizu "prave" reinkarnacije Karhunen-Loev. Okrivljamo dodatek in celotno trivialno ponudbo natančnosti pristopa.

Približevanje podatkov z linearnimi razlikami

Ilustracija k znamenitemu delu K. Pirsona (1901): dane točke na ravnini, - pojdite naravnost na ravno črto. Shukaetsya naravnost, scho zmanjšati vsoto

Metoda komponent glave izvira iz naloge najboljše aproksimacije končnega množitelja točk z ravnimi črtami in ravninami (K. Pirson, 1901). Dana kintseva anonimni vektorji. Za okolja kože moramo vedeti, da je vsota kvadratov zdravja minimalna:

de - Evklidsko od točke do linearne razlike. Be-yak - mirno linearno raznomanittya se lahko poda kot anonimne linearne kombinacije, de parametri potekajo skozi govorno vrstico in - ortonormalno tipkanje vektorjev

de evklidska norma, - evklidski skalarni twir ali v koordinatni obliki:

Razvoj aproksimacijskega problema za je podan z nizom vhodov linearnih razlik, . Število linearnih razlik je določeno z ortonormalno množico vektorjev (vektorjev glavnih komponent) in vektorja. Vektor je videti kot rešitev problema minimizacije za:

Vektorje glavnih komponent je mogoče najti kot rešitev za podobne probleme optimizacije:

1) centralizirani podatki (vidno povprečje): . Zdaj; 2) prvo komponento glave poznamo kot nalogo; . Če ni ene rešitve, izberemo eno izmed njih. 3) Iz te projekcije prve komponente glave lahko vidimo: ; 4) druga komponenta glave ve, kako rešiti problem. Če ni ene rešitve, izberemo eno izmed njih. … 2k-1) Vidimo projekcijo na -ti komponenti glave (uganite, da so projekcije na sprednjih glavnih komponentah že vidne): ; 2k) k-ta komponenta glave je znana kot rešitev problema: . Če ni ene rešitve, izberemo eno izmed njih. …

V dermalni fazi vidimo projekcijo na sprednji komponenti glave. Vektorje ortonormalizacije najdemo preprosto kot rezultat razvoja opisanega optimizacijskega problema, da ne bi oprostili izračunu in uničili medsebojno pravokotnost vektorja v komponentah glave, lahko vklopite nalogo optimizacije.

Neustreznost dodeljenega crim trivialnega swavillea pri izbiri znaka (in izpolnitvi iste naloge) je mogoče natančneje in upoštevati, na primer, iz misli o simetričnosti podatkov. Preostala komponenta glave je en sam vektor, pravokoten na sprednji del.

Poiščite ortogonalne projekcije z največjimi razlikami

Prva komponenta glave poveča vibracijsko varianco projekcije podatkov

Podano nam je centriranje niza vektorjev podatkov (aritmetična sredina vrednosti je enaka nič). Naloga - poznati takšno pravokotno transformacijo v nov koordinatni sistem, ki bi bil pravilen v naslednjih pogojih:

Teorijo singularne poravnave je ustvaril J. J. Sylvester (eng. James Joseph Sylvester ) v m.

Preprost iterativni algoritem singularne razgradnje

Glavni postopek je iskanje najboljšega približka dovolj velike matrike v obliki matrike (de-svetovni vektor, a-svetovni vektor) po metodi najmanjših kvadratov:

Rešitev problema je podana z zaporednimi iteracijami po eksplicitnih formulah. S fiksnim vektorjem so vrednosti, ki zagotavljajo minimalno obliko, enolično in eksplicitno dodeljene enakosti:

Podobno se s fiksnim vektorjem dodelijo naslednje vrednosti:

Kot aproksimacijo vektorja vzamemo spremenljiv vektor ene vrednosti, izračunamo vektor, izračunamo vektor za ta vektor itd. Vrednost se spremeni. Kot merilo za nihanje so tri različne spremembe vrednosti minimiziranega funkcionala za kratko ponovitev () ali tri najpomembnejše.

Rezultat matrike je bil odštevan od najbližjega približka tipa matrike (tukaj je zgornji indeks vrednosti številka približka). Nadalje iz matrike vidim matriko in za odstranjeno matriko je trik spet išče najboljši približek iste vrste itd., dokler na primer norma ne postane dovolj majhna. Z vojno smo odvzeli iterativni postopek za postavitev matrike kot vsote matrik ranga 1, tobto . Posledično je bila odpravljena aproksimacija singularnih števil in singularnih vektorjev (desno - in levo - ).

Preden ga algoritem premaga, njegova preprostost in zmožnost prenosa brez sprememb v podatke z vrzeli, pa tudi pomembne podatke.

Vzpostavite različne modifikacije osnovnega algoritma za izboljšanje natančnosti in stabilnosti. Na primer, vektorji komponent glave v primeru različnih napak so ortogonalni "po navadi", zaščiteni z velikim številom ponovitev (velika raznolikost, bogata komponenta)

Singularna razporeditev tenzorjev in tenzorska metoda komponent glave

Pogosto lahko vektor podatkov doda strukturi pravokotne tabele (na primer ravnini slike), da ustvari bogato tabelo - tob do tenzorja : , . Za to osebo je tudi učinkovito, če ima edinstveno postavitev. Označeno je mogoče glavne formule algoritmov prenesti praktično brez sprememb: zamenjava podatkovne matrike je lahko vrednost indeksa, prvi indeks je številka točke (tenzor) podatkov.

Glavni postopek je iskanje najboljše aproksimacije tenzorja s tenzorjem oblike (vektor de- miru (- število podatkovnih točk), - vektor velikosti pri ) po metodi najmanjših kvadratov:

Rešitev problema je podana z zaporednimi iteracijami po eksplicitnih formulah. Pravzaprav so vsi vektorji-množitelji ene škrlatne barve nastavljeni in tisti, ki je izpuščen, je jasno predstavljen z vsaj zadostnimi umi.

Na začetku bližine vektorja () vzemite nasprotni vektor in eno samo vrednost, izračunajte vektor , dajte za ta vektor in te vektorje v računskem vektorju itd. (ciklično razvrščanje po indeksu) Algoritem, morda konvergiranje. Kot merilo za nihanje so tri pomembne spremembe vrednosti minimiziranega funkcionala za cikel oziroma tri najpomembnejše. Dalje, od tenzorja se vidi bližina in presežek spet shukayemo najboljšo bližino iste vrste. bud., poke, na primer, bo norma presežka chergovogo majhna.

Ta bogato komponentna singularna postavitev (tenzorska metoda komponent glave) se uspešno uporablja pri obdelavi slik, video signalov in, širše, več ali manj podatkov, tako da se lahko oblikuje tabela ali tenzorska struktura.

Matrična transformacija v glavne komponente

Matrika pretvorbe podatkov v glavne komponente je sestavljena iz vektorjev glavnih komponent, razvrščenih po vrstnem redu spreminjanja njihovih vrednosti:

(pomeni prenos),

Tobto, matrika je ortogonalna.

Večina variacij teh podatkov bo označenih v prvih koordinatah, kar vam omogoča, da se odpravite v prostor z manj prostora.

Zalishkov disperzija

Podajte podatke za centriranje, . Pri zamenjavi podatkovnih vektorjev na glavni projekciji na prvi komponenti glave se na en podatkovni vektor vpiše povprečni kvadrat odpuščanja od vstajenja:

kjer so vrednosti empirične kovariančne matrike razvrščene po vrstnem redu sprememb, s prilagojeno večkratnostjo.

Tsya vrednost se imenuje presežna disperzija. vrednost

poklical pojasnjena disperzija. Їhnya vsota dorivnyuє vibrkovіy variance. Vіdpovіdny kvadrat vіdnoї pardon - tsі vіdnennia presežek variance do variance vibrіkovo (tobto del nepojasnjene variance):

Za izjemen odpust se oceni ocena metode glavnih komponent z zasnovo na prvih komponentah.

Spoštovanje: v večini algoritmov oštevilčenja so števila moči z najmočnejšimi vektorji moči - komponente glave se štejejo v vrstnem redu "od največjega do najmanjšega". Za izračun je dovolj, da izračunamo prva števila in naslednjo empirično kovariančno matriko (vsota diagonalnih elementov, to je variance vzdolž osi). Todi

Izbira glavnih komponent po Kaiserjevem pravilu

Tsіlovy pіdkhіd pred oceno števila komponent glave za potrebno pogosto razloženo odstopanje formalno zastosovuє zavzhd, prote implicitno prenašanje, scho podіl na "signal" in "šum" in ali je natančnost senzorja vnaprej določena ali ne. Zato je pogosto produktivna druga hevristika, ki temelji na hipotezi o prisotnosti »signala« (enakomerno majhna glasnost, očitno velika amplituda) in »šuma« (velika glasnost, očitno majhna amplituda). Metoda glavnih komponent na prvi pogled deluje kot filter: signal se odstrani, kar je še pomembneje, v projekciji prvih glavnih komponent, delež šuma pa je bogatejši v ostalih komponentah.

Prehrana: kako oceniti število potrebnih glavnih komponent, kot da razmerje signal / šum ni znano vnaprej?

Podan je najpreprostejši in najstarejši način za izbiro komponent glave Kaiserjevo pravilo(angl. Kaiserjevo pravilo): pomembne glavne komponente, ki

za spremembo povprečne vrednosti (povprečna vibracijska disperzija koordinat vektorja podatkov). Kaiserjevo pravilo se dobro izvaja v najpreprostejših primerih, če je nekaj glavnih komponent, je povprečna vrednost bogato obrnjena, druge stopnje pa so manjše od nove. V situacijah zlaganja lahko daje še pomembnejše glavne komponente. Glede na normalizacijo ene same vibracijske disperzije vzdolž osi je Kaiserjevo pravilo na videz še posebej preprosto: pomembne glavne komponente, ki

Ocena števila glavnih komponent po pravilu zlobnega trsa

Primer: Ocena števila glavnih sestavnih delov po pravilu zlomljenih trsov v velikosti 5.

Eden izmed najbolj priljubljenih hevrističnih pristopov k ocenjevanju števila potrebnih komponent glave je vlada zlobnega trsa(angl. Model zlomljene palice). Nabor normalizacij za posamezno vsoto vseh števil (, ) je enak razliki med pikami ulamkіv trstja posamezne dožine, zlomljena točka je prekinjena (točke vibrirajo neodvisno in so enake pikam trstičk ). Daj no () - Dovzhini otrimanih shmatkіv trstike, oštevilčene v vrstnem redu spremembe dozhini:. Ni pomembno, da poznate matematično izpopolnjevanje:

Po pravilu zlobnega trsa je vektor th moči (v vrstnem redu spreminjanja številk moči) vzet s seznama komponent glave, kar pomeni

riž. zadnjica za 5-kratni vipad je bila koničasta:

=(1+1/2+1/3+1/4+1/5)/5; =(1/2+1/3+1/4+1/5)/5; =(1/3+1/4+1/5)/5; =(1/4+1/5)/5; =(1/5)/5.

Izbrano za zadnjico

=0.5; =0.3; =0.1; =0.06; =0.04.

Po pravilu zlobnega trsa sta v tej zadnjici 2 komponenti smuta:

Po ocenah coristuvachs lahko vladavina zlega trsa podcenjuje število pomembnih glavnih komponent.

Racioniranje

Racioniranje po zmanjšanju na glavne komponente

Po načrtovanje na prvih glavnih komponentah in ročno normaliziranje na eno (selektivno) disperzijo vzdolž osi. Razpršitev zraka in komponente glave je dražja), zato je za normalizacijo potrebno ustrezno koordinato deliti z . Ta transformacija ni ortogonalna in ne zahteva skalarne kreacije. Kovariacijska matrika projekcije podatkov po normalizaciji postane enotna, projekcije o tem, ali dve pravokotni premici postaneta neodvisni količini ali ne, in ali ortonormalna osnova postane osnova glavnih komponent (ugibati, da normalizacija spremeni ortogonalnost vektor). Vіdobrazhennya iz obsežnosti izhodnih podatkov o prvih komponentah glave in hkrati z normalizacijo je podana z matriko

Sama transformacija se najpogosteje imenuje transformacija Karhunen-Loev. Tukaj so vektorji, zgornji indeks pa pomeni transpozicijo.

Racioniranje do izračuna glavnih komponent

Vnaprej: ni sledu napačne normalizacije, ki jo je treba izvesti po preoblikovanju v glavne komponente, z normalizacijo in "živčenjem", ko prerazporeditev podatkov, ki se izvede pred izračunom glavnih komponent. Naprej normalizacija je potrebna za zaokroženo izbiro meritev, pri kateri je mogoče izračunati najboljši približek podatkov ali izračunati najbolj naravnost rozkid (kar je enakovredno). Na primer, če so podani s trivimernimi vektorji »metrov, litrov in kilogramov«, potem bo z variacijo standardne evklidske razlike 1 meter vzdolž prve koordinate deloval enak prispevek, da razlika 1 litra na drugega ali 1 kg na tretjega. Pokličite sisteme 1, za katere so predstavljeni vizualni podatki, premalo natančno odražajo naše izjave o naravnih lestvicah vzdolž osi in izvedite "razorožitev": koordinata kože je razdeljena na lestvico sing, ki je označena kot podatki, številke njihove obdelave in procesov vimiryuvannya ter zbiranja podatkov.

Obstajajo trije različni standardni pristopi k takšni standardizaciji: ena varianca vzdolž osi (skala vzdolž osi je enaka srednjemu kvadratnemu izboljšanju - po drugi transformaciji kovariančne matrike se skalira z matriko korelacijskih koeficientov), na enaka točnosti sveta(Skala vzdolž osi proporcionalne natančnosti dane vrednosti) in naprej enaki vimogi pri nalogi (merilo vzdolž osi je določeno s potrebno natančnostjo napovedi dane vrednosti ali z dopustnimi dogodki - enako toleranco). Uvod v vibilizacijo nalog v vibraciji nalog in delal sem za pridobitev Donesa (misel Yakschko Dia Dia Dia Dani ni dokončana, potem nerazíonialno Vyibrates Normuvnaya strogo na disperzij identitete, Navischko Tsevaє Vіdpovі Zm_sta Delivani, Oskilki Tsey otrimannya nov del, pametno izberite razumno lestvico, približno ocenite standardni vnos in ga ne spreminjajte naprej).

Naprej normalizacija na posamezno disperzijo vzdolž osi se zruši z obračanjem koordinatnega sistema, saj so osi komponente glave, normalizacija pri ponovnem izvajanju podatkov pa ne nadomesti normalizacije po redukciji na komponente glave.

Mehanska analogija in metoda komponent glave za razvrščanje podatkov

Da bi uskladili kožni vektor podatkov z eno samo maso, se empirična kovariančna matrika spremeni z vztrajnostnim tenzorjem sistema točkovnih mas (razdelimo z isto maso), problem komponent glave pa iz nalog zmanjšanja vztrajnostnega tenzorja na osi glave. Možno je pridobiti dodatno svobodo pri izbiri vrednosti mase zaradi pomembnosti podatkovnih točk ali superiornosti njihovih vrednosti (velikim množicam se pripisujejo pomembni pokloni ali pokloni večjega superiornega džerela). Yakscho vektor podatkov upov masa, potem se izvede zamenjava empirične kovariančne matrike

Vse nadaljnje operacije od redukcije do glavnih komponent se vibrirajo na enak način, kot v glavni različici metode: presojamo ortonormalizacijo moči baze, urejeno je možna sprememba vrednosti moči, ocenjujemo povprečje vrednost aproksimacije normalizacije števil, danih s seštevanjem prvih komponent,

Podan je boljši vroč način klicanja maksimiranje vrednosti vsote seznanjenih pogledov med projekcijami. Za skin dve točki podatkov se uvede vaga; da . Zamenjava empirične kovariančne matrike je zmagovita

Ko je simetrična matrika pozitivno dodeljena, so lestvice pozitivna kvadratna oblika:

Podali smo ortonormalizacijo močne osnove, jo uredili po padcu vrednosti moči, ocenili povprečno oprostitev aproksimacije podatkov s prvimi komponentami itd. - popolnoma enako, kot v glavnem algoritmu.

Čigava pot do stagnacije za izrazitost razredov: za različne razrede je vaga vaga izbrana višje, nižje za točke istega razreda. Na ta način se v projekciji na vrste glavne komponente različnih razredov "rozsuvayutsya" v večjem obsegu.

Več zastosuvannya - zniževanje infuzije odličnih trikov(Outlayer, eng. Izstopajoče ); Na ta način je opisana modifikacija metode komponente glave, ki je bolj robustna, manj klasična.

Posebna terminologija

Statistika za metodo glavne komponente ima številne posebne izraze.

Podatkovna matrika; usnjena vrsta - vektor preusposabljanje danih ( centriranje in pravilno racioniranje), število vrstic - (število vektorjev podatkov), število stolpcev - (razširitev podatkov);

Navantagena matrika(Nalaganje); kozhen stovpets - vektor komponent glave, število vrstic - (razširitev prostorskih podatkov), število stovpts - (število vektorjev komponent glave, izbrana zasnova);

Rachunkiv matrica(Rezultati); kožna vrstica - projekcija podatkovnega vektorja na komponento glave; število vrstic - (število vektorjev v podatkih), število stolpcev - (število vektorjev v glavnih komponentah, izbranih za načrtovanje);

Matrix Z-rachunkiv(Z rezultati); kožna vrstica - projekcija vektorja podatkov na glavne komponente, normalizirana na eno samo vibracijsko varianco; število vrstic - (število vektorjev v podatkih), število stolpcev - (število vektorjev v glavnih komponentah, izbranih za načrtovanje);

matrika odpuščanja(sicer presežek) (Napake ali ostanki) .

Osnovna formula:

Mezhі zastosuvannya in zamezhennya effektivnosti metoda

Metoda glavne komponente Širša trditev o tistih, ki stagnirajo le pri normalno porazdeljenih podatkih (sicer za vrtnice, ki so blizu normalnih), ni tako: K. Pearsonova standardna formula bi morala biti približki zadnje množenje podatkov in naslednji dan ustvariti hipotezo o njihovi statistični generaciji, ne da bi se že zdelo o tem.

Prote metoda, ki vedno učinkovito zmanjša rozmіrnіst pri nastavitvi apnenje za natančnost. Ravne ravnine ne zagotavljajo vedno dobrega približka. Podatki lahko na primer z dobro natančnostjo sledijo ne glede na to, ali gre za krivuljo, in to krivuljo je mogoče lepo razvrstiti v obsegu podatkov. V tem primeru mora biti metoda komponent glave za sprejemljivo natančnost večja od števila komponent (zamenjava ene), sicer ne bo zmanjšala velikosti s sprejemljivo natančnostjo. Za delo s tako "ukrivljenimi" komponentami glave je bila najdena metoda razlik v glavi in različne različice metode nelinearne komponente glave. Več netočnosti lahko privede do podane topologije zlaganja. Za njihove približke smo našli tudi različne metode, na primer Kohonenove karte, ki so samoorganizirajoče, nevronske plinske ali topološke slovnice. Če so podani podatki statistično generirani iz korenske komponente, ki je videti kot običajna, potem za približek korenske komponente, za približek korenske komponente neodvisne komponente, čeprav ni več pravokoten na zunanje skalarno ustvarjanje Nareshti, za izotropni rozpodіl (navіt normal) zamenjava elіpsoїda rozsiyuvannya prevzame žogica in je nemogoče spremeniti rozmirnіst z metodami aproksimacije.

Nanesite victoria

Vizualizacija podatkov

Vizualizacija podatkov - predstavitev v izvirni obliki podatkov za eksperimentiranje in rezultatov teoretičnega raziskovanja.

Prva izbira pri vizualizaciji množenja podatkov je ortogonalna projekcija na ravnino prvih dveh komponent glave (ali 3-dimenzionalni prostor prvih treh komponent glave). Oblikovalsko območje je pravzaprav ploski dvodimenzionalni "zaslon", nabrkan tako, da daje "sliko" podatkov z najmanjšimi kreacijami. Takšna projekcija bo optimalna (srednje ortogonalne projekcije na različnih dvodimenzionalnih zaslonih) za tri projekcije:

Najmanjša vsota kvadratov med podatki kaže na projekcije na območju prvih komponent glave, tako da je razširitveni zaslon glede projekcije čim bližje mračnim točkam.
Najmanjša količina ustvarjanja kvadratov med kvadrati je par točk iz teme podatkov po oblikovanju točke na ravnini.
Najmanjša količina ustvarjanja kvadratov je med točkami podatkov in "težiščem".

Vizualizacija podatkov je eden izmed najbolj razširjenih dodatkov k metodi komponent glave in nelinearnih premislekov.

Stiskanje slike in videa

Za spremembo prostornosti zunanjega prostora slikovnih pik se uro kodiranja slike in videa predvaja z linearno transformacijo blokov slikovnih pik. Koraki kvantizacije izpuščenih koeficientov in kodiranja brez odpadkov omogočajo izpuščanje pomembnih koeficientov stiskanja. Alternativna transformacija PCA kot linearna transformacija je optimalna za določene vrste podatkov glede na velikost podatkov, vzetih iz istih podatkov hkrati. Trenutno ta metoda ni aktivno promovirana, predvsem zaradi velike računske zahtevnosti. Tako lahko pridemo do stiskanja teh podatkov, ki prikazujejo preostale koeficiente transformacije.

Zatiranje šuma na slikah

Kemometrija

Metoda komponente glave je ena glavnih metod v kemometriji. Kemometrija ). Omogoča vam, da razdelite matriko izhodnih podatkov X na dva dela: "zamenjava" in "šum". Za naybіlsh priljubljena viznachennyam "Kemometrija - tse hіmіchna distsiplіna scho zastosovuє matematichnі, statistichnі, da INSHI metoda zasnovanі na formalnіy logіtsі za pobudovi abo vіdboru optimalno metodіv vimіryuvannya in takozhyental za analizhuыvannya in takozhyv ot eksperimentizыvannya in takozhie za analizhiva Informish.

Psihodiagnostika

analiza podatkov (opis rezultatov eksperimenta na nekaterih drugih rezultatih, kot v primeru gledanja nizov numeričnih podatkov);
opis družbenih pojavov (pozitivni modeli pojavov, zokremi in matematični modeli).

V politologiji je metoda komponent glave glavno orodje za projekt "Politični atlas sveta" za linearno in nelinearno analizo ocen v 192 državah sveta za pet posebnih integriranih integralnih indeksov (enakoživost, mednarodna dohodek, grožnje, pooblastila). Za kartografijo rezultatov te analize je bil razvit poseben GIS (Geoinformacijski sistem), ki je znak geografske širine. Ustvarjen je bil tudi zemljevid podatkov političnega atlasa, ki je osnova dvosvetovnih glavnih razlik v petsvetovnem prostranstvu države. Identiteta podatkovnih kartic v obliki geografskega zemljevida v tem, da so na zemljevidu v navodilih prikazani objekti, ki imajo lahko podobne geografske koordinate, v zemljevidu podatkov pa so v navodilih prikazani predmeti (robovi) s podobnimi znaki (indeksi) .

V tem članku želim govoriti o teh, kot o najbolj praktični metodi analize glavnih komponent (PCA - principal component analysis) z vidika vpogleda, ki stoji za matematičnim aparatom. Naib_sh je preprost, vendar se poroča.

Matematika vzagali že garna, da vitonchen znanost, a hkrati lepota hovaetsya za kupom kroglic abstrakcije. Najlepše pokaži svojo lepoto na preprostih zadnjicah, kot naj bo tako, lahko jo zviješ, razbiješ in se dotakneš, do tistega, ki se motiš, vse je lažje videti, lažje je videti na prvi pogled , je bolj razumljivo in razkrito.

Pri analizi podatkov, tako kot pri vsaki drugi analizi, za eno uro ne bomo mogli ustvariti enostavnega modela, ki bi čim bolj natančno opisal realno stanje. Pogosto se zgodi tako, da se znamenja močno odlagajo, ena vrsta enourne prisotnosti je transcendentalna.

Na primer, količina goriva pri nas se meri v litrih na 100 km, ZDA pa v miljah na galono. Na prvi pogled velikost razlike, v resnici pa smrad leži drug za drugim. Milja je 1600 km, galona pa 3,8 litra. En znak je strogo odložen v drugo smer, poznamo enega, poznamo drugo.

A pogosteje je tako bogat, da znaki laganja enega za drugim niso tako strogi in (pomembno!) ne tako očitni. Prostornina motorja kot celote pozitivno prispeva k vožnji do 100 km / leto, vendar ne zaženite. In lahko se pokaže tudi, da zaradi izboljšanja dejavnikov, ki niso vidni na prvi pogled (kot so povečanje moči ognja, uporaba lahkih materialov in drugi trenutni dosežki), zvok avtomobila ni močan. , pa se prelije tudi v jogo.

Če poznamo zastarelost te moči, lahko uporabimo znak papaline skozi enega, kupimo več jeze, zato se premakni in vadimo že z večjim preprostim modelom. Najprej si prihranite informacije, bolje za vse, ne obupajte, a nam vsaj pomagajte pri uporabi metode PCA.

Vyslovlyuyuchis suvoro, tsey metoda približno n-dimenzija khmara varovalo za elіpsoїda (tezh n-virіrnogo), pіvosі kakogo i bodo prihodnje glavne komponente. І za projekcije takih osi (zmanjšana dimenzionalnost) se zbere največ informacij.

Krok 1. Priprava podatkov

Tukaj zaradi preprostosti ne bom vzel pravega primarnega nabora podatkov za desetine znakov in na stotine opozoril, ampak bom razširil svojo najbolj preprosto igračo zadnjico. 2 znaka in 10 opozoril bosta dovolj, da opišemo kaj, najpomembneje pa je pogledati algoritem.

Ustvarjamo vibrator:

X = np.arange(1,11) y = 2 * x + np.random.randn(10)*2 X = np.vstack((x,y)) natisni X OUT: [[ 1. 2. 3. 4.5.6.7.8.9.10.] [2,73446908 4,35122722 7,21132988 11,24872601 9,58103444 12,09865079 129 3,9

V tem izboru imamo dva znaka, ki sta močno povezana enega z enim. S pomočjo algoritma PCA zlahka poznamo znak-kombinacijo in ceno dela informacije ter z enim novim ugotovimo prekršek znakov. Zato se razvajajmo!

Za statistiko storža trohi. Ugibati, da so trenutki v opisu vipadične velikosti. Potrebujemo matyuki. ochіkuvannya, da odstopanje. Pogumno lahko rečete, kakšna mat. ochіkuvannya - tse "težišče" magnitude, in variance - tse її "razmіri". Približno kazhuchi, matyuki. skaliranje označuje položaj navpične vrednosti, variance pa - її razmіr.

Proces projiciranja na vektor nikakor ne prispeva k povprečnim vrednostim, tako da lahko naš vektor preide skozi središče naše izbire, da bi zmanjšali izgubo informacij. Za to ni nič strašnega, saj naš izbor centriramo - linearno uničljivo, tako da je povprečna vrednost znaka dosegla 0.
Operater, ki vrne vrednost v vektor povprečnih vrednosti - vin, je potreben za obnovitev izbire zunanje glasnosti.

Xcentered = (X - x.mean(), X - y.mean()) m = (x.mean(), y.mean()) print Xcentered print "Mean vector: ", m OUT: (array([ -4,5, -1,5, -0,5, 0,5, 1,5, 2,5, 3,5, 4,5]), matrika ([- 8.44644233, -8.32845585, -4.93314426, -2.56723136, 1.0101349136, 1.013491, 7.00558491, 0,58413491, 4.21440647, 9.59501658])) Srednja vektor : (5,5, 10,314393916)

Varianca je, da pade v velikostni red vrednosti padca, tj. občutljiv na lestvico. Zato jih kot znak osamljenosti v svetu močno vznemirjajo lastni ukazi, zato jih je priporočljivo standardizirati. V našem primeru se pomeni v naročilih niso veliko spremenili, zato zaradi preprostosti te operacije ne bom spreminjal.

Krok 2. Kovariacijska matrika

V vipadu z bogato vrednostjo vipada (vektor vipad) bo položaj središča enak. ochіkuvannyami її projekcije na os. In os za opis її oblik je že nezadostna le її variance vzdolž osi. Poglejte grafe, v treh nihanjih vrednosti enako matematično pričakovanje in disperzija, kot projekcije na os, kažejo enako!

Za opis oblike vektorja vipad je potrebna matrika.

Tse matrica, yak maє (i,j)-Element - korelacijski znak (X i, X j). Ugibajmo kovariančno formulo:

Naš um lahko rečemo, da je E(X i) = E(X j) = 0:

S spoštovanjem, če je X i = X j:

In to velja za vse vipadkovyh vrednosti.

V tem vrstnem redu bo naša matrika vzdolž diagonale imela predznak variance (ker i = j), v središču matrike pa kovariance obeh predznakovnih parov. In zaradi simetrije kovariance bo simetrična tudi matrica.

Spoštovanje: Kovariacijska matrika je zagalnenny variance v različnih bogatih spremenljivih vrednostih - won yak in definira obliko (rozkid) vrednosti vypadkovy, yak і variance.

Najprej je varianca vrednosti enodimenzionalne spremenljivke matrika 1x1, v kateri je en sam član nalog s formulo Cov(X,X) = Var(X).

Nato oblikujmo kovariančno matriko Σ za naš izbor. Za katero varianco X i і X j, in tudi njihovo kovarianco. Pospešite lahko z napisano formulo, a če smo se navadili na Python, je greh, da ne pospešimo funkcije numpy.cov(X). Kot vhod sprejme seznam vseh znakov spremenljivke velikosti in zavrti kovariančno matriko in de X - n-univerzalni spremenljivi vektor (n-število vrstic). Funkcija vіdmіnno і dkhodit і za razširitev nepristranske variance, і za kovarianco dveh količin, і za zlaganje kovariančne matrike.
(Predvidevam, da je v Pythonu matrika matrika-vrstica nizov-vrstic.)

Covmat = np.cov(Xcentered) print covmat, "n" print "Variance of X:", np.cov(Xcentered) print "Variance of Y: ", np.cov(Xcentered) print "Covariance X and Y: " , np.cov(Xcentered) OUT: [[ 9.16666667 17.93002811] [ 17.93002811 37.26438587]] Varianca X: 9.16666666667 Varianca Y:3

Krok 3

Ok, vzeli smo matriko, ki opisuje obliko naše velikosti kapljice, tako da jo lahko razstavimo za x in y (to sta X 1 in X 2), kot tudi za ravno obliko na ravnini. Zdaj moramo vedeti takega vektorja (samo en tip), hkrati pa maksimiziramo ekspanzijo (razpršitev) projekcije našega izbora na novega.

Spoštovanje: Glavna razlika v resničnem svetu je razpoložljiva matrika, oba koncepta pa sta enakovredna. Pri projiciranju na vektor je varianca projekcije maksimizirana, pri projiciranju na veliko območje velikih naročil je celotna kovariančna matrika maksimirana.

Vzemimo tudi en sam vektor, na katerega projicira naš vektor projekcije X. V globalnem pogledu je v vektorski obliki (za centriranje vrednosti) varianca izražena na naslednji način:

Očitno je projekcijska disperzija:

Preprosto si je zapomniti, da je varianca maksimizirana nad največjo vrednostjo v T Σv. Tu nam bo v pomoč Rayleighova nastavitev. Ne da bi se spuščal preveč v matematiko, bom samo rekel, da lahko Rayleighovi načrti naredijo poseben primer za kovariančne matrike:

Preostanek formule je lahko znan po temi postavitve matrike na val vektorjev in to vrednost. x je poljuben vektor in je poljubna vrednost. Število lastnih vektorjev in ta vrednost je enaka velikosti matrike (i vrednosti se lahko ponovijo).

Pred govorom se v angleškem jeziku imenujejo pomeni tega vektorja lastne vrednostiі lastnih vektorjev očitno.
Meni zdaєtsya, tse zveni bogato lepo (in slog), znižaj naše pogoje.

Na ta način se neposredno največja varianca projekcije vedno spreminja z lastnim vektorjem, ki ima lahko največjo vrednost, ki je za varianco bolj vredna.

Velja tudi za projekcije na večje število spremenljivk – varianca (kovariančna matrika) projekcije na prostor m-sveta bo največja za direktne lastne vektorje, ki imajo lahko največjo vrednost moči.

Raznolikost našega izbora je dobra za dva in število lastnih vektorjev v njej je očitno 2. Poznamo jih.

Knjižnica numpy je implementirala funkcijo numpy.linalg.eig(X) kjer je X kvadratna matrika. Obrnete 2 matriki - niz lastnih vrednosti in niz lastnih vektorjev (vektorjev). І vektorji normalizacije - їhnya dozhina dorіvnyuє 1. Tisti, ki so potrebni. Vektorji Qi 2 postavljajo novo osnovo za izbor, tako da njegova os temelji na principih aproksimacijske elipse našega izbora.

Na tem grafikonu smo naš izbor približali z elipso s polmeri 2 sigma (zato je 95% vseh opozoril krivih za maščevanje - kaj lahko tukaj in plakat). Obrnil sem večji vektor (funkcija eig(X) ga je usmerila v obratno smer) - za nas je pomembno, da ga usmerimo, ne pa orientacija vektorja.

Krok 4. Zmanjšana glasnost (projekcija)

Največji vektor je lahko naravnost naprej, podoben regresijski črti in projicira na novo naš izbor in uvodne informacije, izpeljane iz vsote presežnih členov regresije (samo zdaj evklidski, ne delta v Y). Včasih je prisotnost znakov med znaki že močna, zato bo izguba informacij minimalna. "Cena" projekcije - disperzija za manjšim lastnim vektorjem - kot je razvidno iz sprednjega grafa, je že majhna.

Spoštovanje: diagonalni elementi kovariančne matrike prikazujejo variance glede na primarno osnovo, tiste njene vrednosti moči pa - glede na novo (po glavnih komponentah).

Pogosto je treba oceniti količino porabljenih (in shranjenih) informacij. Najboljši način, da ugotovite, je na stotine. Vzamemo varianco vzdolž osi kože in jo delimo s skupno vsoto varianc vzdolž osi (to je vsoto vseh števil moči razpoložljive matrike).
Torej naš večji vektor opisuje 45,994/46,431*100% = 99,06%, manjši pa se zdi, da je približno 0,94%. Z uvedbo manjšega vektorja in projekcijo podatkov za večjega porabimo manj kot 1% informacij! Vidminny rezultat!

Spoštovanje: Resnično, zdebіshogo, kot skupni vnos informacij, da postane več kot 10-20%, lahko mirno zmanjšate rozmirnіst.

Za izvedbo projekcije, kot je bilo načrtovano prej na croc 3, je potrebno izvesti operacijo v T X (vektor je posledica buti dozhini 1). Sicer pa, ker nimamo enega vektorja, ampak hiperravnino, potem namesto vektorja v T vzamemo matriko bazičnih vektorjev V T . Odšteti vektor (ali matrika) bo niz projekcij.

V = (-vecs, -vecs) Xnew = pika(v, Xcentered)

pika (X,Y)- članski tvir (tako množimo vektorje in matrike v Pythonu)

Ni pomembno, da se spomnimo, kakšen je pomen projekcij na slikah na sprednjem grafu.

Krok 5

Iz projekcije ročno izdelajte, se na podlagi hipoteze in razširite model. Ne pozabite odvzeti glavnih komponent in matimut očitne, razumne tretje osebe, sens. Včasih, piha corisno, na primer, vyyavlenі wikidi, schob za pogovor, scho za stražo nad njimi.

Tse duzhe je preprosto. Imamo vse potrebne informacije in same koordinate baznih vektorjev v zunanji bazi (vektorje, na katere so bili projicirani) in vektor povprečij (za centriranje). Vzemite na primer največjo vrednost: 10,596… Za katerega pomnožimo iogo desno s transpozicijskim vektorjem i dodamo vektor srednjih ali v globalnem pogledu za vse viboke: X T v T +m

Xrestored = dot(Xnew,v) + m print "Restored: ", Xrestored print "Original: ", X[:,9] OUT: Obnovljeno: [ 10.13864361 19.84190935] Original: [ 10. 19.9094

Maloprodaja je majhna, a je še več. Adzhe vtrachena informacije niso potrjene. Prote, ker je preprostost pomembna za natančnost, je dokazano, da se vrednost približuje dnevu.

Namestnik polaganja - ponovno preverjanje algoritma

Kasneje je svet vzel algoritem, pokazal, kako deluje na zadnjici igrače, zdaj ni več dovolj primerjati joge s PCA, implementirali ga bomo v sklearnu - tudi če se bomo samopopravljali.

sklearn.decomposition import PCA pca = PCA(n_components = 1) XPCAreduced = pca.fit_transform(transpose(X))

Parameter n_komponent Navedem število vimiryuvan, glede na to, kako se projekcija izvaja, zato želimo naš nabor podatkov zmanjšati na raven vimiryuvan. Z drugimi besedami - število n lastnih vektorjev z največjim možnim številom. Premislimo o rezultatu zmanjšanja prostornine:

Natisni "Naša zmanjšana X: N", Xnew Print "Sklearn zmanjšal X: N", XPCareDoused Out: Naša zmanjšana X: [-9.56404106 -9.0934822 -5.5.5433492 -2.96481262 0.689385974 5.3212742 10.59672425] SKLEARN zmanjša X: [[-9.56404106 ] [ -9,02021625] [ -5,52974822] [ -2,96481262] [ 0,68933859] [ 0,74406645] [ 2,33433492] [ 7,39307974] [7]

Rezultat smo zasukali kot matriko vektorskih stolpcev (najbolj kanoničen pogled z vidika linearne algebre), PCA v sklearnu je zasukal navpični niz.

Načeloma cena ni kritična, le varto pomeni, da je v linearni algebri kanonično pisati matrike prek vektorskih stovptov, pri analizi podatkov (tistih drugih vidikov področij DB) pa so opozorila (transakcije, zapisi) zabeleženo v vrsticah.

Obrnitev teh drugih parametrov modela - funkcija ima lahko številne atribute, ki vam omogočajo dostop do vmesnih spremenljivk:

Povprečni vektor: pomeni_
- Vektor projekcije (matrika): komponente_
- Disperzija projekcijskih osi (vibracije): pojasnjeno_variance_
- del informacij (del globalne razpršenosti): razloženo_razmerje_variance_

Spoštovanje: razloženo_variance_ show vibirkova varianco, kot tudi funkcijo cov() za generiranje kovariančne matrike neprizanesljiv razpršitev!

Vrednosti vzamemo enako kot vrednosti knjižnične funkcije.

Natisni "Mean vector: ", pca.mean_, m print "Projekcija: ", pca.components_, v natisni "Pojasnjeno razmerje variance: ", pca.explained_variance_ratio_, l/sum(l) OUT: Povprečni vektor: [ 5,5 10,31439 ( 5.5, 10.314393916) Projekcija: [[0.43774316 0.89910006]] (0.4374316434772387, 0.89910006232167594) Pojasnila variance: [41.39455058] 45.9939450918 pojasnjeno razmerje variance: [0.990585888] 0.99058588818

Edina razlika je v varianceh, a kot smo že uganili, zmagamo funkcijo cov(), tako kot zmagovita nepristranska varianca, nato pa se atribut objašnjena_variance_ spremeni v viberkov. Smrad vіdrіznyayutsya manj tim, scho persha za otrimannya mat. rezultat delimo z (n-1), prijatelja pa z n. Preprosto je napačno razlagati, da je 45,99 ∙ (10 - 1) / 10 = 41,39.

Vse druge vrednosti se razlikujejo, kar pomeni, da so naši algoritmi enakovredni. Spoštujem, da imajo atributi knjižničnega algoritma lahko manj natančnosti, delce vin, singl-song, optimizacije za swidcode ali preprosto zaokrožijo vrednosti zaradi jasnosti (sicer imam nekaj napak).

Spoštovanje: Metoda knjižnice se samodejno projicira na os, ki poveča varianco. Ne bodi racionalen. Na primer, tega malega otroka sem nenatančno znižal do točke, ko postane razvrstitev nemogoča. Projekcija Prote na manjši vektor lahko uspešno spremeni velikost in shrani klasifikator.

Kasneje smo si ogledali principe delovanja algoritma PCA in njegovo izvedbo v sklearnu. Prepričan sem, da je bil ta članek jasen tistim, ki se šele začenjajo seznanjati z analizo podatkov, in tudi vsaj malo informativen za tiste, ki dobro poznajo algoritem. Intuitiven videz je bolj primeren za razumevanje načina izvajanja metode, razumevanje pa je še toliko pomembnejše za pravilno prilagoditev izbranega modela. Za spoštovanje!

PS: Prohannya ne lajajte avtorja zaradi morebitnih netočnosti. Avtor sam se uči o analizi podatkov in želi na enak način pomagati, saj je v procesu osvajanja vrednosti čudovitega znanja! Ale, konstruktivna kritika in rіznomanіtny dosvіd u vitayutsya!