Analisi fattoriale. Metodo del componente principale. Metodo delle componenti principali Criteri per la selezione delle componenti principali

Il metodo della componente principale è un metodo che traduce un gran numero di variabili correlate (a riposo, radicate) in un numero minore di variabili indipendenti e un gran numero di variabili spesso complica l'analisi e l'interpretazione delle informazioni. Rigorosamente kazhuchi, il metodo tsey non viene considerato prima dell'analisi fattoriale, sebbene possa esserne ricco. Nello specifico, in primo luogo, coloro che, nel corso delle procedure di conteggio, sottraggono immediatamente tutte le componenti di fuliggine e il loro numero per più della metà del costo delle ultime modifiche; in modo diverso si postula la possibilità di una nuova distribuzione della dispersione di tutti i cambiamenti esterni, cioè. її spiegazione esteriore attraverso fattori latenti (segni evidenziati).

Ad esempio, a quanto pare, abbiamo condotto una ricerca, in cui l'intelletto degli studenti è stato misurato dal test di Wechsler, il test di Eysenck, il test di Raven, nonché il successo della psicologia sociale, cognitiva e globale. Per quanto possibile, che gli indicatori dei vari test per l'intelligenza siano correlati tra loro, così che puzza vimiryuyut una caratteristica del benessere intellettuale inferiore - yogo, anche se è diverso. Yakscho zminnyh a doslіzhenny troppo ricco ( X 1 , X 2 , …, X P ) , Deyakі їх vzaєmopov'yazanі, quindi nell'ultimo vinikaє bazhannya cambia la piegatura dei dati, accorciando il numero di modifiche. Per cui e serve il metodo dei componenti di testa, che crea uno spratto di nuove modifiche y 1 , y 2 , …, y P, pelle con una combinazione lineare di cambiamenti di pannocchia X 1 , X 2 , …, X P :

y 1 =a 11 x 1 +a 12 x 2 +…+a 1p x p

y 2 \u003d a 21 x 1 + a 22 x 2 + ... + a 2p x p

… (1)

y p =a p1 x 1 +a p2 x 2 +…+a pp x p

I cambiamenti y 1 , y 2 , …, y P sono chiamati componenti della testa da chinniks. In questo modo, il fattore è un'evidenza statistica, che è la causa di particolari trasformazioni della matrice di correlazione. . La procedura per la fattorizzazione è chiamata fattorizzazione matriciale. Per effetto della fattorizzazione dalla matrice di correlazione, il numero dei fattori può essere variato anche fino ad un numero uguale al numero delle variazioni in uscita. Tuttavia, i fattori che compaiono nel risultato della fattorizzazione, di regola, non sono uguali ai loro valori.

Coefficiente un ij, che significano un nuovo cambiamento, sono scelti in modo tale che i nuovi cambiamenti (componenti della testa, fattori) descrivano la massima variabilità dei dati e non siano in conflitto tra loro. Spesso mostrano chiaramente i coefficienti un ij in modo tale che il fetore fosse un coefficiente di correlazione tra il cambiamento esterno e il nuovo cambiamento (fattore). Tse raggiungono multipli un ij deviazione standard del fattore. Per la maggior parte dei pacchetti statistici funziona così (anche per il programma STATISTICA). Coefficienteun ij Suonano le puzze sono servite dall'aspetto dei tavoli, defactory roztashovuyutsya dall'aspetto delle colonne e cambiano dall'aspetto delle righe:

Tale tabella è chiamata tabella (matrice) di preferenze fattoriali. Numeri puntati a niente, є da coefficienti un ij. Il numero 0,86 significa che la correlazione tra il primo fattore e il valore del test di Wechsler è 0,86. Più alto è il fattore non favorito in termini assoluti, più forte è il legame tra il cambiamento e il fattore.

L'analisi dei componenti principali (PCA) semplifica la piegatura di dati ad alta dimensione, preservando tendenze e modelli. Con rob tse, convertire i dati in quelli più piccoli, come un riepilogo delle funzioni. Tali dati sono ancora più ampi in diversi campi della scienza e della tecnologia e sono incolpati, se per uno skin zrazka ci sono alcuni segni, ad esempio, una tale espressione di opinioni ricche. Questo tipo di tributo presenta problemi, causati dalla frequenza delle grazie attraverso molteplici correzioni di tributo.

Il metodo è simile al clustering: conoscere i modelli senza inviarli e analizzarli, pereveryayuchi, chi zrazki da diversi gruppi di studi e puzza può essere vіdmіnnostі. Come tutti i metodi statistici, lo yoga può essere diagnosticato erroneamente. Il ridimensionamento delle modifiche può essere portato a risultati diversi nell'analisi, ed è importante, in modo che non sia stato corretto, in base al valore precedente dei dati.

Scopo dell'analisi dei componenti

Il meta metodo principale è quello di rivelare quel cambiamento nel set di dati, per identificare nuovi cambiamenti di base significativi. A tale scopo, è necessario utilizzare strumenti speciali, ad esempio per selezionare i dati ricchi nella matrice di dati di TableOfReal, nelle stesse righe per abbinare le modifiche e le modifiche. Pertanto, TableOfReal viene interpretato come un vettore e un dato numberOfRows, vettore skin di un tale numero di elementi Columns.

Tradizionalmente, il metodo delle componenti di testa si basa su una matrice di covarianza o una matrice di correlazione, che può essere calcolata dalla matrice di dati. La matrice di covarianza può essere utilizzata per scalare la somma dei quadrati e delle creazioni incrociate. La matrice di correlazione è simile alla matrice di covarianza, ma in primo luogo cambia, quindi le colonne sono standardizzate. A volte capita di standardizzare i dati, perché le varianze di alcuni di essi variano notevolmente. Per analizzare i dati, selezionare la matrice di dati TabelOfReal dall'elenco degli oggetti e premere per andare.

Tse prizvede prima della comparsa di un nuovo oggetto nell'elenco degli oggetti per il metodo dei componenti principali. Ora puoi aggiungere un grafico di valori curvi, in modo da poter tenere conto dell'importanza della pelle. E il programma può anche suggerire un diyu: togliere una parte della dispersione, oppure invertire l'uguaglianza del numero di valori di potenza e togliere l'uguaglianza. Oskіlki komponenti otrimani in un modo per risolvere specifici compiti di ottimizzazione, il fetore di atti di potere "in erba", ad esempio il massimo minlivost. Inoltre, c'è un basso livello di altri poteri, che possono fornire l'analisi fattoriale:

la dispersione della pelle, nella sua parte di totale dispersione delle alterazioni esterne, è determinata dai valori di potenza;
calcolo della valutazione, che illustra la significatività della componente cutanea per l'ora di cautela;
otrimannya navantage, come descrivere la correlazione tra la componente cutanea e il cambiamento cutaneo;
correlazione tra modifiche esterne, creata per un componente p aggiuntivo;
nel lavoro del fine settimana i dati possono essere eseguiti sotto forma di componenti p;
"rotazione" dei componenti, al fine di anticiparne l'interpretazione.

Scegli il numero di punti risparmio

Esistono due modi per scegliere il numero di componenti richiesto per il salvataggio. I metodi offensivi si basano sui significati di vіdnosinah mizh vlasnymi. Per chi si consiglia di utilizzare un valore di pianificazione. Poiché i punti sul grafico possono tendere a virіvnyuvatisya e vicini a zero, possono essere ignorati. Intermediate il numero dei componenti al numero, come se cadessero in un'unica parte della dispersione globale. Ad esempio, per essere soddisfatto del 95% della dispersione totale, il numero di componenti (VAF) è 0,95.

Le componenti principali vengono utilizzate per progettare una ricca analisi statistica del metodo delle componenti principali nei vettori di dati nella vastità dei vettori pubblici. Puoi crearlo in due modi: direttamente da TableOfReal senza formare frontalmente l'oggetto PCA e quindi puoi visualizzare la configurazione o i numeri. Seleziona l'oggetto e TableOfReal contemporaneamente e "Configurazione", in questo modo l'analisi dei componenti lucidati a umido è vittoriosa.

Come punto di partenza, è mostrato da una matrice simmetrica, ad esempio la covarianza, prima viene abbreviata in forma, quindi l'algoritmo QL con errori impliciti. Poiché il punto è il punto giusto e la matrice dei dati, è impossibile formare una matrice dalla somma dei quadrati. Natomista, muoviti in modo numericamente più stabile e stabilisci la disposizione secondo valori singolari. La stessa matrice è un buon vettore e gli elementi quadrati diagonali sono buoni valori.

Il componente principale є è stato utilizzato per normalizzare la combinazione lineare di predittori esterni nel set di dati utilizzando il metodo del componente della testa per i manichini. Nell'immagine, PC1 e PC2 sono i componenti principali. Ammissibile, є basso predittore, yak X1, X2 ..., XP.

Il componente principale può essere scritto come: Z1 = 11X1 + 21X2 + 31X3 + .... + p1Xp

Z1 è il primo componente della testa;
p1 - il vettore di vanità che si somma alla vanità (1, 2.) del primo componente principale.

La redditività è scambiata con la somma del quadrato 1. È connesso con ciò che un grande valore della redditività può portare a una grande dispersione. Vіn indica anche direttamente il componente principale (Z1), per il quale data la maggior differenza. Tse per portare al fatto che la linea nella distesa di r-misure, più vicina a n-guardia.

Proximity vymіryuєtsya z vikoristannyam onda euclidea quadrata media. X1..Xp sono predittori normalizzati. I predittori normalizzati possono avere un valore medio uguale a zero e una deviazione standard uguale a uno. Inoltre, il primo componente della testa è un'intera combinazione di modifiche agli altoparlanti esterni, che corregge la variazione massima nel set di dati. Con vyznaє direttamente la più grande lentezza dei dati. Più minuscolo è fissato nel primo componente, più informazioni vengono portate via da lui. Zhoden іnshiy non può madre minlivіst più della prima base.

Portare il primo componente principale sulla riga, che è più vicina ai dati e portare alla somma minima del quadrato tra il punto dati e la linea. L'altro componente della testa (Z2) è anche una combinazione lineare di predittori esterni, poiché corregge la varianza, che manca, nel set di dati e Z1 non è correlato. In altre parole, la correlazione tra la prima e le altre componenti può arrivare a zero. Vіn può essere rappresentato come: Z2 = 12X1 + 22X2 + 32X3 + .... + p2Xp.

Come se non fossero correlati, potrebbero essere direttamente ortogonali.

Inoltre, poiché il calcolo delle componenti principali avvia il processo di previsione dei dati del test per tutte le selezioni. Il processo del metodo dei componenti principali per le teiere è semplice.

Ad esempio, è necessario lavorare sulla conversione al test set, includendo la funzione di centro e ridimensionamento nel film R (ver.3.4.2) e la libreria yoga rvest. R - Programmazione in linguaggio libero per calcoli statistici e grafici. Tra le ricostruzioni del 1992 alla roccia per l'adempimento di compiti statistici da parte dei koristuvach. L'intero processo di modellazione dopo PCA.

Per implementare PCA in Python, importa i dati dalla libreria sklearn. L'interpretazione rimane la stessa di R. Solo alcuni dei dati presenti per Python sono una versione azzerata, in cui i valori vengono inseriti lo stesso giorno e le modifiche categoriali vengono convertite in numeri. Il processo di modellazione è rimasto lo stesso, come descritto nell'esempio per la corteccia R.

L'idea del metodo del componente principale è utile per la stretta virasi per lo sviluppo dell'analisi fattoriale. Invece di sommare da 1 a p, ora sommando da 1 a m, ignorando il resto dei termini p-m nella somma, togliendo il terzo viraz. È possibile riscrivere tse, come mostrato nel verso, che viene scelto per la designazione della matrice fattoriale delle preferenze L, che fornisce un'espressione residua della notazione matriciale. Di norma, viene rivendicata la vimirovanie standardizzata, sostituita dalla matrice della selezione di correlazione R.

Tse formano la matrice L fattore prevalente nell'analisi fattoriale che è accompagnata da una L trasposta. Per stimare varianze specifiche, il modello fattoriale per la matrice varianza-covarianza.

Ora abbiamo una migliore varianza-covarianza della matrice meno LL".

Xi è un vettore di guardie per l'i-esimo soggetto.
S sta per la nostra matrice di varianza-covarianza vibratoria.

Stessi valori di potenza p per la matrice qi della varianza di covarianza, nonché gli stessi vettori di potenza per la matrice qi.

Valori validi S:λ^1, λ^2, ..., λ^p.

Vettori di potenza S: e^1, e^2, ..., e^n.

L'analisi PCA è il metodo più difficile e popolare di analisi multivariata, che consente di aggiungere ricchi set di dati da un gran numero di modifiche. Dietro questo metodo, il metodo dei componenti della testa è ampiamente utilizzato in bioinformatica, marketing, sociologia e ricchezza degli altri. XLSTAT fornisce una funzione completa e flessibile per visualizzare i dati senza intermediari in Excel e propaga alcune opzioni standard ed estese, per consentirti di dare un'occhiata approfondita al report dei dati in Excel.

È possibile eseguire il programma su matrici di informazioni non completate, aggiungere ulteriori modifiche alla guardia, filtrare le modifiche secondo diversi criteri per ottimizzare la lettura delle carte. Inoltre, puoi voltarti. È facile creare una colonna correlativa, un grafico è un guardiano come i grafici Excel standard. È sufficiente trasferire i dati sui risultati, in modo che vincano l'analisi.

XLSTAT introduce una serie di metodi di elaborazione dei dati che verranno utilizzati sui dati di input prima di calcolare la componente principale:

Pearson, il classico PCA, che standardizza automaticamente i dati per il calcolo, al fine di eliminare l'afflusso esagerato di modifiche da grandi ispirazioni nel risultato.
Covarianza che funziona con partenze non standard.
Poligorico, per dati ordinali.

Applicare un'analisi dei dati forniti

Puoi guardare il metodo delle componenti principali con l'uso di una matrice di covarianza di correlazione simmetrica. Tse significa che la matrice può essere numerica e madre di dati standardizzati. È consentito, є la composizione dei dati è 300 (n) × 50 (p). Dove n è il numero di avvisi e p è il numero di predittori.

Oskіlki є ottimo p = 50, p(p-1)/2 è possibile. In questo caso, sarebbe un approccio comune scegliere il sottomoltiplicatore del predittore p (p<< 50), который фиксирует количество информации. Затем следует составление графика наблюдения в полученном низкоразмерном пространстве. Не следует забывать, что каждое измерение является линейной комбинацией р-функций.

Butt per la matrice da due modifiche. In questa applicazione del metodo dei componenti della testa, viene creato un insieme di dati da due alternati (dozhina grande e diagonale) con il numero di dati pezzo di Devis.

I componenti possono essere dipinti sul diagramma della distribuzione in questo modo.

Questo grafico illustra l'idea del primo o del componente principale, che garantisce il collegamento dati ottimale: un'altra linea viene disegnata su un tale grafico, non crea un insieme di valori previsti di punti dati sulla linea con meno dispersione.

La prima componente può anche essere aggiunta alla regressione con un peso della testa modificata (RMA), in cui viene trasferita, come x-, quindi e y-change può avere un perdono o non insignificante, oppure non c'è una chiara differenza tra la testa e il vento.

Il metodo delle componenti principali in econometria è l'analisi dei cambiamenti, come PNL, inflazione, tassi di cambio, ecc. Li valutiamo quindi per tributi evidenti, rango principale e serie storiche totali. Tuttavia, i modelli econometrici possono essere modificati per i programmi ricchi, ma non per quelli macroeconomici. Quindi, econometria significa mondo economico.

Lo sviluppo di metodi statistici fino alla migliore econometria dei dati mostra l'interrelazione tra i cambiamenti economici. Un semplice esempio di modello econometrico. Si prevede che la maggior parte delle persone si riprenderà in modo lineare a seconda del reddito dei sopravvissuti nel mese precedente. Lo stesso modello è pieghevole

Compito dell'econometria è valutare le stime dei parametri aeb. Il numero di parametri stimati, in quanto vittoriosi nel modello uguale, consentono di prevedere il valore futuro della vita, in quanto sta nel reddito del mese precedente. Sotto l'ora per lo sviluppo di questi tipi di modelli, è necessario assicurare alcuni momenti:

la natura del processo mobile che genera i dati;
Ho saputo di tse;
ampliamento del sistema;
forma di analisi;
rispettare le previsioni;
piegatura matematica del sistema.

Tutti i motivi sono importanti, i frammenti in essi giacciono perdoni dzherela, come modelli. Inoltre, per la soluzione di questi problemi, è necessario progettare un metodo di previsione. Può essere portato a un modello lineare, ma è ancora una piccola selezione. Questo tipo è uno dei più importanti, per il quale è possibile creare un'analisi predittiva.

Statistiche non parametriche

Il metodo delle componenti di testa per i dati non parametrici dovrebbe essere anteriore ai metodi del mondo, per i quali i dati sono classificati dalla linea di fondo. I metodi statistici non parametrici sono ampiamente utilizzati in diversi tipi di studi. In pratica, se l'assunto sulla normalità non viene superato, i metodi statistici parametrici possono portare a risultati che possono essere introdotti in Oman. Navpaki, metodi non parametrici per evitare meno indennità suvori per rozpodіl per wimirami.

La puzza è affidabile, indipendentemente dalle guardie rozpodіlіv che si trovano nelle loro fondamenta. Attraverso questa ricerca, per l'analisi di diversi tipi di disegni sperimentali, sono stati suddivisi molti diversi tipi di test non parametrici. Tali progetti includono il design da una selezione, il design da due strisce, il design da blocchi casuali. Ninі bayesivsky non parametrico pіdkhіd іz zastosuvannym metodo osnovnymi komponentіv vykoristovuєtsya semplifica l'analisi dell'affidabilità dei sistemi di testa.

Il sistema di ringhiere è un tipico sistema di piegatura di grandi dimensioni con sottosistemi reciproci, quasi a sostituire i componenti numerici. L'affidabilità del sistema viene presa in considerazione delle seconde visite del servizio tecnico e la gestione economica degli asset richiederà un'accurata valutazione dell'affidabilità al livello più basso. Prote data real ї nadіnostі meno dei componenti uguali del sistema aereo, che è sempre disponibile in pratica, ma sul completamento. Rozpodil zhittєvih tsiklіv komponentіv vіd virobnikіv spesso hovaєєєєє sladnyuєєєєє sladnyuєєsya vikoristannyam effettivo e lavoro centrale. In questo modo, l'analisi della validità dell'analisi della vitalità della metodologia per valutare l'ora di vita del componente nelle menti della presenza di dati sul discorso.

Il metodo delle principali componenti delle scienze moderne è vittorioso per il raggiungimento di due compiti principali:

analisi per i dati di studi sociologici;
ispirare modelli di suspіlnyh yavisch.

Algoritmi per la distribuzione dei modelli

Gli algoritmi del metodo delle componenti principali forniscono maggiori informazioni sulla struttura del modello e sulla sua interpretazione. La puzza è indicativa di come il PCA vince in varie discipline. Algoritmo per NIPALS dei minimi quadrati parziali iterativi non lineari utilizzando il metodo di calcolo dell'ultima componente. Il calcolo può essere bloccato alla fine della riga, se ti interessa abbastanza da essere sufficiente. Più pacchetti di computer possono tendere a vincere l'algoritmo NIPALS, ma ci sono due vantaggi principali:

Tra i dati opratsovuє vіdsutnі;
calcolare in sequenza i componenti.

Meta view dell'algoritmo:

fornire ulteriori informazioni su quelli che significano la promozione di tale valutazione;
mostra come la componente della pelle non si trovi ortogonalmente ad altre componenti;
mostrare come l'algoritmo può elaborare i dati disponibili.

L'algoritmo disegna in sequenza il componente skin, partendo dal primo direttamente con la varianza maggiore, quindi dall'altro e così via. NIPALS calcola un componente alla volta. Calcolando il primo equivalente di t1t1, oltre ai vettori p1p1, se avresti saputo dal valore della potenza o dalla distribuzione per valori singolari, puoi elaborare i dati in XX. Per sempre convergere, ma zbіzhnіst in modo molto bello. È anche familiare, come l'algoritmo di tenuta per il calcolo dei vettori di potenza e dei valori di potenza, e funziona bene per grandi set di dati. Google ha violato l'algoritmo per le prime versioni del sistema enigmatico basato sul potere.

L'algoritmo per le letture NIPALS è di seguito.

Le stime del coefficiente della matrice T sono quindi calcolate come T=XW e spesso i coefficienti della regressione dei quadrati B da Y su X sono calcolati come B = WQ. Un metodo alternativo per stimare le parti della regressione dei minimi quadrati parziali può essere descritto come segue.

Il metodo dei componenti della testa è uno strumento per designare i principali assi di dispersione in un set di dati e consente di seguire facilmente i cambiamenti chiave nei dati. Il metodo di stivaggio corretto è uno dei più avanzati nel set di strumenti per l'analisi dei dati.

L'analisi dei componenti è considerata come metodi diversi per ridurre il volume. Con la vendetta in un modo - il modo dei componenti principali. I componenti della testa sono in un sistema di coordinate ortogonali e la varianza dei componenti ne caratterizza la potenza statistica.

Vrahovyuchi, quali oggetti di successo nell'economia sono caratterizzati da un gran numero di segni, che influenzano un così gran numero di ragioni vipadkovy.

Calcolo delle componenti principali

La prima componente di testa Z1 del segno di sistema secondario X1, X2, X3, X4, ..., Xn è chiamata combinazione di segni lineare normalizzata centrata, poiché le combinazioni di segni lineari centrate-normalizzate mediane hanno la dispersione maggiore.

Come un altro componente della testa Z2, prenderemo una combinazione di segni così centrata e normalizzata, come:

non correlato con la prima componente di testa,

non correlata con la prima componente di testa, questa combinazione ha la maggiore dispersione.

La K-esima componente della testa Zk (k=1…m) è chiamata segno combinato centrato - normalizzato, come:

non correlato con un massimo di -1 componenti della testa in avanti,

nel mezzo delle più possibili combinazioni di segni esteriori, in caso contrario

non sono correlati con un massimo di -1 componenti della testa in avanti, questa combinazione ha la maggiore dispersione.

Introduciamo una matrice ortogonale U e passiamo dalla modifica di X alla modifica di Z, inoltre

Il vettore è scelto in modo che la dispersione sia massima. Se si sceglie il possesso, in modo che la dispersione sia massima per la mente, che non è correlata con ecc.

Oskіlki znaka vymiryanі nei valori neporіvnyannymi, quindi è meglio andare ai valori centrati-normalizzati. La matrice dei valori centrati-normalizzati esterni è nota dal riferimento:

imparziale, è possibile che sia possibile una valutazione efficace della valutazione matematica,

Invariato, è possibile che una valutazione efficace della dispersione.

La matrice degli avvertimenti del significato dei segni esteriori è stata evidenziata da Dodatku.

La centratura e la standardizzazione vengono eseguite con l'assistenza del programma "Stadia".

Se ci sono segni di centratura e normalizzazione, allora la valutazione della matrice di correlazione può essere sviluppata utilizzando la formula:

Prima di ciò, mentre conduciamo un'analisi delle componenti, analizzeremo l'indipendenza dei segni esterni.

Riconvalida della significatività della matrice delle correlazioni maschili per il criterio aggiuntivo di Wilks.

Facciamo un'ipotesi:

H0: insignificante

H1: significativo

125,7; (0,05;3,3) = 7,8

poiché > , allora si considera l'ipotesi H0 e la matrice è significativa, quindi è possibile condurre un'analisi delle componenti.

Invertire l'ipotesi sulla diagonalità della matrice di covarianza

Facciamo un'ipotesi:

Statistiche di Budєmo, rozpodіlenu per la legge dai gradini della libertà.

123,21, (0,05;10) =18,307

poiché >, allora si considera l'ipotesi H0 ed è possibile condurre un'analisi delle componenti.

Per indurre la fattorizzazione della matrice, è necessario assegnare i numeri appropriati della matrice, violando l'allineamento.

Per l'operazione è necessario utilizzare la funzione autovals del sistema MathCAD, in quanto ruota i numeri di matrice utilizzando la potenza:

Perché abbiamo tolto non la potenza del numero e la potenza del vettore matrice, ma la valutazione. Noi tsіkavitime naskіlki "buono" zі statisticheskij point zor vibrkovі caratteristiche descriviamo vіdpovіdnі parametri per generale ї sukupnostі.

L'intervallo di confidenza per l'i-esimo numero di potenza segue questa formula:

Gli intervalli gratuiti per i loro numeri nel risultato sono simili a:

La valutazione del valore di un numero dei numeri migliori è presa dall'intervallo di confidenza dei numeri più piccoli. È necessario ribaltare l'ipotesi sulla molteplicità dei numeri di potenza.

Per ulteriori statistiche è necessario ricontrollare la molteplicità

de r-numero di radici multiple.

Le statistiche di Tsya al momento della giustizia sono divise secondo la legge dal numero di passi di libertà. Ipotesi di Visunemo:

Ipotesi di Oskіlki vydkidaetsya, quindi il potere del numero e non un multiplo.

È necessario vedere i componenti principali solo a livello di informatività di 0,85. Il mondo dell'informatività mostra una parte o una parte della varianza dei segni esterni per formare le k-first componenti di testa. Per il mondo dell'informazione, chiamiamo il valore:

A un dato livello di informazione, sono state osservate tre componenti principali.

Scriviamo la matrice =

Per rimuovere il vettore normalizzato al passaggio dai segni verso l'esterno ai componenti principali, è necessario modificare il sistema di equalizzazione: Dopo la correzione della soluzione del sistema, è necessario normalizzare il vettore di correzione.

Per l'implementazione di questa attività, utilizziamo la funzione eigenvec del sistema MathCAD per accelerare il vettore di normalizzazione per un numero di potenza variabile.

A nostro avviso, le prime quattro componenti della testa sono sufficienti per raggiungere il livello di informazione dato, quindi la matrice U

Saremo la matrice U, le cui colonne sono i vettori di potenza:

Matrice dei tuoi coefficienti:

Coefficienti di matrice A є coefficienti di correlazione tra segni visivi centrati - normalizzati e componenti della testa non normalizzati e mostrano l'evidenza, la forza e la connessione lineare diretta tra i segni visivi e le componenti principali della testa.

Metodo del componente principale

Metodo del componente principale(ingl. Analisi delle componenti principali, PCA ) è uno dei modi principali per modificare la diversità dei dati utilizzando la minor quantità di informazioni. Vinaydeny K. Pearson Karl Pearson ) a r. Zastosovuetsya in aree ricche, come il riconoscimento di immagini, computer zir, gruppo di dati, ecc. Il calcolo dei componenti principali è ridotto al calcolo dei vettori di potenza e dei valori di potenza della matrice di covarianza dei dati. Viene chiamato un altro metodo dei componenti principali alle trasformazioni di Karhunen-Loev(ingl. Karhunen-Loeve) o la trasformazione di Hotelling (ing. Trasformazione alberghiera). Altri modi per modificare la diversità dei dati sono il metodo delle componenti indipendenti, il rich scaling, nonché l'aggregazione numerica non lineare: il metodo delle curve di testa e della variazione, il metodo delle mappe di primavera, il miglior metodo di proiezione (ing. Inseguimento di proiezione), metodo neuromerezhev di "gola vocale", che in.

Dichiarazione formale del problema

Il compito di analizzare i componenti principali, almeno, almeno, almeno alcune delle versioni base:

approssimare dati con differenze lineari di minore dimensionalità;
conoscere il sottospazio di dimensione minore, nella proiezione ortogonale sullo yak_rozkid danih (in modo che la deviazione del quadrato medio dal valore medio) sia massima;
conoscere il sottospazio di dimensione minore, nella proiezione ortogonale sullo yak della distanza quadratica media tra i punti il più possibile;
per un dato valore di variabile variabile ricca, indurre una tale trasformazione ortogonale di coordinate che, come risultato della correlazione tra altre coordinate, si trasformano a zero.

Le prime tre versioni funzionano con i punteggi finali dei dati. Il fetore è equivalente e non vicario a nessuna ipotesi sulla generazione statistica dei dati. La quarta versione si basa su valori verticali. Kіntsevі mulіnіy yavlyayutsya yavlyayutsya qui come vybіrki z dato rozpodіlu, e virіshennya tre primi zavdan - come un vicino alla "vera" reincarnazione di Karhunen-Loev. Diamo la colpa all'addendum ea tutta la banale offerta dell'accuratezza dell'approccio.

Approssimazione dei dati per differenze lineari

Illustrazione della famosa opera di K. Pirson (1901): dati punti sul piano, - vai dritto alla linea retta. Shukaetsya dritto, scho minimizzare la somma

Il metodo delle componenti di testa trae origine dal compito della migliore approssimazione del moltiplicatore terminale dei punti per rette e piani (K. Pirson, 1901). Dana kіntseva vettori anonimi. Per gli ambienti cutanei, dobbiamo sapere che la somma dei quadrati di salute è minima:

de - Euclideo dal punto alla differenza lineare. Be-yak - raznomanittya pacificamente lineare può essere dato come combinazioni lineari anonime, de parametri attraversano la linea del discorso e - tipizzazione ortonormale di vettori

de norma euclidea, - twir scalare euclidea, o in forma coordinata:

Lo sviluppo del problema di approssimazione per è dato da un insieme di input di differenze lineari, . I numeri delle differenze lineari sono determinati da un insieme ortonormale di vettori (vettori delle componenti principali) e da un vettore. Il vettore si presenta come una soluzione al problema della minimizzazione per:

I vettori dei componenti principali possono essere trovati come soluzione a problemi di ottimizzazione simili:

1) dati centralizzati (media visibile): . Adesso; 2) conosciamo il primo componente della testa come un compito; . Se non c'è una soluzione, ne scegliamo una. 3) Possiamo vedere da questa proiezione della prima componente di testa: ; 4) l'altro componente della testa sa come risolvere il problema. Se non c'è una soluzione, ne scegliamo una. … 2k-1) Possiamo vedere la proiezione sulla -esima componente di testa (supponiamo che le sporgenze sulle componenti principali anteriori siano già visibili): ; 2k) la k-esima componente di testa è nota come soluzione del problema: . Se non c'è una soluzione, ne scegliamo una. …

Nella fase dermica, vediamo una proiezione sulla componente anteriore della testa. I vettori di ortonormalizzazione si trovano semplicemente come risultato dello sviluppo del problema di ottimizzazione descritto, per non perdonare il calcolo e distruggere l'ortogonalità reciproca del vettore nelle componenti della testa, è possibile attivare il compito di ottimizzazione.

L'inadeguatezza del crim assegnato di un banale swaville nella scelta di un segno (e nell'adempimento dello stesso compito) può essere più precisa e considerata, ad esempio, dalla mente della simmetria dei dati. Il resto della componente della testa è un unico vettore ortogonale a quello anteriore.

Cerca le proiezioni ortogonali con le maggiori differenze

Il primo componente della testa massimizza la varianza vibrazionale della proiezione dei dati

Diamo il centraggio di un insieme di vettori di dati (la media aritmetica del valore è uguale a zero). Compito: conoscere una tale trasformazione ortogonale in un nuovo sistema di coordinate, che sarebbe corretto tali condizioni:

La teoria dell'allineamento singolare è stata creata da J. J. Sylvester (Ing. Giacomo Giuseppe Silvestro ) nel m.

Un semplice algoritmo di scomposizione singolare iterativo

La procedura principale consiste nel cercare la migliore approssimazione di una matrice sufficientemente grande sotto forma di matrice (vettore de - mondo, a - vettore mondiale) con il metodo dei minimi quadrati:

La soluzione del problema è data da successive iterazioni secondo formule esplicite. Con un vettore fisso, i valori che forniscono la forma minima sono assegnati in modo univoco ed esplicito alle uguaglianze:

Allo stesso modo, con un vettore fisso, vengono assegnati i seguenti valori:

Come approssimazione di un vettore, prendiamo un vettore variabile di un singolo valore, un vettore da calcolare, un vettore da calcolare per quale vettore, ecc. Il valore viene modificato. Come criterio per la fluttuazione, ci sono tre distinte variazioni nel valore del funzionale minimizzato per una breve iterazione () o tre delle più significative.

Il risultato della matrice è stato sottratto dall'approssimazione più vicina del tipo di matrice (qui, l'indice superiore dei valori è il numero dell'approssimazione). Inoltre, dalla matrice, posso vedere la matrice e per la matrice rimossa, il trucco è di nuovo cercare la migliore approssimazione dello stesso tipo, ecc., finché, ad esempio, la norma diventa sufficientemente piccola. Con la guerra, abbiamo eliminato la procedura iterativa per disporre la matrice come somma di matrici di rango 1, tobto . Di conseguenza, l'approssimazione di numeri singolari e vettori singolari (destra - e sinistra - ) è stata eliminata.

Prima che l'algoritmo possa superarlo, la sua semplicità e la capacità di trasferirlo senza modifiche a dati con lacune, oltre a dati importanti.

Stabilire varie modifiche dell'algoritmo di base per migliorare l'accuratezza e la stabilità. Ad esempio, i vettori delle componenti della testa in caso di vari difetti sono ortogonali "secondo le abitudini", prote con un gran numero di iterazioni (grande diversità, componente ricca) si accumulano piccole deviazioni nell'ortogonalità e potrebbero richiedere una correzione speciale sulla pelle croc , l'importante sicurezza del componente della testa.

Disposizione singolare dei tensori e metodo tensoriale delle componenti della testa

Spesso, un vettore di dati può aggiungersi alla struttura di una tabella rettangolare (ad esempio, un piano dell'immagine) per creare una tabella ricca - tobto il tensore : , . È anche efficace per questa persona avere un layout singolare. Designate, le formule principali degli algoritmi possono essere trasferite praticamente senza modifiche: la sostituzione della matrice di dati può essere il valore dell'indice, il primo indice è il numero del punto (tensore) dei dati.

La procedura principale consiste nel cercare la migliore approssimazione di un tensore mediante un tensore della forma (vettore di de - pace ( - numero di punti dati), - vettore di dimensione a ) con il metodo dei minimi quadrati:

La soluzione del problema è data da successive iterazioni secondo formule esplicite. In effetti, tutti i vettori-moltiplicatori di un cremisi sono impostati e quello che viene tralasciato è chiaramente rappresentato almeno da menti sufficienti.

All'inizio della prossimità del vettore () prendi il vettore opposto e il singolo valore, calcola il vettore , dai per questo vettore e questi vettori nel vettore di calcolo, ecc. (ordinando ciclicamente l'indice) Algoritmo, forse convergere. Come criterio per la fluttuazione, ci sono tre variazioni significative nel valore del funzionale minimizzato per un ciclo, o tre delle più significative. Più lontano, dal tensore si può vedere la vicinanza e l'eccesso di nuovo shukayemo la migliore vicinanza dello stesso tipo. bud., poke, ad esempio, la norma dell'eccedenza di chergovogo sarà piccola.

Questo layout singolare ricco di componenti (il metodo tensore dei componenti della testa) viene utilizzato con successo durante l'elaborazione di immagini, segnali video e, più o meno dati, più o meno ampi, in modo da poter formare una struttura tabulare o tensore.

Trasformazione matriciale ai componenti principali

La matrice di conversione dei dati nelle componenti principali è composta dai vettori delle componenti principali, ordinati in ordine di modifica dei loro valori:

(significa trasposizione),

Tobto, la matrice è ortogonale.

La maggior parte delle variazioni di questi dati sarà contrassegnata nelle prime coordinate, il che ti consente di andare nella distesa di meno spazio.

dispersione Zalishkov

Fornisci i dati di centraggio, . Quando si sostituiscono i vettori di dati sulla proiezione principale sul primo componente della testa, viene inserito il quadrato medio del perdono dalla risurrezione per un vettore di dati:

dove i valori della matrice di covarianza empirica sono, ordinati in ordine di variazione, con la molteplicità aggiustata.

Viene chiamato il valore Tsya dispersione eccessiva. Valore

chiamata dispersione spiegata. Їhnya sum dorivnyuє vibrkovіy varianza. Vіdpovіdny square vіdnoї pardon - tsі vіdnennia eccedenza varianza a vibrіkovo varianza (tobto parte della varianza inspiegabile):

Per un eccezionale perdono, si valuta la valutazione del metodo delle componenti principali con il disegno sulle prime componenti.

Rispetto: nella maggior parte degli algoritmi di numerazione, i numeri di potenza con i vettori di potenza più potenti - i componenti della testa vengono contati nell'ordine "dal più grande al più piccolo". Per il calcolo è sufficiente calcolare i primi numeri e la successiva matrice di covarianza empirica (la somma degli elementi diagonali, cioè le varianze lungo gli assi). Todi

Selezione dei componenti principali secondo la regola Kaiser

Tsіlovy ha pensato prima di stimare il numero di componenti della testa per la necessaria varianza spiegata frequentemente formalmente zastosovuє zavzhd, prote implicitamente il trasferimento, scho podіl a "segnale" e "rumore", e se l'accuratezza del sensore è predeterminata o meno. Per questo è spesso produttiva un'altra euristica, che si basa sull'ipotesi della presenza di un “segnale” (un volume uniformemente piccolo, un'ampiezza chiaramente grande) e un “rumore” (un grande volume, un'ampiezza chiaramente piccola). A prima vista, il metodo delle componenti principali funziona come un filtro: il segnale viene rimosso, soprattutto, nella proiezione delle prime componenti principali, e la proporzione di rumore è più ricca nelle altre componenti.

Alimentazione: come valutare il numero di componenti principali necessari, come se il rapporto segnale/rumore non fosse noto in anticipo?

Viene fornito il metodo più semplice e antico per la selezione dei componenti della testa La regola del Kaiser(ingl. La regola del Kaiser): componenti principali significativi, che

per modificare il valore medio (dispersione vibratoria media delle coordinate del vettore dati). La regola del Kaiser è ben praticata nei casi più semplici, se ci sono alcune delle componenti principali, il valore medio è ampiamente ribaltato e gli altri numeri di potenza sono inferiori a quello nuovo. In situazioni di piegatura, può fornire componenti principali ancora più significativi. Essendo data la normalizzazione ad un'unica dispersione vibrazionale lungo gli assi, la regola di Kaiser è particolarmente semplice nell'aspetto: le componenti principali significative che

Stima del numero dei componenti principali secondo la regola del bastone malvagio

Esempio: Stima del numero dei componenti principali secondo la regola delle ance spezzate di taglia 5.

Uno degli approcci euristici più popolari per valutare il numero di componenti necessari per la testa è regola del bastone malvagio(ingl. Modello a bastoncino rotto). Un insieme di normalizzazioni per una singola somma di tutti i numeri (, ) è uguale alla distribuzione dei dozhin dell'ulamkіv dell'ancia di una singola dozhina, il punto rotto è rotto (i punti dell'interruzione vengono scelti indipendentemente ed equamente divisi dalla colomba della canna). Dai () - Ance Dovzhini otrimanih shmatkіv, numerate nell'ordine di cambio di dozhini:. Non importa conoscere la raffinatezza matematica:

Secondo la regola del bastone malvagio, il esimo vettore di potenza (nell'ordine di cambiamento dei numeri di potenza) è preso dall'elenco dei componenti della testa, il che significa

Riso. è stato puntato un calcio per un vipad 5 volte:

=(1+1/2+1/3+1/4+1/5)/5; =(1/2+1/3+1/4+1/5)/5; =(1/3+1/4+1/5)/5; =(1/4+1/5)/5; =(1/5)/5.

Selezionato per il culo

=0.5; =0.3; =0.1; =0.06; =0.04.

Secondo la regola di una canna malvagia, in questo calcio ci sono 2 componenti di fuliggine:

Secondo le stime dei coristuvachs, la regola del bastone malvagio potrebbe tendere a sottostimare il numero delle componenti principali significative.

Razionamento

Razionamento dopo riduzione ai componenti principali

Dopo progettando sui primi componenti principali e normalizzando manualmente ad un'unica dispersione (selettiva) lungo gli assi. La dispersione dell'aria e della componente di testa è più costosa), quindi per la normalizzazione è necessario dividere la coordinata corrispondente per . Questa trasformazione non è ortogonale e non richiede una creazione scalare. La matrice di covarianza della proiezione dei dati diventa singola dopo la normalizzazione, le proiezioni sul fatto che due rette ortogonali diventino o meno quantità indipendenti e se la base ortonormale diventi o meno la base delle componenti principali (supponendo che la normalizzazione modifichi l'ortogonalità del vettore). Vіdobrazhennya dalla distesa di dati di output sui primi componenti della testa e allo stesso tempo con la normalizzazione è data dalla matrice

La trasformazione stessa è spesso chiamata trasformazione di Karhunen-Loev. Qui ci sono i vettori e l'indice superiore significa trasposizione.

Razionamento fino al calcolo delle componenti principali

Progredire: non traccia di erronea normalizzazione, da effettuarsi dopo la trasformazione ai componenti principali, con normalizzazione e "nervante" quando ridistribuzione dei dati, che viene effettuato prima del calcolo delle componenti principali. La normalizzazione diretta è necessaria per una scelta arrotondata di metriche, in cui è possibile calcolare la migliore approssimazione dei dati, oppure è necessario calcolare la linea più retta della distribuzione più grande (che è equivalente). Ad esempio, se dato da vettori tridimensionali di “metri, litri e chilogrammi”, allora se la differenza euclidea standard è di 1 metro lungo la prima coordinata, lo stesso contributo funzionerà, come differenza di 1 litro sull'altra, oppure 1 kg il terzo. Chiama i sistemi di 1, per i quali sono presentati dati visivi, riflettono in modo non sufficientemente accurato le nostre affermazioni sulle scale naturali lungo gli assi ed esegui il "disarmamento": la coordinata della pelle è suddivisa in una scala singola, che è designata come dati, i numeri del loro trattamento e dei processi di vimiryuvannya e della raccolta di dati.

Esistono tre diversi approcci standard a tale standardizzazione: singola varianza lungo gli assi (la scala lungo gli assi è uguale al miglioramento quadratico medio - dopo che la seconda trasformazione della matrice di covarianza viene scalata con la matrice dei coefficienti di correlazione), su uguale alla precisione del mondo(Scala lungo l'asse di precisione proporzionale del valore dato) e via pari vimogi al compito (la scala lungo l'asse è determinata dalla necessaria accuratezza della previsione di un dato valore o da eventi ammissibili - uguale tolleranza). Introduzione alla vivificazione dei compiti nella vibrazione dei compiti, e ho lavorato per l'acquisizione dei Dones (un pensiero dello Yakschko Dia Dia Dia Dani non è stato completato, quindi nerazіonially Vyibrates Normuvnaya rigorosamente sull'identità di dispersione, Navischko Tseva Vіdpovіdaє Zm_sta Delivani, Oskilki Tsey otrimannya nuova porzione, scegliere saggiamente una scala ragionevole, valutare approssimativamente l'assunzione standard e non modificarla ulteriormente).

La normalizzazione in avanti alla dispersione singola lungo gli assi collassa ruotando il sistema di coordinate, poiché gli assi sono i componenti della testa e la normalizzazione quando si rieseguono i dati non sostituisce la normalizzazione dopo la riduzione ai componenti della testa.

Analogia meccanica e metodo delle componenti di testa per i dati di ranking

Per abbinare il vettore skin dei dati a una singola massa, quindi la matrice di covarianza empirica cambia con il tensore di inerzia del sistema di masse puntiformi (suddividiamo per la stessa massa) e il problema delle componenti della testa - dai compiti di ridurre il tensore di inerzia agli assi della testa. È possibile conquistare ulteriore libertà nella scelta del valore della massa per l'importanza dei punti di dati o la superiorità dei loro valori (alle grandi masse vengono attribuiti tributi importanti o tributi dal dzherel superiore più grande). Yakscho il vettore di dati spera masa, quindi viene effettuata la sostituzione della matrice di covarianza empirica

Tutte le ulteriori operazioni dalla riduzione alle componenti principali vengono vibrate allo stesso modo, come nella versione principale del metodo: si giudica l'ortonormalizzazione della base di potenza, è ordinatamente possibile la variazione dei valori di potenza, si valuta la media valore dell'approssimazione della normalizzazione dei numeri data dalla somma delle prime componenti,

Viene fornito un modo più caldo di chiamare massimizzazione del valore della somma delle viste accoppiate tra le proiezioni. Per la pelle due punti di dati, viene introdotto vaga; Quello . Vince la sostituzione della matrice di covarianza empirica

Quando la matrice simmetrica è assegnata positivamente, le scale sono di forma quadratica positiva:

Abbiamo dato un'ortonormalizzazione della base di potenza, ordinandola dopo la caduta dei valori di potenza, stimando il perdono medio dell'approssimazione dei dati da parte delle prime componenti, ecc. - esattamente allo stesso modo, come nell'algoritmo principale.

Di chi è il modo di ristagnare per l'evidenza delle classi: per classi diverse, il vaga vaga è selezionato più alto, più basso per i punti della stessa classe. In questo modo, nella proiezione sui ranghi, i componenti principali della diversa classe "rozsuvayutsya" su scala più ampia.

Più zastosuvannya - abbassando l'infusione di grandi trucchi(Outlayer, ing. Straordinario ); In questo modo viene descritta una modifica del metodo delle componenti di testa, che è più robusto, meno classico.

Terminologia speciale

Le statistiche per il metodo dei componenti di testa hanno una serie di termini speciali.

Matrice di dati; riga di cuoio - vettore riqualificazione danih ( centraggio e giusto razionamento), numero di righe - (numero di vettori di dati), numero di colonne - (espansione dei dati);

matrice Navantagen(Carichi); kozhen stovpets - vettore dei componenti della testa, numero di righe - (espansione dello spazio dei dati), numero di stovpts - (numero di vettori dei componenti della testa, design selezionato);

matrice di Rachunkiv(Punteggi); riga della pelle - proiezione del vettore di dati sul componente della testa; numero di righe - (numero di vettori nei dati), numero di colonne - (numero di vettori nei componenti principali, selezionati per la progettazione);

Matrice Z-rachunkiv(punteggi Z); skin row - proiezione del vettore dati sui componenti principali, normalizzato ad una singola varianza vibrazionale; numero di righe - (numero di vettori nei dati), numero di colonne - (numero di vettori nei componenti principali, selezionati per la progettazione);

matrice del perdono(altrimenti eccedenza) (Errori o residui) .

Formula base:

Metodo Mezhі zastosuvannya e zamezhennya effektivnosti

Metodo del componente principale L'affermazione più ampia su coloro che sono stagnanti solo rispetto ai dati normalmente distribuiti (altrimenti, per le rose vicine alla normalità) non è così: la formula standard di K. Pearson dovrebbe essere approssimazioni l'ultima moltiplicazione dei dati e il giorno successivo per creare un'ipotesi sulla loro generazione statistica, senza pensarci già.

Metodo di protezione, che riduce sempre efficacemente il rozmіrnіst quando si imposta la calcinazione per la precisione. I piani diritti non sempre forniscono una buona approssimazione. Ad esempio, i dati possono seguire con buona precisione se si tratta di una curva e quella curva può essere ordinata in modo ordinato nella distesa di dati. In questo caso, il metodo dei componenti della testa per una precisione accettabile dovrebbe essere maggiore del numero di componenti (sostituzione di uno), altrimenti non darà una diminuzione delle dimensioni con una precisione accettabile. Per lavorare con tali componenti di testa "curve", è stato trovato il metodo delle differenze di testa e diverse versioni del metodo dei componenti di testa non lineari. Maggiori imprecisioni possono portare a una data topologia di piegatura. Per le loro approssimazioni, abbiamo anche trovato metodi diversi, ad esempio le mappe di Kohonen, che sono auto-organizzanti, gas neurali o grammatiche topologiche. Se i dati forniti sono generati statisticamente dalla componente radice, che sembra normale, quindi per approssimare la componente radice, per approssimare la componente radice componenti indipendenti, sebbene non sia più ortogonale alla creazione scalare esterna di Nareshti, per un rozpodіl isotropico (navіt normale) la sostituzione dell'elіpsoїda rozsiyuvannya viene presa dalla palla, ed è impossibile cambiare il rozmirnіst con i metodi di approssimazione.

Applica Vittoria

Visualizzazione dei dati

Visualizzazione dei dati - presentazione nella forma originale dei dati da sperimentare e dei risultati della ricerca teorica.

La prima scelta nella visualizzazione del moltiplicatore di dati è la proiezione ortogonale sul piano delle prime due componenti della testa (o dello spazio tridimensionale delle prime tre componenti della testa). L'area di progettazione è, infatti, uno “schermo” bidimensionale piatto, arruffato in modo da fornire un “quadro” di dati con le più piccole realizzazioni. Tale proiezione sarà ottimale (proiezioni medie ortogonali su diversi schermi bidimensionali) per tre proiezioni:

La somma minima dei quadrati tra i dati punta alle proiezioni sull'area dei primi componenti della testa, in modo che lo schermo delle espansioni sia il più vicino possibile in termini di proiezione ai punti cupi.
La quantità minima di creazione di quadrati tra quadrati è una coppia di punti dall'oscurità dei dati dopo aver progettato un punto su un piano.
La quantità minima di creazione di quadrati è tra i punti di dati e il "centro di gravità".

La visualizzazione dei dati è una delle aggiunte più utilizzate al metodo dei componenti della testa e delle considerazioni non lineari.

Compressione di immagini e video

Per modificare l'ampiezza dello spazio esterno dei pixel, l'ora della codifica dell'immagine e del video verrà riprodotta dalla trasformazione lineare dei blocchi di pixel. Le fasi di quantizzazione dei coefficienti di omissione e di codifica senza sprechi consentono di omettere coefficienti di compressione significativi. La trasformazione alternativa di PCA come trasformazione lineare è ottimale per alcuni tipi di dati in termini di dimensione dei dati prelevati dagli stessi dati contemporaneamente. Al momento, questo metodo non è attivamente promosso, principalmente a causa della grande complessità computazionale. Quindi è possibile schiacciare questi dati, mostrando i coefficienti di trasformazione rimanenti.

Soppressione del rumore nelle immagini

Chemiometria

Il metodo della componente della testa è uno dei metodi principali in chemiometria. Chemiometria ). Consente di dividere la matrice dei dati di output X in due parti: "sostituzione" e "rumore". Per naybіlsh viznachennyam popolare "Chemometrics - tse hіmіchna distsiplіna scho zastosovuє matematichnі, statistichnі quel metodo Inshi zasnovanі su logіtsі formalnіy per pobudovi ABO vіdboru vimіryuvannya ottimale metodіv che planіv eksperimentu e takozh per otrimannya nayvazhlivіshoї Informazioni del analіzі al esperienziale danih".

Psicodiagnostica

analisi dei dati (descrizione dei risultati dell'esperimento su alcuni degli altri risultati, come nel caso dell'osservazione di array di dati numerici);
descrizione dei fenomeni sociali (modelli positivi dei fenomeni, zocrema e modelli matematici).

Nelle scienze politiche, il metodo delle componenti di testa è lo strumento principale per il progetto "Atlante politico del mondo" per l'analisi lineare e non lineare dei rating in 192 paesi del mondo per cinque indici integrali integrati speciali (pari alla vita, entrate, minacce, poteri). Per la cartografia dei risultati di questa analisi è stato sviluppato un apposito GIS (Geoinformation system), che è segno di estensione geografica. Inoltre, è stata creata una mappa dei dati dell'atlante politico, che è alla base delle principali differenze nei due mondi nell'estensione dei cinque mondi del paese. Identità delle carte dati sotto forma di carta geografica in quanto, in una carta geografica, le istruzioni mostrano oggetti che possono avere coordinate geografiche simili, mentre nella carta dei dati, le istruzioni mostrano oggetti (bordi) con segni simili (indici) .

In questo articolo, voglio parlare di quelli, come il metodo più pratico di analisi delle componenti principali (PCA - analisi delle componenti principali) dal punto di vista dell'insight, che sta dietro l'apparato matematico. Naib_sh è semplice, ma è segnalato.

La matematica vzagali già garna quella scienza vitonchen, ma allo stesso tempo la bellezza hovaetsya dietro un mucchio di palle di astrazione. Mostra la tua bellezza in modo più bello su mozziconi semplici, come, così sia, puoi torcerlo, romperlo e toccarlo, a quello che ti sbagli, tutto è più facile da vedere, è più facile da guardare al primo sguardo , è più comprensibile e rivelatore.

Nell'analisi dei dati, come in qualsiasi altra analisi, per un'ora non saremo in grado di creare un modello semplice che descriva il campo reale nel modo più accurato possibile. Spesso accade che i segni vengano depositati pesantemente, una specie di una di quelle presenze di un'ora è trascendentale.

Ad esempio, la quantità di carburante in noi è misurata in litri per 100 km e negli Stati Uniti in miglia per gallone. A prima vista, l'entità della differenza, ma in realtà il fetore si trova uno dopo l'altro. Un miglio è 1600 km e un gallone è 3,8 litri. Un segno è rigorosamente depositato nell'altra direzione, conoscendone uno, conoscendo l'altro.

Ma più spesso è così ricco che i segni di mentire uno per uno non sono così severi e (importante!) non così evidenti. Il volume del motore nel suo insieme contribuisce positivamente a guidare fino a 100 km/anno, ma non si avvia. E può anche rivelare che, a causa del miglioramento di fattori non visibili a prima vista (come l'aumento della forza del fuoco, l'uso di materiali leggeri e altre realizzazioni attuali), il suono dell'auto non è forte , ma si riversa anche nello yogo.

Conoscendo la stantia di quella forza, possiamo usare un segno di spratto attraverso uno, acquistare più rabbia, quindi spostarla ed esercitarci già con un modello semplice più grande. Per prima cosa salvatevi le informazioni, meglio per tutto, non mollate, ma almeno aiutateci ad utilizzare il metodo PCA.

Vyslovlyuyuchis suvoro, il metodo tsey si avvicina alla guardia khmara di n-dimensione a elіpsoїda (tezh n-virіrnogo), pіvosі kakogo sarò i futuri componenti principali. І per le proiezioni di tali assi (dimensionalità ridotta) viene raccolta la maggior parte delle informazioni.

Krok 1. Preparazione dei dati

Qui, per semplicità, non prenderò il vero set di dati primario per dozzine di segnali e centinaia di avvisi, ma amplierò il mio culo giocattolo più semplice. 2 segnali e 10 avvisi saranno sufficienti per descrivere cosa, e la cosa più importante è guardare l'algoritmo.

Generiamo un vibratore:

X = np.arange(1,11) y = 2 * x + np.random.randn(10)*2 X = np.vstack((x,y)) print X OUT: [[ 1. 2. 3. 4.5.6.7.8.9.10.] [ 2.73446908 4.35122722 7.21132988 11.24872601 9.58103444 12.09865079 129 3.9

Abbiamo due segni in questa selezione, che sono fortemente correlati uno con uno. Con l'aiuto dell'algoritmo PCA, possiamo facilmente conoscere la combinazione di segni e il prezzo di una parte delle informazioni e determinare l'offesa dei segni con una nuova. Quindi diamoci da fare!

Per le statistiche cob trohi. Indovinare che ci sono momenti nella descrizione della grandezza vipadica. Abbiamo bisogno di Matyuki. ochіkuvannya quella varianza. Puoi dire audacemente che tappetino. ochіkuvannya - tse "centro di gravità" grandezza e varianza - tse її "razmіri". Più o meno kazhuchi, matyuki. il ridimensionamento indica la posizione del valore verticale e la varianza - її razmіr.

Il processo di proiezione su un vettore non contribuisce in alcun modo ai valori medi, quindi per ridurre al minimo la perdita di informazioni, il nostro vettore può passare per il centro del nostro campione. Non c'è niente di terribile per questo, poiché centramo la nostra selezione - linearmente distruttibile, in modo che il valore medio del segno raggiunga 0.
L'operatore, che restituisce il valore al vettore dei valori medi - vin, è necessario per ripristinare la selezione del volume esterno.

Xcentered = (X - x.mean(), X - y.mean()) m = (x.mean(), y.mean()) print Xcentered print "Vettore medio: ", m OUT: (array([ -4.5, -1.5, -0.5, 0,5, 1,5, 2,5, 3,5, 4.5]), Array ([- 8.44644233, -8.32845585, -4.54314426, -2.56723136, -2.56723136, 1.01013491, 7.00558491, 7.00558491, 0.58413491, 4.21440647, 9.595014408])) Vettore medio : (5.5, 10.314393916)

La varianza deve rientrare nell'ordine di grandezza del valore di caduta, cioè. sensibile alla scala. Pertanto, in segno di solitudine nel mondo, sono fortemente turbati dai propri ordini, si raccomanda di standardizzarli. Nel nostro caso i significati non cambiano molto negli ordini, quindi per semplicità non cambierò questa operazione.

Krok 2. Matrice di covarianza

In un vipad con un ricco valore vipad (vipad vector), la posizione del centro sarà la stessa. ochіkuvannyami її proiezioni sull'asse. E l'asse per la descrizione dei moduli її è già insufficiente solo її varianze lungo gli assi. Guarda i grafici, nelle tre fluttuazioni dei valori, la stessa aspettativa e dispersione matematica, come le proiezioni sull'asse, mostrano lo stesso!

Per descrivere la forma del vettore vipad è necessaria una matrice.

Matrice Tse, yak maє (i,j)-Elemento - segno di correlazione (X i, X j). Indovina la formula di covarianza:

È facile per la nostra mente dire che E(X i) = E(X j) = 0:

Rispettosamente, se X i = X j:

E questo è vero per qualsiasi valore vipadkovyh.

In questo ordine, la nostra matrice lungo la diagonale avrà il segno di varianza (perché i = j), e al centro della matrice - le covarianze delle due coppie di segni. E a causa della simmetria della covarianza, anche la matrice sarà simmetrica.

Rispetto: La matrice di covarianza є zagalnenny varianza in diversi valori variabili ricchi - ha vinto yak e definisce la forma (rozkid) del valore vypadkovy, yak і varianza.

Innanzitutto, la varianza di un valore di variabile unidimensionale è una matrice 1x1, in cui è presente un singolo membro di attività dalla formula Cov(X,X) = Var(X).

Quindi, formiamo una matrice di covarianza Σ per la nostra selezione Per quale varianza X i і X j, e anche la loro covarianza. Puoi velocizzare con una formula scritta, ma se ci siamo abituati a Python, allora è un peccato non velocizzare la funzione numpy.cov(X). Accetta come input un elenco di tutti i segni della grandezza variabile e ruota la matrice di covarianza e de X - vettore variabile n-universale (n-numero di righe). Funzione vіdmіnno і dkhodit і per espandere la varianza imparziale, і per la covarianza di due quantità, і per piegare la matrice di covarianza.
(Immagino che in Python una matrice sia una riga di array di righe di array.)

Covmat = np.cov(Xcentered) print covmat, "n" print "Varianza di X:", np.cov(Xcentered) print "Varianza di Y: ", np.cov(Xcentered) print "Covarianza X e Y: " , np.cov(Xcentered) OUT: [[ 9.16666667 17.93002811] [ 17.93002811 37.26438587]] Varianza di X: 9.16666666667 Varianza di Y:3:3

Krok 3

Ok, abbiamo preso una matrice che descrive la forma della nostra dimensione della goccia, quindi possiamo separarla per xey (che sono X 1 e X 2), così come la forma piatta sul piano. Ora dobbiamo sapere tale vettore (un solo tipo), massimizzando l'espansione (dispersione) della proiezione della nostra selezione sul nuovo.

Rispetto: La principale varianza sulla mondanità reale è la matrice disponibile ei due concetti sono equivalenti. Quando si proietta su un vettore, la varianza di proiezione viene massimizzata, quando si proietta su una vasta distesa di grandi ordini, viene massimizzata l'intera matrice di covarianza.

Inoltre, prendi un singolo vettore su una proiezione del nostro vettore di proiezione X. Quindi la proiezione su un nuovo percorso v T X. La varianza di proiezione sul vettore sarà simile a Var(v T X). Nella vista globale, nella forma vettoriale (per valori di centraggio), la varianza è espressa come segue:

Ovviamente, dispersione di proiezione:

È facile ricordare che la varianza è massimizzata oltre il valore massimo v T Σv. Qui l'ambientazione di Rayleigh ci aiuterà. Senza approfondire la matematica, dirò solo che i progetti di Rayleigh possono costituire un caso speciale per le matrici di covarianza:

Il resto della formula può essere noto per l'argomento della disposizione di una matrice su un'onda di vettori e quel valore. x è un vettore arbitrario ed è un valore arbitrario. Il numero dei propri vettori e quel valore è uguale alla dimensione della matrice (i valori possono essere ripetuti).

Prima del discorso, in lingua inglese, vengono chiamati i significati di quel vettore autovaloriі autovettori ovviamente.
Meni zdaєtsya, tse suona riccamente bello (e stile), abbassa i nostri termini.

In questo modo, direttamente la varianza massima della proiezione cambia sempre con l'autovettore, che può avere il valore massimo, che è più prezioso per la varianza.

Vale anche per le proiezioni su un numero maggiore di variabili: la varianza (matrice di covarianza) della proiezione sullo spazio m-mondo sarà il massimo per gli m autovettori diretti, che possono avere il valore massimo di potenza.

La diversità della nostra selezione è buona per due ed è evidente il numero di autovettori in essa 2. Li conosciamo.

La libreria numpy ha implementato la funzione numpy.linalg.eig(X) dove X è una matrice quadrata. Si trasformano 2 array: un array di autovalori e un array di autovettori (vettori). І vettori di normalizzazione - їhnya dozhina dorіvnyuє 1. Proprio quelli richiesti. I vettori Qi 2 stabiliscono una nuova base per la selezione, in modo tale che il suo asse sia basato sui principi dell'ellisse di approssimazione della nostra selezione.

In questo grafico, abbiamo approssimato la nostra selezione con un'ellisse con raggi di 2 sigma (ecco perché il 95% di tutti gli avvertimenti è colpevole di vendetta - cosa possiamo qui e poster). Ho invertito un vettore più grande (la funzione eig(X) lo ha diretto nella direzione inversa) - è importante per noi dirigerlo, non l'orientamento del vettore.

Krok 4. Volume ridotto (proiezione)

Il vettore più grande può essere diretto, simile alla retta di regressione e proiettando sul nuovo la nostra selezione e le informazioni introduttive, derivate dalla somma dei termini in eccesso della regressione (solo ora euclidea, non delta in Y). A volte, la presenza di segni tra i segni è già forte, quindi la perdita di informazioni sarà minima. Il "prezzo" della proiezione - la dispersione dietro l'Autovettore più piccolo - come si evince dal grafico frontale, è già contenuto.

Rispetto: gli elementi diagonali della matrice di covarianza dimostrano le varianze secondo la base primaria e quei її valori di potenza - secondo il nuovo (dai componenti principali).

Spesso è necessario valutare la quantità di informazioni spese (e salvate). Il modo migliore per scoprirlo è a centinaia. Prendiamo la varianza lungo l'asse della pelle e la dividiamo per la somma totale delle varianze lungo gli assi (cioè la somma di tutti i numeri di potenza della matrice disponibile).
Quindi, il nostro vettore più grande descrive 45,994/46,431*100% = 99,06% e quello più piccolo sembra essere circa lo 0,94%. Introducendo un vettore più piccolo e proiettando i dati per uno più grande, spendiamo meno dell'1% delle informazioni! Risultato Vidminny!

Rispetto: Davvero, zdebіshogo, poiché l'input totale di informazioni diventa superiore al 10-20%, puoi ridurre con calma il rozmirnіst.

Per eseguire la proiezione, come previsto in precedenza su croc 3, è necessario eseguire l'operazione v T X (il vettore è dovuto a buti dozhini 1). Altrimenti, poiché non abbiamo un vettore, ma un iperpiano, al posto del vettore v T prendiamo la matrice dei vettori di base V T . Un vettore sottratto (o una matrice) sarà un array di proiezioni.

V = (-vecs, -vecs) Xnew = punto(v, Xcentered)

punto(X,Y)-memberwise tvir (è così che moltiplichiamo vettori e matrici in Python)

Non è importante ricordare quale sia il significato delle proiezioni nei dipinti sul grafico frontale.

Krok 5

Dalla proiezione, elaborare manualmente, essere sulla base dell'ipotesi ed espandere il modello. Non dimenticare di togliere i componenti principali e di matimut ovvi, sensati di terze parti, sens. A volte, soffiando corisno, ad esempio, vyyavlenі wikidi, schob per parlare, scho per stare di guardia su di loro.

Tse duzhe è semplice. Abbiamo tutte le informazioni necessarie e le coordinate stesse dei vettori di base nella base esterna (vettori, su cui sono stati proiettati) e il vettore delle medie (per la centratura). Prendi, ad esempio, il valore massimo: 10.596… Per cui moltiplichiamo iogo destrorso per il vettore di trasposizione i dodamo il vettore dei medi, oppure nella vista globale per tutti i viboki: X T v T +m

Xrestored = dot(Xnew,v) + m print "Restored: ", Xrestored print "Original: ", X[:,9] OUT: Restored: [ 10.13864361 19.84190935] Original: [ 10. 19.9094

La vendita al dettaglio è piccola, ma c'è di più. Le informazioni su Adzhe vtrachena non sono confermate. Prote, poiché la semplicità è importante per la precisione, è dimostrato che il valore si avvicina al giorno.

Vice di posa - ricontrollo dell'algoritmo

Più tardi, il mondo ha preso l'algoritmo, ha mostrato come funziona su un calcio giocattolo, ora non è più sufficiente abbinare lo yoga con il PCA, lo implementeremo in sklearn, anche se ci correggeremo automaticamente.

sklearn.decomposition import PCA pca = PCA(n_components = 1) XPCAreduced = pca.fit_transform(transpose(X))

Parametro n_componenti Indico il numero di vimiryuvan, su come viene eseguita la proiezione, quindi vogliamo ridurre il nostro set di dati al livello di vimiryuvan. In altre parole - il numero di n autovettori con i numeri più grandi possibili. Riconsideriamo il risultato della diminuzione di volume:

Stampa "La nostra stampa ridotta" Sklearn ha ridotto X: N ", XPCaredottod OUT: La nostra ridotta X: [-9.56404106 -9.020216 -2.5.5.52974822 -2-2.5.5.52974822 -2-2.5.5.52974 0.744064859 0.74406645 2.33433492 2.33433492 7.39307974 5.3212742 10.59672425] Sklearn ridotto X: [[-9.56404106 ] [ -9.02021625] [ -5.52974822] [ -2.96481262] [ 0.68933859] [ 0.74406645] [ 2.33433492] [ 7.39307974] [7] 5 5

Abbiamo ruotato il risultato come matrice di colonne vettoriali (la vista più canonica dal punto di vista dell'algebra lineare), PCA in sklearn ha ruotato l'array verticale.

In linea di principio il prezzo non è critico, solo un varto significa che in algebra lineare è canonico scrivere matrici tramite vector-stovpts, e nell'analisi dei dati (quegli altri aspetti delle aree DB) sono presenti avvisi (transazioni, record) registrati in righe.

Invertendo quegli altri parametri del modello, la funzione può avere una serie di attributi che consentono di accedere a variabili intermedie:

vettore medio: significare_
- Vettore di proiezione (matrice): componenti_
- Dispersione degli assi di proiezione (vibrazione): spiegata_varianza_
- parte dell'informazione (parte della dispersione globale): rapporto_varianza_spiegato_

Rispetto: spettacolo_varianza_spiegata vibirkova varianza, così come la funzione cov() per generare una matrice di covarianza intransigente dispersione!

Prendiamo i valori allo stesso modo dei valori della funzione di libreria.

Print "Vettore medio: ", pca.mean_, m print "Proiezione: ", pca.components_, v print "Rapporto di varianza spiegato: ", pca.explained_variance_ratio_, l/sum(l) OUT: Vettore medio: [ 5.5 10.31439 ( 5.5, 10.314393916) Proiezione: [[0.43774316 0.89910006]] (0.43774316434777474316434777387, 0.89910006387, 0.89910006232167594) Varianza spiegata: [41.39455058] 45.9939450918 Rapporto di variazione spiegata: [0.99058588] 0.99058588818

L'unica differenza è nelle varianze, ma come abbiamo già intuito, vinciamo la funzione cov(), come la varianza imparziale vittoriosa, quindi l'attributo spiegato_varianza_ viene trasformato in vibrkov. La puzza vіdrіznyayutsya meno tim, scho persha per otrimannya mat. dividi il punteggio per (n-1) e l'amico per n. È facile fraintendere che 45,99 ∙ (10 - 1) / 10 = 41,39.

Tutti gli altri valori variano, il che significa che i nostri algoritmi sono equivalenti. Rispetto il fatto che gli attributi dell'algoritmo della libreria possano avere meno precisione, frammenti di vino, cantilenanti, ottimizzazioni per swidcode o semplicemente arrotondare i valori per chiarezza (altrimenti ho alcuni difetti).

Rispetto: Il metodo della libreria viene proiettato automaticamente su un asse che massimizza la varianza. Non essere razionale. Ad esempio, ho portato questo bambino a un declassamento impreciso al punto in cui la classificazione diventa impossibile. La proiezione di prote su un vettore più piccolo può modificare con successo le dimensioni e salvare il classificatore.

Successivamente, abbiamo esaminato i principi del lavoro dell'algoritmo PCA e la sua implementazione in sklearn. Sono sicuro che questo articolo è stato chiarito a coloro che stanno appena iniziando a familiarizzare con l'analisi dei dati, e anche almeno un po' informativo per coloro che conoscono bene l'algoritmo. L'aspetto intuitivo è più appropriato per capire come mettere in pratica il metodo, e la comprensione è ancora più importante per il corretto adattamento del modello scelto. Per rispetto!

PS: Prohannya non abbaia l'autore per possibili imprecisioni. L'autore stesso sta imparando l'analisi dei dati e vuole aiutare allo stesso modo, poiché sta imparando il valore di una conoscenza meravigliosa! Ale, critiche costruttive e rіznomanіtny dosvіd u vitayutsya!