Analyse factorielle. Méthode des composantes principales. Méthode des composantes principales Critères de sélection des composantes principales

La méthode de la composante principale est une méthode qui traduit un grand nombre de variables liées (en jachère, enracinées) en un plus petit nombre de variables indépendantes, et un grand nombre de variables complique souvent l'analyse et l'interprétation des informations. Strictement kazhuchi, la méthode tsey n'est pas considérée avant l'analyse factorielle, bien qu'elle puisse en être riche. Plus précisément, en premier lieu, ceux qui, au cours des procédures de comptage, enlèvent immédiatement tous les composants de charbon et leur nombre de plus de la moitié du coût des derniers changements; d'une manière différente, il est postulé la possibilité d'une nouvelle distribution de la dispersion de tous les changements externes, c'est-à-dire. її explication extérieure par des facteurs latents (signes en surbrillance).

Par exemple, apparemment, nous avons mené des recherches dans lesquelles l'intellect des élèves a été mesuré par le test de Wechsler, le test d'Eysenck, le test de Raven, ainsi que le succès de la psychologie sociale, cognitive et globale. Autant que possible, que les indicateurs de divers tests d'intelligence soient en corrélation les uns avec les autres, de sorte que le vimiryuyut pue une caractéristique du bien-être intellectuel inférieur - yogo, même s'il est différent. Yakscho zminnyh à doslіzhenny trop riche ( X 1 , X 2 , …, X p ) , Deyakі їх vzaєmopov'yazanі, puis dans le dernier vinikaє bazhannya change le pliage des données, raccourcissant le nombre de changements. Pour qui et servir la méthode des composants de tête, ce qui crée un sprat de nouveaux changements y 1 , y 2 , …, y p, peau avec une combinaison linéaire de changements d'épi X 1 , X 2 , …, X p :

y 1 =a 11 x 1 +a 12 x 2 +…+a 1p x p

y 2 \u003d un 21 x 1 + un 22 x 2 + ... + un 2p x p

(1)

y p =a p1 x 1 +a p2 x 2 +…+a pp x p

Changements y 1 , y 2 , …, y p sont appelés composants de tête par les chinniks. De cette manière, le facteur est un élément de preuve statistique, qui est la cause de transformations spéciales de la matrice de corrélation. . La procédure de factorisation est appelée factorisation matricielle. Grâce à la factorisation à partir de la matrice de corrélation, le nombre de facteurs peut varier même jusqu'à un nombre égal au nombre de changements sortants. Cependant, les facteurs qui apparaissent dans le résultat de la factorisation ne sont généralement pas égaux à leurs valeurs.

Coefficient une ij, qui signifient un nouveau changement, sont choisis de manière à ce que les nouveaux changements (composants principaux, facteurs) décrivent le maximum de variabilité des données et ne se contredisent pas. Montrent souvent clairement les coefficients une ij de telle manière que la puanteur était un coefficient de corrélation entre le changement externe et le nouveau changement (facteur). Tse atteint des multiples une ijécart type du facteur. Pour la plupart des progiciels statistiques, c'est ainsi que cela fonctionne (pour le programme STATISTICA également). Coefficientune ij Sonnez les puants sont servis à l'apparence des tables, roztashovuyutsya défectueuse à l'apparence des colonnes et changez à l'apparence des rangées:

Un tel tableau est appelé tableau (matrice) des préférences factorielles. Nombres pointés vers nіy, є par coefficients une ij. Le nombre 0,86 signifie que la corrélation entre le premier facteur et la valeur du test de Wechsler est de 0,86. Plus le facteur n'est pas favorisé en termes absolus, plus le lien entre le changement et le facteur est fort.

L'analyse en composantes principales (ACP) simplifie le repliement des données de grande dimension, en préservant les tendances et les modèles. Vіn rob tse, convertissant les données en plus petites, comme un résumé des fonctions. Ces données sont encore plus larges dans différents domaines de la science et de la technologie, et elles sont blâmées, si pour une peau zrazka il y a quelques signes, par exemple, une telle expression de vues riches. Ce type d'hommage présente des problèmes, causés par la fréquence des grâces à travers de multiples corrections d'hommage.

La méthode est similaire au clustering - pour connaître les modèles sans les envoyer ni les analyser, pereveryayuchi, chi zrazki de différents groupes d'études, et la puanteur peut istotnі vіdmіnnostі. Comme toutes les méthodes statistiques, le yoga peut être mal diagnostiqué. L'échelle des changements peut être amenée à différents résultats dans l'analyse, et c'est important, afin qu'elle ne soit pas corrigée, en fonction de la valeur précédente des données.

Objectif de l'analyse des composants

La méta-méthode principale consiste à révéler ce changement dans l'ensemble de données, afin d'identifier de nouveaux changements de base significatifs. À cette fin, il est nécessaire d'utiliser des outils spéciaux, par exemple pour sélectionner des données riches dans la matrice de données TableOfReal, dans les mêmes lignes pour faire correspondre les modifications et les modifications. Par conséquent, TableOfReal est interprété comme un vecteur et des données numberOfRows, vecteur de peau d'un tel nombre d'éléments Columns.

Traditionnellement, la méthode des composantes de tête est basée sur une matrice de covariance ou une matrice de corrélation, qui peut être calculée à partir de la matrice de données. La matrice de covariance peut être utilisée pour mettre à l'échelle la somme des carrés et les créations croisées. La matrice de corrélation est similaire à la matrice de covariance, mais en premier lieu, elle change, de sorte que les colonnes sont standardisées. Il arrive parfois d'uniformiser les données, car les variances de certaines d'entre elles varient fortement. Afin d'analyser les données, sélectionnez la matrice de données TabelOfReal dans la liste des objets et appuyez sur pour aller.

Tse prizvede avant l'apparition d'un nouvel objet dans la liste des objets pour la méthode des composants principaux. Vous pouvez maintenant ajouter un graphique de valeurs courbes, afin de pouvoir prendre en compte l'importance de la peau. Et le programme peut aussi proposer un diyu : retirer une partie de la dispersion, ou inverser l'égalité du nombre de valeurs de puissance et retirer l'égalité. Oskіlki komponenti otrimani de manière à résoudre des tâches d'optimisation spécifiques, la puanteur des actes de puissance "en herbe", par exemple, le minlivost maximum. De plus, il existe un faible niveau d'autres puissances, qui peuvent fournir une analyse factorielle :

  • la dispersion de la peau, dans sa part de la dispersion totale des modifications externes, est fixée par les valeurs de puissance ;
  • calcul du bilan, qui illustre l'importance de la composante cutanée pour l'heure de prudence ;
  • otrimannya navantage, comment décrire la corrélation entre le composant cutané et le changement cutané ;
  • corrélation entre les changements externes, créée pour une composante p supplémentaire ;
  • dans le travail du week-end, les données peuvent être effectuées sous la forme de composants p;
  • "rotation" des composants, afin de faire avancer leur interprétation.

Choisissez le nombre de points d'épargne

Il existe deux manières de choisir le nombre requis de composants à enregistrer. Les méthodes offensantes sont fondées sur les significations de vіdnosinah mizh vlasnymi. Pour qui il est recommandé d'utiliser une valeur de planification. Comme les points sur le graphique peuvent avoir tendance à devenir virіvnyuvatisya et proches de zéro, ils peuvent être ignorés. Intermédiaire le nombre de composants au nombre, comme s'il tombait dans une seule partie de la dispersion globale. Par exemple, pour se contenter de 95% de dispersion totale - le nombre de composants (VAF) est de 0,95.

Les composants principaux sont utilisés pour concevoir une analyse statistique riche de la méthode des composants principaux dans les vecteurs de données dans l'immensité des vecteurs publics. Vous pouvez le créer de deux manières - directement à partir de TableOfReal sans former frontalement l'objet PCA, puis vous pouvez afficher la configuration ou les nombres. Sélectionnez l'objet et TableOfReal en même temps et "Configuration", de cette façon, l'analyse des composants polis humides est victorieuse.

Comme point de départ, il est représenté par une matrice symétrique, par exemple, la covariance, d'abord elle est raccourcie pour former, puis l'algorithme QL avec des échecs implicites. Puisque le point est le bon point et la matrice des données, il est alors impossible de former une matrice à partir des sommes des carrés. Natomiste, passez d'une manière numériquement plus stable, et réglez l'arrangement selon des valeurs singulières. La même matrice est un bon vecteur et les éléments carrés en diagonale sont de bonnes valeurs.

La composante principale є a été utilisée pour normaliser la combinaison linéaire des prédicteurs extérieurs dans l'ensemble de données à l'aide de la méthode de la composante de tête pour les nuls. Dans l'image, PC1 et PC2 sont les composants principaux. Admissible, prédicteur bas, yak X1, X2 ..., XP.

La composante principale peut s'écrire : Z1 = 11X1 + 21X2 + 31X3 + .... + p1Xp

  • Z1 est le premier composant de tête ;
  • p1 - ​​​​le vecteur de vanité qui s'additionne à la vanité (1, 2.) du premier composant principal.

La rentabilité est échangée avec la somme du carré 1. Il est lié à cela qu'une grande valeur de la rentabilité peut conduire à une grande dispersion. Vin indique également directement le composant principal (Z1), pour lequel il y a le plus de différence. Tse pour apporter au fait que la ligne dans l'étendue de r-mesures, plus proche de n-garde.

Proximité vymіryuєtsya z vikoristannyam onde euclidienne carrée moyenne. X1..Xp sont des prédicteurs normalisés. Les prédicteurs normalisés peuvent avoir une valeur moyenne égale à zéro et un écart type égal à un. De plus, le premier composant principal est une combinaison complète de changements de haut-parleurs externes, qui fixe la variance maximale dans l'ensemble de données. Vіn vyznaє directement la plus grande lenteur des données. Le plus minuscule est fixé dans le premier composant, le plus d'informations sont emportées par lui. Zhoden inshiy ne peut pas mère plus que la première base.

Amenez le premier composant principal à la ligne, qui est la plus proche des données et amenez à la somme minimale du carré entre le point de données et la ligne. L'autre composante principale (Z2) est également une combinaison linéaire de prédicteurs externes, car elle corrige la variance manquante dans l'ensemble de données et Z1 n'est pas corrélé. En d'autres termes, la corrélation entre la première et les autres composantes peut atteindre zéro. Vin peut être représenté comme suit : Z2 = 12X1 + 22X2 + 32X3 + .... + p2Xp.

Comme s'ils n'étaient pas corrélés, ils pourraient être directement orthogonaux.

De plus, lorsque le calcul des composants principaux démarre le processus de prédiction des données de test pour toutes les sélections. Le processus de la méthode des composants principaux pour les théières est simple.

Par exemple, il est nécessaire de travailler sur la conversion vers l'ensemble de test, y compris la fonction du centre et la mise à l'échelle dans le film R (ver.3.4.2) et la bibliothèque de yoga rvest. R - programmation en langage libre pour les calculs statistiques et les graphiques. Vіn buv reconstructions de 1992 au rocher pour l'accomplissement de tâches statistiques par les koristuvachs. L'ensemble du processus de modélisation après PCA.

Pour implémenter PCA en python, importez les données de la bibliothèque sklearn. L'interprétation reste la même que celle de R. Seules quelques-unes des données présentées pour Python sont une version effacée, dans laquelle les valeurs sont mises le même jour et les modifications catégorielles sont converties en nombres. Le processus de modélisation reste le même, comme décrit dans l'exemple pour le cortex R.

L'idée de la méthode du composant principal est utile pour la virase proche pour le développement de l'analyse factorielle. Au lieu de résumer de 1 à p, résumer maintenant de 1 à m, en ignorant le reste des termes p-m dans la somme, en supprimant le troisième viraz. Il est possible de réécrire tse, comme le montre le verset, qui est choisi pour la désignation de la matrice factorielle de préférence L, qui donne une expression résiduelle de la notation matricielle. En règle générale, la vimirovanie standardisée est justifiée, remplacée par la matrice de la sélection de corrélation R.

Tse forme la matrice L facteur prédominant dans l'analyse factorielle qui est accompagnée d'un L transposé. Pour estimer des variances spécifiques, le modèle factoriel de la matrice variance-covariance.

Nous avons maintenant une meilleure matrice variance-covariance moins LL".

  • Xi est un vecteur de gardes pour le ième sujet.
  • S représente notre matrice de variance-covariance vibratoire.

Mêmes valeurs de puissance p pour la matrice qi de la variance de covariance, ainsi que les mêmes vecteurs de puissance pour la matrice qi.

Valeurs valides S :λ^1, λ^2, ..., λ^p.

Vecteurs de puissance S : e^1, e^2, ..., e^n.

L'analyse PCA est la méthode d'analyse multivariée la plus difficile et la plus populaire, qui permet d'ajouter des ensembles de données riches à partir d'un grand nombre de changements. Derrière cette méthode, la méthode des composants de tête est largement utilisée en bioinformatique, marketing, sociologie et richesse des autres. XLSTAT fournit une fonction complète et flexible d'affichage des données sans intermédiaire dans Excel et propage quelques options standards et étendues, pour vous permettre d'avoir un regard approfondi sur le rapport des données dans Excel.

Vous pouvez exécuter le programme sur des matrices de données d'informations non complétées, ajouter des modifications supplémentaires à la garde, filtrer les modifications selon différents critères pour optimiser la lecture des cartes. De plus, vous pouvez faire demi-tour. Il est facile de créer une colonne corrélative, un graphique est un gardien comme les graphiques Excel standard. Il suffit de transférer des données sur les résultats pour qu'ils remportent l'analyse.

XLSTAT introduit un certain nombre de méthodes de traitement des données qui seront utilisées sur les données d'entrée avant de calculer la composante principale :

  1. Pearson, l'ACP classique, qui normalise automatiquement les données pour le calcul, afin d'éliminer l'afflux exagéré de changements de grandes inspirations dans le résultat.
  2. Covariance qui fonctionne avec des départs non standard.
  3. Polygorical, pour les données ordinales.

Appliquer une analyse des données données

Vous pouvez regarder la méthode des composants principaux avec l'utilisation d'une matrice de covariance de corrélation symétrique. Tse signifie que la matrice peut être numérique et mère de données standardisées. Il est permis, є la numérotation des données est de 300 (n) × 50 (p). Où n est le nombre d'avertissements et p est le nombre de prédicteurs.

Oskіlki є grand p = 50, p(p-1)/2 est possible. Dans ce cas, ce serait une approche courante de choisir le sous-multiplicateur du prédicteur p (p<< 50), который фиксирует количество информации. Затем следует составление графика наблюдения в полученном низкоразмерном пространстве. Не следует забывать, что каждое измерение является линейной комбинацией р-функций.

Butt pour la matrice de deux changements. Dans cette application de la méthode des composants de tête, un ensemble de données est créé à partir de deux données alternées (grande et diagonale dozhina) avec le nombre de données élémentaires de Devis.

Les composants peuvent être peints sur le diagramme de la distribution de cette manière.

Ce graphique illustre l'idée du premier ou du composant principal, qui assure la liaison de données optimale - une autre ligne est tracée sur un tel graphique, elle ne crée pas un ensemble de valeurs prédites de points de données sur la ligne avec moins dispersion.

Le premier composant peut également être ajouté à la régression avec un poids de tête modifié (RMA), dans lequel il est transféré, comme x-, so et y-change peut avoir un pardon ou une non-signification, ou il n'y a pas de différence claire entre la tête et le vent.

La méthode des composants de tête en économétrie est l'analyse des changements, tels que le PNB, l'inflation, les taux de change, etc. Nous les évaluons ensuite pour les hommages évidents, le rang principal et les séries chronologiques totales. Cependant, les modèles économétriques peuvent être modifiés pour les programmes riches, mais pas pour les programmes macroéconomiques. Ainsi, économétrie signifie monde économique.

Le développement des méthodes statistiques jusqu'à la meilleure économétrie des données montre l'interrelation entre les évolutions économiques. Un exemple simple de modèle économétrique. On s'attend à ce que la majorité des personnes se rétablissent de manière linéaire en fonction des revenus des survivants du mois précédent. Le même modèle est pliable

La tâche de l'économétrie est d'évaluer les estimations des paramètres a et b. Le nombre de paramètres estimés, tels qu'ils sont victorieux dans le modèle égal, permettent de prédire la valeur future de la vie, telle qu'elle réside dans le revenu du mois précédent. Sous l'heure pour le développement de ces types de modèles, il faut assurer quelques instants :

  • la nature du processus de déplacement qui génère des données ;
  • je connais tse;
  • expansion du système;
  • forme d'analyse;
  • prévisions d'obriy ;
  • pliage mathématique du système.

Toutes les raisons sont importantes, des éclats en eux contiennent des pardons dzherela, comme des modèles. De plus, pour la solution de ces problèmes, il est nécessaire de concevoir une méthode de prévision. Il peut être amené à un modèle linéaire, mais cela reste une petite sélection. Ce type est l'un des plus importants, pour lequel vous pouvez créer une analyse prédictive.

Statistiques non paramétriques

La méthode des composants de tête pour les données non paramétriques doit être antérieure aux méthodes du monde, pour lesquelles les données sont classées à partir de la ligne de fond. Les méthodes statistiques non paramétriques sont largement utilisées dans différents types d'études. En pratique, si l'hypothèse de normalité n'est pas surmontée, les méthodes statistiques paramétriques peuvent conduire à des résultats qui peuvent être introduits à Oman. Navpaki, méthodes non paramétriques pour éviter moins d'allocation de suvori pour rozpodіl pour wimirami.

La puanteur est fiable, quels que soient les gardes rozpodіlіv qui se trouvent dans leurs fondations. Grâce à cette recherche, pour l'analyse de différents types de conceptions expérimentales, de nombreux types de tests non paramétriques différents ont été divisés. Ces projets incluent la conception à partir d'une sélection, la conception à partir de deux bandes, la conception à partir de blocs aléatoires. Ninі bayesivsky non paramétrique pіdkhіd dans la méthode zastosuvannym osnovnymi komponentіv vykoristovuєtsya simplifie l'analyse de la fiabilité des systèmes aériens.

Le système de garde-corps est un système de pliage à grande échelle typique avec des sous-systèmes mutuels, comme pour remplacer les composants numériques. La fiabilité du système est prise en compte lors des secondes visites du service technique, et la gestion économique des actifs nécessitera une évaluation précise de la fiabilité au niveau le plus bas. Prote data real ї nadіnostі moins que les composants égaux du système d'air, qui est toujours disponible dans la pratique, mais à propos de l'achèvement. Rozpodil zhittєvih tsiklіv komponentіv vіd virobnikіv souvent hovaєєєєє sladnyuєєєєє sladnyuєєsya réel vikoristannyam et milieu de travail. De cette manière, l'analyse de la validité de l'analyse de la vitalité de la méthodologie d'évaluation de l'heure de vie du composant dans l'esprit de la présence de données sur le discours.

La méthode des composants principaux dans les sciences modernes est victorieuse pour la réalisation de deux tâches principales:

  • analyse des données d'études sociologiques;
  • inspirer des modèles de suspіlnyh yavisch.

Algorithmes de distribution de modèles

Les algorithmes de la méthode des composantes principales donnent plus d'informations sur la structure du modèle et son interprétation. La puanteur est révélatrice de la façon dont le PCA gagne dans diverses disciplines. Algorithme pour les NIPALS partiels itératifs non linéaires utilisant la méthode de calcul de la dernière composante. Le calcul peut être épinglé à la fin de la ligne, si vous vous souciez suffisamment que ce soit suffisant. Plus de packages informatiques peuvent avoir tendance à gagner l'algorithme NIPALS, mais il y a deux avantages principaux :

  • Vіn opratsovuє vіdsutnі data;
  • calculer séquentiellement les composants.

Méta vue de l'algorithme :

  • donner des informations supplémentaires sur ceux qui signifient la promotion de cette évaluation ;
  • montre comment le composant de peau ne repose pas orthogonalement avec d'autres composants ;
  • montrer comment l'algorithme peut traiter les données disponibles.

L'algorithme dessine séquentiellement le composant de peau, en commençant par le premier directement avec la plus grande variance, puis l'autre, et ainsi de suite. NIPALS calcule un composant à la fois. En calculant le premier équivalent de t1t1, ainsi que les vecteurs p1p1, si vous auriez su à partir de la valeur de puissance ou de la distribution pour les valeurs singulières, vous pouvez traiter les données en XX. Vient toujours converger, mais zbіzhnіst inоdі mоzhe bіlnoy. Il est également familier, comme l'algorithme d'étanchéité pour calculer les vecteurs de puissance et les valeurs de puissance, et fonctionne bien pour les grands ensembles de données. Google a piraté l'algorithme des premières versions du système de puzzle basé sur la puissance.

L'algorithme pour les lectures NIPALS est ci-dessous.

Les estimations du coefficient de la matrice T sont alors calculées comme T = XW et souvent les coefficients de la régression des carrés B de Y sur X sont calculés comme B = WQ. Une méthode alternative pour estimer les parties de la régression des moindres carrés partiels peut être décrite comme suit.

La méthode des composants de tête est un outil pour désigner les principaux axes de dispersion dans un jeu de données et permet de suivre facilement les principales évolutions des données. La méthode d'arrimage correcte est l'une des plus avancées de l'ensemble d'outils d'analyse des données.

L'analyse des composants est considérée comme différentes méthodes de réduction du volume. Vengeance dans un sens - le chemin des composants principaux. Les composants de la tête sont dans un système de coordonnées orthogonales, et la variance des composants caractérise leur puissance statistique.

Vrahovyuchi, dont les objets de succès dans l'économie se caractérisent par un grand nombre de signes, influençant un si grand nombre de raisons vipadkovy.

Calcul des composants principaux

La première composante de tête Z1 du signe du système secondaire X1, X2, X3, X4, ..., Xn est appelée une telle combinaison linéaire normalisée centrée de signes, car les combinaisons linéaires centrées normalisées de signes ont la plus grande dispersion.

Comme autre composant de tête Z2, nous prendrons une telle combinaison de signes centrée - normalisée, comme :

non corrélé avec la première composante de tête,

non corrélée avec la première composante de tête, cette combinaison a la plus grande dispersion.

La K-ième composante de tête Zk (k=1…m) est appelée un tel signe de combinaison centré - normalisé, comme :

non corrélé avec jusqu'à -1 composants de tête avant,

au milieu des combinaisons les plus possibles de signes extérieurs, sinon

ne pas corréler avec jusqu'à -1 composants de tête avant, cette combinaison a la plus grande dispersion.

Introduisons une matrice orthogonale U et passons du changement de X au changement de Z, de plus

Le vecteur est choisi pour que la dispersion soit maximale. Si la possession est choisie, pour que la dispersion soit maximale pour l'esprit, ce qui n'est pas corrélé avec etc.

Oskіlki znaka vymiryanі dans les valeurs neporіvnyannymi, alors il est préférable d'aller aux valeurs normalisées centrées. La matrice des valeurs normalisées centrées externes est connue de la référence:

de - impartial, il est possible qu'une évaluation efficace de la notation mathématique soit possible,

Inchangé, il est possible qu'une évaluation efficace de la dispersion.

La matrice des avertissements de la signification des signes extérieurs a été signalée par Dodatku.

Le centrage et la standardisation se font avec l'aide du programme "Stadia".

S'il y a des signes de centrage et de normalisation, l'évaluation de la matrice de corrélation peut être développée à l'aide de la formule :


Avant cela, comme nous procédons à une analyse en composantes, nous analyserons l'indépendance des signes extérieurs.

Revalidation de la significativité de la matrice des corrélations masculines pour le critère additionnel de Wilks.

Nous faisons une hypothèse :

H0 : insignifiant

H1 : significatif

125,7; (0,05;3,3) = 7,8

puisque > , alors l'hypothèse H0 est considérée et la matrice est significative, il est donc possible de faire une analyse en composantes.

Inverser l'hypothèse sur la diagonalité de la matrice de covariance

Nous faisons une hypothèse :

Statistiques Budєmo, rozpodіlenu pour la loi depuis les marches de la liberté.

123,21, (0,05;10) =18,307

puisque >, alors l'hypothèse H0 est considérée et il est possible de faire une analyse en composantes.

Afin d'induire la factorisation matricielle, il est nécessaire d'attribuer les numéros appropriés de la matrice, en violant l'alignement.

Il est nécessaire d'utiliser la fonction de valeurs propres du système MathCAD pour l'opération, car elle fait tourner les numéros de matrice en utilisant la puissance :

Parce que nous avons enlevé non pas la puissance du nombre et la puissance du vecteur matriciel, mais l'évaluation. Nous tsіkavitime naskіlki "bon" zі statisticheskij point zor vibrkovі caractéristiques décrivent les paramètres vіdpovіdnі pour le général ї sukupnostі.

L'intervalle de confiance pour le ième nombre de puissance suit cette formule :

Les intervalles gratuits pour leurs numéros dans le résultat ressemblent à :

L'évaluation de la valeur d'un certain nombre des meilleurs nombres est tirée de l'intervalle de confiance des plus petits nombres. Il faut renverser l'hypothèse sur la multiplicité des nombres de puissance.

Revérifier la multiplicité est nécessaire pour des statistiques supplémentaires

de r-nombre de racines multiples.

Les statistiques de Tsya au moment de la justice sont divisées selon la loi du nombre d'étapes de la liberté. Hypothèses de Visunemo :

Oskіlki hypothèse vydkidaetsya, donc la puissance du nombre et non un multiple.

Oskіlki hypothèse vydkidaetsya, donc la puissance du nombre et non un multiple.

Il est nécessaire de ne voir les composants principaux qu'au niveau d'informativité de 0,85. Le monde de l'informativité montre une partie ou une partie de la variance des signes externes pour former les k premières composantes de tête. Pour le monde de l'information, nous nommons la valeur :

A niveau d'information donné, trois composantes principales ont été observées.

Écrivons la matrice =

Pour supprimer le vecteur normalisé à la transition des signes extérieurs aux composantes principales, il est nécessaire de modifier le système d'égalisation : Après la correction de la solution du système, il faut normaliser le vecteur de correction.

Pour la mise en œuvre de cette tâche, nous utilisons la fonction eigenvec du système MathCAD pour accélérer le vecteur de normalisation pour un nombre de puissance variable.

À notre avis, les quatre premières composantes de la tête sont suffisantes pour atteindre le niveau d'information donné, donc la matrice U

Nous serons la matrice U dont les colonnes sont les vecteurs puissance :

Matrice de vos coefficients :

Coefficients de matrice A є coefficients de corrélation entre les signes visuels centrés - normalisés et les composants de tête non normalisés, et montrent l'évidence, la force et la connexion linéaire directe entre les signes visuels et les principaux composants de la tête.

Méthode des composantes principales

Méthode des composantes principales(Angl. Analyse en composantes principales, PCA ) est l'un des principaux moyens de modifier la diversité des données en utilisant le moins d'informations possible. Vinaydeny K. Pearson Karl Pearson ) à r. Zastosovuetsya dans des domaines riches, tels que la reconnaissance d'images, le zir informatique, le bloc de données, etc. Le calcul des composants principaux est réduit au calcul des vecteurs de puissance et des valeurs de puissance de la matrice de covariance des données. Une autre méthode des composantes principales est appelée aux transformations de Karhunen-Loev(Angl. Karhunen-Loeve) ou la transformation de Hotelling (eng. Transformation hôtelière). D'autres façons de modifier la diversité des données sont la méthode des composants indépendants, la mise à l'échelle riche, ainsi que l'agrégation numérique non linéaire : la méthode des courbes de tête et de la variation, la méthode des cartes de printemps, la meilleure méthode de projection (eng. Poursuite de projection), méthode neuromerezhev de "Voix gorge", cela dans.

Énoncé formel du problème

La tâche d'analyser les principaux composants, au moins, au moins, au moins certaines des versions de base :

  • approximer des données avec des différences linéaires de moindre dimensionnalité ;
  • connaître le sous-espace de la plus petite taille, dans la projection orthogonale sur le yak_rozkid danih (de sorte que l'écart au milieu du carré par rapport à la valeur moyenne) est maximal ;
  • connaître le sous-espace de plus petite taille, dans la projection orthogonale sur la distance quadratique moyenne yak entre les points autant que possible ;
  • pour une valeur de variable variable riche donnée, induire une telle transformation orthogonale des coordonnées qui, en raison de la corrélation entre d'autres coordonnées, se transforme en zéro.

Les trois premières versions fonctionnent avec les scores finaux de données. La puanteur est équivalente et non indirecte à toute hypothèse sur la génération statistique de données. La quatrième version est basée sur des valeurs verticales. Kіntsevі mulіnіy yavlyayutsya yavlyayutsya ici comme vybіrki z donné rozpodіlu, et virіshennya trois premiers zavdan - comme un proche de la "vraie" réincarnation de Karhunen-Loev. Nous blâmons l'addendum et toute la fourniture triviale de la précision de l'approche.

Approximation des données par différences linéaires

Illustration au célèbre ouvrage de K. Pirson (1901) : points donnés sur le plan, - aller tout droit vers la droite. Shukaetsya tout droit, scho minimise la somme

La méthode des composants de tête est née de la tâche de la meilleure approximation du multiplicateur terminal de points par des droites et des plans (K. Pirson, 1901). Dana kіntseva vecteurs anonymes. Pour les environnements cutanés, il faut savoir que la somme des carrés de santé est minimale :

,

de - Euclidienne du point à la différence linéaire. Be-yak - le raznomanittya pacifiquement linéaire peut être donné sous forme de combinaisons linéaires anonymes, de paramètres parcourus par la ligne de parole et - typage orthonormé des vecteurs

,

de norme euclidienne, - twir scalaire euclidien, ou sous forme de coordonnées :

.

Le développement du problème d'approximation pour est donné par un ensemble d'entrées de différences linéaires, . Les nombres de différences linéaires sont déterminés par un ensemble orthonormé de vecteurs (vecteurs de composantes principales) et un vecteur. Le vecteur ressemble à une solution au problème de minimisation pour :

.

Les vecteurs des composants principaux peuvent être trouvés comme solution à des problèmes d'optimisation similaires :

1) données centralisées (moyenne visible) : . À présent; 2) nous connaissons la première composante de la tête comme une tâche ; . S'il n'y a pas une solution, nous en choisissons une. 3) On voit sur cette projection de la première composante de tête : ; 4) l'autre composant principal sait comment résoudre le problème. S'il n'y a pas une solution, nous en choisissons une. … 2k-1) On peut voir la projection sur le -ème composant de tête (devinez que les projections sur les composants principaux avant sont déjà visibles) : ; 2k) la k-ième composante de tête est connue comme la solution du problème : . S'il n'y a pas une solution, nous en choisissons une. …

Au stade dermique, on voit une projection sur le composant antérieur de la tête. Les vecteurs d'orthonormalisation sont trouvés simplement à la suite du développement du problème d'optimisation décrit, afin de ne pas pardonner le calcul et de détruire l'orthogonalité mutuelle du vecteur dans les composants de tête, vous pouvez activer la tâche d'optimisation.

L'insuffisance du crim assigné d'un swaville trivial dans le choix d'un signe (et l'accomplissement de la même tâche) peut être plus précise et considérée, par exemple, dans l'esprit de la symétrie des données. Le reste de la composante de tête est un seul vecteur orthogonal à celui de devant.

Recherche des projections orthogonales avec les plus grandes différences

Le premier composant de tête maximise la variance vibratoire de la projection de données

Soit donné le centrage d'un ensemble de vecteurs de données (la moyenne arithmétique de la valeur est égale à zéro). Tâche - connaître une telle transformation orthogonale vers un nouveau système de coordonnées, ce qui serait correct dans de telles conditions :

La théorie de l'alignement singulier a été créée par J. J. Sylvester (Eng. James Joseph Sylvestre ) dans M.

Un algorithme simple de décomposition singulière itérative

La procédure principale consiste à rechercher la meilleure approximation d'une matrice suffisamment grande sous la forme d'une matrice (de - vecteur monde, a - vecteur monde) par la méthode des moindres carrés :

La solution du problème est donnée par itérations successives suivant des formules explicites. Avec un vecteur fixe, les valeurs qui délivrent la forme minimale sont uniquement et explicitement affectées aux égalités :

De même, avec un vecteur fixe, les valeurs suivantes sont affectées :

Comme approximation d'un vecteur, on prend un vecteur variable d'une seule valeur, un vecteur à calculer, un vecteur à calculer pour quel vecteur, etc. La valeur est modifiée. En tant que critère de fluctuation, il existe trois changements distincts dans la valeur de la fonctionnelle minimisée pour une courte itération () ou trois des plus significatifs.

Le résultat de la matrice a été soustrait de l'approximation la plus proche du type de matrice (ici, l'indice supérieur des valeurs est le numéro de l'approximation). De plus, à partir de la matrice, je peux voir la matrice et pour la matrice supprimée, l'astuce consiste à rechercher à nouveau la meilleure approximation du même type, etc., jusqu'à ce que, par exemple, la norme devienne suffisamment petite. Pendant la guerre, nous avons supprimé la procédure itérative de disposition de la matrice comme une somme de matrices de rang 1, tobto . En conséquence, l'approximation des nombres singuliers et des vecteurs singuliers (droite - et gauche - ) a été éliminée.

Avant que l'algorithme ne puisse le surmonter, sa simplicité et sa capacité à le transférer sans modification vers des données présentant des lacunes, ainsi que des données importantes.

Établir diverses modifications de l'algorithme de base pour améliorer la précision et la stabilité. Par exemple, les vecteurs des composants de la tête en cas de défauts divers sont orthogonaux "selon les habitudes", protégés par un grand nombre d'itérations (grande diversité, composant riche) de petits écarts d'orthogonalité s'accumulent et peuvent nécessiter une correction particulière sur le croc de peau , la sécurité importante du composant de tête.

Disposition singulière des tenseurs et méthode tensorielle des composants de la tête

Souvent, un vecteur de données peut s'ajouter à la structure d'un tableau rectangulaire (par exemple, un plan de l'image) pour créer un tableau riche - tobto le tenseur : , . Il est également efficace pour cette personne d'avoir une mise en page singulière. Désignées, les formules principales des algorithmes peuvent être transférées pratiquement sans changement: le remplacement de la matrice de données peut être la valeur de l'indice, le premier indice est le numéro du point (tenseur) des données.

La procédure principale consiste à rechercher la meilleure approximation d'un tenseur par un tenseur de la forme (de - vecteur de paix ( - nombre de points de données), - vecteur de taille à ) par la méthode des moindres carrés :

La solution du problème est donnée par itérations successives suivant des formules explicites. En fait, tous les vecteurs-multiplicateurs d'un cramoisi sont définis, et celui qui est omis est clairement représenté par suffisamment d'esprits au moins.

Au début de la proximité du vecteur () prendre le vecteur opposé et la valeur unique, calculer le vecteur , donner pour ce vecteur et ces vecteurs dans le vecteur de calcul, etc. (tri cyclique dans l'index) Algorithme, peut-être converger. Comme critère de fluctuation, il y a trois changements significatifs dans la valeur de la fonctionnelle minimisée pour un cycle, ou trois des plus significatifs. Plus loin, du tenseur on peut voir la proximité et l'excès à nouveau shukayemo la meilleure proximité du même genre. bourgeon., pousser, par exemple, la norme de l'excédent chergovogo sera faible.

Cette disposition singulière à composants riches (la méthode tensorielle des composants de tête) est utilisée avec succès lors du traitement d'images, de signaux vidéo et, plus ou moins de données plus larges, de sorte qu'une structure tabulaire ou tensorielle peut être formée.

Transformation matricielle vers les composants principaux

La matrice de conversion des données en composants principaux est composée des vecteurs des composants principaux, triés par ordre de changement de leurs valeurs :

(signifie transposition),

Tobto, la matrice est orthogonale.

La plupart des variations de ces données seront marquées dans les premières coordonnées, ce qui vous permet d'aller dans l'étendue de moins d'espace.

Dispersion de Zalishkov

Donner les données de centrage, . Lors du remplacement des vecteurs de données sur la projection principale sur le premier composant de tête, le carré moyen du pardon de la résurrection est entré pour un vecteur de données :

où les valeurs de la matrice de covariance empirique sont, triées dans l'ordre de changement, avec la multiplicité ajustée.

La valeur Tsya est appelée excès de dispersion. Évaluer

appelé dispersion expliquée. Їhnya somme dorivnyuє vibrkovіy variance. Vіdpovіdny square vіdnoї pardon - tsі vіdnennia surplus variance à vibrіkovo variance (tobto partie de la variance inexpliquée):

Pour un pardon exceptionnel, l'évaluation de la méthode des composants principaux avec la conception sur les premiers composants est évaluée.

Le respect: dans la plupart des algorithmes de numérotation, les nombres de puissance avec les vecteurs de puissance les plus puissants - les composants de tête sont comptés dans l'ordre "du plus grand au plus petit". Pour le calcul, il suffit de calculer les premiers nombres et la prochaine matrice de covariance empirique (la somme des éléments diagonaux, c'est-à-dire les variances le long des axes). Todi

Sélection des composants principaux selon la règle de Kaiser

Tsіlovy pіdhіd avant d'estimer le nombre de composants de tête pour la variance expliquée fréquente nécessaire formellement zastosovuє zavzhd, prote transférant implicitement, scho podіl au "signal" et au "bruit", et si la précision du capteur est prédéterminée ou non. C'est pourquoi il est souvent productif d'autres heuristiques, qui reposent sur l'hypothèse de la présence d'un « signal » (un volume uniformément petit, une amplitude nettement grande) et d'un « bruit » (un grand volume, une amplitude nettement petite). A première vue, la méthode des composantes principales fonctionne comme un filtre : le signal est supprimé, surtout, dans la projection des premières composantes principales, et la proportion de bruit est plus riche dans les autres composantes.

Nutrition : comment évaluer le nombre de composants principaux nécessaires, comme si le rapport signal/bruit n'était pas connu à l'avance ?

La méthode la plus simple et la plus ancienne pour la sélection des composants de la tête est donnée Règle de Kaiser(Angl. Règle de Kaiser) : composants principaux significatifs, qui

pour changer la valeur moyenne (dispersion vibratoire moyenne des coordonnées du vecteur de données). La règle du Kaiser est bien pratiquée dans les cas les plus simples, s'il y a quelques-uns des composants principaux, la valeur moyenne est largement renversée et les autres nombres de puissance sont plus petits que le nouveau. Dans les situations de pliage, il peut donner des composants principaux encore plus importants. En tant que normalisation donnée à une seule dispersion vibratoire le long des axes, la règle de Kaiser est particulièrement simple en apparence : les composants principaux significatifs qui

Estimation du nombre de composants principaux selon la règle de la canne maléfique

Exemple : Estimation du nombre de composants principaux selon la règle des anches cassées en taille 5.

L'une des approches heuristiques les plus populaires pour évaluer le nombre de composants de tête nécessaires est règle de la canne maléfique(Angl. Modèle de bâton cassé). Un ensemble de normalisations pour une seule somme de tous les nombres (, ) est égal à la distribution des dozhins de l'ulamkіv du roseau d'un seul dozhina, le point cassé est cassé (les points de la rupture sont choisis indépendamment et également divisés par la colombe du roseau). Allez () - Anches Dovzhini otrimanih shmatkіv, numérotées dans l'ordre de changement de dozhini :. Peu importe de connaître le raffinement mathématique :

Selon la règle de la canne maléfique, le ème vecteur de puissance (dans l'ordre de changement des nombres de puissance) est tiré de la liste des composants de la tête, ce qui signifie

Riz. un mégot pour un vipad 5 fois a été pointé:

=(1+1/2+1/3+1/4+1/5)/5; =(1/2+1/3+1/4+1/5)/5; =(1/3+1/4+1/5)/5; =(1/4+1/5)/5; =(1/5)/5.

Sélectionné pour les fesses

=0.5; =0.3; =0.1; =0.06; =0.04.

Selon la règle d'un roseau maléfique, dans ce mégot, il y a 2 composants de charbon:

Selon les estimations des coristuvachs, la règle de la canne maléfique peut avoir tendance à sous-estimer le nombre de composants principaux importants.

Rationnement

Rationnement après réduction aux composants principaux

Après concevoir sur les premières composantes principales et normaliser manuellement à une seule dispersion (sélective) le long des axes. La dispersion de l'air et de la composante de tête est plus chère), donc pour la normalisation, il est nécessaire de diviser la coordonnée correspondante par . Cette transformation n'est pas orthogonale et ne prend pas de création scalaire. La matrice de covariance de la projection des données devient unique après normalisation, les projections indiquant si oui ou non deux droites orthogonales deviennent des quantités indépendantes, et si la base orthonormée devient ou non la base des composantes principales (en supposant que la normalisation modifie l'orthogonalité de la vecteur). Vіdobrazhennya à partir de l'étendue des données de sortie sur les premiers composants de la tête et en même temps avec la normalisation est donnée par la matrice

.

La transformation elle-même est le plus souvent appelée transformation de Karhunen-Loev. Voici les vecteurs, et l'indice supérieur signifie la transposition.

Rationnement jusqu'au calcul des composants principaux

Avance: pas une trace de normalisation erronée, car à effectuer après la transformation en composants principaux, avec normalisation et "énervement" lorsque redistribution des données, qui est effectuée avant le calcul des composantes principales. La normalisation directe est nécessaire pour un choix arrondi de mesures, dans lequel la meilleure approximation des données peut être calculée, ou la ligne la plus droite de la plus grande distribution (qui est équivalente) doit être calculée. Par exemple, si elle est donnée par des vecteurs tridimensionnels de "mètres, litres et kilogrammes", alors si la différence euclidienne standard est de 1 mètre le long de la première coordonnée, la même contribution fonctionnera, comme une différence de 1 litre de l'autre, ou 1 kg au troisième. Appelez les systèmes de 1, pour lesquels les données visuelles sont présentées, reflètent de manière insuffisamment précise nos déclarations sur les échelles naturelles le long des axes, et effectuez un «désarmement»: la coordonnée de la peau est subdivisée en une échelle unique, qui est désignée comme données, les nombres de leur traitement et des processus de vimiryuvannya et de la collecte de données.

Il existe trois approches standard différentes pour une telle normalisation : variance unique le long des axes (l'échelle le long des axes est égale à l'amélioration quadratique moyenne - après la deuxième transformation de la matrice de covariance est mise à l'échelle avec la matrice des coefficients de corrélation), sur égale à la précision du monde(Échelle le long de l'axe de précision proportionnelle de la valeur donnée) et sur vimogi égalà la tâche (l'échelle le long de l'axe est déterminée par la précision nécessaire de la prévision d'une valeur donnée, ou par des événements admissibles - tolérance égale). Introduction à la vibilisation des tâches dans la vibration des tâches, et j'ai travaillé pour l'acquisition des Dones (une pensée du Yakschko Dia Dia Dia Dani n'est pas terminée, puis nerazіonially Vyibrates Normuvnaya strictement sur l'identité de dispersion, Navischko Tseva Vіdpovіdaє Zm_sta Delivani, Oskilki Tsey otrimannya nouvelle portion, choisissez judicieusement une échelle raisonnable, en évaluant grossièrement l'apport standard, et ne le modifiez pas davantage).

La normalisation vers l'avant à une dispersion unique le long des axes s'effondre en faisant tourner le système de coordonnées, car les axes sont les composants de la tête, et la normalisation lors de la refonte des données ne remplace pas la normalisation après réduction aux composants de la tête.

Analogie mécanique et méthode des composants de tête pour classer les données

Afin de faire correspondre le vecteur peau de données à une seule masse, la matrice de covariance empirique change avec le tenseur d'inertie du système de masses ponctuelles (subdivisons par la même masse), et le problème des composants de la tête - à partir des tâches de réduire le tenseur d'inertie aux axes de tête. Il est possible de gagner une liberté supplémentaire dans le choix de la valeur de la masse pour l'importance des points de données ou la supériorité de leurs valeurs (des hommages importants ou des hommages du plus grand dzherel supérieur sont attribués aux grandes masses). Yakscho le vecteur de données espère masa, puis le remplacement de la matrice de covariance empirique est pris

Toutes les opérations ultérieures de la réduction aux composants principaux sont vibrées de la même manière, comme dans la version principale de la méthode : nous jugeons l'orthonormalisation de la base de puissance, il est possible de façon ordonnée pour le changement des valeurs de puissance, nous évaluons la moyenne valeur de l'approximation de la normalisation des nombres donnée par la sommation des premières composantes,

Une plus grande manière d'appeler est donnée maximisation de la valeur de la somme des vues appariées entre projections. Pour la peau deux points de données, vaga est introduit ; ce . Le remplacement de la matrice de covariance empirique est victorieux

Lorsque la matrice symétrique est affectée positivement, les échelles sont de forme quadratique positive :

Nous avons donné une orthonormalisation de la base de puissance, en la classant après la chute des valeurs de puissance, en estimant le pardon moyen de l'approximation des données par les premières composantes, etc. - exactement de la même manière, comme dans l'algorithme principal.

Dont la façon de stagner pour la manifestation des classes: pour différentes classes, le vaga vaga est sélectionné plus haut, plus bas pour les points de la même classe. De cette façon, dans la projection sur les rangs, les principales composantes des différentes classes "rozsuvayutsya" à plus grande échelle.

Plus de zastosuvannya - abaisser l'infusion de grands trucs(Outlayer, ing. Valeur aberrante ); On décrit ainsi une modification de la méthode des composants de tête, plus robuste, moins classique.

Terminologie spéciale

Les statistiques de la méthode de la composante principale comportent un certain nombre de termes spéciaux.

Matrice de données; rangée de cuir - vecteur reconversion Danih ( centrage et à droite rationnement), nombre de lignes - (nombre de vecteurs de données), nombre de colonnes - (expansion des données) ;

Matrice avantageuse(chargements); kozhen stovpets - vecteur de composants de tête, nombre de lignes - (expansion de l'espace de données), nombre de stovpts - (nombre de vecteurs de composants de tête, conception sélectionnée);

Matrice de Rachunkiv(Partitions); ligne de peau - projection du vecteur de données sur le composant de tête ; nombre de lignes - (nombre de vecteurs dans les données), nombre de colonnes - (nombre de vecteurs dans les composants principaux, sélectionnés pour la conception) ;

Matrice Z-rachunkiv(cotes Z); ligne de peau - projection du vecteur de données sur les composants principaux, normalisé à une seule variance vibrationnelle ; nombre de lignes - (nombre de vecteurs dans les données), nombre de colonnes - (nombre de vecteurs dans les composants principaux, sélectionnés pour la conception) ;

matrice de pardon(Par ailleurs surplus) (Erreurs ou résidus) .

Formule de base :

Méthode Mezhі zastosuvannya et zamezhennya effektivnosti

Méthode des composantes principales L'affirmation plus large sur ceux qui ne stagnent qu'aux données normalement distribuées (sinon, pour les roses proches de la normale) n'est pas la suivante : la formule standard de K. Pearson devrait être approximations la dernière multiplication des données et le lendemain pour faire une hypothèse sur leur génération statistique, sans en avoir déjà l'air.

Méthode Prote, qui réduit toujours efficacement le rozmіrnіst lors du réglage du chaulage pour plus de précision. Les plans droits ne fournissent pas toujours une bonne approximation. Par exemple, les données peuvent suivre avec une bonne précision s'il s'agit d'une courbe, et cette courbe peut être soigneusement triée dans l'étendue des données. Dans ce cas, la méthode des composants de tête pour une précision acceptable doit être supérieure au nombre de composants (remplacement d'un), sinon elle ne donnera pas une diminution de taille avec une précision acceptable. Pour travailler avec de tels composants de tête «incurvés», la méthode des différences de tête et différentes versions de la méthode des composants de tête non linéaires ont été trouvées. Plus d'imprécisions peuvent conduire à une topologie de pliage donnée. Pour leurs approximations, nous avons également trouvé différentes méthodes, par exemple les cartes de Kohonen, qui sont des grammaires auto-organisatrices, à gaz neuronal ou topologiques. Si les données données sont générées statistiquement à partir du composant racine, qui ressemble à un composant normal, alors pour approximer le composant racine, pour approximer le composant racine composants indépendants, bien qu'il ne soit plus orthogonal à la création scalaire extérieure de Nareshti, pour un rozpodіl isotrope (navit normal), le remplacement de l'elіpsoїda rozsiyuvannya est pris par la balle, et il est impossible de changer le rozmirnіst par les méthodes d'approximation.

Appliquer Victoria

Visualisation des données

Visualisation des données - présentation sous la forme originale des données à expérimenter et des résultats de la recherche théorique.

Le premier choix dans la visualisation du multiplicateur de données est la projection orthogonale sur le plan des deux premières composantes de la tête (ou l'espace tridimensionnel des trois premières composantes de la tête). La zone de conception est en fait un "écran" plat en deux dimensions, froissé de manière à fournir une "image" des données avec les plus petites créations. Une telle projection sera optimale (projections orthogonales médianes sur différents écrans bidimensionnels) pour trois projections :

  1. La somme minimale des carrés entre les données pointe vers les projections sur l'aire des premiers composants de la tête, de sorte que l'écran des expansions soit aussi proche que possible en termes de projection des points sombres.
  2. La quantité minimale de création de carrés entre les carrés est une paire de points à partir de l'obscurité des données après la conception d'un point sur un plan.
  3. La quantité minimale de création de carrés se situe entre les points de données et le "centre de gravité".

La visualisation des données est l'un des ajouts les plus largement utilisés à la méthode des composants de tête et des considérations non linéaires.

Compression d'images et de vidéos

Pour changer l'espace de l'espace extérieur des pixels, l'heure du codage de l'image et de la vidéo sera jouée par la transformation linéaire des blocs de pixels. Des étapes de quantification de coefficients d'omission et de codage sans gaspillage permettent d'omettre des coefficients de compression significatifs. La transformation alternative de l'ACP en transformation linéaire est optimale pour certains types de données en termes de taille des données extraites des mêmes données au même moment. Pour le moment, cette méthode n'est pas activement promue, principalement en raison de la grande complexité de calcul. Ainsi, la compression de ces données peut être atteinte, montrant les coefficients de transformation restants.

Suppression du bruit dans les images

Chimiométrie

La méthode des composants de tête est l'une des principales méthodes en chimiométrie. Chimiométrie ). Permet de diviser la matrice des données de sortie X en deux parties : « remplacement » et « bruit ». Pour Naybіlsh Populaire Viznachennyam "Chemométrics - Tse Hіmіchna dissiplina Scho Zastosovuє Matematichnі, Statistichnі Matematichnі, Statistichnі Statistichnі, Statistichnі Méthode Zasnovanі sur Pobudovi Abo Vіdboru de manière optimale Metodіv Vimіryuvannya que planіv ksperimentu et takozh pour Otrimanny Nayvazhlivіshoї Informatricácie à Analіzі Expertial Danih".

Psychodiagnostic

  1. analyse des données (description des résultats de l'expérience sur certains des autres résultats, comme dans le cas de l'examen de tableaux de données numériques);
  2. description des phénomènes sociaux (modèles positifs de phénomènes, zocrema et modèles mathématiques).

En sciences politiques, la méthode des composants de tête est le principal outil du projet "Political Atlas of the World" pour l'analyse linéaire et non linéaire des notes dans 192 pays du monde pour cinq indices intégraux intégrés spéciaux (égal à la vie, international revenus, menaces, pouvoirs). Pour la cartographie des résultats de cette analyse, un SIG (Système de géoinformation) spécial a été développé, ce qui est un signe d'étendue géographique. En outre, une carte des données de l'atlas politique a été créée, qui est à la base des principales différences entre les deux mondes dans l'étendue des cinq mondes du pays. Identité des cartes de données sous la forme d'une carte géographique en ce que, dans une carte géographique, les instructions montrent des objets qui peuvent avoir des coordonnées géographiques similaires, tandis que dans la carte de données, les instructions montrent des objets (bords) avec des signes similaires (index) .

Dans cet article, je veux parler de ceux-ci, en tant que méthode la plus pratique d'analyse en composantes principales (ACP - analyse en composantes principales) du point de vue de la perspicacité, qui est derrière l'appareil mathématique. Naib_sh c'est simple, mais c'est signalé.

Mathématiques vzagali garna déjà cette science vitonchen, mais en même temps la beauté hovaetsya derrière un tas de boules d'abstraction. Montrez le plus joliment votre beauté sur des fesses simples, comme, soit, vous pouvez la tordre, l'écraser et la toucher, à celle à qui vous vous trompez, tout est plus facile à voir, il est plus facile de regarder au premier coup d'œil , c'est plus compréhensible et révélateur.

Dans l'analyse des données, comme dans toute autre analyse, pendant une heure, nous ne pourrons pas créer un modèle simple décrivant le camp réel le plus précisément possible. Il arrive souvent que les signes soient fortement déposés d'une sorte que l'une de ces présence d'une heure soit transcendantale.

Par exemple, la quantité de carburant en nous est mesurée en litres aux 100 km, et aux États-Unis en miles par gallon. À première vue, l'ampleur de la différence, mais en fait la puanteur se trouve l'une après l'autre. Un mile équivaut à 1600 km et un gallon à 3,8 litres. Un signe est strictement déposé dans l'autre sens, connaissant l'un, connaissant l'autre.

Mais le plus souvent c'est tellement riche que les signes du mensonge un à un ne sont pas si stricts et (important !) pas si évidents. Le volume du moteur dans son ensemble contribue positivement à rouler jusqu'à 100 km / an, mais ne démarre pas. Et cela peut aussi montrer qu'en raison de l'amélioration de facteurs qui ne sont pas visibles à première vue (comme l'augmentation de la puissance du feu, l'utilisation de matériaux légers et d'autres réalisations actuelles), le son de la voiture n'est pas fort , mais cela se répand également dans le yogo.

Connaissant le caractère obsolète de cette force, nous pouvons utiliser un signe de sprat à travers un, acheter plus de colère, alors déplacez-le et pratiquez déjà avec un modèle simple plus grand. Tout d'abord, épargnez-vous l'information, c'est mieux pour tout, ne baissez pas les bras, mais à tout le moins, aidez-nous à utiliser la méthode PCA.

Vyslovlyuyuchis suvoro, la méthode tsey se rapproche de la garde khmara de dimension n à elіpsoїda (tezh n-virіrnogo), pіvosі kakogo je serai les futurs composants principaux. І pour les projections de tels axes (dimensionnalité réduite), le plus d'informations sont collectées.

Krok 1. Préparation des données

Ici, par souci de simplicité, je ne prendrai pas le véritable ensemble de données primaires pour des dizaines de signes et des centaines d'avertissements, mais je développerai mon cul de jouet le plus simple. 2 signes et 10 avertissements suffiront à décrire quoi, et le plus important est de regarder l'algorithme.

Nous générons un vibrateur :

X = np.arange(1,11) y = 2 * x + np.random.randn(10)*2 X = np.vstack((x,y)) imprimer X OUT : [[ 1. 2. 3. 4.5.6.7.8.9.10.] [ 2.73446908 4.35122722 7.21132988 11.24872601 9.58103444 12.09865079 129 3.9

Nous avons deux signes dans cette sélection, qui sont fortement corrélés un à un. À l'aide de l'algorithme PCA, nous pouvons facilement connaître la combinaison de signes et le prix d'une partie de l'information et déterminer l'infraction des signes avec un nouveau. Alors faisons des folies !

Pour les statistiques de cob trohi. En devinant qu'il y a des moments dans la description de la magnitude vipadique. Nous avons besoin de matyuki. ochіkuvannya cette variance. Vous pouvez hardiment dire ce qu'est un tapis. ochіkuvannya - magnitude et variance du "centre de gravité" - tse її "razmіri". En gros kazhuchi, matyuki. la mise à l'échelle indique la position de la valeur verticale et la variance - її razmіr.

Le processus de projection sur un vecteur ne contribue en rien aux valeurs moyennes, de sorte que pour minimiser la perte d'information, notre vecteur peut passer par le centre de notre échantillon. Il n'y a rien de terrible à cela, puisque nous centrons notre sélection - linéairement destructible, de sorte que la valeur moyenne du signe atteint 0.
L'opérateur, qui renvoie la valeur au vecteur des valeurs moyennes - vin est nécessaire pour restaurer la sélection du volume externe.

Xcentered = (X - x.mean(), X - y.mean()) m = (x.mean(), y.mean()) print Xcentered print "Vecteur moyen : ", m OUT : (array([ -4.5, -1,5, -0,5, 0,5, 1,5, 2,5, 3.5, 4.5]), tableau ([- 8.44644233, -8.32845585, -4.93314426, 1.01013491, 7.00558491, 4.214406491, 9.59501658])) Vecteur moyen : (5.5, 10.314393916)

La variance doit tomber dans l'ordre de grandeur de la valeur de chute, c'est-à-dire. sensible à l'échelle. Par conséquent, en signe de solitude au monde, ils sont fortement perturbés par leurs propres commandes, il est recommandé de les normaliser. Dans notre cas, les significations ne sont pas beaucoup modifiées dans les commandes, donc pour simplifier, je ne modifierai pas cette opération.

Krok 2. Matrice de covariance

Dans un vipad avec une valeur vipad riche (vecteur vipad), la position du centre sera la même. ochіkuvannyami її projections sur l'axe. Et l'axe pour la description des formes її est déjà insuffisant seulement її variances le long des axes. Regardez les graphiques, dans les trois fluctuations des valeurs, la même espérance mathématique et la même dispersion, comme les projections sur l'axe, montrent la même chose !


Pour décrire la forme du vecteur vipad, une matrice est nécessaire.

Matrice Tse, yak maє (je, j)-Élément - signe de corrélation (X i, X j). Devinons la formule de covariance :

Il est facile pour notre esprit de dire que E(X i) = E(X j) = 0 :

Respectueusement, si X i = X j :

Et cela est vrai pour toutes les valeurs vipadkovyh.

Dans cet ordre, notre matrice le long de la diagonale aura le signe de la variance (car i = j), et au centre de la matrice - les covariances des deux paires de signes. Et en raison de la symétrie de la covariance, la matrice sera également symétrique.

Le respect: La matrice de covariance є zagalnenny variance dans différentes valeurs variables riches - a gagné le yak et définit la forme (rozkid) de la valeur vypadkovy, yak en variance.

Tout d'abord, la variance d'une valeur de variable unidimensionnelle est une matrice 1x1, dans laquelle il y a un seul membre de tâches par la formule Cov(X,X) = Var(X).

Formons ensuite une matrice de covariance Σ pour notre sélection. Pour quelle variance X i dans X j, ainsi que leur covariance. Vous pouvez accélérer avec une formule écrite, mais si nous nous sommes habitués à Python, alors c'est un péché de ne pas accélérer la fonction numpy.cov(X). Elle accepte en entrée une liste de tous les signes de la grandeur variable et fait tourner la matrice de covariance et de X - n-vecteur variable universel (n-nombre de lignes). Fonction vіdmіnno in dkhodit pour étendre la variance impartiale, pour la covariance de deux quantités, pour replier la matrice de covariance.
(Je suppose qu'en Python, une matrice est un tableau-ligne de tableaux-lignes.)

Covmat = np.cov(Xcentered) print covmat, "n" print "Variance de X :", np.cov(Xcentered) print "Variance de Y : ", np.cov(Xcentered) print "Covariance X et Y : " , np.cov(Xcentered) OUT : [[ 9.16666667 17.93002811] [ 17.93002811 37.26438587]] Variance de X : 9.16666666667 Variance de Y:3:3

Crocodile 3

Ok, nous avons pris une matrice qui décrit la forme de notre taille de goutte, afin que nous puissions la séparer par x et y (c'est-à-dire X 1 et X 2), ainsi que la forme plate sur le plan. Maintenant, nous devons savoir un tel vecteur (un seul type), tout en maximisant l'expansion (dispersion) de la projection de notre sélection sur le nouveau.

Le respect: Le principal écart sur le monde réel est la matrice disponible, et les deux concepts sont équivalents. Lors de la projection sur un vecteur, la variance de projection est maximisée, lors de la projection sur une vaste étendue de grands ordres, toute la matrice de covariance est maximisée.

Prenez également un seul vecteur sur une projection de notre vecteur de projection X. Ensuite, la projection sur un nouveau chemin v T X. La variance de projection sur le vecteur sera similaire à Var(v T X). Dans la vue globale, sous forme vectorielle (pour les valeurs de centrage), la variance s'exprime comme suit :

Évidemment, la dispersion de projection :

Il est facile de retenir que la variance est maximisée au-delà de la valeur maximale v T Σv. Ici, le réglage de Rayleigh nous aidera. Sans aller trop loin dans les mathématiques, je dirai simplement que les plans de Rayleigh peuvent constituer un cas particulier pour les matrices de covariance :

Le reste de la formule peut être connu pour le sujet de la disposition d'une matrice sur une vague de vecteurs et cette valeur. x est un vecteur arbitraire et est une valeur arbitraire. Le nombre de vecteurs propres et cette valeur est égal à la taille de la matrice (les valeurs i peuvent être répétées).

Avant le discours, en anglais, les significations de ce vecteur sont appelées valeurs propresі vecteurs propres de toute évidence.
Meni zdaєtsya, le son est richement beau (et stylé), abaissez nos conditions.

De cette façon, directement la variance maximale de la projection change toujours avec le vecteur propre, qui peut avoir la valeur maximale, ce qui est plus précieux pour la variance.

C'est également vrai pour les projections sur un plus grand nombre de variables - la variance (matrice de covariance) de la projection sur l'espace m-monde sera maximale pour les m vecteurs propres directs, qui peuvent avoir la valeur de puissance maximale.

La diversité de notre sélection est bonne pour deux et le nombre de vecteurs propres en elle est évident 2. Nous les connaissons.

La bibliothèque numpy a implémenté la fonction numpy.linalg.eig(X) où X est une matrice carrée. Vous activez 2 tableaux - un tableau de valeurs propres et un tableau de vecteurs propres (vecteurs). І vecteurs de normalisation - їhnya dozhina dorіvnyuє 1. Ceux-là mêmes qui sont nécessaires. Les vecteurs Qi 2 établissent une nouvelle base pour la sélection, de sorte que son axe est basé sur les principes de l'ellipse approchée de notre sélection.



Sur ce graphique, nous avons approximé notre sélection avec une ellipse avec des rayons de 2 sigma (c'est pourquoi 95% de tous les avertissements sont coupables de vengeance - que pouvons-nous ici et affiche). J'ai inversé un vecteur plus grand (la fonction eig(X) l'a dirigé dans le sens inverse) - il est important pour nous de le diriger, pas l'orientation du vecteur.

Krok 4. Volume réduit (projection)

Le plus grand vecteur peut être simple, similaire à la ligne de régression et projetant sur le nouveau notre sélection et nos informations d'introduction, dérivées de la somme des termes en excès de la régression (seulement maintenant euclidien, pas delta en Y). Parfois, la présence de signes entre les signes est déjà forte, donc la perte d'informations sera minime. Le "prix" de la projection - la dispersion derrière le plus petit vecteur propre - comme on peut le voir sur le graphique de face, est déjà faible.

Le respect: les éléments diagonaux de la matrice de covariance démontrent les variances selon la base primaire, et ces її valeurs de puissance - selon le nouveau (par les composants principaux).

Il est souvent nécessaire d'évaluer la quantité d'informations dépensées (et enregistrées). La meilleure façon de le savoir est par centaines. Nous prenons la variance le long de l'axe de la peau et divisons par la somme totale des variances le long des axes (c'est-à-dire la somme de tous les nombres de puissance de la matrice disponible).
Ainsi, notre plus grand vecteur décrit 45,994/46,431*100 % = 99,06 %, et le plus petit semble être d'environ 0,94 %. En introduisant un plus petit vecteur et en projetant des données pour un plus grand, nous dépensons moins de 1% d'informations ! Résultat Vidminny !

Le respect: Vraiment, zdebіshogo, comme l'apport total d'informations devient supérieur à 10-20%, vous pouvez calmement réduire le rozmirnіst.

Pour effectuer la projection, comme cela était prévu plus tôt sur le croc 3, il est nécessaire d'effectuer l'opération v T X (le vecteur est dû à buti dozhini 1). Sinon, puisque nous n'avons pas un vecteur, mais un hyperplan, alors au lieu du vecteur v T nous prenons la matrice des vecteurs de base V T . Un vecteur soustrait (ou une matrice) sera un tableau de projections.

V = (-vecs, -vecs) Xnouveau = point(v, Xcentré)

point(X,Y)- tvir par membre (c'est ainsi que nous multiplions les vecteurs et les matrices en Python)

Il n'est pas important de se rappeler quelle est la signification des projections dans les peintures sur le graphique avant.

Crocodile 5

À partir de la projection, travaillez manuellement, soyez sur la base de l'hypothèse et développez le modèle. N'oubliez pas d'enlever les composants principaux et les personnes tierces évidentes et sensées matimut, sens. Parfois, soufflant corisno, par exemple, vyyavlenі wikidi, schob pour parler, scho pour monter la garde sur eux.

Tse duzhe est simple. Nous avons toutes les informations nécessaires, et les coordonnées mêmes des vecteurs de base dans la base externe (vecteurs, sur lesquels ils ont été projetés) et le vecteur des moyennes (pour le centrage). Prenons par exemple la valeur maximale : 10.596… Pour lequel on multiplie iogo droitier par le vecteur de transposition i dodamo le vecteur de ceux du milieu, soit dans la vue globale pour tous les viboki : X T v T +m

Xrestored = dot(Xnew,v) + m print "Restored: ", Xrestored print "Original: ", X[:,9] OUT: Restauré: [ 10.13864361 19.84190935] Original: [ 10. 19.9094

Le commerce de détail est petit, mais il y a plus. Les informations sur Adzhe vtrachena ne sont pas confirmées. Prote, parce que la simplicité est importante pour la précision, il est prouvé que la valeur se rapproche du jour.

Adjoint de pose - revérifier l'algorithme

Plus tard, le monde a pris l'algorithme, a montré comment cela fonctionne sur un cul de jouet, maintenant il ne suffit plus de faire correspondre le yoga avec PCA, nous l'implémenterons dans sklearn - même si nous nous corrigerons nous-mêmes.

sklearn.decomposition import PCA pca = PCA(n_components = 1) XPCAreduced = pca.fit_transform(transpose(X))

Paramètre n_composants J'indique le nombre de vimiryuvan, sur la façon dont la projection est effectuée, nous voulons donc réduire notre jeu de données au niveau de vimiryuvan. En d'autres termes - le nombre de n vecteurs propres avec les plus grands nombres possibles. Reprenons le résultat de la diminution de volume :

Imprimer "Notre X: N", XNew Imprimer "Sklearn réduit x: N", XPCareRed Out: Notre X: Notre X: [-9.56404106 -9.02021625 -5.52974825 -5.9933859 0.39307974 5.3967242 10.59672425] Sklearn Réduit X: [[-9.56404106 ] [ -9,02021625] [ -5,52974822] [ -2,96481262] [ 0,68933859] [ 0,74406645] [ 2,33433492] [ 7,39307974] [7] 5 5

Nous avons fait pivoter le résultat sous la forme d'une matrice de colonnes vectorielles (la vue la plus canonique du point de vue de l'algèbre linéaire), PCA dans sklearn a fait pivoter le tableau vertical.

En principe, le prix n'est pas critique, juste un varto signifie qu'en algèbre linéaire, il est canonique d'écrire des matrices via des stovpts vectoriels, et dans l'analyse des données (ces autres aspects des zones DB) les avertissements (transactions, enregistrements) sont enregistrés en lignes.

En inversant ces autres paramètres du modèle, la fonction peut avoir un certain nombre d'attributs qui vous permettent d'accéder à des variables intermédiaires :

Vecteur moyen : signifier_
- Vecteur de projection (matrice) : Composants_
- Dispersion des axes de projection (vibration) : expliqué_variance_
- partie de l'information (partie de la dispersion globale) : ratio_variance_expliqué_

Le respect: expliqué_variance_ afficher vibirkova variance, ainsi que la fonction cov() pour générer une matrice de covariance impitoyable dispersion!

Nous prenons les valeurs à égalité avec les valeurs de la fonction de bibliothèque.

Print "Vecteur moyen : ", pca.mean_, m print "Projection : ", pca.components_, v print "Rapport de variance expliqué : ", pca.explained_variance_ratio_, l/sum(l) OUT : Vecteur moyen : [ 5,5 10,31439 ( 5.5, 10.314393916) Projection: [0.43774316 0.89910006]] (0.43774316434772387, 0.89910006232167594) Variance expliquée: [41.39455058] 45.9939450918 Ratio de variance expliquée: [0.99058588] 0.99058588818

La seule différence réside dans les variances, mais comme nous l'avons déjà deviné, nous avons la fonction victorieuse cov(), comme la variance non biaisée victorieuse, puis l'attribut "expliqué_variance_" est transformé en vibrkov. La puanteur vіdrіznyayutsya moins de temps, scho persha pour le tapis otrimannya. diviser le score par (n-1), et l'ami par n. Il est facile de mal interpréter que 45,99 ∙ (10 - 1) / 10 = 41,39.

Toutes les autres valeurs varient, ce qui signifie que nos algorithmes sont équivalents. Je respecte le fait que les attributs de l'algorithme de la bibliothèque peuvent avoir moins de précision, des fragments de vins, des chants, des optimisations pour swidcode, ou simplement arrondir les valeurs pour plus de clarté (sinon j'ai quelques problèmes).

Le respect: La méthode de la bibliothèque est automatiquement projetée sur un axe qui maximise la variance. Ne soyez pas rationnel. Par exemple, j'ai amené ce petit bébé à rétrograder de manière inexacte au point où la classification devient impossible. La projection de Prote sur un vecteur plus petit peut modifier avec succès la taille et enregistrer le classificateur.

Plus tard, nous avons examiné les principes du travail de l'algorithme PCA et son implémentation dans sklearn. Je suis sûr que cet article a été clair pour ceux qui commencent seulement à se familiariser avec l'analyse des données, et aussi au moins un peu informatif pour ceux qui connaissent bien l'algorithme. L'apparence intuitive est plus appropriée pour comprendre comment pratiquer la méthode, et la compréhension est encore plus importante pour le réglage correct du modèle choisi. Par respect !

PS : Prohannya n'aboie pas l'auteur pour d'éventuelles inexactitudes. L'auteur lui-même est en train d'apprendre l'analyse des données et veut aider de la même manière, car il est en train de maîtriser la valeur d'un merveilleux savoir ! Ale, critique constructive et rіznomanіtny dosvіd u vitayutsya!