Факторен анализ. Метод на главния компонент. Метод на главния компонент Критерии за избор на главни компоненти

Методът на компонента на главата е метод, който превежда голям брой свързани (западнали, вкоренени) променливи в по-малък брой независими променливи, а голям брой променливи често усложнява анализа и интерпретацията на информацията. Строго kazhuchi, tsey методът не се разглежда преди факторния анализ, въпреки че може да е богат с него. По-конкретно, на първо място, тези, които в хода на процедурите по преброяване незабавно отнемат всички компоненти на смърка и техния брой над половината от цената на последните промени; по друг начин се постулира възможността за ново разпределение на дисперсията на всички външни изменения, т.е. її външно обяснение чрез латентни фактори (маркирани знаци).

Например, очевидно, проведохме изследване, в което интелектът на учениците се измерваше с теста на Векслер, теста на Айзенк, теста на Рейвън, както и успеха от социалната, когнитивната и глобалната психология. Доколкото е възможно, че показателите на различните тестове за интелигентност корелират помежду си, така че смърдият vimiryuyut една характеристика на нисшото - його интелектуалното здраве, дори и да е различно. Yakscho zminnyh и doslіzhenny твърде богат ( х 1 , х 2 , …, х стр ) , Deyakі їх vzaєmopov'yazanі, а след това в последния vinikaє bazhannya промяна на сгъването на данните, съкращавайки броя на промените. За което и служи методът на компонентите на главата, който създава цаца от нови промени г 1 , г 2 , …, г стр, кожа с някаква линейна комбинация от промени в кочана х 1 , х 2 , …, х стр :

y 1 =a 11 x 1 +a 12 x 2 +…+a 1p x p

y 2 \u003d a 21 x 1 + a 22 x 2 + ... + a 2p x p

(1)

y p =a p1 x 1 +a p2 x 2 +…+a pp x p

Промени г 1 , г 2 , …, г стрсе наричат ​​компоненти на главата от chinniks. По този начин факторът е статистическо доказателство, което е причина за специални трансформации на корелационната матрица. . Процедурата за факторизация се нарича матрична факторизация. В резултат на факторизация от корелационната матрица, броят на факторите може да варира дори до число, равно на броя на изходящите промени. Факторите, които се появяват в резултата на факторизацията, обаче, като правило, не са равни на техните стойности.

Коефициент а ij, които означават нова промяна, са избрани по такъв начин, че новите промени (компоненти на главата, фактори) описват максимално количество променливост на данните и да не се карат помежду си. Често ясно показват коефициентите а ij по такъв начин, че вонята да е коефициент на корелация между външната промяна и новата промяна (фактор). Tse достигат кратни а ijстандартно отклонение на фактора. За повечето статистически пакети работи по този начин (и за програмата STATISTICA). Коефициента ij Звуковите миризми се сервират при вида на таблиците, дефектно се разташовуват при вида на колоните и се променят при вида на редовете:

Такава таблица се нарича таблица (матрица) на факторните предпочитания. Числата, посочени в nіy, є чрез коефициенти а ij. Числото 0,86 означава, че корелацията между първия фактор и стойността на теста на Wechsler е 0,86. Колкото по-висок е факторът не е предпочитан в абсолютни стойности, толкова по-силна е връзката между промяната и фактора.

Анализът на главните компоненти (PCA) опростява сгъването на високомерни данни, запазвайки тенденциите и моделите. Vіn rob tse, преобразувайки данни в по-малки, като обобщение на функции. Такива данни са още по-широки в различни области на науката и технологиите и те се обвиняват, ако за кожата zrazka има няколко признака, например, такъв израз на богати възгледи. Този тип почит създава проблеми, причинени от честотата на помилвания чрез множество корекции на почит.

Методът е подобен на групирането - да се познават моделите, без да се изпращат и анализират, pereveryayuchi, chi zrazki от различни групи изследвания, и смрад може istotnі vіdmіnnostі. Както всички статистически методи, йога може да бъде диагностицирана погрешно. Мащабирането на промените може да се доведе до различни резултати в анализа и е важно да не е коригирано според предишната стойност на данните.

Цел на компонентния анализ

Основният мета метод е да се разкрие тази промяна в набора от данни, да се идентифицират нови значителни основни промени. За тази цел е необходимо да се използват специални инструменти, например за избор на богати данни в таблицата с данни TableOfReal, в същите редове, за да съответстват на промените и промените. Следователно TableOfReal се интерпретира като вектор и данни numberOfRows, скин вектор на такъв брой елементи Columns.

Традиционно методът на главния компонент се основава на ковариационна матрица или корелационна матрица, която може да бъде изчислена от матрицата на данните. Ковариационната матрица може да се използва за мащабиране на сумата от квадрати и кръстосани сътворения. Корелационната матрица е подобна на ковариационната матрица, но на първо място се променя, така че колоните са стандартизирани. Понякога се случва да се стандартизират данните, тъй като вариациите на някои от тях варират значително. За да анализирате данните, изберете матрицата на данни TabelOfReal от списъка с обекти и натиснете, за да отидете.

Tse prizvede преди появата на нов обект в списъка с обекти за метода на главните компоненти. Сега можете да добавите графика на извити стойности, така че да можете да вземете предвид важността на кожата. И програмата може също да предложи дию: отнемане на част от дисперсията или обръщане на равенството на броя на стойностите на мощността и отнемане на равенството. Oskіlki komponenti otrimani по начин за решаване на конкретни задачи за оптимизация, смрад на дела на "напъпил" сила, например, максимална minlivost. Освен това има ниско ниво на други правомощия, които могат да осигурят факторен анализ:

  • дисперсията на кожата, в нейната част от общата дисперсия на външните изменения, се задава от стойностите на мощността;
  • изчисляване на оценката, която илюстрира значимостта на компонента на кожата за часа на внимание;
  • otrimannya navantage, как да се опише връзката между компонента на кожата и промяната на кожата;
  • корелация между външни промени, създадени за допълнителен p-компонент;
  • в работата на уикенда данните могат да бъдат направени под формата на p-компоненти;
  • "въртене" на компонентите, за да се ускори тяхната интерпретация.

Изберете броя на точките за запис

Има два начина да изберете необходимия брой компоненти за спестяване. Методите за нарушение се основават на vіdnosinah mizh vlasnymi значения. За кого се препоръчва използването на стойност на графика. Тъй като точките на графиката могат да клонят към virіvnyuvatisya и близо до нула, те могат да бъдат игнорирани. Посредничи броя на компонентите към броя, сякаш попада в една част от глобалната дисперсия. Например, за да се задоволим с 95% от общата дисперсия - броят на компонентите (VAF) е 0,95.

Главните компоненти се използват за проектиране на богат статистически анализ на метода на главните компоненти във векторите на данни в огромното количество публични вектори. Можете да го създадете по два начина - директно от TableOfReal, без да формирате фронтално PCA обекта и след това можете да покажете конфигурацията или числата. Изберете обекта и TableOfReal едновременно и "Конфигурация", по този начин анализът на мокро полираните компоненти е победен.

Като отправна точка се показва със симетрична матрица, например ковариация, първо се съкращава, за да се образува, след това QL алгоритъм с неявни неуспехи. Тъй като точката е дясната точка и матрицата на данните, тогава е невъзможно да се образува матрица от сумите на квадратите. Natomist, преминете към числено по-стабилен начин и уредете подредбата според единични стойности. Същата матрица е добър вектор, а квадратните диагонални елементи са добри стойности.

Основният компонент ê беше използван за нормализиране на линейната комбинация от външни предиктори в набора от данни, използвайки метода на компонента на главата за манекени. В изображението PC1 и PC2 са основните компоненти. Допустимо, є нисък предиктор, як X1, X2 ..., XP.

Основният компонент може да се запише като: Z1 = 11X1 + 21X2 + 31X3 + .... + p1Xp

  • Z1 е първият компонент на главата;
  • p1 - ​​векторът на суетата, който се събира към суета (1, 2.) на първия главен компонент.

Доходността се обменя със сумата от квадрат 1. С това е свързано, че голяма стойност на рентабилността може да доведе до голяма дисперсия. Vіn също така директно посочва основния компонент (Z1), за който е дадена най-голяма разлика. Tse да доведе до факта, че линията в пространството на r-мерки, по-близо до n-охрана.

Близостта vymіryuєtsya z vikoristannyam средноквадратична евклидова вълна. X1..Xp са нормализирани предиктори. Нормализираните предиктори могат да имат средна стойност, равна на нула, а стандартното отклонение е равно на единица. Също така, първият компонент на главата е цяла комбинация от промени на външни високоговорители, която фиксира максималното отклонение в набора от данни. Vіn визнае директно най-голямата мудност на данните. Колкото повече дребно е фиксирано в първия компонент, толкова повече информация се отнема от него. Zhoden іnshiy не може майка minlivіst повече от първия основен.

Доведете първия основен компонент в реда, който е най-близо до данните, и доведете до минималната сума на квадрата между точката с данни и линията. Другият компонент на главата (Z2) също е линейна комбинация от външни предиктори, тъй като фиксира дисперсията, която липсва, в набора от данни и Z1 е некорелиран. С други думи, корелацията между първия и другите компоненти може да достигне нула. Vіn може да се представи като: Z2 = 12X1 + 22X2 + 32X3 + .... + p2Xp.

Сякаш не са корелирани, те могат да бъдат директно ортогонални.

Освен това, като изчисляването на основните компоненти започва процеса на прогнозиране на тестови данни за всички селекции. Процесът на метода на основния компонент за чайници е прост.

Например, необходимо е да се работи по преобразуването в тестовия набор, включително функцията на центъра и мащабирането във филм R (ver.3.4.2) и библиотека за йога rvest. R - безплатно езиково програмиране за статистически изчисления и графики. Vіn buv реконструкции от 1992 г. на скалата за изпълнение на статистически задачи от ползавачите. Целият процес на моделиране след PCA.

За да приложите PCA в python, импортирайте данни от библиотеката sklearn. Интерпретацията остава същата като R. Само някои от данните, които са представени за Python, са изчистена версия, в която стойностите се поставят в същия ден, а категоричните промени се преобразуват в числа. Процесът на моделиране остава същият, както е описано в примера за кората R.

Идеята за метода на основния компонент е полезна за близки вируси за развитието на факторен анализ. Вместо да сумираме от 1 до p, сега сумираме от 1 до m, игнорирайки останалите p-m членове в сбора, отнемайки третия вираз. Възможно е да се пренапише tse, както е показано в стиха, който е избран за обозначаване на матрицата на факторното предпочитание L, която дава остатъчен израз на нотацията на матрицата. По правило стандартизираното вимиране се потвърждава, заменя се с матрицата на корелационния подбор R.

Tse формират матрицата L фактор, преобладаващ във факторния анализ, който е придружен от транспониран L. За оценка на специфичните дисперсии, факторният модел за матрицата на дисперсия-ковариация.

Сега имаме по-добра матрична дисперсия-ковариация минус LL".

  • Xi е вектор на гардовете за i-ия субект.
  • S означава нашата матрица на вибрационна дисперсия-ковариация.

Същите p стойности на мощността за qi матрицата на ковариационната дисперсия, както и същите вектори на мощността за qi матрицата.

Валидни стойности S:λ^1, λ^2, ..., λ^p.

Силови вектори S: e^1, e^2, ..., e^n.

PCA анализът е най-трудният и популярен метод за мултивариантен анализ, който позволява да се добавят богати набори от данни от голям брой промени. Зад този метод методът на компонентите на главата се използва широко в биоинформатиката, маркетинга, социологията и богатството на др. XLSTAT предоставя пълна и гъвкава функция за показване на данни без посредник в Excel и разпространява няколко стандартни и разширени опции, за да ви позволи да разгледате задълбочено отчета за данни в Excel.

Можете да стартирате програмата върху незавършени информационни матрици от данни, да добавяте допълнителни промени към охраната, да филтрирате промените според различни критерии за оптимизиране на четенето на карти. Освен това можете да се обърнете. Лесно е да се създаде корелативна колона, графиката е пазител като стандартните диаграми на Excel. Достатъчно е да прехвърлите данни за резултатите, за да спечелят анализа.

XLSTAT въвежда редица методи за обработка на данни, които ще се използват върху входните данни преди изчисляването на основния компонент:

  1. Pearson, класическият PCA, който автоматично стандартизира данните за изчисляване, за да елиминира преувеличения приток на промени от големи вдъхновения в резултата.
  2. Ковариация, която работи с нестандартни заминавания.
  3. Полигоричен, за редови данни.

Приложете анализ на дадените данни

Можете да разгледате метода на главните компоненти с помощта на симетрична корелационна ковариационна матрица. Tse означава, че матрицата може да бъде числова и майка на стандартизирани данни. Допустимо е, набиране на данни е 300 (n) × 50 (p). Където n е броят на предупрежденията, а p е броят на предикторите.

Oskіlki е страхотно p = 50, p(p-1)/2 е възможно. В този случай би било обичаен подход да се избере подмножител на предиктора p (стр<< 50), который фиксирует количество информации. Затем следует составление графика наблюдения в полученном низкоразмерном пространстве. Не следует забывать, что каждое измерение является линейной комбинацией р-функций.

Бут за матрицата от две промени. При това приложение на метода на компонентите на главата се създава набор от данни от две редуващи се (голяма и диагонална дожина) с броя данни за парчета на Devis.

Компонентите могат да бъдат нарисувани на диаграмата на разпределението по този начин.

Тази графика илюстрира идеята за първия или основния компонент, който осигурява оптималната връзка за данни - на такава графика е начертана друга линия, тя не създава набор от прогнозирани стойности на точки от данни на линията с по-малко дисперсия.

Първият компонент може също да бъде добавен към регресията с променено тегло на главата (RMA), в която се прехвърля, като x-, така че и y-промяната може да има извинение или незначимост, или няма ясна разлика между главата и вятъра.

Методът на компонентите на главата в иконометрията е анализ на промените, като БНП, инфлация, обменни курсове и т.н. След това ги оценяваме за очевидни признаци, ранг на главата и общи времеви редове. Въпреки това, иконометричните модели могат да бъдат коригирани за богати програми, но не и за макроикономически. Така иконометрията означава икономически свят.

Развитието на статистически методи до най-добрата иконометрия на данните показва взаимовръзката между икономическите промени. Прост пример за иконометричен модел. Очаква се по-голямата част от хората да се възстановят линейно в зависимост от доходите на оцелелите през предходния месец. Същият модел е сгъваем

Задачата на иконометрията е да оцени оценките на параметрите a и b. Броят на оценените параметри, тъй като те са победители в равен модел, позволяват да се предвиди бъдещата стойност на живота, тъй като тя се крие в дохода от предходния месец. В рамките на часа за разработване на тези видове модели е необходимо да се осигурят няколко момента:

  • естеството на движещия се процес, който генерира данни;
  • rіven знам за tse;
  • разширяване на системата;
  • форма на анализ;
  • обрий прогноза;
  • математическо сгъване на системата.

Всички причини са важни, парченца в тях лежат джерела помилвания, като модели. Освен това за решаването на тези проблеми е необходимо да се разработи метод за прогнозиране. Може да се доведе до линеен модел, но все пак е малък избор. Този тип е един от най-важните, за който можете да създадете прогнозен анализ.

Непараметрична статистика

Методът на компонентите на главата за непараметрични данни трябва да бъде преди методите на света, за които данните се класират от долния ред. Непараметричните статистически методи се използват широко в различни видове изследвания. На практика, ако предположението за нормалност не бъде преодоляно, параметричните статистически методи могат да доведат до резултати, които могат да бъдат въведени в Оман. Navpaki, непараметрични методи за избягване на по-малко suvori надбавка за rozpodіl за wimirami.

Вонята е надеждна, независимо от предпазителите rozpodіlіv, които лежат в техните основи. Чрез това изследване, за анализа на различни видове експериментални проекти, бяха разделени много различни видове непараметрични тестове. Такива проекти включват дизайн от една селекция, дизайн от две ивици, дизайн от произволни блокове. Ninі непараметричен bayesivsky pіdkhіd іz zastosuvannym метод osnovnymi komponentіv vykoristovuêtsya опростява анализа на надеждността на режийните системи.

Парапетната система е типична широкомащабна сгъваема система с взаимни подсистеми, сякаш замества цифровите компоненти. Надеждността на системата се взема за сметка на вторите посещения от техническата служба, а икономическото управление на активите ще изисква точна оценка на надеждността на най-ниското ниво. Защитете данни реални ї nadіnostі по-малко от равните компоненти на въздушната система, която винаги е налична на практика, но за завършване. Rozpodil zhittєvih tsiklіv komponentіv vіd virobnikіv често hovaєєєєє sladnyuєєєє sladnyuєєsya действителната vikoristannyam и работеща средата. По този начин се анализира валидността на анализа на жизнеността на методологията за оценка на часа на живот на компонента в съзнанието на наличието на данни за речта.

Методът на основните компоненти в съвременните науки е победител за постигането на две основни задачи:

  • анализ на данните от социологически изследвания;
  • вдъхновяват модели на suspіlnyh yavisch.

Алгоритми за разпространение на модели

Алгоритмите към метода на главните компоненти дават повече информация за структурата на модела и неговата интерпретация. Вонята е показателна за това как PCA печели в различни дисциплини. Алгоритъм за нелинеен итерационен частичен най-малък квадрат NIPALS, използващ метода за изчисление на последния компонент. Изчислението може да бъде закрепено в края на реда, ако ви е достатъчно, че е достатъчно. Повече компютърни пакети може да са склонни да спечелят алгоритъма NIPALS, но има две основни предимства:

  • Vіn opratsovuє vіdsutnі данни;
  • последователно изчисляване на компонентите.

Мета изглед на алгоритъма:

  • дайте допълнителна информация за тези, които означават насърчаване на тази оценка;
  • показва как компонентът на кожата не лежи ортогонално с други компоненти;
  • показват как алгоритъмът може да обработва наличните данни.

Алгоритъмът последователно изчертава компонента на кожата, започвайки от първия директно с най-голямата дисперсия, а след това другия и т.н. NIPALS изчислява един компонент в даден момент. Изчислявайки първия еквивалент на t1t1, както и p1p1 вектори, ако бихте знаели от стойността на мощността или разпределението за единични стойности, можете да обработите данните в XX. Vіn винаги се сближават, но zbіzhnіst іnоdі mоzhe bіlnoy. Също така е познат като алгоритъма за плътност за изчисляване на векторите на мощността и стойностите на мощността и работи добре за страхотни набори от данни. Google хакна алгоритъма за ранните версии на базираната на мощност озадачаваща система.

Алгоритъмът за отчитане на NIPALS е по-долу.

След това оценките на коефициента на матрицата T се изчисляват като T=XW и често коефициентите на регресията на квадратите B от Y към X се изчисляват като B = WQ. Алтернативен метод за оценка на частите от регресията на частичните най-малки квадрати може да бъде описан по следния начин.

Методът на компонентите на главата е инструмент за обозначаване на главните оси на дисперсия в набор от данни и ви позволява лесно да следите ключовите промени в данните. Правилният метод за съхранение е един от най-модерните в набора от инструменти за анализ на данни.

Компонентният анализ се счита за различни методи за намаляване на обема. Vіn отмъщение един от начините - начинът на основните компоненти. Компонентите на главата са в ортогонална координатна система, а дисперсията на компонентите характеризира тяхната статистическа мощност.

Враховючи, чиито обекти на успех в икономиката се характеризират с голям брой признаци, влияещи върху толкова голям брой випадкови причини.

Изчисляване на основните компоненти

Първият главен компонент Z1 на знака на вторичната система X1, X2, X3, X4, ..., Xn се нарича такава центрирано-нормализирана линейна комбинация от знаци, тъй като средно центрирано-нормализираните линейни комбинации от знаци имат най-голяма дисперсия.

Като друг компонент на главата Z2 ще вземем такава центрирана - нормализирана комбинация от знаци, като:

не е свързано с първия компонент на главата,

не е свързана с първия компонент на главата, тази комбинация има най-голяма дисперсия.

K-тият компонент на главата Zk (k=1…m) се нарича такъв центриран - нормализиран комбиниран знак, като:

не е свързано с до -1 компоненти на предната глава,

средата на най-възможните комбинации от външни знаци, ако не

не корелират с до -1 предни компоненти на главата, тази комбинация има най-голяма дисперсия.

Нека да въведем ортогонална матрица U и да преминем от промяна на X към промяна на Z, освен това

Векторът е избран така, че дисперсията да е максимална. Ако притежанието е избрано, така че дисперсията да е максимална за ума, което не корелира с т.н.

Oskіlki znaka vymiryanі в neporіvnyannymi стойности, тогава е по-добре да отидете на центрирано-нормализирани стойности. Матрицата на външни центрирани нормализирани стойности е известна от справката:

безпристрастно, възможно е ефективна оценка на математическата оценка,

Непроменена е възможно ефективна оценка на дисперсията.

Матрицата от предупреждения за значението на външните знаци е посочена от Dodatku.

Центрирането и стандартизацията се извършва със съдействието на програма "Стадия".

Ако има признаци на центриране и нормализиране, тогава оценката на корелационната матрица може да се разработи с помощта на формулата:


Преди това, докато провеждаме компонентен анализ, ще анализираме независимостта на външните знаци.

Потвърждаване на значимостта на матрицата на мъжките корелации за допълнителния критерий на Уилкс.

Ние правим хипотеза:

H0: незначително

H1: значителен

125,7; (0,05;3,3) = 7,8

тъй като > , тогава хипотезата H0 се разглежда и матрицата е значима, следователно е възможно да се проведе компонентен анализ.

Обръщане на хипотезата за диагоналността на ковариационната матрица

Ние правим хипотеза:

Budêmo статистика, rozpodіlenu за закона от стъпалата на свободата.

123,21, (0,05;10) =18,307

тъй като >, тогава се разглежда хипотезата H0 и е възможно да се проведе компонентен анализ.

За да се предизвика разлагане на матрица, е необходимо да се присвоят съответните номера на матрицата, нарушаващи подравняването.

Необходимо е да се използва функцията на собствените стойности на системата MathCAD за операцията, тъй като тя завърта числата на матрицата, използвайки мощността:

Защото отнехме не силата на числото и мощността на матричния вектор, а оценката. Us tsіkavitime naskіlki "добър" zі statisticheskij точка зор vibrkovі характеристики описват vіdpovіdnі параметри за обща ї sukupnostі.

Доверителният интервал за i-то число на степента следва тази формула:

Допълнителните интервали за техните числа в резултата изглеждат така:

Оценката на стойността на редица от най-добрите числа се взема от доверителния интервал на най-малките числа. Необходимо е да се обърне хипотезата за кратността на степенните числа.

За допълнителна статистика е необходима повторна проверка на кратността

de r-брой на множество корени.

Tsya статистика по времето на справедливостта се разделя според закона от броя на стъпките на свободата. Хипотезите на Visunemo:

Oskіlki хипотеза vydkidaetsya, така че силата на числото, а не кратно.

Oskіlki хипотеза vydkidaetsya, така че силата на числото, а не кратно.

Необходимо е да се видят основните компоненти само на ниво на информативност от 0,85. Светът на информативността показва част или част от вариацията на външните знаци, за да образуват компонентите на k-първата глава. За света на информацията ние назоваваме стойността:

На дадено ниво на информация се виждат три основни компонента.

Нека напишем матрицата =

За да премахнете нормализирания вектор към прехода от външни знаци към основните компоненти, е необходимо да промените системата за изравняване: След корекцията на решението на системата е необходимо да се нормализира корекционният вектор.

За изпълнението на тази задача използваме функцията eigenvec на системата MathCAD за ускоряване на нормализиращия вектор за променлива степен на число.

Според нас първите четири компонента на главата са достатъчни за достигане на даденото ниво на информация, така че матрицата U

Ние ще бъдем матрицата U, колоните на която са векторите на мощността:

Матрица на вашите коефициенти:

Матрични коефициенти A є коефициенти на корелация между центрирани - нормализирани визуални знаци и ненормализирани компоненти на главата и показват очевидността, силата и директната линейна връзка между визуалните знаци и основните компоненти на главата.

Метод на главния компонент

Метод на главния компонент(англ. Анализ на главните компоненти, PCA ) е един от основните начини за промяна на разнообразието от данни чрез използване на най-малко количество информация. Винайден К. Пиърсън Карл Пиърсън ) на r. Zastosovuetsya в богати области, като разпознаване на изображения, компютърен zir, купчина данни и т.н. Изчисляването на основните компоненти се свежда до изчисляване на векторите на мощността и стойностите на мощността на ковариационната матрица на данните. Друг метод на главните компоненти се нарича до трансформациите на Кархунен-Лоев(англ. Кархунен-Лове) или трансформацията на Hotelling (инж. Хотелска трансформация). Други начини за промяна на разнообразието от данни са методът на независимите компоненти, богатото мащабиране, както и численото нелинейно агрегиране: методът на кривите на главата и вариацията, методът на пружинните карти, методът на най-добрата проекция (инж. Проекционно преследване), невромережев метод на "Гласово гърло", че іn.

Официална постановка на проблема

Задачата да се анализират основните компоненти, поне, поне, поне някои от основните версии:

  • за приближаване на данни с линейни разлики с по-малка размерност;
  • да се знае подпространството с по-малък размер, в ортогоналната проекция на yak_rozkid danih (така че отклонението в средата на квадрата от средната стойност) е максимално;
  • да се знае подпространството с по-малък размер, в ортогоналната проекция на яка средно квадратно разстояние между точките колкото е възможно повече;
  • за дадена богата променлива стойност на променливата, предизвиква такава ортогонална трансформация на координати, която в резултат на корелация между други координати се трансформира до нула.

Първите три версии работят с крайните резултати от данни. Вонята е еквивалентна и не е заместваща каквато и да е хипотеза за статистическото генериране на данни. Четвъртата версия се основава на вертикални стойности. Kіntsevі mulіnіy yavlyayutsya yavlyayutsya тук като vybіrki z дадена rozpodіlu, и virіshennya три първи zavdan - като близо до "истинското" прераждане на Karhunen-Loev. Ние обвиняваме допълнението и цялата тривиална доставка на точността на подхода.

Апроксимация на данните чрез линейни разлики

Илюстрация към известната работа на К. Пирсън (1901): дадени точки на равнината, - отидете направо към правата линия. Shukaetsya направо, scho минимизиране на сумата

Методът на компонентите на главата произлиза от задачата за най-добро приближение на крайния множител на точки чрез прави линии и равнини (K. Pirson, 1901). Dana kintseva анонимни вектори. За кожни среди трябва да знаем, че сумата от квадратите на здравето е минимална:

,

de - Евклидово от точката до линейната разлика. Be-yak - спокойно линейно raznomanittya може да се даде като анонимни линейни комбинации, де параметри преминават през речевата линия и - ортонормално типизиране на вектори

,

де Евклидова норма, - Евклидов скаларен twir, или в координатна форма:

.

Развитието на апроксимационния проблем за се дава от набор от входни данни от линейни разлики, . Броят на линейните разлики се определя от ортонормиран набор от вектори (вектори на главните компоненти) и вектор. Векторът изглежда като решение на проблема с минимизирането за:

.

Векторите на основните компоненти могат да бъдат намерени като решение на подобни оптимизационни проблеми:

1) централизирани данни (видима средна стойност): . Сега; 2) познаваме първия компонент на главата като задача; . Ако няма едно решение, тогава избираме едно от тях. 3) От тази проекция на първия компонент на главата можем да видим: ; 4) другият компонент на главата знае как да реши проблема. Ако няма едно решение, тогава избираме едно от тях. … 2k-1) Можем да видим проекцията на -тия компонент на главата (предполагайте, че проекциите на предните основни компоненти вече се виждат): ; 2k) k-тият компонент на главата е известен като решение на задачата: . Ако няма едно решение, тогава избираме едно от тях. …

В дермалния стадий виждаме проекция върху предния компонент на главата. Векторите на ортогонализацията се намират просто в резултат на разработването на описания оптимизационен проблем, за да не се прости изчислението и да се разруши взаимната ортогоналност на вектора в компонентите на главата, можете да включите задачата за оптимизация.

Неадекватността на присвоения крим на тривиален swaville при избора на знак (и изпълнението на същата задача) може да бъде по-точен и разгледан, например, от съзнанието на симетрията на данните. Останалата част от компонента на главата е единичен вектор, ортогонален на предния.

Търсене на ортогонални проекции с най-големи разлики

Първият компонент на главата максимизира вибрационната дисперсия на проекцията на данните

Нека ни бъде дадено центрирането на набор от вектори от данни (средноаритметичната стойност на стойността е равна на нула). Задача - да се знае такава ортогонална трансформация към нова координатна система, която би била правилна такива условия:

Теорията на сингулярното подравняване е създадена от Дж. Дж. Силвестър (англ. Джеймс Джоузеф Силвестър ) в m.

Прост итеративен алгоритъм за сингулярно разлагане

Основната процедура е да се търси най-доброто приближение на достатъчно голяма матрица под формата на матрица (de-world vector, a - world vector) по метода на най-малките квадрати:

Решението на проблема се дава чрез последователни итерации по изрични формули. С фиксиран вектор стойностите, които доставят минималната форма, са еднозначно и изрично присвоени на равенства:

По същия начин с фиксиран вектор се присвояват следните стойности:

Като апроксимация на вектор, ние вземаме променлив вектор с една стойност, вектор, който трябва да се изчисли, вектор, който трябва да се изчисли за кой вектор и т.н. Стойността се променя. Като критерий за флуктуацията има три различни промени в стойността на минимизирания функционал за кратка итерация () или три от най-значимите.

Резултатът от матрицата беше изваден от най-близкото приближение на типа на матрицата (тук горният индекс на стойностите е номерът на приближението). Освен това от матрицата мога да видя матрицата и за премахнатата матрица трикът отново е да търсим най-доброто приближение от същия вид и т.н., докато например нормата стане достатъчно малка. Чрез войната отнехме итеративната процедура за излагане на матрицата като сбор от матрици от ранг 1, tobto . В резултат на това апроксимацията на единични числа и сингулярни вектори (дясно - и ляв - ) беше елиминирана.

Преди алгоритъмът да може да го преодолее, неговата простота и способността да го прехвърли без промяна към данни с пропуски, както и важни данни.

Създаване на различни модификации на основния алгоритъм за подобряване на точността и стабилността. Например, векторите на компонентите на главата при различни неизправности са ортогонални „според навици“, защитават с голям брой итерации (голямо разнообразие, богат компонент) малки отклонения в ортогоналността се натрупват и може да се наложи специална корекция на крокодила на кожата , важната безопасност на компонента на главата.

Единично подреждане на тензори и тензорен метод на компонентите на главата

Често вектор от данни може да добави към структурата на правоъгълна таблица (например равнина на изображението), за да създаде богата таблица - tob към тензора : , . Също така е ефективно този човек да има уникално оформление. Посочени, основните формули на алгоритмите могат да се прехвърлят практически без промени: замяната на матрицата на данните може да бъде стойността на индекса, първият индекс е номерът на точката (тензор) на данните.

Основната процедура е да се търси най-доброто приближение на тензор чрез тензор на формата (де-мирен вектор (- брой точки от данни), - вектор на размера при ) по метода на най-малките квадрати:

Решението на проблема се дава чрез последователни итерации по изрични формули. Всъщност всички вектори-умножители на едно пурпурно са зададени, а този, който е изпуснат, е ясно представен от достатъчно умове поне.

В началото на близостта на вектора () вземете противоположния вектор и единичната стойност, изчислете вектора, дайте за този вектор и тези вектори в изчислителния вектор и т.н. (циклично сортиране през индекса) Алгоритъм, може би сближаване. Като критерий за флуктуацията има три значителни промени в стойността на минимизирания функционал за цикъл или три от най-значимите. По-далеч, от тензора може да се види близостта и излишъкът отново shukayemo най-добрата близост от същия вид. пъпка, мушка, например, нормата на chergovogo излишък ще бъде малък.

Това богато-компонентно единично оформление (тензорният метод на компонентите на главата) се използва успешно при обработка на изображения, видео сигнали и, по-широко, повече или по-малко данни, така че може да се формира таблична или тензорна структура.

Матрична трансформация към основните компоненти

Матрицата за преобразуване на данни в основните компоненти се състои от вектори на основните компоненти, сортирани в ред на промяна на техните стойности:

(означава транспониране),

Tobto, матрицата е ортогонална.

Повечето от вариациите на тези данни ще бъдат отбелязани в първите координати, което ви позволява да отидете в пространството с по-малко пространство.

Залишков дисперсия

Дайте данните за центриране, . При подмяна на векторите на данни на основната проекция на първия компонент на главата, средният квадрат на помилването от възкресението се въвежда за един вектор данни:

където стойностите на емпиричната ковариационна матрица са сортирани в реда на промяна, с коригирана кратност.

Tsya стойност се нарича излишна дисперсия. Стойност

Наречен обяснена дисперсия. Їhnya сума dorivnyuє vibrkovіy дисперсия. Vіdpovіdny квадрат vіdnoї pardon - tsі vіdnennia излишък отклонение към vibrіkovo дисперсия (tobto част от необяснима дисперсия):

За изключително помилване се оценява оценката на метода на основните компоненти с дизайна на първите компоненти.

Уважение: в повечето алгоритми за номериране, степенните числа с най-мощните вектори на мощността - компонентите на главата се броят в реда "от най-големия към най-малкия". За изчисляване е достатъчно да се изчислят първите числа и следващата емпирична ковариационна матрица (сумата от диагоналните елементи, тоест дисперсиите по осите). Тоди

Избор на основните компоненти според правилото на Кайзер

Tsіlovy pіdhіd преди да се оцени броят на компонентите на главата за необходимата често обяснена дисперсия, формално zastosovuє zavzhd, защитава имплицитно прехвърляне, scho podіl към "сигнал" и "шум", и дали точността на сензора е предварително определена или не. Ето защо често е продуктивна друга евристика, която се основава на хипотезата за наличието на „сигнал” (равномерно малък обем, ясно голяма амплитуда) и „шум” (голям обем, явно малка амплитуда). На пръв поглед методът на главните компоненти работи като филтър: сигналът се отстранява, което е по-важно, в проекцията на първите основни компоненти, а делът на шума е по-богат в останалите компоненти.

Хранене: как да се оцени броят на необходимите основни компоненти, сякаш съотношението сигнал / шум не е известно предварително?

Даден е най-простият и най-стар метод за избор на компоненти на главата Правилото на Кайзер(англ. Правилото на Кайзер): значими основни компоненти, които

за промяна на средната стойност (средна вибрационна дисперсия на координатите на вектора на данните). Правилото на Кайзер се практикува добре в най-простите случаи, ако има няколко от основните компоненти, средната стойност се преобръща богато, а останалите степенни числа са по-малки от новата. В ситуации на сгъване може да даде още по-значими основни компоненти. Като се даде нормализиране на единична вибрационна дисперсия по осите, правилото на Кайзер е особено просто на външен вид: значимите основни компоненти, които

Оценка на броя на основните компоненти според правилото на злия бастун

Пример: Оценка на броя на основните компоненти по правилото за счупени тръстики в размер 5.

Един от най-популярните евристични подходи за оценка на броя на необходимите компоненти на главата е злата тръстика властва(англ. Модел със счупена пръчка). Набор от нормализации за единичен сбор от всички числа (, ) е равен на разпределението на дожините на ulamkіv на тръстиката на единична дожина, прекъснатата точка е счупена (точките на прекъсването се избират независимо и се разделят по равно от гълъба на тръстиката). Хайде () - Dovzhini otrimanih shmatkіv тръстики, номерирани в реда на промяна на dozhini:. Няма значение да знаете математическото уточнение:

Съгласно правилото на злия бастун, векторът на силата (в реда на промяна на числата на мощността) се взема от списъка с компоненти на главата, което означава

Ориз. беше заострен приклад за 5-кратен випад:

=(1+1/2+1/3+1/4+1/5)/5; =(1/2+1/3+1/4+1/5)/5; =(1/3+1/4+1/5)/5; =(1/4+1/5)/5; =(1/5)/5.

Избрано за дупе

=0.5; =0.3; =0.1; =0.06; =0.04.

Според правилото на злата тръстика, в този дупе има 2 компонента на смутия:

Според оценките на користувачите, правилото на злата тръстика може да има тенденция да подценява броя на значимите основни компоненти.

Рациониране

Нормиране след свеждане до основните компоненти

Следпроектиране върху първите основни компоненти и ръчно нормализиране до единична (селективна) дисперсия по осите. Дисперсията на въздуха и компонента на главата е по-скъпа), така че за нормализиране е необходимо съответната координата да се раздели на . Тази трансформация не е ортогонална и не изисква скаларно създаване. Ковариационната матрица на проекцията на данните става единична след нормализиране, проекциите за това дали две ортогонални линии стават или не независими величини и дали ортогоналната база става основа на основните компоненти (предполагайки, че нормализирането променя ортогоналността на вектор). Vіdobrazhennya от обема на изходните данни за първите компоненти на главата и в същото време с нормализиране се дава от матрицата

.

Самата трансформация най-често се нарича трансформация Кархунен-Лоев. Ето вектори, а горният индекс означава транспониране.

Нормиране до изчисляване на основните компоненти

Предварително: няма следа от погрешно нормализиране, което да се извърши след трансформацията към основните компоненти, с нормализиране и "изнервяне", когато преразпределение на данни, което се извършва преди изчисляването на основните компоненти. Нормализирането напред е необходимо за закръглен избор на показатели, при които може да се изчисли най-доброто приближение на данните или да се изчисли най-правата линия на най-голямото разпределение (което е еквивалентно). Например, ако е дадено от триизмерни вектори от „метри, литри и килограми“, тогава ако стандартната евклидова разлика е 1 метър по първата координата, същият принос ще работи като разлика от 1 литър върху другата, или 1 кг на третия. Обадете се на системите от 1, за които са представени визуални данни, отразяват недостатъчно точно нашите твърдения за естествените мащаби по осите и извършете „обезоръжаване“: координатата на кожата се разделя на скала sing, която се обозначава като данни, числата на тяхната обработка и процеси на vimiryuvannya и събиране на данни.

Има три различни стандартни подхода към такава стандартизация: единична дисперсияпо осите (мащабът по осите е равен на средното квадратично подобрение - след втората трансформация на ковариационната матрица се мащабира с матрицата на коефициентите на корелация), на равна на точността на света(Мащаб по оста на пропорционална точност на дадената стойност) и нататък равни вимогипри задачата (мащабът по оста се определя от необходимата точност на прогнозата на дадена стойност или от допустимите събития - равен толеранс). Въведение във вибилизацията на задачите във вибрацията на задачите и работих за придобиването на Dones (мисленето на Yakschko Dia Dia Dia Dani не е завършено, а след това nerazіonially Vyibrates Normuvnaya стриктно на дисперсия идентичност, Navischko Tsevaє Vіdpovі Zm_sta Delivani, Oskilki Tsey otrimannya нова порция, разумно изберете разумна скала, грубо оценявайки стандартния прием и не го променяйте допълнително).

Нормализирането напред до единична дисперсия по осите се свива чрез завъртане на координатната система, тъй като осите са компонентите на главата и нормализирането при повторно извършване на данните не замества нормализирането след редукция към компонентите на главата.

Механична аналогия и методът на компонентите на главата за класиране на данни

За да съпоставим скин вектора на данните с една маса, тогава емпиричната ковариационна матрица се променя с тензора на инерцията на системата от точкови маси (нека разделим по същата маса), а проблемът за компонентите на главата - от задачите за намаляване на тензора на инерцията към осите на главата. Възможно е да се спечели допълнителна свобода при избора на стойността на масата за важността на точките от данни или превъзходството на техните стойности (важни почит или почит от по-големия по-висш джерел се приписват на големите маси). Yakscho векторът на данните надежди маса,след това се извършва замяната на емпиричната ковариационна матрица

Всички по-нататъшни операции от редукция до основните компоненти се вибрират по същия начин, както в основната версия на метода: оценяваме ортонормализацията на базата на мощността, е възможно да промените стойностите на мощността, ние оценяваме средната стойност стойност на апроксимацията на нормализирането на числата, дадени от сумирането на първите компоненти,

Даден е по-горещ начин за обаждане максимизиране на стойността на сбора от сдвоени изгледимежду проекциите. За кожата две точки от данни се въвежда vaga; че . Замяната на емпиричната ковариационна матрица е победоносна

Когато симетричната матрица е положително зададена, скалите са положителна квадратична форма:

Дадохме ортонормализация на степенната база, като я подредихме след падането на стойностите на мощността, оценихме средното помилване на апроксимацията на данните от първите компоненти и т.н. - точно по същия начин, както в основния алгоритъм.

Чиито начин да застоят за явност на класовете: за различни класове vaga vaga се избира по-високо, по-ниско за точки от същия клас. По този начин, в проекцията върху редиците, основните компоненти на различния клас "розсуваются" в по-голям мащаб.

Повече zastosuvannya - понижаване на вливането на страхотни трикове(Outlayer, инж. Извънредно ); По този начин е описана модификация на метода на компонента на главата, който е по-здрав, по-малко класически.

Специална терминология

Статистиката за метода на компонента на главата има редица специални термини.

Матрица на данни; кожен ред - вектор преквалификацияданих ( центриранеи право нормиране), брой редове - (брой вектори от данни), брой колони - (разширяване на данните);

Навантагенова матрица(Натоварвания); kozhen stovpets - вектор на компонентите на главата, брой редове - (разширяване на пространството от данни), брой stovpts - (брой вектори на компонентите на главата, избран дизайн);

Матрица на Рачункив(резултати); скин ред - проекция на вектора на данните върху компонента на главата; брой редове - (брой вектори в данните), брой колони - (брой вектори в основните компоненти, избрани за проектиране);

Матрица Z-rachunkiv(Z резултати); скин ред - проекция на вектора на данните върху основните компоненти, нормализирана към единична вибрационна дисперсия; брой редове - (брой вектори в данните), брой колони - (брой вектори в основните компоненти, избрани за проектиране);

матрица за извинение(в противен случай излишък) (Грешки или остатъци) .

Основна формула:

Mezhі zastosuvannya и zamezhennya effektivnosti метод

Метод на главния компонент По-широкото твърдение за тези, които са в застой само на нормално разпределени данни (в противен случай за рози, които са близки до нормалните) не е така: стандартната формула на К. Пиърсън трябва да бъде приближенияпоследното умножение на данните и на следващия ден да се създаде хипотеза за тяхното статистическо генериране, без да изглежда вече за това.

Метод Prote, който винаги ефективно намалява rozmіrnіst при настройка на варуването за точност. Правите равнини не винаги осигуряват добро приближение. Например данните могат да следват с добра точност, независимо дали са крива, и тази крива може да бъде добре сортирана в пространството от данни. В този случай методът на компонентите на главата за приемлива точност трябва да бъде по-голям от броя на компонентите (замяна на един), в противен случай няма да доведе до намаляване на размера с приемлива точност. За работа с такива „извити“ компоненти на главата беше намерен методът на разликите в главите и различни версии на метода на нелинейния компонент на главата. Повече неточности могат да доведат до дадена топология на сгъване. За техните приближения открихме и различни методи, например карти на Кохонен, които са самоорганизиращи се, невронни газ или топологични граматики. Ако дадените данни са статистически генерирани от коренния компонент, който изглежда като нормален, тогава за приближаване на коренния компонент, за приближаване на коренния компонент независими компоненти, въпреки че вече не е ортогонално на външното скаларно творение на Nareshti, за изотропен rozpodіl (navіt normal) замяната на elіpsoїda rozsiyuvannya се взема от топката и е невъзможно да се промени rozmirnіst чрез методите на апроксимация.

Приложете victoria

Визуализация на данните

Визуализация на данните – представяне в оригинален вид на данни за експериментиране и резултатите от теоретично изследване.

Първият избор при визуализацията на множителя на данните е ортогоналната проекция върху равнината на първите два компонента на главата (или 3-измерното пространство на първите три компонента на главата). Дизайнерската зона всъщност е плосък двуизмерен "екран", разрошен по такъв начин, че да осигури "картина" от данни с най-малките творения. Такава проекция ще бъде оптимална (средни ортогонални проекции върху различни двуизмерни екрани) за три проекции:

  1. Минималната сума от квадрати между данните сочи към проекциите върху площта на първите компоненти на главата, така че екранът на разширенията да е възможно най-близък по отношение на проекцията до мрачните точки.
  2. Минималното количество за създаване на квадрати между квадратите е двойка точки от тъмнината на данните след проектиране на точка в равнина.
  3. Минималното количество за създаване на квадрати е между точките на данните и „центъра на тежестта“.

Визуализацията на данни е едно от най-широко използваните добавки към метода на компонентите на главата и нелинейните съображения.

Компресиране на изображения и видео

За да промените обема на външното пространство на пикселите, часът на кодиране на изображението и видеото ще бъде възпроизведен чрез линейна трансформация на блоковете пиксели. Стъпките на квантуване на пропускащи коефициенти и кодиране без отпадъци позволяват пропускане на значителни коефициенти на компресия. Алтернативната трансформация на PCA като линейна трансформация е оптимална за определени типове данни по отношение на размера на данните, взети от същите данни по едно и също време. В момента този метод не се популяризира активно, главно поради голямата изчислителна сложност. Така стискането на тези данни може да бъде достигнато, показвайки останалите коефициенти на трансформация.

Потискане на шума в изображенията

Химиометрия

Методът на компонента на главата е един от основните методи в химиометрията. Химиометрия ). Позволява ви да разделите матрицата на изходните данни X на две части: „замяна“ и „шум“. За naybіlsh популярен viznachennyam "Chemometrics - tse hіmіchna distsiplіna scho zastosovuє matematichnі, statistichnі, че INSHI метод zasnovanі on formalnіy logіtsі за pobudovi abo vіdboru оптимално metodіv vimіryuvannya и na takozhyv ot analыzhыыыыыыыыыыыvaыыvaыvannya и na takozhыv ot eksperimentizыыva".

Психодиагностика

  1. анализ на данни (описание на резултатите от експеримента върху някои от другите резултати, както в случая на разглеждане на масиви от числови данни);
  2. описание на социални явления (положителни модели на явления, зокрема и математически модели).

В политическите науки методът на компонентите на главата е основният инструмент за проекта „Политически атлас на света“ за линеен и нелинеен анализ на рейтингите в 192 страни по света за пет специални интегрирани интегрални индекса (равни на живота, международни доходи, заплахи, правомощия). За картографиране на резултатите от този анализ е разработена специална ГИС (Геоинформационна система), която е признак за географска обширност. Създадена е и карта на данните от политическия атлас, която е в основата на основните разлики на два свята в петсветовното пространство на страната. Идентичност на картите с данни под формата на географска карта в това, че в географската карта инструкциите показват обекти, които могат да имат сходни географски координати, докато в картата с данни инструкциите показват обекти (ръбове) със сходни знаци (индекси) .

В тази статия искам да говоря за тях, като най-практичния метод за анализ на главните компоненти (PCA - glavni компонентен анализ) от гледна точка на прозрението, което стои зад математическия апарат. Naib_sh е прост, но се съобщава.

Математиката vzagali вече garna, че vitonchen наука, но в същото време красота hovaetsya зад куп топки от абстракция. Покажете красотата си най-красиво на прости дупета, като, така да бъде, можете да го завъртите, да го разбиете и да го докоснете, до този, който грешите, всичко е по-лесно да се види, по-лесно е да се погледне от пръв поглед , това е по-разбираемо и разкриващо.

При анализа на данните, както при всеки друг анализ, за ​​един час няма да можем да създадем прост модел, който описва истинския лагер възможно най-точно. Често се случва така, че знаците трябва да бъдат силно депозирани, един вид едно от тези едночасово присъствие е трансцедентално.

Например, количеството гориво в нас се измерва в литри на 100 км, а в САЩ в мили на галон. На пръв поглед големината на разликата, но всъщност вонята лежат една след друга. Милята е 1600 км, а галонът е 3,8 литра. Един знак е строго депозиран в другата посока, познавайки едното, познавайки другия.

Но по-често тя е толкова богата, че признаците на лъжата един по един не са толкова строги и (важно!) не толкова очевидни. Обемът на двигателя като цяло допринася положително за шофиране до 100 км / година, но не стартирайте. Освен това може да се окаже, че поради подобрението на фактори, които не са видими на пръв поглед (като увеличаване на силата на огъня, използването на леки материали и други текущи постижения), звукът на автомобила не е силен , но се разлива и в йога.

Знаейки застойността на тази сила, можем да използваме знак за цаца през един, да купим повече гняв, така че да го преместим и да практикуваме вече с по-голям прост модел. Първо, спестете си информацията, по-добре за всичко, не се отказвайте, но най-малкото ни помогнете да използваме PCA метода.

Vyslovlyuyuchis suvoro, tsey метод е апроксимиране на n-измерение khmara охрана към elіpsoїda (tezh n-virіrnogo), pіvosі kakogo i ще бъдат бъдещи основни компоненти. І за проекции на такива оси (намалена размерност) се събира най-много информация.

Крок 1. Подготовка на данни

Тук за простота няма да взема истинския първичен набор от данни за десетки знаци и стотици предупреждения, а ще разширя най-простата си играчка. 2 знака и 10 предупреждения ще са достатъчни, за да опишат какво, а най-важното е да погледнете алгоритъма.

Ние генерираме вибратор:

X = np.arange(1,11) y = 2 * x + np.random.randn(10)*2 X = np.vstack((x,y)) отпечатайте X OUT: [[ 1. 2. 3. 4.5.6.7.8.9.10.] [ 2.73446908 4.35122722 7.21132988 11.24872601 9.58103444 12.09865079 129 3.9

Имаме два знака в тази селекция, които са силно свързани един с един. С помощта на алгоритъма PCA можем лесно да разберем знаковата комбинация и цената на част от информацията и да определим нарушението на знаците с един нов. Така че нека се пръскаме!

За статистиката на кочаните трохи. Предполагам, че има моменти в описанието на випадичната величина. Нуждаем се от матюки. ochіkuvannya тази дисперсия. Можете смело да кажете каква постелка. ochіkuvannya - tse "център на тежестта" величина, и дисперсия - tse її "razmіri". Приблизително kazhuchi, matyuki. мащабирането показва позицията на вертикалната стойност, а дисперсията - її razmіr.

Процесът на проектиране върху вектор по никакъв начин не допринася за средните стойности, така че за да се сведе до минимум загубата на информация, нашият вектор може да премине през центъра на нашата извадка. Няма нищо страшно за това, тъй като центрираме нашата селекция - линейно разрушима, така че средната стойност на знака да достигне 0.
Операторът, който връща стойността към вектора на средните стойности - vin е необходим за възстановяване на избора на външния обем.

Xcentered = (X - x.mean(), X - y.mean()) m = (x.mean(), y.mean()) print Xcentered print "Mean vector: ", m OUT: (масив([ -4.5, -1.5, -0.5, 0.5, 1.5, 2.5, 3.5, 4.5]), масив ([- 8.44644233, -4.32845585, -2.93314426, -2.93723136, 1.01013491, 7.0058491, 0.58413491, 4.21440647, 9.59501658])) Среден вектор : (5.5, 10.314393916)

Дисперсията е да попадне в порядъка на стойността на падането, т.е. чувствителен към мащаба. Ето защо, като знак за самота в света, те са силно обезпокоени от собствените си заповеди, препоръчва се стандартизирането им. В нашия случай значенията не се променят много в поръчките, така че за простота няма да променя тази операция.

Крок 2. Ковариационна матрица

В vipad с богата стойност на vipad (випад вектор), позицията на центъра ще бъде същата. ochіkuvannyami її проекции по оста. А оста за описанието на її форми вече е недостатъчна само йи вариации по осите. Вижте графиките, в трите флуктуации на стойностите едно и също математическо очакване и дисперсия, като проекциите по оста, показват същото!


За да се опише формата на вектора на vipad, е необходима матрица.

Tse matrix, yak maє (i,j)-Елемент - знак на корелация (X i, X j). Да отгатнем ковариационната формула:

За нашия ум е лесно да кажем, че E(X i) = E(X j) = 0:

С уважение, ако X i = X j:

И това е вярно за всички vipadkovyh ценности.

В този ред нашата матрица по диагонала ще има знака на дисперсията (защото i = j), а в центъра на матрицата - ковариациите на двете двойки знаци. И поради симетрията на ковариацията, матрицата също ще бъде симетрична.

уважение:Ковариационната матрица е zagalnenny дисперсия в различни богати променливи стойности - won yak и определя формата (rozkid) на vypadkovy стойност, yak і дисперсия.

На първо място, дисперсията на стойността на едномерна променлива е матрица 1x1, в която има един член на задачите по формулата Cov(X,X) = Var(X).

След това нека формираме ковариационна матрица Σ за нашата селекция. За коя дисперсия X i і X j, а също и тяхната ковариация. Можете да ускорите с написана формула, но ако сме свикнали с Python, тогава е грях да не ускорим функцията numpy.cov(X). Тя приема като вход списък с всички знаци на променливата величина и завърта ковариационната матрица и de X - n-универсален променлив вектор (n-брой редове). Функция vіdmіnno і dkhodit і за разширяване на безпристрастната дисперсия, і за ковариацията на две величини, і за сгъване на ковариационната матрица.
(Предполагам, че в Python матрицата е масив-ред от масиви-редове.)

Covmat = np.cov(Xcentered) отпечатай covmat, "n" отпечатай "Вариант на X:", np.cov(Xcentered) отпечатай "Вариант на Y: ", np.cov(Xcentered) отпечатай "Ковариация X и Y: " , np.cov(Xcentered) OUT: [[ 9.16666667 17.93002811] [ 17.93002811 37.26438587]] Дисперсия на X: 9.16666666667: Дисперсия на Y:3

Крок 3

Добре, взехме матрица, която описва формата на нашия размер на капката, така че можем да я разделим по x и y (това са X 1 и X 2), както и плоската форма на равнината. Сега трябва да знаем такъв вектор (само един тип), като същевременно максимизира разширяването (дисперсията) на проекцията на нашата селекция върху новия.

уважение:Основната дисперсия на реалния свят е наличната матрица и двете понятия са еквивалентни. Когато се проектира върху вектор, дисперсията на проекцията се максимизира, когато се проектира в огромна площ от големи поръчки, цялата ковариационна матрица се максимизира.

Също така, вземете един вектор върху някаква проекция на нашия проекционен вектор X. Тогава проекцията върху нов път v T X. Дисперсията на проекцията върху вектора ще бъде подобна на Var(v T X). В глобалния изглед във векторната форма (за центриращи стойности) дисперсията се изразява по следния начин:

Очевидно проекционната дисперсия:

Лесно е да се запомни, че дисперсията е максимизирана отвъд максималната стойност v T Σv. Тук настройката на Рейли ще ни помогне. Без да навлизам твърде дълбоко в математиката, просто ще кажа, че чертежите на Rayleigh могат да направят специален случай за ковариационни матрици:

Останалата част от формулата може да бъде известна за темата за излагане на матрица върху вълна от вектори и тази стойност. x е произволен вектор и е произволна стойност. Броят на собствените вектори и тази стойност са равни на размера на матрицата (стойностите i могат да се повтарят).

Преди речта на английски език се наричат ​​значенията на този вектор собствени стойностиі собствени векториочевидно.
Meni zdaêtsya, tse звучат богато красиви (и стил), понижи нашите условия.

По този начин директно максималната дисперсия на проекцията винаги се променя със собствения вектор, който може да има максимална стойност, която е по-ценна за дисперсията.

Това е вярно и за проекции върху по-голям брой променливи - дисперсията (ковариационната матрица) на проекцията върху пространството на m-света ще бъде максималната за директните m собственни вектори, които могат да имат максимална стойност на мощността.

Разнообразието на нашата селекция е добро за двама и броят на собствените вектори в нея е очевиден 2. Ние ги познаваме.

Библиотеката numpy е внедрила функцията numpy.linalg.eig(X)където X е квадратна матрица. Обръщате 2 масива - масив от собствени стойности и масив от собствени вектори (вектори). І вектори на нормализиране - їhnya dozhina dorіvnyuє 1. Самите тези, които се изискват. Qi 2 векторите задават нова основа за селекцията, така че нейната ос се основава на принципите на апроксимиращата елипса на нашата селекция.



На тази диаграма приближихме избора си с елипса с радиуси 2 сигма (затова 95% от всички предупреждения са виновни за отмъщение - какво можем тук и плакат). Обърнах по-голям вектор (функцията eig(X) го насочи към обратната посока) - за нас е важно да го насочим, а не ориентацията на вектора.

Krok 4. Намален обем (проекция)

Най-големият вектор може да бъде прав напред, подобно на линията на регресия и да проектира върху новата ни селекция и въвеждаща информация, извлечена от сумата на излишните членове на регресията (само сега евклидова, а не делта в Y). Понякога наличието на знаци между знаците вече е силно, така че загубата на информация ще бъде минимална. "Цената" на проекцията - дисперсията зад по-малкия собствен вектор - както се вижда от предната графика, вече е малка.

уважение:диагоналните елементи на ковариационната матрица демонстрират дисперсиите според първичната база, а тези ее стойности на мощността - според новата (по основните компоненти).

Често е необходимо да се оцени количеството изразходвана (и запазена) информация. Най-добрият начин да разберете е в стотиците. Вземаме дисперсията по оста на кожата и я разделяме на общата сума от дисперсиите по осите (тоест сумата от всички степенни числа на наличната матрица).
И така, нашият по-голям вектор описва 45,994/46,431*100% = 99,06%, а по-малкият изглежда е около 0,94%. Въвеждането на по-малък вектор и проектиране на данни за по-голям, ние изразходваме по-малко от 1% информация! Видминен резултат!

уважение:Наистина, zdebіshogo, тъй като общият вход на информация да стане повече от 10-20%, можете спокойно да намалите rozmirnіst.

За извършване на проекцията, както беше планирано по-рано на croc 3, е необходимо да се извърши операцията v T X (векторът се дължи на buti dozhini 1). В противен случай, тъй като имаме не един вектор, а хиперравнина, то вместо вектора v T вземаме матрицата на базисните вектори V T . Изваден вектор (или матрица) ще бъде масив от проекции.

V = (-vecs, -vecs) Xnew = точка(v, Xcentered)

точка(X,Y)- членен tvir (ето как умножаваме вектори и матрици в Python)

Не е важно да помним какво е значението на проекциите в картините на предната графика.

Крок 5

От проекцията, ръчно изработете, бъдете на базата на хипотезата и разширете модела. Не забравяйте да премахнете основните компоненти и да matimut очевидни, разумни трети страни, сенс. Понякога, духайки corisno, например, vyyavlenі wikidi, schob да говорят, scho да стоят на стража над тях.

Це дуже е просто. Имаме цялата необходима информация, както и самите координати на базисните вектори във външната база (вектори, върху които са проектирани) и вектора на средните стойности (за центриране). Вземете например максималната стойност: 10,596... За което умножаваме iogo дясно по вектора за транспониране i dodamo вектора на средните, или в глобалния изглед за всички viboki: X T v T +m

Xrestored = dot(Xnew,v) + m print "Restored: ", Xrestored print "Original: ", X[:,9] OUT: Възстановен: [ 10.13864361 19.84190935] Оригинал: [ 10. 19.9094

Търговията на дребно е малка, но има още. Adzhe vtrachena информация не е потвърдена. Проте, тъй като простотата е важна за точността, доказано е, че стойността е приблизителна на деня.

Заместник по полагане - повторна проверка на алгоритъма

По-късно светът взе алгоритъма, показа как работи върху дупе играчка, сега вече не е достатъчно да съпоставим йога с PCA, ще го приложим в sklearn - дори ако ще се самокоригираме.

sklearn.decomposition импортиране PCA pca = PCA(n_components = 1) XPCAreduced = pca.fit_transform(transpose(X))

Параметър n_компонентиПосочвам броя на vimiryuvan, за това как се извършва прожекцията, така че искаме да намалим нашия набор от данни до нивото на vimiryuvan. С други думи - броят на n собствени вектора с възможно най-голям брой. Нека преразгледаме резултата от намаляването на обема:

Печат "Нашият намален X: n", xnew print "sklearn намален X: n", xpcareduced: Нашият намален X: [-9.56404106-9.02022 -2.96481262 0.68933859 0.74406645 2.33433492 7.39307974 5.3212742 10.59672425] SKLEARN намалено X: [[-9.56404106 \ t ] [ -9,02021625] [ -5,52974822] [ -2,96481262] [0,68933859] [0,74406645] [2,33433492] [7,39307954] [7]

Завъртахме резултата като матрица от векторни колони (най-каноничният изглед от гледна точка на линейната алгебра), PCA в sklearn завъртя вертикалния масив.

По принцип цената не е критична, просто varto означава, че в линейната алгебра е канонично да се записват матрици чрез вектор-stovpts, а при анализа на данни (тези други аспекти на областите на DB) предупрежденията (транзакции, записи) са записани в редове.

Обръщане на тези други параметри на модела - функцията може да има редица атрибути, които ви позволяват да получите достъп до междинни променливи:

Среден вектор: означава_
- Проекционен вектор (матрица): компоненти_
- Дисперсия на проекционните оси (вибрация): обяснена_вариация_
- част от информацията (част от глобалната дисперсия): обяснено_отклонение_отношение_

уважение:обяснено_вариантно_ шоу вибирковадисперсия, както и функцията cov() за генериране на ковариационна матрица неумолимидисперсия!

Взимаме стойностите наравно със стойностите на библиотечната функция.

Отпечатайте "Среден вектор: ", pca.mean_, m отпечатайте "Проекция: ", pca.components_, v отпечатайте "Обяснено съотношение на вариация: ", pca.explained_variance_ratio_, l/sum(l) OUT: Среден вектор: [ 5.5 10.31439 ( 5.5, 10.314393916) Проекция: [[0.43774316 0.89910006]] (0.4374316434772387, 0.89910006232167594) Разграничение: [41.39455058] 45.9939450918 Описание Коефициент на отклонение: [0.99058588] 0.99058588818

Единствената разлика е в вариациите, но както вече предположихме, ние победим функцията cov(), като победоносната безпристрастна дисперсия, след което атрибутът expanded_variance_ се превръща в vibrkov. Вонята vіdrіznyayutsya по-малко Тим, scho persha за otrimannya мат. разделете резултата на (n-1), а приятелят на n. Лесно е да се тълкува погрешно, че 45,99 ∙ (10 - 1) / 10 = 41,39.

Всички други стойности варират, което означава, че нашите алгоритми са еквивалентни. Уважавам, че атрибутите на алгоритъма на библиотеката може да имат по-малка точност, парчета вина, sing-song, оптимизации за swidcode или просто да закръглят стойностите ​​за яснота (в противен случай имам някои проблеми).

уважение:Методът на библиотеката автоматично се проектира върху ос, която максимизира дисперсията. Не бъдете рационални. Например, доведох това малко бебе неточно да понижим степента си до точката, в която класификацията става невъзможна. Проекцията на Prote върху по-малък вектор може успешно да промени размера и да запази класификатора.

По-късно разгледахме принципите на работа на PCA алгоритъма и неговото изпълнение в sklearn. Сигурен съм, че тази статия беше ясна за тези, които тепърва започват да се запознават с анализа на данни, а също и поне малко информативна за тези, които познават добре алгоритъма. Интуитивният външен вид е по-подходящ за разбиране как да се практикува методът, а разбирането е още по-важно за правилната настройка на избрания модел. За уважение!

PS: Prohannya не лае автора за възможни неточности. Самият автор е в процес на изучаване на анализа на данни и иска да помогне по същия начин, тъй като е в процес на овладяване на стойността на едно прекрасно знание! Ale, градивна критика и rіznomanіtny dosvіd u vitayutsya!