ფაქტორული ანალიზი. ძირითადი კომპონენტის მეთოდი. ძირითადი კომპონენტის მეთოდი ძირითადი კომპონენტების შერჩევის კრიტერიუმები

ხელმძღვანელი კომპონენტის მეთოდი არის მეთოდი, რომელიც თარგმნის დიდ რაოდენობას დაკავშირებულ (fallow, rooted) ცვლადებს დამოუკიდებელ ცვლადებში უფრო მცირე რაოდენობით, ხოლო ცვლადების დიდი რაოდენობა ხშირად ართულებს ინფორმაციის ანალიზს და ინტერპრეტაციას. მკაცრად კაჟუჩი, ცის მეთოდი არ განიხილება ფაქტორულ ანალიზამდე, თუმცა შეიძლება მდიდარი იყოს ამით. კონკრეტულად, უპირველეს ყოვლისა, ისინი, ვინც დათვლის პროცედურების მსვლელობისას დაუყოვნებლივ წაართმევენ ყველა ჭუჭყიან კომპონენტს და მათ რაოდენობას ბოლო ცვლილებების ღირებულების ნახევარზე მეტი; სხვაგვარად, პოსტულირებულია ყველა გარეგანი ცვლილების დისპერსიის ახალი განაწილების შესაძლებლობა, ანუ. її გარეგანი ახსნა ლატენტური ფაქტორების მეშვეობით (ხაზგასმული ნიშნები).

მაგალითად, როგორც ჩანს, ჩვენ ჩავატარეთ კვლევა, რომელშიც სტუდენტების ინტელექტი იზომებოდა ვექსლერის ტესტით, ეიზენკის ტესტით, რავენის ტესტით, ასევე წარმატება სოციალური, შემეცნებითი და გლობალური ფსიქოლოგიიდან. შეძლებისდაგვარად, რომ ინტელექტის სხვადასხვა ტესტების ინდიკატორები ერთმანეთთან კორელაციაში იყოს, ისე, რომ სუნი ახასიათებს ქვედა - იოგოს ინტელექტუალური კეთილდღეობას, თუნდაც ის განსხვავებული იყოს. Yakscho zminnyh და doslіzhenny ძალიან მდიდარი ( x 1 , x 2 , …, x გვ ) , Deyakі їх vzaєmopov'yazanі, შემდეგ ბოლოში vinikaє bazhannya შეცვალეთ მონაცემების დასაკეცი, ცვლილებების რაოდენობის შემცირება. რისთვისაც და ემსახურება სათავე კომპონენტების მეთოდს, რომელიც ქმნის ახალ ცვლილებებს 1 , 2 , …, გვ, კანი კობის ცვლილებების გარკვეული ხაზოვანი კომბინაციით x 1 , x 2 , …, x გვ :

y 1 =a 11 x 1 +a 12 x 2 +…+a 1p x p

y 2 \u003d a 21 x 1 + a 22 x 2 + ... + a 2p x p

(1)

y p =a p1 x 1 +a p2 x 2 +…+a pp x p

ცვლილებები 1 , 2 , …, გვჭინკები თავის კომპონენტებს უწოდებენ. ამგვარად, ფაქტორი წარმოადგენს სტატისტიკურ მტკიცებულებას, რომელიც არის კორელაციური მატრიცის განსაკუთრებული გარდაქმნების მიზეზი. . ფაქტორიზაციის პროცედურას ეწოდება მატრიცული ფაქტორიზაცია. კორელაციური მატრიციდან ფაქტორიზაციის შედეგად, ფაქტორების რაოდენობა შეიძლება შეიცვალოს იმ რიცხვამდეც კი, რომელიც უდრის გამავალი ცვლილებების რაოდენობას. თუმცა, ფაქტორები, რომლებიც ჩნდება ფაქტორიზაციის შედეგად, როგორც წესი, არ უტოლდება მათ მნიშვნელობებს.

კოეფიციენტი იჯ, რომელიც ახალ ცვლილებას აღნიშნავს, ისეა არჩეული, რომ ახალი ცვლილებები (თავის კომპონენტები, ფაქტორები) აღწერს მონაცემთა ცვალებადობის მაქსიმალურ რაოდენობას და არ ეჩხუბოს ერთმანეთს. ხშირად ნათლად აჩვენებს კოეფიციენტებს იჯ ისე, რომ სუნი იყო კორელაციის კოეფიციენტი გარე ცვლილებასა და ახალ ცვლილებას (ფაქტორს) შორის. ცე აღწევს მრავლობითს იჯფაქტორის სტანდარტული გადახრა. სტატისტიკური პაკეტების უმეტესობისთვის ეს ასე მუშაობს (STATISTICA პროგრამისთვისაც). კოეფიციენტი იჯ სუნის ხმა ემსახურება მაგიდების იერს, უხამსი როზტაშოვიუცია სვეტების იერს, და იცვლება რიგების იერსახე:

ასეთ ცხრილს ეწოდება ფაქტორული პრეფერენციების ცხრილი (მატრიცა). რიცხვები მითითებულია nіy-ზე, є კოეფიციენტებით იჯ. რიცხვი 0.86 ნიშნავს, რომ კორელაცია პირველ ფაქტორსა და ვექსლერის ტესტის მნიშვნელობას შორის არის 0.86. რაც უფრო მაღალია ფაქტორი აბსოლუტური თვალსაზრისით, მით უფრო ძლიერია კავშირი ცვლილებასა და ფაქტორს შორის.

ძირითადი კომპონენტის ანალიზი (PCA) ამარტივებს მაღალი განზომილებიანი მონაცემების დაკეცვას, ტენდენციებისა და შაბლონების შენარჩუნებას. Vіn rob tse, კონვერტაცია მონაცემების უფრო მცირე, როგორც ფუნქციების შეჯამება. ასეთი მონაცემები კიდევ უფრო ფართოა მეცნიერებისა და ტექნოლოგიების სხვადასხვა დარგში და ამას ადანაშაულებენ, თუ კანისთვის ზრაზკას ნიშანი გამოიყენება, მაგალითად, მდიდარი შეხედულებების გამოხატვა. ამ ტიპის ხარკი წარმოადგენს პრობლემებს, რომლებიც გამოწვეულია შეწყალების სიხშირით ხარკის მრავალჯერადი შესწორებით.

მეთოდი კლასტერიზაციის მსგავსია - შაბლონების ცოდნა მათი გაგზავნისა და ანალიზის გარეშე, შებრუნება, chi zrazki კვლევის სხვადასხვა ჯგუფიდან და სუნი შეიძლება istotnі vіdmіnnostі. ყველა სტატისტიკური მეთოდის მსგავსად, იოგასაც შეიძლება არასწორი დიაგნოზი დაუსვას. ცვლილებების სკალირება შეიძლება ანალიზში სხვადასხვა შედეგამდე მიიყვანოთ და მნიშვნელოვანია, რომ არ მოხდეს მისი კორექტირება, მონაცემთა წინა მნიშვნელობის მიხედვით.

კომპონენტის ანალიზის მიზანი

ძირითადი მეტა მეთოდი არის მონაცემთა ნაკრების ცვლილების გამოვლენა, ახალი მნიშვნელოვანი ძირითადი ცვლილებების იდენტიფიცირება. ამ მიზნით აუცილებელია სპეციალური ხელსაწყოების გამოყენება, მაგალითად, TableOfReal მონაცემთა მატრიცაში მდიდარი მონაცემების შესარჩევად, იმავე სტრიქონებში ცვლილებებისა და ცვლილებების შესატყვისად. მაშასადამე, TableOfReal ინტერპრეტირებულია, როგორც ვექტორი და მონაცემთა ნომერიOfRows, ამ რაოდენობის ელემენტების სვეტების კანის ვექტორი.

ტრადიციულად, სათავე კომპონენტის მეთოდი ეფუძნება კოვარიანტულ მატრიცას ან კორელაციის მატრიცას, რომელიც შეიძლება გამოითვალოს მონაცემთა მატრიციდან. კოვარიანტული მატრიცა შეიძლება გამოყენებულ იქნას კვადრატებისა და ჯვარედინი ქმნილებების ჯამის გასაზომად. კორელაციის მატრიცა მსგავსია კოვარიანტული მატრიცის, მაგრამ პირველ რიგში ის იცვლება, ამიტომ სვეტები სტანდარტიზებულია. ზოგჯერ ხდება მონაცემების სტანდარტიზაცია, რადგან ზოგიერთი მათგანის ცვალებადობა ძალიან განსხვავდება. მონაცემების გასაანალიზებლად, ობიექტების სიიდან აირჩიეთ მონაცემთა მატრიცა TabelOfReal და დააჭირეთ წასასვლელად.

Tse prizvede ადრე გამოჩენა ახალი ობიექტი ობიექტების სიაში მეთოდი ძირითადი კომპონენტები. ახლა თქვენ შეგიძლიათ დაამატოთ მრუდი მნიშვნელობების გრაფიკი, რათა გაითვალისწინოთ კანის მნიშვნელობა. და პროგრამას ასევე შეუძლია შემოგთავაზოთ დიუ: წაშალოს დისპერსიის ნაწილი, ან შეცვალოს სიმძლავრის მნიშვნელობების თანასწორობა და წაართვას თანასწორობა. Oskіlki komponenti otrimani ისე, რომ გადაჭრას ოპტიმიზაციის კონკრეტული ამოცანები, სუნიანი ქმედებები "აყვავებული" ძალა, მაგალითად, მაქსიმალური minlivost. გარდა ამისა, არსებობს სხვა ძალების დაბალი დონე, რომელსაც შეუძლია ფაქტორული ანალიზის უზრუნველყოფა:

  • კანის დისპერსია, გარეგანი ცვლილებების მთლიანი დისპერსიის თავის ნაწილში, განისაზღვრება სიმძლავრის მნიშვნელობებით;
  • შეფასების გაანგარიშება, რომელიც ასახავს კანის კომპონენტის მნიშვნელობას სიფრთხილის საათისთვის;
  • otrimannya navantage, როგორ აღვწეროთ კორელაცია კანის კომპონენტსა და კანის ცვლილებას შორის;
  • დამატებითი p-კომპონენტისთვის შექმნილი გარე ცვლილებებს შორის კორელაცია;
  • შაბათ-კვირის მუშაობაში მონაცემები შეიძლება გაკეთდეს p- კომპონენტების სახით;
  • კომპონენტების „როტაცია“, მათი ინტერპრეტაციის გასაუმჯობესებლად.

აირჩიეთ დაზოგვის ქულების რაოდენობა

დაზოგვისთვის კომპონენტების საჭირო რაოდენობის არჩევის ორი გზა არსებობს. შეურაცხმყოფელი მეთოდები ეფუძნება vіdnosinah mizh vlasnymi მნიშვნელობებს. ვისთვისაც რეკომენდებულია გრაფიკის მნიშვნელობის გამოყენება. იმის გამო, რომ გრაფიკის წერტილები შეიძლება იყოს virіvnyuvatisya და ნულთან ახლოს, მათი იგნორირება შეიძლება. შუალედური კომპონენტების რაოდენობა რიცხვამდე, თითქოს გლობალური დისპერსიის ერთ ნაწილში მოხვდება. მაგალითად, იმისათვის, რომ დაკმაყოფილდეთ მთლიანი დისპერსიის 95%-ით - კომპონენტების რაოდენობა (VAF) არის 0,95.

ძირითადი კომპონენტები გამოიყენება მონაცემთა ვექტორებში ძირითადი კომპონენტების მეთოდის მდიდარი სტატისტიკური ანალიზის შესაქმნელად საჯარო ვექტორების უზარმაზარ სივრცეში. თქვენ შეგიძლიათ შექმნათ იგი ორი გზით - პირდაპირ TableOfReal-დან PCA ობიექტის ფრონტალურად ჩამოყალიბების გარეშე და შემდეგ შეგიძლიათ აჩვენოთ კონფიგურაცია ან ნომრები. აირჩიეთ ობიექტი და TableOfReal ერთდროულად და "კონფიგურაცია", ამ გზით სველი გაპრიალებული კომპონენტების ანალიზი გამარჯვებულია.

როგორც ასეთი, საწყისი წერტილი ნაჩვენებია სიმეტრიული მატრიცით, მაგალითად, კოვარიანტული მატრიცით, რომელიც მცირდება ფორმამდე, შემდეგ QL ალგორითმი იმპლიციტური ჩავარდნებით. ვინაიდან წერტილი არის სწორი წერტილი და მონაცემთა მატრიცა, შეუძლებელია კვადრატების ჯამებიდან მატრიცის ჩამოყალიბება. Natomist, გადადით რიცხობრივად უფრო სტაბილურ გზაზე და მოაგვარეთ განლაგება სინგულარული მნიშვნელობების მიხედვით. იგივე მატრიცა კარგი ვექტორია, ხოლო კვადრატული დიაგონალური ელემენტები კარგი მნიშვნელობებია.

ძირითადი კომპონენტი є გამოიყენებოდა მონაცემთა ნაკრებში გარეგანი პროგნოზირების წრფივი კომბინაციის ნორმალიზებისთვის, დუმებისთვის მთავარი კომპონენტის მეთოდის გამოყენებით. სურათზე PC1 და PC2 ძირითადი კომპონენტებია. დასაშვები, є დაბალი პროგნოზი, იაკი X1, X2 ..., XP.

ძირითადი კომპონენტი შეიძლება დაიწეროს: Z1 = 11X1 + 21X2 + 31X3 + .... + p1Xp

  • Z1 არის პირველი ხელმძღვანელი კომპონენტი;
  • p1 - ​​ამაოების ვექტორი, რომელიც ემატება პირველი ძირითადი კომპონენტის ამაოებას (1, 2.).

მომგებიანობის გაცვლა ხდება კვადრატის ჯამით 1. ამას უკავშირდება, რომ მომგებიანობის დიდმა ღირებულებამ შეიძლება გამოიწვიოს დიდი დისპერსია. Vіn ასევე პირდაპირ მიუთითებს მთავარ კომპონენტზე (Z1), რისთვისაც ყველაზე მეტი განსხვავებაა. Tse მივიყვანოთ იმ ფაქტამდე, რომ ხაზი R-ს ზომაში, უფრო ახლოს არის n- მცველთან.

სიახლოვე vymіryuєtsya z vikoristannyam საშუალო კვადრატული ევკლიდური ტალღა. X1..Xp არის ნორმალიზებული პროგნოზები. ნორმალიზებულ წინასწარმეტყველებს შეიძლება ჰქონდეს საშუალო მნიშვნელობა, რომელიც უდრის ნულს, ხოლო სტანდარტული გადახრა უდრის ერთს. ასევე, პირველი ხელმძღვანელი კომპონენტი არის გარე დინამიკის ცვლილებების მთელი კომბინაცია, რომელიც აფიქსირებს მაქსიმალურ განსხვავებას მონაცემთა ნაკრებში. Vіn vyznaє პირდაპირ მონაცემთა ყველაზე დიდი დუნეა. რაც უფრო წვრილმანი ფიქსირდება პირველ კომპონენტში, მით მეტ ინფორმაციას წაართმევს ის. Zhoden іnshiy ვერ დედა minlivіst ზე მეტი პირველი ძირითადი.

მიიტანეთ პირველი ძირითადი კომპონენტი მწკრივში, რომელიც ყველაზე ახლოს არის მონაცემებთან და მიიყვანეთ კვადრატის მინიმალურ ჯამამდე მონაცემთა წერტილსა და ხაზს შორის. სხვა სათავე კომპონენტი (Z2) ასევე არის გარეგანი პროგნოზირების წრფივი კომბინაცია, რადგან ის აფიქსირებს დისპერსიას, რომელიც აკლია მონაცემთა ნაკრებში და Z1 არაკორელაციაშია. სხვა სიტყვებით რომ ვთქვათ, პირველსა და სხვა კომპონენტებს შორის კორელაცია შეიძლება ნულს მიაღწიოს. Vіn შეიძლება წარმოდგენილი იყოს როგორც: Z2 = 12X1 + 22X2 + 32X3 + .... + p2Xp.

თითქოს ისინი არაკორელაციური იყვნენ, ისინი შეიძლება იყვნენ პირდაპირ ორთოგონალური.

გარდა ამისა, ძირითადი კომპონენტების გაანგარიშებით იწყება ყველა შერჩევის ტესტის მონაცემების პროგნოზირების პროცესი. ჩაიდანის ძირითადი კომპონენტის მეთოდი მარტივია.

მაგალითად, აუცილებელია ვიმუშაოთ სატესტო კომპლექტში გადაქცევაზე, მათ შორის ცენტრის ფუნქცია და სკალირება ფილმში R (ver.3.4.2) და იოგას ბიბლიოთეკა rvest. R - უფასო ენის პროგრამირება სტატისტიკური გამოთვლებისა და გრაფიკისთვის. Vіn buv 1992 წლის რეკონსტრუქცია კლდეზე, კორისტუვაჩების მიერ სტატისტიკური ამოცანების შესასრულებლად. მოდელირების მთელი პროცესი PCA-ს შემდეგ.

პითონში PCA-ს დასანერგად, მონაცემების იმპორტი sklearn ბიბლიოთეკიდან. ინტერპრეტაცია იგივე რჩება, როგორც R. მხოლოდ რამდენიმე მონაცემი, რომელიც წარმოდგენილია Python-ისთვის არის გასუფთავებული ვერსია, რომელშიც მნიშვნელობები იდება იმავე დღეს, ხოლო კატეგორიული ცვლილებები გარდაიქმნება რიცხვებად. მოდელირების პროცესი იგივე დარჩა, როგორც აღწერილია ქერქის R-ის მაგალითში.

ძირითადი კომპონენტის მეთოდის იდეა სასარგებლოა ახლო ვირაზისთვის ფაქტორული ანალიზის განვითარებისთვის. იმის ნაცვლად, რომ შევაჯამოთ 1-დან p-მდე, ახლა შევაჯამოთ 1-დან m-მდე, ჯამში დარჩენილი p-m ტერმინების იგნორირება, მესამე ვირაზის წართმევა. შესაძლებელია tse-ს გადაწერა, როგორც ეს ნაჩვენებია ლექსში, რომელიც არჩეულია ფაქტორული უპირატესობის მატრიცის აღსანიშნავად L, რომელიც იძლევა მატრიცის აღნიშვნის ნარჩენ გამოხატულებას. როგორც წესი, სტანდარტიზებული ვიმიროვანი გამართლებულია, რომელიც იცვლება კორელაციური შერჩევის მატრიცით R.

Tse ქმნიან ფაქტორულ ანალიზში გაბატონებულ L ფაქტორის მატრიცას, რომელსაც თან ახლავს ტრანსპონირებული L. სპეციფიკური დისპერსიების შესაფასებლად, ფაქტორული მოდელი ვარიანს-კოვარიანსის მატრიცისთვის.

ახლა ჩვენ გვაქვს უკეთესი მატრიცის ვარიანსი-კოვარიანსი მინუს LL".

  • Xi არის მცველების ვექტორი i-ე საგნისთვის.
  • S წარმოადგენს ჩვენს ვიბრაციულ დისპერსიას-კოვარიანსის მატრიცას.

იგივე p სიმძლავრის მნიშვნელობები კოვარიანტული ვარიაციის qi მატრიცისთვის, ისევე როგორც იგივე სიმძლავრის ვექტორები qi მატრიცისთვის.

სწორი მნიშვნელობები S:λ^1, λ^2, ..., λ^p.

სიმძლავრის ვექტორები S: e^1, e^2, ..., e^n.

PCA ანალიზი არის მრავალვარიანტული ანალიზის ყველაზე რთული და პოპულარული მეთოდი, რომელიც საშუალებას გაძლევთ დაამატოთ მდიდარი მონაცემთა ნაკრები დიდი რაოდენობის ცვლილებებიდან. ამ მეთოდის უკან, ხელმძღვანელი კომპონენტების მეთოდი ფართოდ გამოიყენება ბიოინფორმატიკაში, მარკეტინგში, სოციოლოგიასა და სხვათა სიმდიდრეში. XLSTAT უზრუნველყოფს სრულ და მოქნილ ფუნქციას Excel-ში შუამავლის გარეშე მონაცემების ჩვენებისთვის და ავრცელებს რამდენიმე სტანდარტულ და გაფართოებულ ვარიანტს, რაც საშუალებას მოგცემთ ღრმად შეხედოთ მონაცემთა ანგარიშს Excel-ში.

შეგიძლიათ პროგრამა გაუშვათ ინფორმაციის დაუსრულებელ მონაცემთა მატრიცებზე, დაამატოთ დამატებითი ცვლილებები მცველში, გაფილტროთ ცვლილებები სხვადასხვა კრიტერიუმების მიხედვით ბარათების წაკითხვის ოპტიმიზაციისთვის. უფრო მეტიც, შეგიძლიათ შემობრუნდეთ. კორელაციური სვეტის შექმნა მარტივია, გრაფიკი არის მცველი, როგორც სტანდარტული Excel სქემები. საკმარისია მონაცემების გადაცემა შედეგების შესახებ, რათა მათ გაიმარჯვონ ანალიზში.

XLSTAT წარმოგიდგენთ მონაცემთა დამუშავების უამრავ მეთოდს, რომლებიც გამოყენებული იქნება შეყვანის მონაცემებზე ძირითადი კომპონენტის გაანგარიშებამდე:

  1. Pearson, კლასიკური PCA, რომელიც ავტომატურად ახდენს მონაცემების სტანდარტიზებას გაანგარიშებისთვის, რათა აღმოფხვრას ცვლილებების გადაჭარბებული ნაკადი შედეგში დიდი შთაგონების შედეგად.
  2. კოვარიანტობა, რომელიც მუშაობს არასტანდარტული გამგზავრებით.
  3. პოლიგორიული, რიგითი მონაცემებისთვის.

გამოიყენეთ მოცემული მონაცემების ანალიზი

თქვენ შეგიძლიათ შეხედოთ ძირითადი კომპონენტების მეთოდს სიმეტრიული კორელაციის კოვარიანტული მატრიცის გამოყენებით. Tse ნიშნავს, რომ მატრიცა შეიძლება იყოს რიცხვითი და სტანდარტიზებული მონაცემების დედა. დასაშვებია, є მონაცემთა აკრეფა არის 300 (n) × 50 (p). სადაც n არის გაფრთხილებების რაოდენობა, ხოლო p არის პროგნოზირების რაოდენობა.

Oskіlki є დიდი p = 50, p(p-1)/2 შესაძლებელია. ამ შემთხვევაში, ჩვეულებრივი მიდგომა იქნებოდა პრედიქტორის ქვემულტიპლიკატორის არჩევა p (გვ<< 50), который фиксирует количество информации. Затем следует составление графика наблюдения в полученном низкоразмерном пространстве. Не следует забывать, что каждое измерение является линейной комбинацией р-функций.

კონდახი მატრიცისთვის ორი ცვლილებისგან. სათავე კომპონენტების მეთოდის ამ აპლიკაციაში, მონაცემთა ნაკრები იქმნება ორი ცვლილებისგან (დიდი და დიაგონალური დოჟინა) Devis-ის ცალი მონაცემების შერჩევით.

კომპონენტები შეიძლება დახატოს განაწილების დიაგრამაზე ამ გზით.

ეს გრაფიკი ასახავს პირველი ან მთავარი კომპონენტის იდეას, რომელიც უზრუნველყოფს მონაცემთა ოპტიმალურ ბმულს - ასეთ გრაფიკზე დახატულია სხვა ხაზი, ის არ ქმნის ხაზში მონაცემთა წერტილების სავარაუდო მნიშვნელობების ერთობლიობას ნაკლებით. დისპერსია.

პირველი კომპონენტი ასევე შეიძლება დაემატოს რეგრესიას შეცვლილი წონით (RMA), რომელშიც ის გადადის, როგორც x-, ასე რომ და y-ცვლილებას შეიძლება ჰქონდეს შეწყალება ან არამნიშვნელოვნება, ან არ არის აშკარა განსხვავება თავი და ქარი.

სათავე კომპონენტების მეთოდი ეკონომეტრიაში არის ცვლილებების ანალიზი, როგორიცაა GNP, ინფლაცია, გაცვლითი კურსი და ა.შ. შემდეგ ჩვენ ვაფასებთ მათ აშკარა ხარკებს, თავთა რანგის და ჯამური დროის სერიებს. თუმცა, ეკონომეტრიული მოდელები შეიძლება შეიცვალოს მდიდარი პროგრამებისთვის, მაგრამ არა მაკროეკონომიკური პროგრამებისთვის. ამრიგად, ეკონომეტრია ნიშნავს ეკონომიკურ სამყაროს.

სტატისტიკური მეთოდების შემუშავება საუკეთესო ეკონომეტრიულ მონაცემებამდე აჩვენებს ეკონომიკურ ცვლილებებს შორის ურთიერთკავშირს. ეკონომეტრიული მოდელის მარტივი მაგალითი. მოსალოდნელია, რომ ადამიანების უმრავლესობა გამოჯანმრთელდება ხაზოვანი გზით, რაც დამოკიდებულია წინა თვეში გადარჩენილთა შემოსავალზე. იგივე მოდელი არის დასაკეცი

ეკონომეტრიის ამოცანაა შეაფასოს a და b პარამეტრების შეფასებები. სავარაუდო პარამეტრების რაოდენობა, რადგან ისინი გამარჯვებულები არიან თანაბარ მოდელში, იძლევა სიცოცხლის მომავალი ღირებულების პროგნოზირების საშუალებას, რადგან ის მდგომარეობს წინა თვის შემოსავალში. ამ ტიპის მოდელების შემუშავების საათში აუცილებელია რამდენიმე მომენტის დაზღვევა:

  • მოძრავი პროცესის ბუნება, რომელიც წარმოქმნის მონაცემებს;
  • rіven ვიცი ცე-ს შესახებ;
  • სისტემის გაფართოება;
  • ანალიზის ფორმა;
  • obriy პროგნოზი;
  • სისტემის მათემატიკური დასაკეცი.

ყველა მიზეზი მნიშვნელოვანია, მათში ნამსხვრევები ძელას შეწყალებას, როგორც მოდელები. გარდა ამისა, ამ პრობლემების გადასაჭრელად აუცილებელია პროგნოზირების მეთოდის შემუშავება. მისი მოყვანა შესაძლებელია ხაზოვან მოდელზე, მაგრამ მაინც მცირე არჩევანია. ეს ტიპი ერთ-ერთი ყველაზე მნიშვნელოვანია, რისთვისაც შეგიძლიათ შექმნათ პროგნოზირებადი ანალიზი.

არაპარამეტრული სტატისტიკა

არაპარამეტრული მონაცემების სათავე კომპონენტების მეთოდი უნდა იყოს უწინარეს ყოვლისა მსოფლიოს მეთოდებზე, რისთვისაც მონაცემები ფასდება ქვედა ხაზიდან. არაპარამეტრული სტატისტიკური მეთოდები ფართოდ გამოიყენება სხვადასხვა ტიპის კვლევებში. პრაქტიკაში, თუ ნორმალურობის დაშვება არ დაიძლია, პარამეტრულმა სტატისტიკურმა მეთოდებმა შეიძლება მიგვიყვანოს შედეგებამდე, რომლებიც შეიძლება დაინერგოს ომანში. ნავპაკი, არაპარამეტრული მეთოდები ერიდება ნაკლები სუვორის შემწეობას rozpodіl-ისთვის wimirami-სთვის.

სუნი საიმედოა, მიუხედავად rozpodіlіv მცველებისა, რომლებიც დევს მათ საძირკველში. ამ კვლევის საშუალებით, სხვადასხვა ტიპის ექსპერიმენტული დიზაინის ანალიზისთვის, იყოფა მრავალი სხვადასხვა ტიპის არაპარამეტრული ტესტი. ასეთი პროექტები მოიცავს დიზაინს ერთი არჩევანიდან, დიზაინს ორი ზოლიდან, დიზაინს შემთხვევითი ბლოკიდან. Ninі არაპარამეტრული bayesivsky pіdkhіd іz zastosuvannym მეთოდი osnovnymi komponentіv vykoristovuєtsya ამარტივებს ოვერჰედის სისტემების საიმედოობის ანალიზს.

მოაჯირის სისტემა არის ტიპიური ფართომასშტაბიანი დასაკეცი სისტემა, ორმხრივი ქვესისტემებით, თითქოს შეცვალოს რიცხვითი კომპონენტები. სისტემის სანდოობა აღებულია ტექნიკური სამსახურის მეორე ვიზიტის გათვალისწინებით, ხოლო აქტივების ეკონომიკური მართვა მოითხოვს საიმედოობის ზუსტ შეფასებას ყველაზე დაბალ დონეზე. Prote მონაცემები რეალური ї naіynostі ნაკლებია, ვიდრე თანაბარი კომპონენტები საჰაერო სისტემა, რომელიც ყოველთვის ხელმისაწვდომია პრაქტიკაში, მაგრამ დაახლოებით დასრულება. Rozpodil zhittєvih tsiklіv komponentіv vіd virobnikіv ხშირად hovaєєєєє sladnyuєєєєє sladnyuєєsya ფაქტობრივი vikoristannyam და სამუშაო შუა. ამ გზით, ანალიზის ვალიდურობის ანალიზი სასიცოცხლო მნიშვნელობის მეთოდოლოგიის შეფასების საათის ცხოვრების კომპონენტი გონებაში ყოფნის მონაცემები სიტყვის.

თანამედროვე მეცნიერებებში ძირითადი კომპონენტების მეთოდი გამარჯვებულია ორი ძირითადი ამოცანის მისაღწევად:

  • ანალიზი სოციოლოგიური კვლევების მონაცემებისთვის;
  • გააჩინოს მოდელები suspіlnyh yavisch.

მოდელების განაწილების ალგორითმები

ძირითადი კომპონენტების მეთოდის ალგორითმები იძლევა მეტ ინფორმაციას მოდელის სტრუქტურისა და მისი ინტერპრეტაციის შესახებ. სუნი მიუთითებს იმაზე, თუ როგორ იმარჯვებს PCA სხვადასხვა დისციპლინაში. ალგორითმი არაწრფივი განმეორებითი ნაწილობრივი უმცირესი კვადრატული NIPALS-ისთვის ბოლო კომპონენტის გამოთვლის მეთოდის გამოყენებით. გაანგარიშება შეიძლება იყოს მიმაგრებული ხაზის ბოლოს, თუ საკმარისად ზრუნავთ, რომ ეს საკმარისია. უფრო მეტი კომპიუტერული პაკეტი შეიძლება მოიგოს NIPALS ალგორითმი, მაგრამ არსებობს ორი მთავარი უპირატესობა:

  • Vіn opratsovuє vіdsutnі მონაცემები;
  • თანმიმდევრულად გამოთვალეთ კომპონენტები.

ალგორითმის მეტა ხედი:

  • დამატებითი ინფორმაციის მიწოდება მათ შესახებ, რაც გულისხმობს ამ შეფასების ხელშეწყობას;
  • გვიჩვენებს, თუ როგორ არ დევს კანის კომპონენტი სხვა კომპონენტებთან ორთოგონალურად;
  • აჩვენეთ, თუ როგორ შეუძლია ალგორითმს დამუშავება ხელმისაწვდომი მონაცემები.

ალგორითმი თანმიმდევრულად ხატავს კანის კომპონენტს, დაწყებული პირველიდან პირდაპირ უდიდესი დისპერსიით, შემდეგ კი მეორედან და ა.შ. NIPALS ითვლის ერთ კომპონენტს ერთდროულად. t1t1-ის პირველი ეკვივალენტის და ასევე p1p1 ვექტორების გაანგარიშებით, თუ იცოდით სიმძლავრის მნიშვნელობიდან ან სინგულარული მნიშვნელობების განაწილებიდან, შეგიძლიათ მონაცემები XX-ში დაამუშავოთ. Vіn ყოველთვის თანხვედრა, მაგრამ zbіzhnіst іnоdі mоzhe bіlnoy. ის ასევე ნაცნობია, როგორც სიმძლავრის ვექტორების და სიმძლავრის მნიშვნელობების გამოსათვლელი შებოჭილობის ალგორითმი და კარგად მუშაობს მონაცემთა დიდი ნაკრებისთვის. Google-მა გატეხა ალგორითმი ძალაზე დაფუძნებული თავსატეხი სისტემის ადრეული ვერსიებისთვის.

NIPALS-ის წაკითხვის ალგორითმი მოცემულია ქვემოთ.

შემდეგ T მატრიცის კოეფიციენტის შეფასებები გამოითვლება როგორც T=XW და ხშირად B კვადრატების რეგრესიის კოეფიციენტები Y-დან X-ზე გამოითვლება როგორც B = WQ. ნაწილობრივი უმცირესი კვადრატების რეგრესიის ნაწილების შეფასების ალტერნატიული მეთოდი შეიძლება აღწერილი იყოს შემდეგნაირად.

ხელმძღვანელი კომპონენტების მეთოდი არის ინსტრუმენტი მონაცემთა ნაკრებში დისპერსიის ძირითადი ღერძების აღსანიშნავად და საშუალებას გაძლევთ მარტივად თვალყური ადევნოთ მონაცემებში არსებულ ძირითად ცვლილებებს. ჩაყრის სწორი მეთოდი ერთ-ერთი ყველაზე მოწინავეა მონაცემთა ანალიზის ინსტრუმენტების კომპლექტში.

კომპონენტის ანალიზი განიხილება მოცულობის შემცირების სხვადასხვა მეთოდად. Vіn შურისძიების ერთი გზა - გზა ძირითადი კომპონენტები. სათავე კომპონენტები ორთოგონალურ კოორდინატულ სისტემაშია და კომპონენტების ვარიაცია ახასიათებს მათ სტატისტიკურ ძალას.

ვრახოვიუჩი, რომელიც ეკონომიკაში წარმატების ობიექტებს ახასიათებთ დიდი რაოდენობით ნიშნები, რომლებიც გავლენას ახდენენ ვიპადკოვური მიზეზების ამხელა რაოდენობაზე.

ძირითადი კომპონენტების გაანგარიშება

მეორადი სისტემის ნიშნის X1, X2, X3, X4, ..., Xn პირველ სათავე კომპონენტს Z1 ეწოდება ნიშნების ისეთ ცენტრალიზებულ-ნორმალიზებულ წრფივ კომბინაციას, რადგან ნიშნების შუაცენტრულ-ნორმალიზებულ ხაზოვან კომბინაციებს აქვთ უდიდესი დისპერსია.

როგორც სხვა ხელმძღვანელი კომპონენტი Z2, ჩვენ ავიღებთ ნიშნების ისეთ ცენტრალიზებულ - ნორმალიზებულ კომბინაციას, როგორიცაა:

არ არის დაკავშირებული პირველ თავის კომპონენტთან,

არ არის დაკავშირებული პირველ თავის კომპონენტთან, ამ კომბინაციას აქვს ყველაზე დიდი დისპერსია.

K-მეთაურ კომპონენტს Zk (k=1…m) ეწოდება ისეთ ცენტრალური - ნორმალიზებული კომბინაციის ნიშანი, როგორიცაა:

არ არის კორელირირებული -1-მდე წინა თავის კომპონენტებთან,

გარეგნული ნიშნების ყველაზე შესაძლო კომბინაციების შუა, თუ არა

არ შეესაბამება -1-მდე წინა თავების კომპონენტებს, ამ კომბინაციას აქვს უდიდესი დისპერსია.

მოდით შემოვიტანოთ ორთოგონალური მატრიცა U და გადავიდეთ X-დან Z შეცვლაზე

ვექტორი არჩეულია ისე, რომ დისპერსიული იყოს მაქსიმალური. თუ არჩეულია ფლობა, ისე, რომ დისპერსია მაქსიმალური იყოს გონებისთვის, რაც არ შეესაბამება ა.შ.

Oskіlki znaka vymiryanі neporіvnyannymi მნიშვნელობებში, მაშინ უმჯობესია გადავიდეთ ცენტრალიზებულ-ნორმალიზებულ მნიშვნელობებზე. გარე ცენტრიდან ნორმალიზებული მნიშვნელობების მატრიცა ცნობილია მითითებიდან:

მიუკერძოებლად, შესაძლებელია მათემატიკური შეფასების ეფექტური შეფასება,

უცვლელი, შესაძლებელია დისპერსიის ეფექტური შეფასება.

გარეგნული ნიშნების მნიშვნელობის გაფრთხილების მატრიცა დოდატკუმ მიუთითა.

ცენტრირება და სტანდარტიზაცია ხდება „სტადიას“ პროგრამის დახმარებით.

თუ არსებობს ცენტრირებისა და ნორმალიზაციის ნიშნები, მაშინ კორელაციის მატრიცის შეფასება შეიძლება განვითარდეს ფორმულის გამოყენებით:


მანამდე, როდესაც ჩავატარებთ კომპონენტის ანალიზს, გავაანალიზებთ გარეგანი ნიშნების დამოუკიდებლობას.

მამრობითი კორელაციების მატრიცის მნიშვნელოვნების ხელახალი გადამოწმება ვილქსის დამატებითი კრიტერიუმისთვის.

ჩვენ ვაკეთებთ ჰიპოთეზას:

H0: უმნიშვნელო

H1: აზრიანი

125,7; (0,05;3,3) = 7,8

ვინაიდან > , მაშინ განიხილება ჰიპოთეზა H0 და მატრიცა მნიშვნელოვანია, შესაბამისად შესაძლებელია კომპონენტის ანალიზის ჩატარება.

კოვარიანტული მატრიცის დიაგონალობის შესახებ ჰიპოთეზის შებრუნება

ჩვენ ვაკეთებთ ჰიპოთეზას:

Budєmo სტატისტიკა, rozpodіlenu კანონისთვის თავისუფლების საფეხურებიდან.

123,21, (0,05;10) =18,307

ვინაიდან >, მაშინ განიხილება ჰიპოთეზა H0 და შესაძლებელია კომპონენტური ანალიზის ჩატარება.

მატრიცის ფაქტორიზაციის გამოწვევის მიზნით, აუცილებელია მატრიცის შესაბამისი რიცხვების მინიჭება, სწორების დარღვევით.

ოპერაციისთვის აუცილებელია MathCAD სისტემის eigenvals ფუნქციის გამოყენება, რადგან ის ატრიალებს მატრიცის რიცხვებს სიმძლავრის გამოყენებით:

რადგან ჩვენ წავიღეთ არა რიცხვის ძალა და მატრიცის ვექტორის სიმძლავრე, არამედ შეფასება. ჩვენთან tsіkavitime naskіlki "კარგი" zі statisticheskij წერტილი zor vibrkovі მახასიათებლები აღწერს vіdpovіdnі პარამეტრებს ზოგადი ї sukupnostі.

ნდობის ინტერვალი მე-ე სიმძლავრის ნომრისთვის მიჰყვება ამ ფორმულას:

შედეგში მათი რიცხვის დამატებითი ინტერვალები ასე გამოიყურება:

საუკეთესო რიცხვების რიცხვის მნიშვნელობის შეფასება აღებულია უმცირესი რიცხვების ნდობის ინტერვალიდან. აუცილებელია შეცვალოს ჰიპოთეზა სიმძლავრის რიცხვების სიმრავლის შესახებ.

სიმრავლის ხელახლა შემოწმება საჭიროა დამატებითი სტატისტიკისთვის

de r-რამდენიმე ფესვების რაოდენობა.

ციას სტატისტიკა მართლმსაჯულების დროს კანონის მიხედვით იყოფა თავისუფლების საფეხურების რაოდენობაზე. Visunemo ჰიპოთეზა:

Oskіlki ჰიპოთეზა vydkidaetsya, ამიტომ რიცხვის ძალა და არა მრავალჯერადი.

Oskіlki ჰიპოთეზა vydkidaetsya, ამიტომ რიცხვის ძალა და არა მრავალჯერადი.

აუცილებელია ძირითადი კომპონენტების ნახვა მხოლოდ 0,85 ინფორმატიულობის დონეზე. ინფორმაციის სამყარო გვიჩვენებს გარე ნიშნების დისპერსიის გარკვეულ ნაწილს ან გარკვეულ ნაწილს, რათა შეიქმნას k-პირველი ხელმძღვანელი კომპონენტები. ინფორმაციის სამყაროსთვის ჩვენ ვასახელებთ მნიშვნელობას:

ინფორმაციის მოცემულ დონეზე ჩანდა სამი ძირითადი კომპონენტი.

დავწეროთ მატრიცა =

ნორმალიზებული ვექტორის მოსაშორებლად გარეგანი ნიშნებიდან ძირითად კომპონენტებზე გადასვლამდე, აუცილებელია გათანაბრების სისტემის შეცვლა: სისტემის ამოხსნის კორექტირების შემდეგ საჭიროა კორექტირების ვექტორის ნორმალიზება.

ამ ამოცანის განსახორციელებლად, ჩვენ ვიყენებთ MathCAD სისტემის eigenvec ფუნქციას ცვლადი სიმძლავრის ნომრის ნორმალიზაციის ვექტორის დასაჩქარებლად.

ჩვენი აზრით, პირველი ოთხი ხელმძღვანელი კომპონენტი საკმარისია ინფორმაციის მოცემული დონის მისაღწევად, ამიტომ მატრიცა U

ჩვენ ვიქნებით U მატრიცა, რომლის სვეტები სიმძლავრის ვექტორებია:

თქვენი კოეფიციენტების მატრიცა:

მატრიცის კოეფიციენტები є კორელაციის კოეფიციენტები ცენტრალიზებულ - ნორმალიზებულ ვიზუალურ ნიშნებსა და არანორმალიზებულ თავის კომპონენტებს შორის და აჩვენებს აშკარად, სიძლიერეს და პირდაპირ ხაზოვან კავშირს ვიზუალურ ნიშნებსა და თავის მთავარ კომპონენტებს შორის.

ძირითადი კომპონენტის მეთოდი

ძირითადი კომპონენტის მეთოდი(ინგლ. ძირითადი კომპონენტის ანალიზი, PCA ) არის მონაცემთა მრავალფეროვნების შეცვლის ერთ-ერთი მთავარი გზა ინფორმაციის მინიმალური რაოდენობის გამოყენებით. ვინაიდენი კ.პირსონი კარლ პირსონი ) რ. Zastosovuetsya მდიდარ სფეროებში, როგორიცაა სურათების ამოცნობა, კომპიუტერული ზირი, მონაცემთა გროვა და ა.შ. ძირითადი კომპონენტების გაანგარიშება მცირდება სიმძლავრის ვექტორების გაანგარიშებამდე და მონაცემთა კოვარიანტული მატრიცის სიმძლავრის მნიშვნელობებამდე. ძირითადი კომპონენტების სხვა მეთოდს ე.წ კარჰუნენ-ლოევის გარდაქმნებს(ინგლ. კარჰუნენ-ლოევი) ან სასტუმროს ტრანსფორმაცია (ინგლ. სასტუმროს ტრანსფორმაცია). მონაცემთა მრავალფეროვნების შეცვლის სხვა გზებია დამოუკიდებელი კომპონენტების მეთოდი, მდიდარი სკალირება, აგრეთვე რიცხვითი არაწრფივი აგრეგაცია: სათავეების მრუდების და ვარიაციის მეთოდი, საგაზაფხულო რუქების მეთოდი, საუკეთესო პროექციის მეთოდი (ინგლ. პროექციის დევნა), ნეირომრეჟევის მეთოდი "ხმის ყელის", რომ іn.

პრობლემის ფორმალური განცხადება

ძირითადი კომპონენტების ანალიზის ამოცანა, სულ მცირე, მინიმუმ რამდენიმე ძირითადი ვერსია:

  • მონაცემების მიახლოება მცირე განზომილების წრფივი განსხვავებებით;
  • ვიცოდეთ უფრო მცირე ზომის ქვესივრცე, ორთოგონალურ პროექციაში yak_rozkid danih-ზე (ისე, რომ შუა კვადრატის გადახრა საშუალო მნიშვნელობიდან) მაქსიმალური იყოს;
  • შეძლებისდაგვარად იცოდეს უფრო მცირე ზომის ქვესივრცე, ორთოგონალურ პროექციაში იაკზე საშუალო კვადრატულ მანძილს წერტილებს შორის;
  • მოცემული მდიდარი ცვლადის ცვლადის მნიშვნელობისთვის, გამოიწვიეთ კოორდინატების ისეთი ორთოგონალური ტრანსფორმაცია, რომელიც სხვა კოორდინატებს შორის კორელაციის შედეგად გარდაიქმნება ნულამდე.

პირველი სამი ვერსია მუშაობს მონაცემების საბოლოო ქულით. სუნი ეკვივალენტურია და არ შეესაბამება რაიმე ჰიპოთეზას მონაცემების სტატისტიკური გენერირების შესახებ. მეოთხე ვერსია ეფუძნება ვერტიკალურ მნიშვნელობებს. Kіntsevі mulіnіy yavlyayutsya yavlyayutsya აქ, როგორიცაა vybіrki z მოცემული rozpodіlu, და virіshennya სამი პირველი zavdan - როგორც ახლოს "ჭეშმარიტი" რეინკარნაცია Karhunen-Loev. ჩვენ ვაბრალებთ დანამატს და მიდგომის სიზუსტის მთელ ტრივიალურ მიწოდებას.

მონაცემთა დაახლოება წრფივი სხვაობებით

ილუსტრაცია კ.პირსონის ცნობილი ნაწარმოების (1901): მოცემული წერტილები სიბრტყეზე, - გადადით პირდაპირ სწორ ხაზზე. Shukaetsya სწორი, scho მინიმუმამდე თანხა

სათავე კომპონენტების მეთოდი წარმოიშვა სწორი ხაზებითა და სიბრტყით წერტილების ტერმინალური მულტიპლიკატორის საუკეთესო მიახლოების ამოცანიდან (K. Pirson, 1901). დანა კინცევა ანონიმური ვექტორები. კანის გარემოსთვის უნდა ვიცოდეთ, რომ ჯანმრთელობის კვადრატების ჯამი მინიმალურია:

,

დე - ევკლიდური წერტილიდან წრფივ განსხვავებამდე. Be-yak - მშვიდობიანად წრფივი raznomanittya შეიძლება მიცემული იყოს ანონიმური წრფივი კომბინაციების სახით, დე პარამეტრები გადის მეტყველების ხაზში და - ვექტორების ორთონორმალური აკრეფა.

,

დე ევკლიდური ნორმა, - ევკლიდური სკალარული ტრიალი, ან კოორდინატული ფორმით:

.

მიახლოების ამოცანის შემუშავება მოცემულია წრფივი სხვაობების შეყვანის სიმრავლით, . წრფივი განსხვავებების რაოდენობა განისაზღვრება ვექტორების ორთონორმალური სიმრავლით (მთავარი კომპონენტების ვექტორები) და ვექტორებით. ვექტორი ჰგავს მინიმიზაციის პრობლემის გადაწყვეტას:

.

ძირითადი კომპონენტების ვექტორები შეიძლება მოიძებნოს, როგორც ოპტიმიზაციის მსგავსი პრობლემების გადაწყვეტა:

1) ცენტრალიზებული მონაცემები (ხილული საშუალო): . ახლა; 2) ჩვენ ვიცით პირველი ხელმძღვანელი კომპონენტი, როგორც ამოცანა; . თუ არ არის ერთი გამოსავალი, მაშინ ჩვენ ვირჩევთ ერთ-ერთ მათგანს. 3) ჩვენ ვხედავთ პირველი ხელმძღვანელი კომპონენტის ამ პროექციას: ; 4) სხვა სათავე კომპონენტმა იცის როგორ გადაჭრას პრობლემა. თუ არ არის ერთი გამოსავალი, მაშინ ჩვენ ვირჩევთ ერთ-ერთ მათგანს. … 2k-1) ჩვენ შეგვიძლია დავინახოთ პროექცია მე-თავის კომპონენტზე (გამოიცანით, რომ წინა ძირითადი კომპონენტების პროგნოზები უკვე ჩანს): ; 2კ) k-th ხელმძღვანელი კომპონენტი ცნობილია, როგორც პრობლემის გადაწყვეტა: . თუ არ არის ერთი გამოსავალი, მაშინ ჩვენ ვირჩევთ ერთ-ერთ მათგანს. …

კანის სტადიაზე ჩვენ ვხედავთ პროექციას წინა თავის კომპონენტზე. ორთონორმალიზაციის ვექტორები ნაპოვნია უბრალოდ აღწერილი ოპტიმიზაციის პრობლემის შემუშავების შედეგად, იმისათვის, რომ არ აპატიოთ გამოთვლა და არ გაანადგუროთ ვექტორის ორთოგონალურობა სათავე კომპონენტებში, შეგიძლიათ ჩართოთ ოპტიმიზაციის ამოცანა.

ტრივიალური სვავილის მინიჭებული კრიმინალის არაადეკვატურობა ნიშნის არჩევისას (და იგივე ამოცანის შესრულებაში) შეიძლება უფრო ზუსტი და განხილული იყოს, მაგალითად, მონაცემთა სიმეტრიის გონებიდან. დანარჩენი ხელმძღვანელი კომპონენტი არის ერთი ვექტორი ორთოგონალური წინა.

მოძებნეთ ორთოგონალური პროგნოზები ყველაზე დიდი განსხვავებებით

პირველი ხელმძღვანელი კომპონენტი მაქსიმალურად ზრდის მონაცემთა პროექციის ვიბრაციულ დისპერსიას

მოგვცეს მონაცემთა ვექტორების სიმრავლის ცენტრირება (მნიშვნელობის საშუალო არითმეტიკული ტოლია ნულის ტოლია). ამოცანა - ვიცოდეთ ისეთი ორთოგონალური ტრანსფორმაცია ახალ კოორდინატულ სისტემაში, რომელიც სწორი იქნება ასეთი პირობებით:

სინგულარული განლაგების თეორია შეიქმნა J.J. Sylvester-ის მიერ (ინგლ. ჯეიმს ჯოზეფ სილვესტერი ) მ.

მარტივი განმეორებითი სინგულარული დაშლის ალგორითმი

მთავარი პროცედურა არის საკმარისად დიდი მატრიცის საუკეთესო მიახლოების ძიება მატრიცის სახით (დე-მსოფლიო ვექტორი, a - მსოფლიო ვექტორი) უმცირესი კვადრატების მეთოდით:

პრობლემის გადაწყვეტა მოცემულია თანმიმდევრული გამეორებებით მკაფიო ფორმულების შემდეგ. ფიქსირებული ვექტორით, მნიშვნელობები, რომლებიც აწვდიან მინიმალურ ფორმას, ცალსახად და ცალსახად ენიჭება თანასწორობებს:

ანალოგიურად, ფიქსირებული ვექტორით, ენიჭება შემდეგი მნიშვნელობები:

ვექტორის მიახლოებით ვიღებთ ერთი მნიშვნელობის ცვლად ვექტორს, გამოსათვლელ ვექტორს, რომელი ვექტორის გამოსათვლელ ვექტორს და ა.შ. მნიშვნელობა იცვლება. როგორც რყევების კრიტერიუმი, არის სამი განსხვავებული ცვლილება მინიმალირებული ფუნქციის მნიშვნელობაში მოკლე გამეორებისთვის () ან სამი ყველაზე მნიშვნელოვანი.

მატრიცის შედეგი გამოკლდა მატრიცის ტიპის უახლოეს მიახლოებას (აქ, მნიშვნელობების ზედა ინდექსი არის მიახლოების რაოდენობა). გარდა ამისა, მატრიციდან მე ვხედავ მატრიცას, ხოლო ამოღებული მატრიცისთვის, ხრიკი კვლავ ეძებს იმავე სახის საუკეთესო მიახლოებას და ა.შ., სანამ, მაგალითად, ნორმა საკმარისად მცირე გახდება. ომის დროს ჩვენ წავშალეთ მატრიცის განლაგების განმეორებითი პროცედურა, როგორც 1 რანგის მატრიცების ჯამი, tobto. შედეგად, აღმოიფხვრა სინგულარული რიცხვების და სინგულარული ვექტორების (მარჯვნივ - და მარცხნივ - ) მიახლოება.

სანამ ალგორითმი მას გადალახავს, ​​მისი სიმარტივე და უნარი გადაიტანოს იგი ცვალებად მონაცემებზე, ასევე მნიშვნელოვან მონაცემებზე.

დააწესეთ ძირითადი ალგორითმის სხვადასხვა მოდიფიკაცია სიზუსტისა და სტაბილურობის გასაუმჯობესებლად. მაგალითად, სათავე კომპონენტების ვექტორები სხვადასხვა ხარვეზების შემთხვევაში ორთოგონალურია „ჩვეულებების მიხედვით“, პროტეტი გამეორებების დიდი რაოდენობით (დიდი მრავალფეროვნება, მდიდარი კომპონენტი)

ტენსორების სინგულარული განლაგება და თავის კომპონენტების ტენსორული მეთოდი

ხშირად, მონაცემთა ვექტორმა შეიძლება დაემატოს მართკუთხა ცხრილის სტრუქტურას (მაგალითად, გამოსახულების სიბრტყე) მდიდარი ცხრილის შესაქმნელად - tobto tensor : , . ასევე ეფექტურია ამ ადამიანისთვის ცალკეული განლაგება. დანიშნულებით, ალგორითმების ძირითადი ფორმულები შეიძლება გადავიდეს პრაქტიკულად ცვლილებების გარეშე: მონაცემთა მატრიცის ჩანაცვლება შეიძლება იყოს ინდექსის მნიშვნელობა, პირველი ინდექსი არის მონაცემების წერტილის (ტენზორის) რაოდენობა.

მთავარი პროცედურა არის ტენზორის საუკეთესო მიახლოების ძიება ფორმის ტენზორით (დე - მშვიდობის ვექტორი ( - მონაცემთა რაოდენობა), - ზომის ვექტორი at ) უმცირესი კვადრატების მეთოდით:

პრობლემის გადაწყვეტა მოცემულია თანმიმდევრული გამეორებებით მკაფიო ფორმულების შემდეგ. ფაქტობრივად, ერთი ჟოლოსფერის ყველა ვექტორი-გამრავლება არის დაყენებული და ის, რაც გამოტოვებულია, ნათლად არის წარმოდგენილი მინიმუმ საკმარისი გონებით.

ვექტორის სიახლოვის დასაწყისში () აიღეთ საპირისპირო ვექტორი და ერთი მნიშვნელობა, გამოთვალეთ ვექტორი, მიეცით ამ ვექტორს და ამ ვექტორებს გამოთვლის ვექტორში და ა.შ. (ციკლურად დახარისხება ინდექსის მიხედვით) ალგორითმი, შესაძლოა, თანხვედრა. როგორც რყევების კრიტერიუმი, არის სამი მნიშვნელოვანი ცვლილება ციკლისთვის მინიმუმამდე დაყვანილი ფუნქციის მნიშვნელობაში, ან სამი ყველაზე მნიშვნელოვანი. უფრო შორს, ტენსორიდან ჩანს სიახლოვე და ჭარბი ისევ შუკაემო საუკეთესო სიახლოვე იმავე სახის. bud., poke, მაგალითად, ჩერგოვოგოს ჭარბი ნორმა იქნება მცირე.

ეს მდიდარი კომპონენტის სინგულარული განლაგება (თავის კომპონენტების ტენსორული მეთოდი) წარმატებით გამოიყენება სურათების, ვიდეო სიგნალების და, უფრო ფართო, მეტ-ნაკლებად მონაცემების დამუშავებისას, რათა ჩამოყალიბდეს ცხრილის ან ტენსორის სტრუქტურა.

მატრიცის ტრანსფორმაცია ძირითად კომპონენტებზე

მონაცემთა ძირითად კომპონენტებად გადაქცევის მატრიცა შედგება ძირითადი კომპონენტების ვექტორებისგან, დალაგებულია მათი მნიშვნელობების შეცვლის მიხედვით:

(იგულისხმება ტრანსპოზიცია),

ტობტო, მატრიცა ორთოგონალურია.

ამ მონაცემების ვარიაციების უმეტესობა აღინიშნება პირველ კოორდინატებში, რაც საშუალებას გაძლევთ გადახვიდეთ ნაკლები სივრცის სივრცეში.

ზალიშკოვის დისპერსია

მიეცით ცენტრის მონაცემები, . პირველ სათავე კომპონენტზე მთავარ პროექციაზე მონაცემთა ვექტორების ჩანაცვლებისას, აღდგომის შეწყალების საშუალო კვადრატი შეიყვანება ერთ მონაცემთა ვექტორზე:

სადაც ემპირიული კოვარიანტული მატრიცის მნიშვნელობები დალაგებულია ცვლილების თანმიმდევრობით, სიმრავლის კორექტირებით.

Tsya ღირებულება ეწოდება ჭარბი დისპერსია. ღირებულება

დაურეკა განმარტა დისპერსია. Їhnya sum dorivnyuє vibrkovіy განსხვავება. Vіdpovіdny მოედანი vіdnoї შეწყალება - tsі vіdnennia ჭარბი დისპერსია vibrіkovo დისპერსიამდე (tobto აუხსნელი დისპერსიის ნაწილი):

გამორჩეული შეწყალების მიზნით, შეფასებულია ძირითადი კომპონენტების მეთოდის შეფასება პირველ კომპონენტებზე დიზაინით.

პატივისცემა: ნუმერაციის ალგორითმების უმეტესობაში, სიმძლავრის რიცხვები ყველაზე მძლავრი სიმძლავრის ვექტორებით - სათავე კომპონენტები ითვლიება თანმიმდევრობით "დიდიიდან უმცირესამდე". გამოსათვლელად საკმარისია გამოვთვალოთ პირველი რიცხვები და შემდეგი ემპირიული კოვარიანტული მატრიცა (დიაგონალური ელემენტების ჯამი, ანუ ღერძების გასწვრივ განსხვავებები). თოდი

ძირითადი კომპონენტების შერჩევა კაიზერის წესით

Tsіlovy pіdhіd სანამ შეაფასებს ხელმძღვანელი კომპონენტების რაოდენობას საჭირო ხშირი ახსნილი დისპერსიისთვის, ფორმალურად zastosovuє zavzhd, პროტე ირიბად გადაცემა, scho podіl "სიგნალზე" და "ხმაურზე" და არის თუ არა სენსორის სიზუსტე წინასწარ განსაზღვრული. სწორედ ამიტომ არის ხშირად პროდუქტიული სხვა ევრისტიკა, რომელიც ემყარება ჰიპოთეზას „სიგნალის“ (ერთგვაროვნად მცირე მოცულობის, აშკარად დიდი ამპლიტუდის) და „ხმაურის“ (დიდი მოცულობა, აშკარად მცირე ამპლიტუდის) არსებობის შესახებ. ერთი შეხედვით, ძირითადი კომპონენტების მეთოდი მუშაობს როგორც ფილტრი: სიგნალი ამოღებულია, რაც მთავარია, პირველი ძირითადი კომპონენტების პროექციაში, ხოლო ხმაურის პროპორცია უფრო მდიდარია სხვა კომპონენტებში.

კვება: როგორ შევაფასოთ აუცილებელი ძირითადი კომპონენტების რაოდენობა, თითქოს წინასწარ არ არის ცნობილი სიგნალი/ხმაურის თანაფარდობა?

მოცემულია თავის კომპონენტების შერჩევის უმარტივესი და უძველესი მეთოდი კაიზერის წესი(ინგლ. კაიზერის წესი): მნიშვნელოვანი ძირითადი კომპონენტები, რომლებიც

შეცვალოს საშუალო მნიშვნელობა (მონაცემთა ვექტორის კოორდინატების საშუალო ვიბრაციული დისპერსია). კაიზერის წესი კარგად არის გამოყენებული უმარტივეს შემთხვევებში, თუ რამდენიმე ძირითადი კომპონენტია, საშუალო მნიშვნელობა უხვად გადატრიალდება და სხვა სიმძლავრის რიცხვები ახალზე მცირეა. დასაკეცი სიტუაციებში მას შეუძლია კიდევ უფრო მნიშვნელოვანი ძირითადი კომპონენტების მიცემა. ღერძების გასწვრივ ერთი ვიბრაციული დისპერსიის ნორმალიზების გათვალისწინებით, კაიზერის წესი განსაკუთრებით მარტივია გარეგნულად: მნიშვნელოვანი ძირითადი კომპონენტები, რომლებიც

ძირითადი კომპონენტების რაოდენობის შეფასება ბოროტი ლერწმის წესის მიხედვით

მაგალითი: ძირითადი კომპონენტების რაოდენობის შეფასება გატეხილი ლერწმის წესით 5 ზომით.

ერთ-ერთი ყველაზე პოპულარული ევრისტიკული მიდგომაა საჭირო თავის კომპონენტების რაოდენობის შესაფასებლად ბოროტი ლერწმის მმართველობა(ინგლ. გატეხილი ჯოხის მოდელი). ნორმალიზაციების ნაკრები ყველა რიცხვის ერთი ჯამისთვის (, ) უდრის ერთი დოჟინის ლერწმის ulamkіv დოჟინების განაწილებას, გატეხილი წერტილი იშლება (შესვენების წერტილები ირჩევა დამოუკიდებლად და თანაბრად იყოფა. ლერწმის მტრედით). მოდი () - Dovzhini otrimanih shmatkіv ლერწამი, დანომრილი დოჟინის შეცვლის თანმიმდევრობით:. არ აქვს მნიშვნელობა მათემატიკური დახვეწის ცოდნას:

ბოროტი ლერწმის წესის მიხედვით, მე-თე სიმძლავრის ვექტორი (ძაფების რიცხვების ცვლილების თანმიმდევრობით) აღებულია თავთავის კომპონენტების სიიდან, რაც ნიშნავს

ბრინჯი. 5-ჯერადი ვიპადის კონდახი იყო მიმართული:

=(1+1/2+1/3+1/4+1/5)/5; =(1/2+1/3+1/4+1/5)/5; =(1/3+1/4+1/5)/5; =(1/4+1/5)/5; =(1/5)/5.

შერჩეული კონდახისთვის

=0.5; =0.3; =0.1; =0.06; =0.04.

ბოროტი ლერწმის წესის თანახმად, ამ კონდახში არის 2 ჭუჭყიანი კომპონენტი:

კორისტუვაჩების შეფასებით, ბოროტი ლერწმის წესმა შესაძლოა მნიშვნელოვანი ძირითადი კომპონენტების რაოდენობა შეაფასოს.

რაციონირება

რაციონირება ძირითად კომპონენტებზე შემცირების შემდეგ

შემდეგდაპროექტება პირველ ძირითად კომპონენტებზე და ხელით ნორმალიზება ერთ (შერჩევით) დისპერსიამდე ღერძების გასწვრივ. ჰაერისა და სათავე კომპონენტის დისპერსია უფრო ძვირია), ამიტომ ნორმალიზებისთვის საჭიროა შესაბამისი კოორდინატის გაყოფა . ეს ტრანსფორმაცია არ არის ორთოგონალური და არ იღებს სკალარული ქმნილებას. მონაცემთა პროექციის კოვარიანტული მატრიცა ხდება ერთჯერადი ნორმალიზების შემდეგ, პროგნოზები იმის შესახებ, ხდება თუ არა ორი ორთოგონალური ხაზი დამოუკიდებელ სიდიდეებად, და ხდება თუ არა ორთონორმალური საფუძველი ძირითადი კომპონენტების საფუძველი (გამოცნობა, რომ ნორმალიზაცია ცვლის ორთოგონალურობას. ვექტორი). Vіdobrazhennya გამომავალი მონაცემების ფართობიდან პირველ თავის კომპონენტებზე და ამავე დროს ნორმალიზებასთან ერთად მოცემულია მატრიცით.

.

თავად ტრანსფორმაციას ყველაზე ხშირად კარჰუნენ-ლოევის ტრანსფორმაციას უწოდებენ. აქ არის ვექტორები, ხოლო ზედა ინდექსი ნიშნავს ტრანსპოზიციას.

რაციონირება ძირითადი კომპონენტების გაანგარიშებამდე

Წინსვლა: არ არის მცდარი ნორმალიზაციის კვალი, როგორც უნდა განხორციელდეს ძირითად კომპონენტებზე გადაყვანის შემდეგ, ნორმალიზებით და „ნერვულობით“ როდესაც მონაცემთა გადანაწილება, რომელიც ხორციელდება ძირითადი კომპონენტების გაანგარიშებამდე. წინა ნორმალიზება აუცილებელია მეტრიკის მომრგვალებული არჩევანისთვის, რომელშიც შეიძლება გამოითვალოს მონაცემთა საუკეთესო მიახლოება, ან უნდა გამოითვალოს უდიდესი განაწილების ყველაზე სწორი ხაზი (რომელიც ექვივალენტურია). მაგალითად, თუ მოცემულია სამგანზომილებიანი ვექტორებით "მეტრი, ლიტრი და კილოგრამი", მაშინ თუ სტანდარტული ევკლიდური სხვაობა არის 1 მეტრი პირველი კოორდინატის გასწვრივ, იგივე წვლილი იმუშავებს, როგორც სხვაობა 1 ლიტრიდან მეორეზე, ან მესამეზე 1 კგ. უწოდეთ 1-ის სისტემებს, რომლებისთვისაც წარმოდგენილია ვიზუალური მონაცემები, არასაკმარისად ზუსტად ასახავს ჩვენს განცხადებებს ბუნებრივი მასშტაბების შესახებ ღერძების გასწვრივ და განახორციელეთ „განიარაღება“: კანის კოორდინატი იყოფა სკალაზე, რომელიც მითითებულია, როგორც მონაცემები, რიცხვები. მათი დამუშავება და პროცესები vimiryuvannya და მონაცემთა შეგროვება.

ასეთი სტანდარტიზაციის სამი განსხვავებული სტანდარტული მიდგომა არსებობს: ერთჯერადი ვარიაციაღერძების გასწვრივ (სკალა ღერძების გასწვრივ უდრის საშუალო კვადრატულ გაუმჯობესებას - კოვარიანტობის მატრიცის მეორე ტრანსფორმაციის შემდეგ მასშტაბირებულია კორელაციის კოეფიციენტების მატრიცით), უდრის სამყაროს სიზუსტეს(სკალა მოცემული მნიშვნელობის პროპორციული სიზუსტის ღერძის გასწვრივ) და ზე თანაბარი ვიმოგიდავალებაზე (ღერძის გასწვრივ მასშტაბი განისაზღვრება მოცემული მნიშვნელობის პროგნოზის აუცილებელი სიზუსტით, ან დასაშვები მოვლენებით - თანაბარი ტოლერანტობით). ამოცანების ვიბრაციაში შესავალი ამოცანების ვიბრაციაში და ვმუშაობდი Dones-ის შესაძენად (Yakschko Dia Dia Dia Dani-ის აზრი არ არის დასრულებული, მაშინ nerazіonially Vyibrates Normuvnaya მკაცრად დისპერსიულ იდენტურობაზე, Navischko Tseva Vіdpovіdaє Zm_sta Delivani, Oskilki Tsey otrimannya ახალი პორცია, გონივრულად აირჩიეთ გონივრული მასშტაბი, უხეშად შეაფასეთ სტანდარტული მიღება და აღარ შეცვალოთ იგი).

ღერძების გასწვრივ ერთჯერადი დისპერსიისკენ მიმავალი ნორმალიზება იშლება კოორდინატთა სისტემის ბრუნვით, რადგან ღერძები არის სათავე კომპონენტები, ხოლო მონაცემთა ხელახალი გაკეთებისას ნორმალიზება არ ცვლის ნორმალიზებას სათავე კომპონენტებზე შემცირების შემდეგ.

მექანიკური ანალოგია და სათავე კომპონენტების მეთოდი რანგის მონაცემებისთვის

იმისთვის, რომ მონაცემთა კანის ვექტორი ერთ მასას დაემთხვეს, მაშინ ემპირიული კოვარიანტული მატრიცა იცვლება წერტილის მასების სისტემის ინერციის ტენზორით (დავყოთ იმავე მასაზე), ხოლო თავის კომპონენტების პრობლემა - ამოცანებიდან. ინერციის ტენზორის შემცირების სათავე ღერძებზე. შესაძლებელია დამატებითი თავისუფლების მოპოვება მასის მნიშვნელობის არჩევისას მონაცემთა წერტილების მნიშვნელობის ან მათი მნიშვნელობების უპირატესობის გამო (მნიშვნელოვანი ხარკი ან ხარკი უფრო დიდი უმაღლესი ძერელისგან მიეკუთვნება დიდ მასებს). იაკშო მონაცემთა ვექტორი იმედოვნებს მასა,შემდეგ მიიღება ემპირიული კოვარიანტული მატრიცის ჩანაცვლება

ყველა შემდგომი ოპერაცია შემცირებიდან ძირითად კომპონენტებამდე ვიბრირებულია ისევე, როგორც მეთოდის ძირითად ვერსიაში: ჩვენ ვიმსჯელებთ სიმძლავრის ბაზის ორთონორმალიზაციაზე, შესაძლებელია სიმძლავრის მნიშვნელობების ცვლილება, ჩვენ ვაფასებთ საშუალოს. პირველი კომპონენტების ჯამით მოცემული რიცხვების ნორმალიზაციის მიახლოების მნიშვნელობა,

დარეკვის უფრო ცხელი გზა მოცემულია დაწყვილებული ხედების ჯამის მნიშვნელობის მაქსიმიზაციაპროგნოზებს შორის. კანისთვის ორი მონაცემების წერტილი, ვაგა შემოტანილია; რომ . ემპირიული კოვარიანტული მატრიცის ჩანაცვლება გამარჯვებულია

როდესაც სიმეტრიული მატრიცა დადებითად არის მინიჭებული, სასწორები დადებითი კვადრატული ფორმაა:

ჩვენ მივეცით სიმძლავრის ბაზის ორთონორმალიზაცია, დავალაგეთ იგი სიმძლავრის მნიშვნელობების დაცემის შემდეგ, შევაფასეთ მონაცემების დაახლოების საშუალო შეწყალება პირველი კომპონენტებით და ა.შ. - ზუსტად ისევე, როგორც მთავარ ალგორითმში.

ვისი გზაა სტაგნაცია კლასების მანიფესტაციისთვის: სხვადასხვა კლასისთვის ვაგა ვაგა არჩეულია უფრო მაღალი, ქვედა ერთი და იმავე კლასის ქულები. ამ გზით, პროექციაში რიგებში, ძირითადი კომპონენტები სხვადასხვა კლასის "rozsuvayutsya" უფრო დიდი მასშტაბით.

მეტი zastosuvannya - დიდი ხრიკების ინფუზიის შემცირება(გარეშე, ინგ. გამოკვეთილი ); ამ გზით აღწერილია ხელმძღვანელი კომპონენტის მეთოდის მოდიფიკაცია, რომელიც უფრო მტკიცეა, ნაკლებად კლასიკური.

სპეციალური ტერმინოლოგია

ხელმძღვანელი კომპონენტის მეთოდის სტატისტიკას აქვს რამდენიმე სპეციალური ტერმინი.

მონაცემთა მატრიცა; ტყავის რიგი - ვექტორი გადამზადებადანიჰ ( ცენტრირებადა სწორი რაციონირება), სტრიქონების რაოდენობა - (მონაცემების ვექტორების რაოდენობა), სვეტების რაოდენობა - (მონაცემების გაფართოება);

ნავანტაგენის მატრიცა(ჩატვირთვები); kozhen stovpets - სათავე კომპონენტების ვექტორი, რიგების რაოდენობა - (სივრცის მონაცემების გაფართოება), სტოვპტების რაოდენობა - (თავის კომპონენტების ვექტორების რაოდენობა, შერჩეული დიზაინი);

რაჩუნკოვის მატრიცა(ქულები); კანის რიგი - მონაცემთა ვექტორის პროექცია თავის კომპონენტზე; სტრიქონების რაოდენობა - (ვექტორების რაოდენობა მონაცემებში), სვეტების რაოდენობა - (მთავარ კომპონენტებში ვექტორების რაოდენობა, შერჩეული დიზაინისთვის);

მატრიცა Z-რაჭუნკივი(Z ქულები); კანის რიგი - მონაცემთა ვექტორის პროექცია ძირითად კომპონენტებზე, ნორმალიზებული ერთ ვიბრაციულ ვარიაციამდე; სტრიქონების რაოდენობა - (ვექტორების რაოდენობა მონაცემებში), სვეტების რაოდენობა - (მთავარ კომპონენტებში ვექტორების რაოდენობა, შერჩეული დიზაინისთვის);

შეწყალების მატრიცა( წინააღმდეგ შემთხვევაში ჭარბი) (შეცდომები ან ნარჩენები) .

ძირითადი ფორმულა:

Mezhі zastosuvannya და zamezhennya effektivnosti მეთოდი

ძირითადი კომპონენტის მეთოდი უფრო ფართო მტკიცება მათ შესახებ, ვინც სტაგნაციას უწევს მხოლოდ ნორმალურად განაწილებულ მონაცემებს (სხვა შემთხვევაში, ვარდებისთვის, რომლებიც ნორმასთან ახლოსაა) ასე არ არის: კ. პირსონის სტანდარტული ფორმულა უნდა იყოს. მიახლოებებიმონაცემების ბოლო გამრავლება და მეორე დღეს მათი სტატისტიკური გენერირების შესახებ ჰიპოთეზის შექმნა, ისე, რომ უკვე ამის შესახებ არ ჩანდეს.

პროტე მეთოდი, რომელიც ყოველთვის ეფექტურად ამცირებს rozmіrnіst-ს ლიმინგის სიზუსტისთვის დაყენებისას. სწორი თვითმფრინავები ყოველთვის არ იძლევა კარგ მიახლოებას. მაგალითად, მონაცემებს კარგი სიზუსტით შეიძლება მოჰყვეს, არის თუ არა ეს მრუდი, და ეს მრუდი შეიძლება დალაგდეს მონაცემთა სივრცის მიხედვით. ამ შემთხვევაში სათავე კომპონენტების მეთოდი მისაღები სიზუსტისთვის უნდა იყოს უფრო დიდი ვიდრე კომპონენტების რაოდენობა (ერთის ჩანაცვლება), წინააღმდეგ შემთხვევაში ის არ იძლევა ზომის შემცირებას მისაღები სიზუსტით. ასეთი "მრუდი" თავის კომპონენტებთან მუშაობისთვის, ნაპოვნი იქნა ხელმძღვანელის განსხვავებების მეთოდი და არაწრფივი ხელმძღვანელი კომპონენტის მეთოდის სხვადასხვა ვერსიები. უფრო მეტმა უზუსტობამ შეიძლება გამოიწვიოს მოცემული დასაკეცი ტოპოლოგია. მათი მიახლოებისთვის ჩვენ ასევე აღმოვაჩინეთ სხვადასხვა მეთოდი, მაგალითად, კოჰონენის რუკები, რომლებიც არის თვითორგანიზებული, ნერვული გაზი ან ტოპოლოგიური გრამატიკა. თუ მოცემული მონაცემები სტატისტიკურად გენერირებულია ძირეული კომპონენტისგან, რომელიც ჩვეულებრივს ჰგავს, მაშინ ძირეული კომპონენტის მიახლოებით, ძირეული კომპონენტის მიახლოებით დამოუკიდებელი კომპონენტებიმიუხედავად იმისა, რომ იგი აღარ არის ორთოგონალური ნარეშტის გარეგნული სკალარული ქმნილების მიმართ, იზოტროპული rozpodіl-ისთვის (navіt ნორმალური) elіpsoїda rozsiyuvannya-ს ჩანაცვლება მიიღება ბურთით და შეუძლებელია rozmirnіst-ის შეცვლა დაახლოების მეთოდებით.

მიმართეთ ვიქტორიას

მონაცემთა ვიზუალიზაცია

მონაცემთა ვიზუალიზაცია - მონაცემთა ორიგინალური სახით პრეზენტაცია ექსპერიმენტისთვის და თეორიული კვლევის შედეგები.

პირველი არჩევანი მონაცემთა მულტიპლიკატორის ვიზუალიზაციაში არის ორთოგონალური პროექცია პირველი ორი თავის კომპონენტის სიბრტყეზე (ან პირველი სამი თავის კომპონენტის 3-განზომილებიანი სივრცე). დიზაინის არე, ფაქტობრივად, არის ბრტყელი ორგანზომილებიანი „ეკრანი“, დახრილი ისე, რომ უზრუნველყოს მონაცემების „სურათი“ უმცირესი შემოქმედებით. ასეთი პროექცია იქნება ოპტიმალური (შუა ორთოგონალური პროგნოზები სხვადასხვა ორგანზომილებიან ეკრანებზე) სამი პროექციისთვის:

  1. მონაცემებს შორის კვადრატების მინიმალური ჯამი მიუთითებს პროგნოზებზე პირველი თავის კომპონენტების ფართობზე, ისე, რომ გაფართოების ეკრანი მაქსიმალურად ახლოს იყოს პირქუშ წერტილებთან პროექციის თვალსაზრისით.
  2. კვადრატებს შორის კვადრატების შექმნის მინიმალური რაოდენობა არის წერტილების წყვილი მონაცემების სიბნელიდან სიბრტყეზე წერტილის დაპროექტების შემდეგ.
  3. კვადრატების შექმნის მინიმალური რაოდენობა არის მონაცემთა წერტილებსა და „სიმძიმის ცენტრს“ შორის.

მონაცემთა ვიზუალიზაცია არის ერთ-ერთი ყველაზე ფართოდ გამოყენებული დამატება სათავე კომპონენტებისა და არაწრფივი მოსაზრებების მეთოდისთვის.

გამოსახულების და ვიდეოს შეკუმშვა

პიქსელების გარე სივრცის სივრცის შესაცვლელად, გამოსახულების და ვიდეოს კოდირების საათი ითამაშებს პიქსელების ბლოკების ხაზოვანი ტრანსფორმაციის გზით. გამოტოვების კოეფიციენტების კვანტიზაციის ეტაპები და ნარჩენების გარეშე კოდირება იძლევა შეკუმშვის მნიშვნელოვანი კოეფიციენტების გამოტოვების საშუალებას. PCA-ს ალტერნატიული ტრანსფორმაცია, როგორც წრფივი ტრანსფორმაცია, ოპტიმალურია გარკვეული ტიპის მონაცემებისთვის, ამავე დროს მიღებული მონაცემების ზომის მიხედვით. ამ დროისთვის, ეს მეთოდი არ არის აქტიური პოპულარიზაცია, ძირითადად დიდი გამოთვლითი სირთულის გამო. ასე რომ, ამ მონაცემების შეკუმშვა შეიძლება მიღწეული იყოს, რაც აჩვენებს ტრანსფორმაციის დარჩენილი კოეფიციენტებს.

სურათებში ხმაურის ჩახშობა

ქიმიომეტრია

თავის კომპონენტის მეთოდი ქიმიომეტრიაში ერთ-ერთი მთავარი მეთოდია. ქიმიომეტრია ). საშუალებას გაძლევთ გაყოთ გამომავალი მონაცემების X მატრიცა ორ ნაწილად: "ჩანაცვლება" და "ხმაური". იყიდება naybіlsh პოპულარული viznachennyam "Chemometrics - tse hіmіchna distsiplіna scho zastosovuє matematichnі, statistichnі რომ INSHI მეთოდი zasnovanі on formalnіy logіtsі for pobudovi abo vіdboru ოპტიმალურად metodіvannyazhivіnі ოპტიმალურად metodіvannyazhivimіr.

ფსიქოდიაგნოსტიკა

  1. მონაცემთა ანალიზი (ექსპერიმენტის შედეგების აღწერა ზოგიერთ სხვა შედეგებზე, როგორც რიცხვითი მონაცემების მასივების ნახვის შემთხვევაში);
  2. სოციალური ფენომენების აღწერა (ფენომენების დადებითი მოდელები, ზოკრემა და მათემატიკური მოდელები).

პოლიტიკურ მეცნიერებაში, ხელმძღვანელი კომპონენტების მეთოდი არის მთავარი ინსტრუმენტი პროექტისთვის "მსოფლიოს პოლიტიკური ატლასი" რეიტინგების ხაზოვანი და არაწრფივი ანალიზისთვის მსოფლიოს 192 ქვეყანაში ხუთი სპეციალური ინტეგრირებული ინტეგრალური ინდექსისთვის (სიცოცხლის თანაბარი, საერთაშორისო შემოსავალი, საფრთხეები, უფლებამოსილებები). ამ ანალიზის შედეგების კარტოგრაფიისთვის შემუშავდა სპეციალური GIS (გეოინფორმაციული სისტემა), რომელიც გეოგრაფიული სივრცის ნიშანია. ასევე, შეიქმნა პოლიტიკური ატლასის მონაცემების რუკა, რომელიც საფუძვლად უდევს ქვეყნის ხუთმსოფლიო სივრცეში ორ სამყაროს ძირითად განსხვავებებს. მონაცემთა ბარათების იდენტიფიკაცია გეოგრაფიული რუკის სახით იმით, რომ გეოგრაფიულ რუკაზე ინსტრუქციები აჩვენებს ობიექტებს, რომლებსაც შეიძლება ჰქონდეთ მსგავსი გეოგრაფიული კოორდინატები, ხოლო მონაცემთა რუკაზე ინსტრუქციები აჩვენებს ობიექტებს (კიდეებს) მსგავსი ნიშნებით (ინდექსები). .

ამ სტატიაში მინდა ვისაუბრო მათზე, როგორც ძირითადი კომპონენტის ანალიზის ყველაზე პრაქტიკულ მეთოდზე (PCA - ძირითადი კომპონენტის ანალიზი) ინსაიტის თვალსაზრისით, რომელიც დგას მათემატიკური აპარატის უკან. Naib_sh მარტივია, მაგრამ მოხსენებულია.

მათემატიკა vzagali უკვე გარნა, რომ მეცნიერება, მაგრამ ამავე დროს სილამაზის hovaetsya უკან bunch of ბურთები აბსტრაქცია. აჩვენე შენი სილამაზე ყველაზე ლამაზად უბრალო კონდახებზე, მაგალითად, ასეც იყოს, შეგიძლია დაატრიალო, დაამტვრიო და შეეხო, მას, ვინც ცდები, ყველაფერი უფრო ადვილი დასანახია, უფრო ადვილია ერთი შეხედვით შეხედვა. , უფრო გასაგები და გამჟღავნებულია.

მონაცემთა ანალიზისას, ისევე როგორც ნებისმიერი სხვა ანალიზის დროს, ერთი საათის განმავლობაში ჩვენ ვერ შევძლებთ მარტივი მოდელის შექმნას, რომელიც მაქსიმალურად ზუსტად აღწერს რეალურ სიტუაციას. ხშირად ხდება ისე, რომ ნიშნები ძლიერად უნდა იყოს დეპონირებული, ერთსაათიანი ყოფნა კი ტრანსცენდენტულია.

მაგალითად, ჩვენში საწვავის რაოდენობა იზომება ლიტრებში 100 კმ-ზე, შეერთებული შტატები კი მილში თითო გალონზე. ერთი შეხედვით, განსხვავების სიდიდე, მაგრამ სინამდვილეში სუნი ერთმანეთის მიყოლებით დევს. მილი არის 1600 კმ, ხოლო გალონი 3,8 ლიტრი. ერთი ნიშანი მკაცრად დეპონირებულია მეორე მიმართულებით, იცის ერთი, იცის მეორე.

მაგრამ უფრო ხშირად ის იმდენად მდიდარია, რომ სათითაოდ ტყუილის ნიშნები არც ისე მკაცრი და (მნიშვნელოვანი!) არც ისე აშკარაა. მთლიანობაში ძრავის მოცულობა დადებითად უწყობს ხელს 100 კმ / წელიწადში მართვას, მაგრამ არ დაიწყოთ. ასევე შეიძლება გამოჩნდეს, რომ ერთი შეხედვით უხილავი ფაქტორების გაუმჯობესების გამო (როგორიცაა ხანძრის სიძლიერის მატება, მსუბუქი მასალების გამოყენება და სხვა მიმდინარე მიღწევები), მანქანის ხმა არ არის ძლიერი. , მაგრამ ის ასევე იღვრება იოგოში.

იმის ცოდნა, თუ რა სიძლიერეა, ჩვენ შეგვიძლია გამოვიყენოთ შპრიცის ნიშანი, ვიყიდოთ მეტი ბრაზი, ასე რომ იმოძრავეთ და ივარჯიშეთ უკვე უფრო დიდი მარტივი მოდელით. უპირველეს ყოვლისა, შეინახეთ ინფორმაცია, უკეთესია ყველაფრისთვის, არ დანებდეთ, მაგრამ სულ მცირე, დაგვეხმარეთ PCA მეთოდის გამოყენებაში.

Vyslovlyuyuchis suvoro, tsey მეთოდი approximu n-განზომილებიანი khmara მცველი to elіpsoїda (tezh n-virіrnogo), pіvosі kakogo i იქნება მომავალი ძირითადი კომპონენტები. І ასეთი ღერძების პროგნოზებისთვის (შემცირებული განზომილება) გროვდება ყველაზე მეტი ინფორმაცია.

Krok 1. მონაცემების მომზადება

აქ, სიმარტივისთვის, მე არ ავიღებ რეალურ პირველადი მონაცემთა ბაზას ათობით ნიშნისა და ასობით გაფრთხილებისთვის, მაგრამ გავაფართოვებ ჩემს ყველაზე მარტივ სათამაშო კონდახს. რის აღსაწერად საკმარისი იქნება 2 ნიშანი და 10 გაფრთხილება და რაც მთავარია ალგორითმის დათვალიერებაა.

ჩვენ ვაწარმოებთ ვიბრატორს:

X = np.arange(1,11) y = 2 * x + np.random.randn(10)*2 X = np.vstack((x,y)) ბეჭდვა X OUT: [[ 1. 2. 3. 4.5.6.7.8.9.10.] [ 2.73446908 4.35122722 7.21132988 11.24872601 9.58103444 12.09865079 129 3.9

ჩვენ გვაქვს ორი ნიშანი ამ შერჩევაში, რომლებიც მჭიდრო კავშირშია ერთი ერთთან. PCA ალგორითმის დახმარებით ჩვენ შეგვიძლია მარტივად ვიცოდეთ ინფორმაციის ნაწილის ნიშნების კომბინაცია და ფასი და განვსაზღვროთ ნიშნების შეურაცხყოფა ერთი ახლით. ასე რომ, მოდი ვიფუცოთ!

Cob trohi სტატისტიკისთვის. გამოცნობა, რომ არის მომენტები ვიპადიკური სიდიდის აღწერაში. ჩვენ გვჭირდება მატიუკი. ochіkuvannya რომ განსხვავება. თამამად შეიძლება ითქვას, რა ხალიჩა. ochіkuvannya - tse "სიმძიმის ცენტრი" სიდიდე და დისპერსიული - tse її "razmіri". უხეშად კაჟუჩი, მატიუკი. სკალირება მიუთითებს ვერტიკალური მნიშვნელობის პოზიციაზე, ხოლო დისპერსიას - її razmіr.

ვექტორზე პროექციის პროცესი არანაირად არ უწყობს ხელს საშუალო მნიშვნელობებს, ასე რომ, ინფორმაციის დაკარგვის მინიმუმამდე შემცირების მიზნით, ჩვენმა ვექტორმა შეიძლება გაიაროს ჩვენი ნიმუშის ცენტრში. ამაში არაფერია საშინელი, რადგან ჩვენ ვაკეთებთ ჩვენს შერჩევას ცენტრიდან - ხაზოვანი დესტრუქციული, ისე, რომ ნიშნის საშუალო მნიშვნელობა 0-ს მიაღწია.
ოპერატორი, რომელიც აბრუნებს მნიშვნელობას საშუალო მნიშვნელობების ვექტორზე - vin საჭიროა გარე მოცულობის შერჩევის განახლებისთვის.

Xcentered = (X - x.mean(), X - y.mean()) m = (x.mean(), y.mean()) ბეჭდვა Xცენტრირებული ბეჭდვა "საშუალო ვექტორი:", m OUT: (მასივი([ -4.5, -1.5, -0.5, -0.5, 0.5, 0.5, 1.5, 2.5, 3.5, 4.5]), მასივი ([- 8.44644233, -8.32845585, -2.56723136, 1.01013411, 7.00558491, 0.58413491, 4.21440647, 9.59501658]) საშუალო ვექტორი : (5.5, 10.314393916)

სხვაობა უნდა მოხვდეს დაცემის მნიშვნელობის სიდიდის წესრიგში, ანუ. მასშტაბისადმი მგრძნობიარე. ამიტომ, სამყაროში მარტოობის ნიშნად, მათ ძლიერ აწუხებთ საკუთარი ბრძანებები, რეკომენდებულია მათი სტანდარტიზაცია. ჩვენს შემთხვევაში, მნიშვნელობები არ არის ძალიან განსხვავებული შეკვეთებით, ამიტომ სიმარტივისთვის მე არ შევცვლი ამ ოპერაციას.

Krok 2. კოვარიანტული მატრიცა

ვიპადში მდიდარი ვიპადის მნიშვნელობით (ვიპადის ვექტორი) ცენტრის პოზიცია იგივე იქნება. ochіkuvannyami її პროგნოზები ღერძზე. ხოლო її ფორმების აღწერის ღერძი უკვე არასაკმარისია მხოლოდ її ცვალებადობა ღერძების გასწვრივ. შეხედეთ სქემებს, ერთი და იგივე მნიშვნელობების სამ რყევაში, მოლოდინი და ვარიაცია, ისევე როგორც ღერძზე პროგნოზები, იგივეა!


ვიპადის ვექტორის ფორმის აღსაწერად საჭიროა მატრიცა.

Tse matrix, yak maє (i, j)-ელემენტი - კორელაციის ნიშანი (X i, X j). მოდით გამოვიცნოთ კოვარიანტობის ფორმულა:

ჩვენი გონებისთვის ადვილია იმის თქმა, რომ E(X i) = E(X j) = 0:

პატივისცემით, თუ X i = X j:

და ეს მართალია ნებისმიერი vipadkovyh ღირებულებებისთვის.

ამ თანმიმდევრობით, დიაგონალის გასწვრივ ჩვენს მატრიცას ექნება დისპერსიის ნიშანი (რადგან i = j), ხოლო მატრიცის ცენტრში - ორი ნიშნის წყვილის კოვარიანტები. და კოვარიანსის სიმეტრიის გამო, მატრიცა ასევე სიმეტრიული იქნება.

პატივისცემა:კოვარიანტული მატრიცა є zagalnenny ვარიაცია სხვადასხვა მდიდარ ცვლადის მნიშვნელობებში - მოიგო იაკი და განსაზღვრავს vypadkovy მნიშვნელობის ფორმას (rozkid), yak і ვარიანსს.

უპირველეს ყოვლისა, ერთგანზომილებიანი ცვლადის მნიშვნელობის ვარიაცია არის 1x1 მატრიცა, რომელშიც არის ამოცანების ერთი წევრი ფორმულით Cov(X,X) = Var(X).

შემდეგ ჩამოვაყალიბოთ კოვარიანტული მატრიცა Σ ჩვენი შერჩევისთვის. რომელი დისპერსიისთვის X i і X j და ასევე მათი კოვარიანტობა. შეგიძლიათ დააჩქაროთ დაწერილი ფორმულით, მაგრამ თუ პითონს შევეჩვიეთ, მაშინ ცოდვაა, რომ არ დავაჩქაროთ ფუნქცია numpy.cov(X). იგი შესატანად იღებს ცვლადი სიდიდის ყველა ნიშნის ჩამონათვალს და ატრიალებს კოვარიანტულ მატრიცას და de X - n-უნივერსალურ ცვლადი ვექტორს (n-სტრიქონების რაოდენობა). ფუნქცია vіdmіnno і dkhodit і მიუკერძოებელი დისპერსიის გაფართოებისთვის, і ორი სიდიდის კოვარიანსისთვის, і კოვარიანსის მატრიცის დასაკეცი.
(ვვარაუდობ, რომ პითონში მატრიცა არის მასივი-მწკრივი მასივები-სტრიქონები.)

Covmat = np.cov(Xcentered) print covmat, "n" print "Variance of X:", np.cov(Xcentered) print "Variance of Y: ", np.cov(Xcentered) print "Covariance X and Y: " , np.cov(Xcentered) OUT: [[ 9.16666667 17.93002811] [ 17.93002811 37.26438587]] ვარიაცია X: 9.16666666667: Y: ვარიაცია:

კროკ 3

კარგი, ჩვენ ავიღეთ მატრიცა, რომელიც აღწერს ჩვენი წვეთების ზომის ფორმას, ასე რომ, შეგვიძლია მისი დაყოფა x და y-ით (ეს არის X 1 და X 2), ისევე როგორც სიბრტყეზე ბრტყელი ფორმა. ახლა ჩვენ უნდა ვიცოდეთ ასეთი ვექტორი (მხოლოდ ერთი ტიპი), ხოლო ახალზე ჩვენი შერჩევის პროექციის გაფართოების (დისპერსიის) მაქსიმალური გაზრდა.

პატივისცემა:მთავარი განსხვავება რეალურ სამყაროსთან არის ხელმისაწვდომი მატრიცა და ეს ორი ცნება ექვივალენტურია. ვექტორზე პროექციისას, პროექციის დისპერსია მაქსიმალურად იზრდება, დიდი შეკვეთების უზარმაზარ სივრცეზე პროექციისას, მთელი კოვარიანტული მატრიცა მაქსიმიზებულია.

ასევე, ავიღოთ ერთი ვექტორი, რომელ პროექტზეა ჩვენი პროექციის ვექტორი X. გლობალურ ხედვაში, ვექტორულ ფორმაში (მნიშვნელობების ცენტრირებისთვის), ვარიაცია გამოიხატება შემდეგნაირად:

ცხადია, პროექციის დისპერსია:

ადვილი დასამახსოვრებელია, რომ დისპერსიას მაქსიმალური მნიშვნელობა აქვს v T Σv. აქ Rayleigh-ის პარამეტრი დაგვეხმარება. მათემატიკაში ძალიან ღრმად ჩასვლის გარეშე, უბრალოდ ვიტყვი, რომ რეილის გეგმებს შეუძლიათ გამოიყენონ სპეციალური შემთხვევა კოვარიანტული მატრიცებისთვის:

დანარჩენი ფორმულა შეიძლება ცნობილი იყოს ვექტორების ტალღაზე მატრიცის განლაგების თემით და ამ მნიშვნელობით. x არის თვითნებური ვექტორი და არის თვითნებური მნიშვნელობა. საკუთარი ვექტორების რაოდენობა და ეს მნიშვნელობა უდრის მატრიცის ზომას (i მნიშვნელობები შეიძლება განმეორდეს).

მეტყველების წინ, ინგლისურ ენაში, იმ ვექტორის მნიშვნელობებს უწოდებენ საკუთარი მნიშვნელობებიі საკუთრივ ვექტორებიაშკარად.
Meni zdaєtsya, tse ჟღერს უხვად ლამაზი (და სტილი), შეამცირეთ ჩვენი პირობები.

ამგვარად, უშუალოდ პროექციის მაქსიმალური ვარიაცია ყოველთვის იცვლება საკუთრივ ვექტორთან, რომელსაც შეიძლება ჰქონდეს მაქსიმალური მნიშვნელობა, რაც უფრო ღირებულია დისპერსიისთვის.

ეს ასევე ეხება პროგნოზებს ცვლადების უფრო დიდ რაოდენობაზე - პროექციის ვარიაცია (კოვარიანტული მატრიცა) m-სამყარო სივრცეზე იქნება მაქსიმალური პირდაპირი m საკუთარი ვექტორებისთვის, რომლებსაც შეიძლება ჰქონდეს მაქსიმალური სიმძლავრის მნიშვნელობა.

ჩვენი შერჩევის მრავალფეროვნება კარგია ორისთვის და მასში საკუთრივ ვექტორების რაოდენობა აშკარაა 2. ჩვენ ვიცით ისინი.

Numpy ბიბლიოთეკამ განახორციელა ფუნქცია numpy.linalg.eig(X)სადაც X არის კვადრატული მატრიცა. თქვენ აბრუნებთ 2 მასივს - საკუთრივ მნიშვნელობების მასივს და საკუთრივ ვექტორების (ვექტორების) მასივს. ნორმალიზაციის І ვექტორები - їhnya dozhina dorіvnyuє 1. სწორედ ის, რაც საჭიროა. Qi 2 ვექტორები ქმნიან ახალ საფუძველს შერჩევისთვის, ისეთი, რომ მისი ღერძი ეფუძნება ჩვენი შერჩევის მიახლოებითი ელიფსის პრინციპებს.



ამ დიაგრამაზე ჩვენ მივახლოვდით ელიფსს 2 სიგმის რადიუსით (ამიტომ ყველა გაფრთხილების 95% დამნაშავეა შურისძიებაში - რა შეგვიძლია აქ და პოსტერი). მე შევაქციე უფრო დიდი ვექტორი (ფუნქციამ eig(X) მიმართა მას საპირისპირო მიმართულებით) - ჩვენთვის მნიშვნელოვანია მისი მიმართვა და არა ვექტორის ორიენტაცია.

Krok 4. შემცირებული მოცულობა (პროექცია)

ყველაზე დიდი ვექტორი შეიძლება იყოს სწორი, რეგრესიის ხაზის მსგავსი და ასახავს ახალ ჩვენს შერჩევას და შესავალ ინფორმაციას, რომელიც მიღებულია რეგრესიის ჭარბი ტერმინების ჯამიდან (მხოლოდ ახლა ევკლიდური და არა დელტა Y-ში). ზოგჯერ ნიშნების არსებობა უკვე ძლიერია, ამიტომ ინფორმაციის დაკარგვა მინიმალური იქნება. პროექციის „ფასი“ - დისპერსია უფრო პატარა საკუთრივექტორის უკან - როგორც წინა გრაფიკიდან ჩანს, უკვე მცირეა.

პატივისცემა:კოვარიანტული მატრიცის დიაგონალური ელემენტები აჩვენებენ დისპერსიებს პირველადი საფუძვლის მიხედვით, ხოლო її სიმძლავრის მნიშვნელობები - ახლის მიხედვით (მთავარი კომპონენტების მიხედვით).

ხშირად საჭიროა დახარჯული (და შენახული) ინფორმაციის მოცულობის შეფასება. ამის გასარკვევად საუკეთესო გზაა ასობით. ჩვენ ვიღებთ დისპერსიას კანის ღერძის გასწვრივ და ვყოფთ ღერძების გასწვრივ არსებული დისპერსიების ჯამზე (ანუ ხელმისაწვდომი მატრიცის ყველა სიმძლავრის რიცხვის ჯამს).
ასე რომ, ჩვენი უფრო დიდი ვექტორი აღწერს 45.994/46.431*100% = 99.06%, ხოლო პატარა, როგორც ჩანს, არის დაახლოებით 0.94%. უფრო მცირე ვექტორის დანერგვით და უფრო დიდის მონაცემების პროექციით, ჩვენ ვხარჯავთ ინფორმაციის 1%-ზე ნაკლებს! უიმედო შედეგი!

პატივისცემა:მართლაც, zdebіshogo, როგორც მთლიანი ინფორმაციის შეყვანა გახდება 10-20% -ზე მეტი, შეგიძლიათ მშვიდად შეამციროთ rozmirnіst.

პროექციის განსახორციელებლად, როგორც ადრე იყო დაგეგმილი croc 3-ზე, საჭიროა ჩატარდეს ოპერაცია v T X (ვექტორი განპირობებულია buti dozhini 1-ით). წინააღმდეგ შემთხვევაში, რადგან ჩვენ გვაქვს არა ერთი ვექტორი, არამედ ჰიპერთვითმფრინავი, ვექტორის ნაცვლად V T ვექტორების მატრიცას ვიღებთ. გამოკლებული ვექტორი (ან მატრიცა) იქნება პროგნოზების მასივი.

V = (-vecs, -vecs) Xnew = წერტილი (v, Xცენტრირებული)

წერტილი (X,Y)- Memberwise tvir (ასე ვამრავლებთ ვექტორებს და მატრიცებს პითონში)

არ არის მნიშვნელოვანი, გვახსოვდეს, თუ რა მნიშვნელობა აქვს პროგნოზებს წინა გრაფიკის ნახატებში.

კროკ 5

პროექციიდან ხელით შეიმუშავეთ, დაეყრდნოთ ჰიპოთეზას და გააფართოვეთ მოდელი. ნუ დაგავიწყდებათ წაართვათ ძირითადი კომპონენტები და აშკარა, გონივრული მესამე მხარის ადამიანები, სენს. ზოგჯერ, აფეთქება corisno, მაგალითად, vyyavlenі wikidi, schob to საუბარი, scho დგომა მათზე დაცვა.

წე დუჟე მარტივია. ჩვენ გვაქვს ყველა საჭირო ინფორმაცია და საბაზისო ვექტორების კოორდინატები გარე საფუძველში (ვექტორები, რომლებზედაც ისინი იყო დაპროექტებული) და საშუალოების ვექტორი (ცენტრირებისთვის). აიღეთ, მაგალითად, მაქსიმალური მნიშვნელობა: 10.596… რისთვისაც ვამრავლებთ iogo-ს მარჯვნივ ტრანსპოზიციურ ვექტორზე i dodamo შუა ვექტორზე, ან გლობალურ ხედში ყველა ვიბოკისთვის: X T v T +m

Xrestored = dot(Xnew,v) + m print "Restored: ", Xrestored print "Original: ", X[:,9] OUT: Restored: [ 10.13864361 19.84190935] ორიგინალი: [ 10. 19.9094

საცალო ვაჭრობა მცირეა, მაგრამ მეტია. Adzhe vtrachena ინფორმაცია არ არის დადასტურებული. დაიცავით, რადგან სიმარტივე მნიშვნელოვანია სიზუსტისთვის, დადასტურდა, რომ ღირებულება მიახლოებითია დღის განმავლობაში.

დაგების მოადგილე - ალგორითმის ხელახალი შემოწმება

მოგვიანებით, მსოფლიომ აიღო ალგორითმი, აჩვენა, თუ როგორ მუშაობს ის სათამაშო კონდახზე, ახლა უკვე აღარ არის საკმარისი იოგას შედარება PCA-სთან, ჩვენ მას განვახორციელებთ sklearn-ში - თუნდაც თვითგამოსწორება.

sklearn.decomposition იმპორტი PCA pca = PCA(n_კომპონენტები = 1) XPCAreduced = pca.fit_transform(transpose(X))

Პარამეტრი n_კომპონენტებიმე მივუთითებ vimiryuvan-ის რაოდენობას, იმის შესახებ, თუ როგორ ხდება პროექცია, ამიტომ გვინდა შევამციროთ ჩვენი მონაცემთა ბაზა vimiryuvan-ის დონეზე. სხვა სიტყვებით რომ ვთქვათ - n საკუთრივ ვექტორების რაოდენობა ყველაზე დიდი შესაძლო რიცხვებით. მოდით გადახედოთ მოცულობის შემცირების შედეგს:

ბეჭდვა "ჩვენი შემცირდა X: n", Xnew print "Sklearn შემცირდა X: n", XPCAreduced OUT: ჩვენი შემცირდა X: [-9,56404106 -9,02021625 -5,52974822 -2,96481262 0,68933859 0,74406645 2,33433492 7,39307974 5,3212742 10,59672425] Sklearn შემცირდა X: [[-9,56404106 ] [ -9.02021625] [ -5.52974822] [ -2.96481262] [ 0.68933859] [ 0.74406645] [ 2.33433492] [ 7.39307975] [7]

ჩვენ დავატრიალეთ შედეგი ვექტორული სვეტების მატრიცის სახით (ყველაზე კანონიკური ხედი წრფივი ალგებრის თვალსაზრისით), PCA-მ sklearn-ში მოატრიალა ვერტიკალური მასივი.

პრინციპში, ფასი არ არის კრიტიკული, უბრალოდ ვარტო ნიშნავს, რომ წრფივ ალგებრაში კანონიკურია მატრიცების დაწერა ვექტორ-სტოპპტების მეშვეობით, ხოლო მონაცემთა ანალიზისას (DB არეების სხვა ასპექტები) გაფრთხილებები (გარიგებები, ჩანაწერები) არის. ჩაწერილია რიგებში.

მოდელის სხვა პარამეტრების შეცვლა - ფუნქციას შეიძლება ჰქონდეს მრავალი ატრიბუტი, რომელიც საშუალებას მოგცემთ მიიღოთ წვდომა შუალედურ ცვლადებზე:

საშუალო ვექტორი: საშუალო_
- პროექციის ვექტორი (მატრიცა): კომპონენტები_
- საპროექციო ღერძების დისპერსია (ვიბრაცია): განმარტებული_ვარიაცია_
- ინფორმაციის ნაწილი (გლობალური დისპერსიის ნაწილი): ახსნილი_ვარიანტობის_ფარდობა_

პატივისცემა:ახსნილი_ვარიაცია_ ჩვენება ვიბირკოვადისპერსიას, ისევე როგორც cov() ფუნქციას კოვარიანტული მატრიცის გენერირებისთვის შეუბრალებელიდისპერსია!

ჩვენ ვიღებთ მნიშვნელობებს ბიბლიოთეკის ფუნქციის მნიშვნელობებთან თანაბრად.

ამობეჭდვა "საშუალო ვექტორი:", pca.mean_, m print "პროექცია:", pca.components_, v ბეჭდვა "განმარტებული დისპერსიული თანაფარდობა: ", pca.explained_variance_ratio_, l/sum(l) OUT: საშუალო ვექტორი: [5.5 10.31439 5.5, 10.314393916) პროექცია: [0.437774316 0.89910006]] (0.89774164347772387, 0.899100062321672387, 0.89910006232167594) განმარტული ვარჯიშობს: [41.39455058] 45.9939450918 განმარტა Variance თანაფარდობა: [0.99058588] 0.99058588818

განსხვავება მხოლოდ დისპერსიებშია, მაგრამ, როგორც უკვე მივხვდით, ჩვენ ვიქტორიანულ ფუნქციას ვიღებთ cov(), როგორც გამარჯვებული მიუკერძოებელი ვარიაცია, შემდეგ ატრიბუტი განმარტებული_ვარიაცია გადადის viberkov-ზე. სუნი vіdrіznyayutsya ნაკლები tim, scho persha for otrimannya mat. გაყავით ქულა (n-1), ხოლო მეგობარი n-ზე. ადვილია არასწორი ინტერპრეტაცია, რომ 45.99 ∙ (10 - 1) / 10 = 41.39.

ყველა სხვა მნიშვნელობა განსხვავდება, რაც ნიშნავს, რომ ჩვენი ალგორითმები ექვივალენტურია. მე პატივს ვცემ, რომ ბიბლიოთეკის ალგორითმის ატრიბუტებს შეიძლება ჰქონდეს ნაკლები სიზუსტე, ღვინოების ნატეხები, მღერიან, ოპტიმიზაციას swidcode-სთვის, ან უბრალოდ მნიშვნელობების დამრგვალებას სიცხადისთვის (თორემ მე მაქვს გარკვეული ხარვეზები).

პატივისცემა:ბიბლიოთეკის მეთოდი ავტომატურად არის დაპროექტებული ღერძზე, რომელიც გაზრდის დისპერსიას. ნუ იქნები რაციონალური. მაგალითად, მე მივიყვანე ეს პატარა ბავშვი არაზუსტად იმ დონემდე, რომ კლასიფიკაცია შეუძლებელი ხდება. პროტე პროექციამ უფრო პატარა ვექტორზე შეიძლება წარმატებით შეცვალოს ზომა და შეინახოს კლასიფიკატორი.

მოგვიანებით განვიხილეთ PCA ალგორითმის მუშაობის პრინციპები და მისი განხორციელება sklearn-ში. დარწმუნებული ვარ, რომ ეს სტატია გასაგები გახდა მათთვის, ვინც მხოლოდ ახლა იწყებს მონაცემთა ანალიზს და ასევე ცოტა ინფორმატიული მაინც მათთვის, ვინც კარგად იცის ალგორითმი. ინტუიციური გარეგნობა უფრო მიზანშეწონილია იმის გასაგებად, თუ როგორ უნდა ივარჯიშოთ მეთოდი, ხოლო გაგება კიდევ უფრო მნიშვნელოვანია არჩეული მოდელის სწორი კორექტირებისთვის. პატივისცემისთვის!

PS:პროჰანნია არ აყეფოთ ავტორს შესაძლო უზუსტობებისთვის. თავად ავტორი მონაცემთა ანალიზის სწავლის პროცესშია და სურს დაეხმაროს ისევე, როგორც საოცარი ცოდნის ღირებულების დაუფლების პროცესშია! ალე, კონსტრუქციული კრიტიკა და rіznomanіtny dosvіd u vitayutsya!