تحليل عامل. طريقة المكون الرئيسي. طريقة المكون الرئيسي معايير اختيار المكونات الرئيسية

طريقة مكون الرأس هي طريقة تترجم عددًا كبيرًا من المتغيرات ذات الصلة (البور ، المتجذرة) في عدد أقل من المتغيرات المستقلة ، وغالبًا ما يؤدي عدد كبير من المتغيرات إلى تعقيد تحليل المعلومات وتفسيرها. لا يتم أخذ طريقة kazhuchi بدقة ، tsey في الاعتبار قبل التحليل العاملي ، على الرغم من أنها قد تكون غنية بها. على وجه التحديد ، في المقام الأول ، أولئك الذين ، أثناء إجراءات العد ، يأخذون على الفور جميع مكونات smut وعددها الذي يزيد عن نصف تكلفة التغييرات الأخيرة ؛ بطريقة مختلفة ، يتم افتراض إمكانية توزيع جديد لتشتت جميع التغييرات الخارجية ، أي. її التفسير الخارجي من خلال العامل الكامن (العلامات المميزة).

على سبيل المثال ، على ما يبدو ، أجرينا بحثًا تم فيه قياس ذكاء الطلاب من خلال اختبار Wechsler واختبار Eysenck واختبار Raven بالإضافة إلى النجاح في علم النفس الاجتماعي والمعرفي والعالمي. قدر الإمكان ، أن مؤشرات الاختبارات المختلفة للذكاء ترتبط ببعضها البعض ، بحيث ينتن vimiryuyut سمة واحدة من سمات العافية الفكرية المنخفضة ، حتى لو كانت مختلفة. Yakscho zminnyh في doslіzhenny غني جدًا ( x 1 , x 2 , …, x ص ) ، Deyakі їх vzaєmopov'yazanі ، ثم في آخر واحد ، يقوم vinikaє bazhannya بتغيير طي البيانات ، وتقليل عدد التغييرات. والتي تخدم طريقة مكونات الرأس ، مما يخلق مجموعة من التغييرات الجديدة ذ 1 , ذ 2 , …, ذ ص، الجلد مع بعض التغييرات الخطية في قطعة خبز x 1 , x 2 , …, x ص :

ص 1 = أ 11 س 1 + أ 12 س 2 + ... + أ 1 ب س ص

ص 2 \ u003d أ 21 × 1 + أ 22 × 2 + ... + أ 2 ص س ص

(1)

y p = a p1 x 1 + a p2 x 2 +… + a pp x p

التغييرات ذ 1 , ذ 2 , …, ذ صتسمى مكونات الرأس بواسطة chinniks. وبهذه الطريقة ، يكون العامل جزءًا من الدليل الإحصائي ، وهو سبب التحولات الخاصة لمصفوفة الارتباط. . يسمى إجراء التحليل إلى عوامل المصفوفة. نتيجة للتحليل من مصفوفة الارتباط ، يمكن أن يتنوع عدد العوامل حتى يصل إلى رقم يساوي عدد التغييرات الصادرة. ومع ذلك ، فإن العوامل التي تظهر في نتيجة التحليل ، كقاعدة عامة ، لا تساوي قيمها.

معامل في الرياضيات او درجة أ اي جاي، التي تدل على تغيير جديد ، يتم اختيارها بطريقة أن التغييرات الجديدة (مكونات الرأس ، العوامل) تصف الحد الأقصى لمقدار التباين في البيانات ولا تتشاجر مع بعضها البعض. تظهر المعاملات بوضوح في كثير من الأحيان أ اي جاي بطريقة تجعل الرائحة الكريهة معامل ارتباط بين التغيير الخارجي والتغير (العامل) الجديد. تسي تصل إلى مضاعفات أ اي جايالانحراف المعياري للعامل. هذه هي الطريقة التي تعمل بها معظم الحزم الإحصائية (لبرنامج STATISTICA أيضًا). معامل في الرياضيات او درجةأ اي جاي يبدو أنه يتم تقديم الرائحة الكريهة عند مظهر الطاولات ، و roztashovuyutsya المعياري عند مظهر الأعمدة ، وتغيير مظهر الصفوف:

يسمى هذا الجدول جدول (مصفوفة) من التفضيلات العوامل. تشير الأرقام إلى nіy ، بواسطة المعاملات أ اي جاي. الرقم 0.86 يعني أن الارتباط بين العامل الأول وقيمة اختبار Wechsler هو 0.86. كلما زاد عدم تفضيل العامل بالقيمة المطلقة ، زادت قوة الارتباط بين التغيير والعامل.

يبسط تحليل المكونات الرئيسية (PCA) طي البيانات عالية الأبعاد ، مما يحافظ على الاتجاهات والأنماط. Vіn rob tse ، بتحويل البيانات إلى بيانات أصغر ، مثل ملخص الوظائف. هذه البيانات أوسع في مجالات مختلفة من العلوم والتكنولوجيا ، ويتم إلقاء اللوم عليها ، إذا كانت هناك بعض العلامات بالنسبة للجلد zrazka ، على سبيل المثال ، مثل هذا التعبير عن وجهات النظر الغنية. يمثل هذا النوع من الجزية مشاكل ناجمة عن تكرار العفو من خلال تصحيحات متعددة على الجزية.

الطريقة مشابهة للتجميع - لمعرفة الأنماط دون إرسالها وتحليلها ، pereveryayuchi ، chi zrazki من مجموعات مختلفة من الدراسات ، والرائحة الكريهة قد تكون istotnі vіdmіnnostі. مثل جميع الأساليب الإحصائية ، يمكن تشخيص اليوغا بشكل خاطئ. يمكن إحضار مقياس التغييرات إلى نتائج مختلفة في التحليل ، وهو أمر مهم ، بحيث لا يتم تصحيحه ، وفقًا للقيمة السابقة للبيانات.

الغرض من تحليل المكونات

تتمثل الطريقة الوصفية الرئيسية في الكشف عن هذا التغيير في مجموعة البيانات ، لتحديد التغييرات الأساسية الجديدة المهمة. لهذا الغرض ، من الضروري استخدام أدوات خاصة ، على سبيل المثال ، لتحديد البيانات الغنية في مصفوفة بيانات TableOfReal ، في نفس الصفوف لمطابقة التغييرات والتغييرات. لذلك ، يتم تفسير TableOfReal على أنه ناقل وبيانات numberOfRows ، متجه الجلد لمثل هذا العدد من العناصر Columns.

تقليديًا ، تعتمد طريقة مكون الرأس على مصفوفة التغاير أو مصفوفة الارتباط ، والتي يمكن حسابها من مصفوفة البيانات. يمكن استخدام مصفوفة التغاير لقياس مجموع المربعات والإبداعات المتقاطعة. تشبه مصفوفة الارتباط مصفوفة التغاير ، ولكنها تتغير في المقام الأول ، لذلك يتم توحيد الأعمدة. يحدث أحيانًا لتوحيد البيانات ، لأن الاختلافات في بعضها تختلف اختلافًا كبيرًا. لتحليل البيانات ، حدد مصفوفة البيانات TabelOfReal من قائمة الكائنات واضغط للذهاب.

اختبار prizvede قبل ظهور كائن جديد في قائمة الكائنات لطريقة المكونات الرئيسية. يمكنك الآن إضافة رسم بياني للقيم المنحنية ، بحيث يمكنك مراعاة أهمية الجلد. ويمكن للبرنامج أيضًا أن يقترح ديو: إزالة جزء من التشتت ، أو عكس المساواة في عدد قيم القوة وإزالة المساواة. Oskіlki komponenti otrimani بطريقة لحل مهام محددة من التحسين ، الرائحة الكريهة لأفعال القوة "الناشئة" ، على سبيل المثال ، الحد الأقصى من minlivost. بالإضافة إلى ذلك ، هناك مستوى منخفض من القوى الأخرى ، والتي يمكن أن توفر تحليل عاملي:

  • يتم تحديد تشتت الجلد ، في الجزء الخاص به من التشتت الكلي للتغيرات الخارجية ، بواسطة قيم الطاقة ؛
  • حساب التقييم ، الذي يوضح أهمية مكون الجلد لساعة الحذر ؛
  • otrimannya navantage ، كيفية وصف الارتباط بين مكون الجلد وتغير الجلد ؛
  • الارتباط بين التغييرات الخارجية ، التي تم إنشاؤها لعنصر p إضافي ؛
  • في عمل عطلة نهاية الأسبوع ، يمكن إجراء البيانات في شكل مكونات p ؛
  • "تناوب" المكونات ، من أجل تحسين تفسيرها.

اختر عدد نقاط التوفير

هناك طريقتان لاختيار العدد المطلوب من المكونات للحفظ. تعتمد طرق الإساءة على معاني vіdnosinah mizh vlasnymi. لمن يوصى باستخدام قيمة الجدول. نظرًا لأن النقاط الموجودة على الرسم البياني قد تميل إلى virіvnyuvatisya وقريبة من الصفر ، فيمكن تجاهلها. وسيط عدد المكونات إلى الرقم ، كما لو كان يقع في جزء واحد من التشتت العالمي. على سبيل المثال ، لكي تكون راضيًا عن 95٪ من إجمالي التشتت - فإن عدد المكونات (VAF) هو 0.95.

تُستخدم المكونات الرئيسية لتصميم تحليل إحصائي ثري لطريقة المكونات الرئيسية في كواشف البيانات في اتساع المتجهات العامة. يمكنك إنشائه بطريقتين - مباشرة من TableOfReal دون تشكيل كائن PCA بشكل أمامي ومن ثم يمكنك عرض التكوين أو الأرقام. حدد الكائن و TableOfReal في نفس الوقت و "التكوين" ، وبهذه الطريقة ، يكون تحليل المكونات المصقولة الرطبة منتصراً.

كنقطة بداية ، يتم إظهارها بواسطة مصفوفة متماثلة ، على سبيل المثال ، التغاير ، أولاً يتم تقصيرها لتشكيل ، ثم خوارزمية QL مع الإخفاقات الضمنية. نظرًا لأن النقطة هي النقطة الصحيحة ومصفوفة البيانات ، فمن المستحيل تكوين مصفوفة من مجموع المربعات. ناتوميست ، انتقل إلى طريقة أكثر استقرارًا عدديًا ، واستقر الترتيب وفقًا لقيم فردية. نفس المصفوفة متجه جيد ، والعناصر القطرية المربعة قيم جيدة.

تم استخدام المكون الرئيسي є لتطبيع التركيبة الخطية للتنبؤات الخارجية في مجموعة البيانات باستخدام طريقة مكون الرأس للدمى. في الصورة ، PC1 و PC2 هما المكونان الرئيسيان. مقبول ، є متنبئ منخفض ، yak X1 ، X2 ... ، XP.

يمكن كتابة المكون الرئيسي على النحو التالي: Z1 = 11X1 + 21X2 + 31X3 + .... + p1Xp

  • Z1 هو المكون الرئيسي الأول ؛
  • p1 - ​​متجه الغرور الذي يضيف ما يصل إلى الغرور (1 ، 2.) للمكون الرئيسي الأول.

يتم تبادل الربحية مع مجموع المربع 1. وهذا مرتبط بأن القيمة الكبيرة للربحية يمكن أن تؤدي إلى تشتت كبير. يشير Vіn أيضًا بشكل مباشر إلى المكون الرئيسي (Z1) ، والذي يعطي أكبر قدر من الاختلاف. تسي لإحضار حقيقة أن الخط في امتداد r- مقاييس ، أقرب إلى n-guard.

القرب vymіryuєtsya z vikoristannyam يعني موجة إقليدية مربعة. X1..xp هي تنبؤات طبيعية. قد يكون للمتنبئين العاديين قيمة متوسطة تساوي الصفر ، والانحراف المعياري يساوي واحدًا. أيضًا ، مكون الرأس الأول هو مجموعة كاملة من تغييرات السماعات الخارجية ، والتي تعمل على إصلاح التباين الأقصى في مجموعة البيانات. Vіn vyznaє مباشرة أكبر تباطؤ في البيانات. كلما تم إصلاح أصغر حجم في المكون الأول ، أخذ المزيد من المعلومات منه. لا تستطيع Zhoden іnshiy الأم الصغيرة أكثر من الأساسي الأول.

أحضر المكون الرئيسي الأول إلى الصف ، وهو الأقرب إلى البيانات وأحضر الحد الأدنى لمجموع المربع بين نقطة البيانات والخط. يعد مكون الرأس الآخر (Z2) أيضًا مزيجًا خطيًا من المتنبئين الخارجيين ، حيث يعمل على إصلاح التباين المفقود في مجموعة البيانات ويكون Z1 غير مرتبط. بمعنى آخر ، يمكن أن يصل الارتباط بين المكونات الأولى والمكونات الأخرى إلى الصفر. يمكن تمثيل Vіn على النحو التالي: Z2 = 12X1 + 22X2 + 32X3 + .... + p2Xp.

كما لو كانوا غير مرتبطين ، يمكن أن يكونوا متعامدين بشكل مباشر.

بالإضافة إلى ذلك ، نظرًا لأن حساب المكونات الرئيسية يبدأ عملية التنبؤ ببيانات الاختبار لجميع التحديدات. عملية طريقة المكون الرئيسي لأباريق الشاي بسيطة.

على سبيل المثال ، من الضروري العمل على التحويل إلى مجموعة الاختبار ، بما في ذلك وظيفة المركز والقياس في الفيلم R (الإصدار 3.4.2) ومكتبة اليوغا rvest. R - البرمجة اللغوية المجانية للحسابات والرسومات الإحصائية. عمليات إعادة بناء Vіn buv لعام 1992 إلى الصخر لإنجاز المهام الإحصائية بواسطة koristuvachs. عملية النمذجة بأكملها بعد PCA.

لتنفيذ PCA في Python ، قم باستيراد البيانات من مكتبة sklearn. يظل التفسير هو نفسه R. فقط عدد قليل من البيانات التي يتم عرضها في Python هي نسخة واضحة ، حيث يتم وضع القيم في نفس اليوم ، ويتم تحويل التغييرات الفئوية إلى أرقام. تُترك عملية النمذجة كما هي ، كما هو موضح في مثال القشرة R.

تعتبر فكرة طريقة المكون الرئيسي مفيدة للتجربة القريبة لتطوير التحليل العاملي. بدلاً من التلخيص من 1 إلى p ، نلخص الآن من 1 إلى m ، متجاهلًا بقية شروط p-m في المجموع ، مع استبعاد viraz الثالث. من الممكن إعادة كتابة tse ، كما هو موضح في الآية ، التي تم اختيارها لتعيين مصفوفة التفضيل الضريبي L ، والتي تعطي تعبيرًا متبقيًا عن تدوين المصفوفة. كقاعدة عامة ، يتم إثبات vimirovanie المعياري ، واستبداله بمصفوفة اختيار الارتباط R.

تشكل Tse المصفوفة L العامل السائد في التحليل العاملي المصحوب بـ L المنقول L لتقدير الفروق المحددة ، نموذج العامل لمصفوفة التباين - التباين المشترك.

الآن لدينا مصفوفة تباين أفضل - تغاير ناقص LL ".

  • Xi هو ناقل للحراس للموضوع الأول.
  • S تعني مصفوفة التباين - التغاير الاهتزازي.

نفس قيم القدرة p لمصفوفة qi لتغاير التغاير ، وكذلك نفس متجهات القوة لمصفوفة qi.

القيم الصالحة S: λ ^ 1، λ ^ 2، ...، λ ^ p.

متجهات القوة S: e ^ 1 ، e ^ 2 ، ... ، e ^ n.

يعد تحليل PCA هو الطريقة الأكثر صعوبة والأكثر شيوعًا للتحليل متعدد المتغيرات ، والذي يسمح بإضافة مجموعات بيانات غنية من عدد كبير من التغييرات. وراء هذه الطريقة ، يتم استخدام طريقة مكونات الرأس على نطاق واسع في المعلوماتية الحيوية والتسويق وعلم الاجتماع وثراء الآخرين. يوفر XLSTAT وظيفة كاملة ومرنة لعرض البيانات دون وسيط في Excel وينشر بعض الخيارات القياسية والممتدة ، للسماح لك بإلقاء نظرة عميقة على تقرير البيانات في Excel.

يمكنك تشغيل البرنامج على مصفوفات بيانات غير مكتملة من المعلومات ، وإضافة تغييرات إضافية إلى الحارس ، وتصفية التغييرات وفقًا لمعايير مختلفة لتحسين قراءة البطاقات. علاوة على ذلك ، يمكنك الالتفاف. من السهل إنشاء عمود مرتبط ، فالرسم البياني يمثل وصيًا مثل مخططات Excel القياسية. يكفي نقل البيانات حول النتائج حتى يفوزوا بالتحليل.

يقدم إكسلستات عددًا من طرق معالجة البيانات التي سيتم استخدامها في بيانات الإدخال قبل حساب المكون الرئيسي:

  1. Pearson ، PCA الكلاسيكي ، الذي يقوم تلقائيًا بتوحيد البيانات للحساب ، من أجل القضاء على التدفق المفرط للتغييرات من الإلهام الكبير في النتيجة.
  2. التباين الذي يعمل مع عمليات المغادرة غير القياسية.
  3. متعدد الأطوار ، للبيانات الترتيبية.

تطبيق تحليل البيانات المقدمة

يمكنك إلقاء نظرة على طريقة المكونات الرئيسية باستخدام مصفوفة التباين المشترك للارتباط المتماثل. يعني Tse أن المصفوفة يمكن أن تكون رقمية وأم البيانات الموحدة. جائز ، є اتصال البيانات هو 300 (ن) × 50 (ع). حيث n هو عدد التحذيرات ، و p هو عدد المتنبئين.

Oskіlki є عظيم p = 50 ، p (p-1) / 2 ممكن. في هذه الحالة ، سيكون من الأساليب الشائعة اختيار المضاعف الفرعي للمتنبئ ص (ص<< 50), который фиксирует количество информации. Затем следует составление графика наблюдения в полученном низкоразмерном пространстве. Не следует забывать, что каждое измерение является линейной комбинацией р-функций.

بعقب للمصفوفة من اثنين من التغييرات. في هذا التطبيق لطريقة مكونات الرأس ، يتم إنشاء مجموعة من البيانات من عنصرين متناوبين (كبير وقطري dozhina) مع عدد بيانات قطعة Devis.

يمكن رسم المكونات على مخطط التوزيع بهذه الطريقة.

يوضح هذا الرسم البياني فكرة المكون الأول أو المكون الرئيسي ، والذي يضمن ارتباط البيانات الأمثل - يتم رسم خط آخر على مثل هذا الرسم البياني ، ولا ينشئ مجموعة من القيم المتوقعة لنقاط البيانات على الخط مع أقل تشتت.

يمكن أيضًا إضافة المكون الأول إلى الانحدار مع تغيير وزن الرأس (RMA) ، حيث يتم نقله ، مثل x- ، لذلك قد يكون لـ y-change عفوًا أو عدم أهمية ، أو لا يوجد فرق واضح بين الرأس والريح.

طريقة مكونات الرأس في الاقتصاد القياسي هي تحليل التغييرات ، مثل الناتج القومي الإجمالي ، والتضخم ، وأسعار الصرف ، وما إلى ذلك ، ثم نقوم بتقييمها من أجل التقدير الواضح ، وترتيب الرأس ، وإجمالي السلاسل الزمنية. ومع ذلك ، يمكن تعديل نماذج الاقتصاد القياسي للبرامج الغنية ، ولكن ليس لبرامج الاقتصاد الكلي. وبالتالي ، فإن الاقتصاد القياسي يعني العالم الاقتصادي.

يوضح تطوير الأساليب الإحصائية وصولاً إلى أفضل القياسات الاقتصادية للبيانات العلاقة المتبادلة بين التغيرات الاقتصادية. مثال بسيط لنموذج الاقتصاد القياسي. من المتوقع أن يتعافى غالبية الناس بطريقة خطية اعتمادًا على دخل الناجين في الشهر السابق. نفس النموذج قابل للطي

مهمة الاقتصاد القياسي هي تقييم تقديرات المعلمات أ و ب. يسمح عدد المعلمات المقدرة ، لأنها منتصرة في النموذج المتساوي ، بالتنبؤ بالقيمة المستقبلية للحياة ، لأنها تكمن في دخل الشهر السابق. تحت ساعة لتطوير هذه الأنواع من النماذج ، من الضروري ضمان بضع لحظات:

  • طبيعة عملية النقل التي تولد البيانات ؛
  • rіven يعرف عن tse ؛
  • توسيع النظام
  • شكل من أشكال التحليل
  • توقعات obriy
  • الطي الرياضي للنظام.

جميع الأسباب مهمة ، فتلك القطع فيها تكمن في عفو dzherela ، مثل النماذج. بالإضافة إلى ذلك ، لحل هذه المشاكل ، من الضروري تصميم طريقة تنبؤ. يمكن إحضاره إلى نموذج خطي ، لكنه لا يزال اختيارًا صغيرًا. هذا النوع هو أحد أهم الأنواع ، حيث يمكنك إنشاء تحليل تنبؤي.

إحصائيات غير بارامترية

يجب أن تكون طريقة مكونات الرأس للبيانات غير المعلمية سابقة على طرق العالم ، والتي يتم تصنيف البيانات الخاصة بها من المحصلة النهائية. تستخدم الأساليب الإحصائية غير المعلمية على نطاق واسع في أنواع مختلفة من الدراسات. من الناحية العملية ، إذا لم يتم التغلب على الافتراض المتعلق بالحياة الطبيعية ، يمكن أن تؤدي الأساليب الإحصائية البارامترية إلى نتائج يمكن تقديمها في عمان. Navpaki ، طرق غير بارامترية للتخلص من أقل بدل suvori لـ rozpodіl لـ wimirami.

الرائحة الكريهة يمكن الاعتماد عليها ، بغض النظر عن حراس rozpodіlv الذي يكمن في أساساتهم. من خلال هذا البحث ، من أجل تحليل أنواع مختلفة من التصاميم التجريبية ، تم تقسيم الكثير من الأنواع المختلفة من الاختبارات اللامعلمية. تشمل هذه المشاريع تصميمًا من اختيار واحد وتصميم من خطين وتصميم من كتل عشوائية. Ninі غير حدودي bayesivsky pіdkhіd іz zastosuvannym طريقة osnovnymi komponentіv vykoristovuєtsya يبسط تحليل موثوقية الأنظمة العلوية.

نظام الدرابزين هو نظام طي نموذجي واسع النطاق مع أنظمة فرعية متبادلة ، كما لو كان ليحل محل المكونات العددية. تؤخذ موثوقية النظام في الاعتبار للزيارات الثانية من الخدمة الفنية ، وستتطلب الإدارة الاقتصادية للأصول تقييمًا دقيقًا للموثوقية عند أدنى مستوى. قم بتكوين البيانات الحقيقية - nadіnost - أقل من المكونات المتساوية لنظام الهواء ، والتي تتوفر دائمًا في الممارسة العملية ، ولكن حول اكتمالها. Rozpodil zhittєvih tsiklіv komponentіv vіd virobnikіv غالبًا hovaєєєєє sladnyuєєєєє sladnyuєєsya vikoristannyam الفعلي ووسط العمل. وبهذه الطريقة يتم تحليل صدق تحليل حيوية المنهجية لتقدير ساعة عمر المكون في الأذهان لوجود بيانات حول الخطاب.

انتصر أسلوب المكونات الرئيسية في العلوم الحديثة لتحقيق مهمتين رئيسيتين:

  • تحليل بيانات الدراسات الاجتماعية ؛
  • إلهام نماذج من Susplnyh yavisch.

خوارزميات لتوزيع النماذج

تعطي خوارزميات طريقة المكونات الرئيسية مزيدًا من المعلومات حول بنية النموذج وتفسيره. تشير الرائحة الكريهة إلى كيفية فوز PCA في مختلف التخصصات. خوارزمية لـ NIPALS المربعة غير الخطية التكرارية الجزئية باستخدام طريقة حساب المكون الأخير. يمكن تثبيت العملية الحسابية في نهاية السطر ، إذا كنت تهتم بما يكفي بحيث يكون ذلك كافيًا. قد تميل المزيد من حزم الكمبيوتر إلى الفوز بخوارزمية NIPALS ، ولكن هناك ميزتان رئيسيتان:

  • بيانات Vіn opratsovuє vіdsutnі ؛
  • حساب المكونات بالتسلسل.

عرض ميتا للخوارزمية:

  • إعطاء معلومات إضافية عن تلك التي تعني الترويج لذلك التقييم ؛
  • يوضح كيف أن مكون الجلد لا يتعامد مع المكونات الأخرى ؛
  • أظهر كيف يمكن للخوارزمية معالجة البيانات المتوفرة.

تقوم الخوارزمية برسم مكون الجلد بالتسلسل ، بدءًا من الأول مباشرة بأكبر تباين ، ثم الآخر ، وهكذا. NIPALS يحسب مكونًا واحدًا في كل مرة. حساب المعادل الأول لـ t1t1 ، بالإضافة إلى متجهات p1p1 ، إذا كنت ستعرف من قيمة الطاقة أو توزيع القيم الفردية ، يمكنك معالجة البيانات في XX. تتلاقى Vіn دائمًا ، لكن zbіzhnіst іnоdі mоzhe bіlnoy. إنه مألوف أيضًا ، مثل خوارزمية الضيق لحساب متجهات الطاقة وقيم الطاقة ، ويعمل جيدًا لمجموعات البيانات الكبيرة. اخترق Google الخوارزمية لإصدارات مبكرة من نظام الألغاز المعتمد على الطاقة.

فيما يلي خوارزمية قراءات NIPALS.

يتم حساب تقديرات معامل المصفوفة T على أنها T = XW وغالبًا ما يتم حساب معاملات انحدار المربعات B من Y على X على أنها B = WQ. يمكن وصف طريقة بديلة لتقدير أجزاء انحدار المربعات الصغرى الجزئية على النحو التالي.

طريقة مكونات الرأس هي أداة لتحديد المحاور الرئيسية للتشتت في مجموعة البيانات وتتيح لك متابعة التغييرات الرئيسية في البيانات بسهولة. تعد طريقة التخزين الصحيحة واحدة من أكثر الطرق تقدمًا في مجموعة أدوات تحليل البيانات.

يعتبر تحليل المكونات طرقًا مختلفة لتقليل الحجم. فن الانتقام بطريقة واحدة - طريق المكونات الرئيسية. توجد مكونات الرأس في نظام إحداثيات متعامد ، ويميز تباين المكونات قوتها الإحصائية.

Vrahovyuchi ، التي تتميز أهداف النجاح في الاقتصاد بعدد كبير من العلامات ، مما يؤثر على عدد كبير من أسباب vipadkovy.

حساب المكونات الرئيسية

المكون الأول للرأس Z1 للنظام هو العلامة X1 ، X2 ، X3 ، X4 ، ... ، يُطلق على Xn مثل هذه التركيبة الخطية الموحدة المركزية من العلامات ، حيث تكون وسط أصغر مجموعات متطابقة مركزية من علامات أقصى قدر من التشتت.

كمكون رئيسي آخر Z2 ، سوف نأخذ مثل هذه التركيبة المركزية - المعتادة من العلامات ، مثل:

لا ترتبط بمكون الرأس الأول ،

غير مرتبط بمكون الرأس الأول ، فإن هذا المزيج له أكبر تشتت.

يُطلق على مكون الرأس K-th Zk (k = 1… m) علامة تركيبة مركزية موحدة ، مثل:

غير مرتبطة بما يصل إلى -1 مكونات رأس أمامية ،

وسط أكثر المجموعات الممكنة من العلامات الخارجية ، إن لم يكن كذلك

لا ترتبط مع ما يصل إلى -1 من مكونات الرأس الأمامية ، فإن هذا المزيج له أكبر قدر من التشتت.

دعونا نقدم مصفوفة متعامدة U وننتقل من تغيير X إلى متغير Z ، علاوة على ذلك

يتم اختيار المتجه بحيث يكون التشتت أقصى حد. إذا تم اختيار الحيازة ، بحيث يكون التشتت الحد الأقصى للعقل ، والذي لا يرتبط مع إلخ.

Oskіlki znaka vymiryanі في قيم neporіvnyannymi ، فمن الأفضل الانتقال إلى القيم المركزية. تُعرف مصفوفة القيم الخارجية المتمركزة في الوسط من المرجع:

غير متحيز ، من الممكن أن يكون التقييم الفعال للدرجات الرياضية ممكنًا ،

بدون تغيير ، من الممكن أن يكون هناك تقييم فعال للتشتت.

مصفوفة التحذيرات من معنى العلامات الخارجية أشار إليها دوداتكو.

يتم التمركز والتوحيد بمساعدة برنامج "Stadia".

إذا كانت هناك علامات على التمركز والتطبيع ، فيمكن تطوير تقييم مصفوفة الارتباط باستخدام الصيغة:


قبل ذلك ، بينما نجري تحليلًا للمكونات ، سنقوم بتحليل استقلالية العلامات الخارجية.

إعادة التحقق من أهمية مصفوفة الارتباطات الذكورية لمعيار ويلكس الإضافي.

نصنع فرضية:

H0: غير مهم

H1: هام

125,7; (0,05;3,3) = 7,8

منذ> ، ثم يتم اعتبار الفرضية H0 والمصفوفة مهمة ، وبالتالي ، من الممكن إجراء تحليل مكون.

عكس الفرضية حول قطرية مصفوفة التغاير

نصنع فرضية:

إحصاءات Budєmo ، rozpodіlenu للقانون من خطوات الحرية.

123,21, (0,05;10) =18,307

منذ> ، ثم يتم النظر في الفرضية H0 ومن الممكن إجراء تحليل مكون.

لتحفيز مصفوفات ابتكارات عاملية ، من الضروري تعيين الأرقام المناسبة للمصفوفة ، مما يخالف المحاذاة.

من الضروري استخدام وظيفة eigenvals لنظام MathCAD للعملية ، حيث تقوم بتدوير أرقام المصفوفة باستخدام الطاقة:

لأن لم نحذف قوة العدد وقوة متجه المصفوفة ، بل أخذنا التقدير. لنا tsіkavitime naskіlki "جيدة" zі statisticheskij point zor vibrkovі تصف خصائص vіdpovіdnі معلمات sukupnostі العامة.

يتبع فاصل الثقة لرقم الأس i هذه الصيغة:

تبدو الفترات الزمنية المجانية لأرقامهم في النتيجة كما يلي:

يتم أخذ تقييم قيمة عدد من أفضل الأرقام من فاصل الثقة لأصغر الأرقام. من الضروري عكس الفرضية حول تعدد أرقام القوة.

مطلوب إعادة التحقق من التعددية للحصول على إحصائيات إضافية

عدد الجذور المتعددة.

يتم تقسيم إحصائيات Tsya في وقت العدالة وفقًا للقانون من عدد درجات الحرية. فرضيات Visunemo:

فرضية Oskіlki vydkidaetsya ، وبالتالي فإن قوة العدد وليس مضاعفات.

فرضية Oskіlki vydkidaetsya ، وبالتالي فإن قوة العدد وليس مضاعفات.

من الضروري رؤية المكونات الرئيسية فقط على مستوى المعلوماتية 0.85. يُظهر عالم المعلومات جزءًا أو جزءًا من تباين العلامات الخارجية لتشكيل مكونات الرأس الأولى. لعالم المعلومات ، نسمي القيمة:

على مستوى معين من المعلومات ، شوهدت ثلاثة مكونات رئيسية.

لنكتب المصفوفة =

لإزالة المتجه الطبيعي للانتقال من العلامات الخارجية إلى المكونات الرئيسية ، من الضروري تغيير نظام المعادلة: بعد تصحيح حل النظام ، من الضروري تطبيع متجه التصحيح.

لتنفيذ هذه المهمة ، نستخدم وظيفة eigenvec لنظام MathCAD ، كطريقة لتدوير متجه التطبيع لرقم طاقة متغير.

في رأينا ، المكونات الأربعة الأولى كافية للوصول إلى مستوى معين من المعلومات ، لذا المصفوفة U

سنكون المصفوفة U ، وأعمدةها هي متجهات القوة:

مصفوفة معاملاتك:

معاملات المصفوفة A معاملات الارتباط بين العلامات الخارجية المركزية والمطابقة ومكونات الرأس غير الطبيعية ، وتظهر الوضوح والقوة والاتصال الخطي المباشر بين العلامات الخارجية ومكونات الرأس الخارجية.

طريقة المكون الرئيسي

طريقة المكون الرئيسي(إنجل. تحليل المكون الرئيسي ، PCA ) إحدى الطرق الرئيسية لتغيير تنوع البيانات باستخدام أقل قدر من المعلومات. فينايدني ك.بيرسون كارل بيرسون ) في ص. Zastosovuetsya في المناطق الغنية ، مثل التعرف على الصور ، الكمبيوتر zir ، فوضى البيانات ، وما إلى ذلك. طريقة أخرى للمكونات الرئيسية تسمى لتحولات Karhunen-Loev(إنجل. كارهونين-لوف) أو تحول هوتلينغ (م. هوتلينغ تحويل). هناك طرق أخرى لتغيير تنوع البيانات وهي طريقة المكونات المستقلة ، والقياس الغني ، وكذلك التجميع العددي غير الخطي: طريقة منحنيات الرأس والتباين ، وطريقة الخرائط الربيعية ، وأفضل طريقة الإسقاط (eng. السعي وراء الإسقاط) ، طريقة neuromerezhev "صوت الحلق" ، ذلك іn.

بيان رسمي للمشكلة

مهمة تحليل المكونات الرئيسية ، على الأقل ، على الأقل ، بعض الصيغ الأساسية على الأقل:

  • لتقريب البيانات مع اختلافات خطية ذات أبعاد أقل ؛
  • لمعرفة المساحة الجزئية للحجم الأصغر ، في الإسقاط المتعامد على yak_rozkid danih (بحيث يكون الامتداد المتوسط ​​للقيمة المتوسطة) هو الحد الأقصى ؛
  • لمعرفة الفضاء الجزئي للحجم الأصغر ، في الإسقاط المتعامد على الياك يعني المسافة المربعة بين النقطتين قدر الإمكان ؛
  • للحصول على قيمة متغيرة غنية معينة ، استحث مثل هذا التحويل المتعامد للإحداثيات الذي يتحول إلى الصفر نتيجة الارتباط بين الإحداثيات الأخرى.

تعمل الإصدارات الثلاثة الأولى مع الدرجات النهائية من البيانات. الرائحة الكريهة مكافئة وليست بديلة لأي فرضية حول التوليد الإحصائي للبيانات. الإصدار الرابع يعتمد على القيم الرأسية. Kіntsevі mulіnіnі z'yavlyayutsya yavlyayutsya هنا مثل vybіrki z المعطى rozpodіlu ، و vіrіshennya truh first zavdan - yak prizhennja إلى التناسخ "الحقيقي" لـ Karhunen-Loev. نحن نلوم الإضافة والعرض التافه بأكمله لدقة النهج.

تقريب البيانات بالاختلافات الخطية

رسم توضيحي للعمل الشهير لـ K. Pirson (1901): معطى نقاط على الطائرة ، - انتقل مباشرة إلى الخط المستقيم. Shukaetsya مباشرة ، scho تقليل المبلغ

نشأت طريقة مكونات الرأس من مهمة أفضل تقريب للمضاعف النهائي للنقاط بواسطة الخطوط المستقيمة والطائرات (K.Pirson ، 1901). دانا كونتسيفا ناقلات مجهولة. بالنسبة لبيئات البشرة ، نحتاج إلى معرفة أن مجموع مربعات الصحة ضئيل:

,

دي - إقليدي من النقطة إلى الفرق الخطي. Be-yak - يمكن إعطاء raznomanittya الخطي بشكل سلمي كمجموعات خطية مجهولة ، وتمر معلمات de عبر خط الكلام ، و - الكتابة المتعامدة للمتجهات

,

القاعدة الإقليدية ، - التدوير العددي الإقليدي ، أو في شكل تنسيق:

.

يتم إعطاء تطوير مشكلة التقريب من خلال مجموعة من مدخلات الفروق الخطية ،. يتم تحديد عدد الاختلافات الخطية بواسطة مجموعة متعامدة من المتجهات (ناقلات للمكونات الرئيسية) ومتجه. يبدو المتجه كحل لمشكلة التصغير من أجل:

.

يمكن العثور على نواقل المكونات الرئيسية كحل لمشاكل التحسين المماثلة:

1) البيانات المركزية (المتوسط ​​المرئي):. حاليا؛ 2) نحن نعرف المكون الرئيسي الأول كمهمة ؛ . إذا لم يكن هناك حل واحد ، فإننا نختار أحدهم. 3) يمكننا أن نرى من هذا الإسقاط لمكون الرأس الأول: ؛ 4) يعرف المكون الرئيسي الآخر كيفية حل المشكلة. إذا لم يكن هناك حل واحد ، فإننا نختار أحدهم. ... 2 ك -1) يمكننا أن نرى الإسقاط على مكون الرأس -th (تخمين أن الإسقاطات على المكونات الرئيسية الأمامية مرئية بالفعل):؛ 2 ك) يُعرف مكون الرأس k بأنه حل المشكلة:. إذا لم يكن هناك حل واحد ، فإننا نختار أحدهم. ...

في المرحلة الجلدية ، نرى بروزًا على مكون الرأس الأمامي. تم العثور على نواقل المطابقة المتعامدة ببساطة نتيجة لتطوير مشكلة التحسين الموصوفة ، حتى لا يتم منح العفو للحساب وتدمير التعامد المتبادل للمتجه في مكونات الرأس ، يمكنك تشغيل مهمة التحسين.

يمكن أن يكون عدم كفاية الجريمة المخصصة لسوافيل تافهة في اختيار علامة (وإنجاز نفس المهمة) أكثر دقة ومراعاة ، على سبيل المثال ، من أذهان تناسق البيانات. باقي مكونات الرأس عبارة عن ناقل متعامد واحد متعامد مع الجزء الأمامي.

ابحث عن الإسقاطات المتعامدة مع أكبر الاختلافات

يزيد مكون الرأس الأول من التباين الاهتزازي لإسقاط البيانات

دعونا نحصل على تمركز مجموعة من متجهات البيانات (المتوسط ​​الحسابي للقيمة يساوي الصفر). المهمة - لمعرفة مثل هذا التحول المتعامد إلى نظام إحداثيات جديد ، والذي سيكون صحيحًا مثل هذه الشروط:

تم إنشاء نظرية المحاذاة الفردية بواسطة J.J.Silvester (Eng. جيمس جوزيف سيلفستر ) في م.

خوارزمية تحلل مفردة تكرارية بسيطة

يتمثل الإجراء الرئيسي في البحث عن أفضل تقريب لمصفوفة كبيرة بدرجة كافية في شكل مصفوفة (ناقل دي العالم ، متجه العالم) بطريقة المربعات الصغرى:

يُعطى حل المشكلة عن طريق التكرارات المتتالية باتباع الصيغ الصريحة. باستخدام متجه ثابت ، يتم تخصيص القيم التي تقدم الحد الأدنى بشكل فريد وصريح للمساواة:

وبالمثل ، مع متجه ثابت ، يتم تعيين القيم التالية:

كتقريب للمتجه ، نأخذ متجهًا متغيرًا لقيمة واحدة ، ويتم حساب المتجه ، ويتم حساب المتجه لهذا المتجه ، إلخ. يتم تغيير القيمة. كمعيار للتقلب ، هناك ثلاثة تغييرات مميزة في قيمة الوظيفة المصغرة لتكرار قصير () أو ثلاثة من أهمها.

تم طرح نتيجة المصفوفة من أقرب تقريب لنوع المصفوفة (هنا ، أعلى مؤشر للقيم هو رقم التقريب). علاوة على ذلك ، من المصفوفة ، يمكنني رؤية المصفوفة وللمصفوفة التي تمت إزالتها ، تبحث الحيلة مرة أخرى عن أفضل تقريب من نفس النوع ، وما إلى ذلك ، حتى يصبح المعيار ، على سبيل المثال ، صغيرًا بدرجة كافية. خلال الحرب ، استبعدنا الإجراء التكراري لوضع المصفوفة كمجموع من المصفوفات من الرتبة 1 ، يجب أن. نتيجة لذلك ، تم التخلص من تقريب الأرقام الفردية والمتجهات الفردية (يمين - ويسار -).

قبل أن تتمكن الخوارزمية من التغلب عليها ، بساطتها والقدرة على نقلها دون تغيير إلى البيانات التي بها فجوات ، وكذلك البيانات المهمة.

إنشاء تعديلات مختلفة للخوارزمية الأساسية لتحسين الدقة والاستقرار. على سبيل المثال ، نواقل مكونات الرأس في حالة وجود عيوب مختلفة متعامدة "حسب العادات" ، بروتين مع عدد كبير من التكرارات (تنوع كبير ، مكون غني)

الترتيب الفردي للموترات وطريقة الموتر لمكونات الرأس

في كثير من الأحيان ، قد يضيف متجه البيانات إلى بنية الجدول المستطيل (على سبيل المثال ، مستوى الصورة) لإنشاء جدول غني - إلى الموتر: ،. من المفيد أيضًا أن يكون لهذا الشخص تصميم فريد. المعين ، يمكن نقل الصيغ الرئيسية للخوارزميات عمليًا دون تغييرات: قد يكون استبدال مصفوفة البيانات هو قيمة الفهرس ، والفهرس الأول هو رقم نقطة (موتر) البيانات.

الإجراء الرئيسي هو البحث عن أفضل تقريب للموتر بواسطة موتر من النموذج (متجه السلام (- عدد نقاط البيانات) ، - متجه الحجم في) بطريقة المربعات الصغرى:

يُعطى حل المشكلة عن طريق التكرارات المتتالية باتباع الصيغ الصريحة. في واقع الأمر ، يتم تعيين جميع ناقلات - مضاعفات قرمزي واحد ، والذي تم استبعاده يتم تمثيله بوضوح من قبل عدد كافٍ من العقول على الأقل.

في بداية القرب من المتجه () خذ المتجه المعاكس والقيمة الفردية ، واحسب المتجه ، واعطِ هذا المتجه وهذه المتجهات في متجه الحساب ، وما إلى ذلك (الفرز الدوري من خلال الفهرس) الخوارزمية ، ربما تتقارب. كمعيار للتقلب ، هناك ثلاثة تغييرات مهمة في قيمة الوظيفة المصغرة لدورة ، أو ثلاثة من أهمها. أبعد ، من التوتر يمكن للمرء أن يرى القرب والزيادة مرة أخرى shukayemo أفضل قرب من نفس النوع. برعم ، كزة ، على سبيل المثال ، فإن معيار فائض chergovogo سيكون صغيرًا.

يتم استخدام هذا التخطيط المفرد ذو المكونات الغنية (طريقة الموتر لمكونات الرأس) بنجاح عند معالجة الصور وإشارات الفيديو وبيانات أوسع أو أكثر أو أقل ، بحيث يمكن تشكيل هيكل جدولي أو موتر.

تحويل المصفوفة إلى المكونات الرئيسية

تتكون مصفوفة تحويل البيانات إلى المكونات الرئيسية من نواقل المكونات الرئيسية ، مرتبة حسب ترتيب تغيير قيمها:

(يعني التحويل) ،

Tobto ، المصفوفة متعامدة.

سيتم تمييز معظم أشكال هذه البيانات في الإحداثيات الأولى ، مما يسمح لك بالانتقال إلى مساحة أقل.

تشتت زالشكوف

أعط بيانات التمركز ،. عند استبدال متجهات البيانات في الإسقاط الرئيسي على مكون الرأس الأول ، يتم إدخال متوسط ​​مربع العفو من القيامة لكل متجه بيانات واحد:

حيث يتم فرز قيم مصفوفة التغاير التجريبية حسب ترتيب التغيير ، مع تعديل التعددية.

تسمى قيمة Tsya التشتت الزائد. قيمة

مسمى وأوضح التشتت. Їhnya sum dorivnyuє Vibkovіy التباين. ساحة Vіdpovіdny vіdnoї العفو - tsі vіdnennia فائض التباين إلى تباين Vdpovіdny (tobto جزء من التباين غير المبرر):

للحصول على عفو رائع ، يتم تقييم تقييم طريقة المكونات الرئيسية مع التصميم على المكونات الأولى.

احترام: في معظم خوارزميات الترقيم ، يتم احتساب أرقام القوة مع أقوى نواقل الطاقة - مكونات الرأس بالترتيب "من الأكبر إلى الأصغر". للحساب ، يكفي حساب الأرقام الأولى ومصفوفة التغاير التجريبية التالية (مجموع العناصر القطرية ، أي الفروق على طول المحاور). تودي

اختيار المكونات الرئيسية وفقًا لقاعدة القيصر

Tsіlovy pіdkhіd قبل تقدير عدد مكونات الرأس للتباين الموضح المتكرر الضروري بشكل رسمي zastosovuє zavzhd ، نقل البروتين ضمنيًا ، scho podіl إلى "إشارة" و "ضوضاء" ، وما إذا كانت دقة المستشعر محددة مسبقًا أم لا. هذا هو السبب في أنها غالبًا ما تكون استكشافية أخرى منتجة ، والتي تستند إلى فرضية حول وجود "إشارة" (حجم صغير بشكل موحد ، اتساع كبير بوضوح) و "ضوضاء" (حجم كبير ، سعة صغيرة بوضوح). من الوهلة الأولى ، تعمل طريقة المكونات الرئيسية كمرشح: والأهم من ذلك ، يتم إزالة الإشارة في إسقاط المكونات الرئيسية الأولى ، وتكون نسبة الضوضاء أكثر ثراءً في المكونات الأخرى.

التغذية: كيف يتم تقييم عدد المكونات الأساسية الضرورية ، كما لو أن نسبة الإشارة / الضوضاء غير معروفة مسبقًا؟

تم تقديم أبسط وأقدم طريقة لاختيار مكونات الرأس حكم القيصر(إنجل. حكم القيصر): أهم المكونات الرئيسية التي

لتغيير متوسط ​​القيمة (متوسط ​​التشتت الاهتزازي لإحداثيات ناقل البيانات). تُطبَّق قاعدة القيصر جيدًا في أبسط الحالات ، إذا كان هناك عدد قليل من المكونات الرئيسية ، فإن القيمة المتوسطة تنقلب بشكل كبير ، وتكون أرقام القوة الأخرى أصغر من الرقم الجديد. في حالات الطي ، يمكن أن تعطي مكونات رئيسية أكثر أهمية. نظرًا للتطبيع لتشتت اهتزازي واحد على طول المحاور ، فإن قاعدة Kaiser بسيطة بشكل خاص في المظهر: المكونات الرئيسية المهمة التي

تقدير عدد المكونات الرئيسية حسب قاعدة العصا الشريرة

مثال: تقدير عدد المكونات الرئيسية حسب قاعدة القصب المكسور في الحجم 5.

أحد الأساليب التجريبية الأكثر شيوعًا لتقييم عدد مكونات الرأس الضرورية هو حكم قصب الشر(إنجل. نموذج العصا المكسورة). مجموعة من التسويات لمجموع واحد من جميع الأرقام (،) تساوي الفرق بين نقاط قصب أولامكوف لدوزينا واحد ، يتم كسر النقطة المكسورة (يتم اهتزاز النقاط بشكل مستقل وتساوي نقاط القصب ). هيا () - Dovzhini otrimanih shmatkіv القصب ، مرقمة بترتيب تغيير dozhini :. لا يهم معرفة الصقل الرياضي:

وفقًا لقاعدة العصا الشريرة ، يتم أخذ متجه القوة th (بترتيب تغيير أرقام القوة) من قائمة مكونات الرأس ، مما يعني

أرز. وأشار بعقب ل vipad 5 أضعاف:

=(1+1/2+1/3+1/4+1/5)/5; =(1/2+1/3+1/4+1/5)/5; =(1/3+1/4+1/5)/5; =(1/4+1/5)/5; =(1/5)/5.

تم اختياره لعقب

=0.5; =0.3; =0.1; =0.06; =0.04.

وفقًا لقاعدة القصبة الشريرة ، يوجد في هذا المؤخرة مكونان من السخونة:

وفقًا لتقديرات coristuvachs ، قد تميل قاعدة العصا الشريرة إلى التقليل من عدد المكونات الرئيسية المهمة.

تقنين

التقنين بعد التخفيض إلى المكونات الرئيسية

بعدالتصميم على المكونات الرئيسية الأولى والتطبيع يدويًا إلى تشتت واحد (انتقائي) على طول المحاور. يعد تشتت الهواء والمكون الرئيسي أكثر تكلفة) ، لذلك من الضروري للتطبيع تقسيم الإحداثيات المقابلة على. هذا التحول ليس متعامدًا ولا يتطلب إنشاءًا قياسيًا. تصبح مصفوفة التغاير لإسقاط البيانات مفردة بعد التطبيع ، والتوقعات حول ما إذا كان الخطان المتعامدان يصبحان كميات مستقلة أم لا ، وما إذا كان الأساس المتعامد يصبح أساس المكونات الرئيسية أم لا (التخمين أن التطبيع يغير تعامد المتجه). Vіdobrazhennya من امتداد بيانات الإخراج على مكونات الرأس الأولى وفي نفس الوقت مع التطبيع يتم تقديمه بواسطة المصفوفة

.

غالبًا ما يُطلق على التحول نفسه اسم تحول كارهونين-لوف. هنا نواقل ، والفهرس العلوي يعني التبديل.

التقنين حتى حساب المكونات الرئيسية

تقدم: ليس أثر تقنين طائش ، كما يجب القيام به بعد التحول إلى المكونات الرئيسية ، مع التقنين و "العصبية" عند إعادة توزيع البيانات، والتي يتم إجراؤها قبل حساب المكونات الرئيسية. يعد التطبيع إلى الأمام ضروريًا للاختيار الدائري للمقاييس ، حيث يمكن حساب أفضل تقريب للبيانات ، أو يجب حساب الخط الأكثر استقامة لأكبر توزيع (وهو ما يعادله). على سبيل المثال ، إذا تم تقديمه بواسطة نواقل بسيطة من "الأمتار واللترات والكيلوغرامات" ، فعندئذٍ مع اختلاف الفرق الإقليدي القياسي البالغ 1 متر على طول الإحداثي الأول ، ستعمل نفس المساهمة ، بحيث يكون الفرق 1 لتر على أخرى ، أو 1 كجم على الثالث. قم باستدعاء أنظمة 1 ، التي يتم تقديم البيانات المرئية لها ، وتعكس بشكل غير كافٍ بياناتنا حول المقاييس الطبيعية على طول المحاور ، وقم بتنفيذ "نزع السلاح": ينقسم تنسيق الجلد إلى مقياس غنائي ، يتم تعيينه على أنه بيانات ، والأرقام من معالجة وعمليات vimiryuvannya وجمع البيانات.

هناك ثلاث طرق قياسية مختلفة لمثل هذا التوحيد القياسي: تباين واحدعلى طول المحاور (المقياس على طول المحاور يساوي متوسط ​​التحسين التربيعي - بعد تحجيم التحويل الثاني لمصفوفة التغاير باستخدام مصفوفة معاملات الارتباط) ، على يساوي دقة العالم(مقياس على طول محور الدقة النسبية للقيمة المعطاة) وما فوق vimogi متساويةفي المهمة (يتم تحديد المقياس على طول المحور بالدقة اللازمة للتنبؤ بقيمة معينة ، أو من خلال الأحداث المقبولة - التسامح المتساوي). مقدمة إلى تنشيط المهام في اهتزاز المهام ، وعملت على الاستحواذ على Dones (لم يكتمل جزء من Yakschko Dia Dia Dia Dani ، ثم بشكل غير مباشر Vyibrates Normuvnaya بدقة على هوية التشتت ، Navischko Tseva Vіdpovіdaє Zm_sta Delivani ، الجزء الجديد Oskilki Tsey otrimannya ، اختر بحكمة مقياسًا معقولًا ، وتقييم المدخول القياسي تقريبًا ، ولا تغيره أكثر).

ينهار التطبيع الأمامي للتشتت الفردي على طول المحاور عن طريق قلب نظام الإحداثيات ، حيث أن المحاور هي مكونات الرأس ، والتطبيع عند إعادة عمل البيانات لا يحل محل التطبيع بعد تقليل مكونات الرأس.

القياس الميكانيكي وطريقة مكونات الرأس لبيانات الترتيب

من أجل مطابقة متجه الجلد للبيانات مع كتلة واحدة ، تتغير مصفوفة التغاير التجريبية مع موتر القصور الذاتي لنظام الكتل النقطية (دعونا نقسم على نفس الكتلة) ، ومشكلة مكونات الرأس - من المهام لتقليل توتر القصور الذاتي لمحاور الرأس. من الممكن كسب حرية إضافية في اختيار قيمة الكتلة لأهمية نقاط البيانات أو تفوق قيمها (تُنسب الإشادات أو الإشادات المهمة من dzherel الأكبر إلى الجماهير العظيمة). ياكشو ناقل البيانات يأمل ماسا ،ثم يتم أخذ استبدال مصفوفة التغاير التجريبية

يتم اهتزاز جميع العمليات الإضافية من الاختزال إلى المكونات الرئيسية بالطريقة نفسها ، كما هو الحال في الإصدار الرئيسي من الطريقة: نحكم على تقويم قاعدة أساس الطاقة ، فمن الممكن بشكل منظم للتغيير في قيم الطاقة ، ونقوم بتقييم المتوسط قيمة تقريب تطبيع الأرقام المعطاة من خلال جمع المكونات الأولى ،

يتم إعطاء طريقة اتصال ساخنة أكبر تعظيم قيمة مجموع المشاهدات المزدوجةبين التوقعات. للجلد نقطتان من البيانات ، يتم تقديم vaga ؛ الذي - التي . يُنتصر استبدال مصفوفة التغاير التجريبية

عندما يتم تعيين المصفوفة المتماثلة بشكل إيجابي ، تكون المقاييس في شكل تربيعي موجب:

لقد قدمنا ​​تسوية تقويمية لأساس القوة ، وطلبنا ذلك بعد سقوط قيم القدرة ، وتقدير متوسط ​​العفو لتقريب البيانات بواسطة المكونات الأولى ، وما إلى ذلك - تمامًا بالطريقة نفسها ، كما في الخوارزمية الرئيسية.

طريقه إلى الركود لظهور الطبقات: بالنسبة للفئات المختلفة ، يتم تحديد vaga vaga أعلى ، وأقل للنقاط من نفس الفئة. بهذه الطريقة ، في الإسقاط على الرتب ، المكونات الرئيسية لفئة مختلفة "rozsuvayutsya" على نطاق أوسع.

المزيد من zastosuvannya - تقليل ضخ الحيل الكبيرة(Outlayer ، م. الناشز ) ؛ بهذه الطريقة ، يتم وصف تعديل طريقة مكون الرأس ، وهو أكثر قوة وأقل كلاسيكية.

مصطلحات خاصة

إحصاءات طريقة مكون الرأس لها عدد من المصطلحات الخاصة.

مصفوفة البيانات؛ صف جلدي - ناقل إعادة التدريبدانيه ( التمركزو صحيح تقنين) ، عدد الصفوف - (عدد ناقلات البيانات) ، عدد الأعمدة - (توسيع البيانات) ؛

مصفوفة نافانتاجين(تحميل) ؛ kozhen stovpets - ناقلات مكونات الرأس ، عدد الصفوف - (توسيع مساحة البيانات) ، عدد stovpts - (عدد ناقلات مكونات الرأس ، التصميم المختار) ؛

مصفوفة Rachunkiv(درجات)؛ صف الجلد - إسقاط متجه البيانات على مكون الرأس ؛ عدد الصفوف - (عدد المتجهات في البيانات) ، عدد الأعمدة - (عدد النواقل في المكونات الرئيسية المختارة للتصميم) ؛

مصفوفة Z- راشونكيف(درجات Z) ؛ صف الجلد - إسقاط متجه البيانات على المكونات الرئيسية ، تم تطبيعه على تباين اهتزازي واحد ؛ عدد الصفوف - (عدد المتجهات في البيانات) ، عدد الأعمدة - (عدد النواقل في المكونات الرئيسية المختارة للتصميم) ؛

مصفوفة العفو(غير ذلك فائض) (أخطاء أو بقايا).

الصيغة الأساسية:

طريقة Mezhі zastosuvannya و zamezhennya effektivnosti

طريقة المكون الرئيسي التأكيد الأوسع حول أولئك الذين يعانون من الركود فقط بالنسبة للبيانات الموزعة بشكل طبيعي (بخلاف ذلك ، بالنسبة للورود القريبة من الطبيعي) ليس كذلك: يجب أن تكون صيغة K. تقريبيةالضرب الأخير للبيانات وفي اليوم التالي لإنشاء فرضية حول توليدهم الإحصائي ، دون أن يبدو بالفعل حول ذلك.

طريقة Prote ، والتي دائمًا ما تقلل بشكل فعال من rozmіrnіst عند ضبط التجيير من أجل الدقة. لا تقدم الطائرات المستقيمة دائمًا تقديرًا تقريبيًا جيدًا. على سبيل المثال ، يمكن أن تتبع البيانات بدقة جيدة ما إذا كان منحنى ، ويمكن فرز هذا المنحنى بدقة في مساحة البيانات. في هذه الحالة ، يجب أن تكون طريقة مكونات الرأس للحصول على دقة مقبولة أكبر من عدد المكونات (استبدال واحد) ، وإلا فلن يؤدي ذلك إلى تقليل الحجم بدقة مقبولة. للعمل مع مكونات الرأس "المنحنية" هذه ، تم العثور على طريقة اختلافات الرأس والإصدارات المختلفة لطريقة مكون الرأس غير الخطي. يمكن أن يؤدي المزيد من عدم الدقة إلى هيكل قابل للطي. لتقريبها ، وجدنا أيضًا طرقًا مختلفة ، على سبيل المثال ، خرائط Kohonen ، ذاتية التنظيم أو الغازات العصبية أو القواعد النحوية الطوبولوجية. إذا تم إنشاء البيانات المعطاة إحصائيًا من المكون الجذر ، والذي يبدو وكأنه عنصر عادي ، فعندئذٍ لتقريب مكون الجذر ، لتقريب مكون الجذر مكونات مستقلة، على الرغم من أنه لم يعد متعامدًا مع الخلق العددي الخارجي لـ Nareshti ، بالنسبة إلى rozpodіl الخواص (navіt طبيعي) ، يتم استبدال elіpsoїda rozsiyuvannya بالكرة ، ومن المستحيل تغيير rozmirnіst بطرق التقريب.

تطبيق فيكتوريا

تصور البيانات

تصور البيانات - العرض في الشكل الأصلي للبيانات للتجربة ونتائج البحث النظري.

الخيار الأول في تصور مضاعف البيانات هو الإسقاط المتعامد على مستوى المكونين الرئيسيين الأولين (أو الفضاء ثلاثي الأبعاد لمكونات الرأس الثلاثة الأولى). منطقة التصميم ، في الواقع ، عبارة عن "شاشة" مسطحة ثنائية الأبعاد ، مزدحمة بطريقة توفر "صورة" للبيانات مع أصغر الإبداعات. سيكون مثل هذا الإسقاط هو الأمثل (الإسقاطات المتعامدة المتوسطة على شاشات ثنائية الأبعاد مختلفة) لثلاثة إسقاطات:

  1. الحد الأدنى لمجموع المربعات بين نقاط البيانات إلى الإسقاطات على مساحة مكونات الرأس الأولى ، بحيث تكون شاشة التوسعات أقرب ما يمكن من حيث الإسقاط على النقاط القاتمة.
  2. الحد الأدنى لمقدار إنشاء المربعات بين المربعات هو زوج من النقاط من ظلمة البيانات بعد تصميم نقطة على مستوى.
  3. يكون الحد الأدنى لإنشاء المربعات بين نقاط البيانات و "مركز الثقل".

يعد تصور البيانات أحد الإضافات الأكثر استخدامًا لطريقة مكونات الرأس والاعتبارات غير الخطية.

ضغط الصور والفيديو

لتغيير اتساع الفضاء الخارجي للبكسل ، سيتم تشغيل ساعة تشفير الصورة والفيديو من خلال التحويل الخطي لكتل ​​البكسل. تسمح خطوات تكميم معاملات الحذف والتشفير دون إهدار بحذف معاملات الانضغاط المهمة. يعتبر التحويل البديل لـ PCA كتحويل خطي هو الأمثل لأنواع معينة من البيانات من حيث حجم البيانات المأخوذة من نفس البيانات في نفس الوقت. في الوقت الحالي ، لا يتم الترويج لهذه الطريقة بشكل نشط ، ويرجع ذلك أساسًا إلى التعقيد الحسابي الكبير. لذلك يمكن الوصول إلى ضغط هذه البيانات ، مع إظهار معاملات التحويل المتبقية.

قمع الضوضاء في الصور

القياسات الكيميائية

طريقة مكون الرأس هي إحدى الطرق الرئيسية في القياس الكيميائي. القياسات الكيميائية ). يسمح لك بتقسيم مصفوفة بيانات الإخراج X إلى جزأين: "استبدال" و "ضوضاء". بالنسبة إلى naybіlsh الشعبية viznachennyam "Chemometrics - tse hіmіchna distsiplіna scho zastosovuє matematichnі ، statistichnі that INSHI method zasnovanі on Informny logіtsі for pobudovi abo vіdboru على النحو الأمثل metryodіvper that plan

التشخيص النفسي

  1. تحليل البيانات (وصف نتائج التجربة على بعض النتائج الأخرى ، كما في حالة النظر في مصفوفات البيانات الرقمية) ؛
  2. وصف الظواهر الاجتماعية (النماذج الإيجابية للظواهر ، الزوكريما والنماذج الرياضية).

في العلوم السياسية ، تعتبر طريقة مكونات الرأس الأداة الرئيسية لمشروع "الأطلس السياسي للعالم" للتحليل الخطي وغير الخطي للتصنيفات في 192 دولة في العالم لخمسة مؤشرات متكاملة خاصة (تساوي الحياة ، دولية الدخل والتهديدات والسلطات). لرسم خرائط نتائج هذا التحليل ، تم تطوير نظام معلومات جغرافية خاص (GIS) ، وهو علامة على الامتداد الجغرافي. أيضًا ، تم إنشاء خريطة لبيانات الأطلس السياسي ، والتي تعد أساس الاختلافات الرئيسية في العالمين في امتداد العالم الخماسي للبلاد. هوية بطاقات البيانات في شكل خريطة جغرافية في ذلك ، في الخريطة الجغرافية ، تُظهر التعليمات كائنات قد يكون لها إحداثيات جغرافية متشابهة ، بينما في خريطة البيانات ، تُظهر التعليمات كائنات (حواف) بعلامات متشابهة (فهارس) .

في هذه المقالة ، أريد أن أتحدث عن هؤلاء ، باعتبارها الطريقة الأكثر عملية لتحليل المكونات الرئيسية (PCA - تحليل المكون الرئيسي) من وجهة نظر البصيرة ، والتي هي وراء الجهاز الرياضي. Naib_sh بسيط ، لكن تم الإبلاغ عنه.

الرياضيات vzagali بالفعل garna أن علم vitonchen ، ولكن في نفس الوقت الجمال hovaetsya وراء مجموعة من كرات التجريد. أظهر جمالك بشكل أكثر جمالًا على مؤخرات بسيطة ، مثل ، فليكن ، يمكنك تحريفها وتحطيمها ولمسها ، إلى الذي كنت مخطئًا فيه ، كل شيء أسهل في الرؤية ، من الأسهل إلقاء نظرة عليه من النظرة الأولى ، فهي أكثر قابلية للفهم وتكشف.

في تحليل البيانات ، كما هو الحال في أي تحليل آخر ، لن نتمكن لمدة ساعة من إنشاء نموذج بسيط يصف المعسكر الحقيقي بأكبر قدر ممكن من الدقة. غالبًا ما يحدث ذلك بحيث يتم ترسيب العلامات بشكل كبير نوعًا واحدًا من تلك الوجود لمدة ساعة واحدة هو متسامي.

على سبيل المثال ، تُقاس كمية الوقود فينا باللتر لكل 100 كيلومتر ، وتقاس الولايات المتحدة بالأميال لكل جالون. للوهلة الأولى ، حجم الاختلاف ، ولكن في الواقع تكمن الرائحة الكريهة الواحدة تلو الأخرى. الميل 1600 كم والجالون 3.8 لتر. يتم إيداع علامة واحدة بدقة في الاتجاه الآخر ، ومعرفة إحداهما ومعرفة الأخرى.

لكنها في أغلب الأحيان غنية جدًا لدرجة أن علامات الكذب واحدة تلو الأخرى ليست صارمة جدًا و (مهمة!) ليست واضحة جدًا. يساهم حجم المحرك ككل بشكل إيجابي في القيادة حتى 100 كم / سنة ، لكن لا تبدأ. وقد يظهر أيضًا أنه نظرًا لتحسن العوامل غير المرئية للوهلة الأولى (مثل زيادة قوة النار ، واستخدام المواد الخفيفة وغيرها من الإنجازات الحالية) ، فإن صوت السيارة ليس قوياً ، لكنه يمتد أيضًا إلى اليوجو.

بمعرفة صلابة تلك القوة ، يمكننا استخدام علامة sprat من خلال واحدة ، وشراء المزيد من الغضب ، لذلك حركها ، وممارسة بالفعل مع نموذج بسيط أكبر. بادئ ذي بدء ، وفر لنفسك المعلومات ، أفضل لكل شيء ، لا تستسلم ، ولكن على الأقل ، ساعدنا في استخدام طريقة PCA.

Vyslovlyuyuchis suvoro ، طريقة tsey تقترب من واقي khmara ذو البعد n إلى elіpsoїda (tezh n-virіrnogo) ، فإن pіvosі kakogo i ستكون مكونات رئيسية في المستقبل. І بالنسبة لإسقاطات هذه المحاور (الأبعاد المخفضة) يتم جمع معظم المعلومات.

Krok 1. إعداد البيانات

هنا ، من أجل البساطة ، لن آخذ مجموعة البيانات الأولية الحقيقية لعشرات العلامات ومئات التحذيرات ، لكنني سأقوم بتوسيع أبسط لعبة. تكفي علامتان و 10 تحذيرات لوصف ماذا ، والأهم هو النظر إلى الخوارزمية.

ننتج هزاز:

X = np.arange (1،11) y = 2 * x + np.random.randn (10) * 2 X = np.vstack ((x، y)) طباعة X OUT: [[1. 2. 3. 4.5.6.7.8.9.10.] [2.73446908 4.35122722 7.21132988 11.24872601 9.58103444 12.09865079 129 3.9

لدينا علامتان في هذا الاختيار ، ترتبط إحداهما بشدة بواحدة. للحصول على مساعدة من خوارزمية PCA ، يمكننا بسهولة معرفة تركيبة الإشارة وسعر جزء من المعلومات وتحديد جريمة العلامات بواحد جديد. لذلك دعونا نتفاخر!

لإحصاءات الكوب تروهي. تخمين أن هناك لحظات في وصف الحجم vipadical. نحن بحاجة ماتيوكي. ochіkuvannya هذا التباين. يمكنك أن تقول بجرأة ما حصيرة. ochіkuvannya - حجم "مركز الثقل" والتباين - tse її "razmіri". تقريبا kazhuchi ، matyuki. يشير التحجيم إلى موضع القيمة الرأسية ، والتباين - її razmіr.

لا تساهم عملية الإسقاط على متجه بأي شكل من الأشكال في متوسط ​​القيم ، لذلك من أجل تقليل فقد المعلومات إلى الحد الأدنى ، يمكن للمتجه أن يمر عبر مركز العينة. لا يوجد شيء فظيع لذلك ، لأننا نركز اختيارنا - قابل للتدمير خطيًا ، بحيث يصل متوسط ​​قيمة العلامة إلى 0.
عامل التشغيل ، الذي يُرجع القيمة إلى متجه القيم المتوسطة - هناك حاجة إلى vin لتحديث اختيار الحجم الخارجي.

Xcentered = (X - x.mean ()، X - y.mean ()) m = (x.mean ()، y.mean ()) print Xcentered print "Mean vector:"، m OUT: (array ([[ -4.5 ، -1.5 ، -0.5 ، 0.5 ، 1.5 ، 2.5 ، 3.5 ، 4.5]) ، صفيف ([- 8.44644233 ، -8.32845585 ، -4.93314426 ، -2.56723136 ، 1.01013491 ، 7.00558491 ، 0.58413491 ، 4.21440647 ، 9.59501658])) متوسط ​​المتجه : (5.5، 10.314393916)

التباين هو الوقوع في ترتيب حجم قيمة السقوط ، أي. حساسة للمقياس. لذلك ، كدليل على كونهم وحيدين في العالم ، فإنهم منزعجون بشدة من أوامرهم الخاصة ، يوصى بتوحيدها. في حالتنا ، لا تختلف المعاني كثيرًا في الترتيب ، لذا من أجل التبسيط ، لن أغير هذه العملية.

Krok 2. مصفوفة التغاير

في vipad بقيمة vipad غنية (ناقل vipad) ، سيكون موضع المركز هو نفسه. ochіkuvannyami الإسقاطات على المحور. والمحور الخاص بوصف النماذج غير كافٍ بالفعل فقط الفروق على طول المحاور. انظر إلى الرسوم البيانية ، في التقلبات الثلاثة لنفس القيم ، فإن التوقع والتباين ، مثل الإسقاطات على المحور ، متماثلان!


لوصف شكل متجه vipad ، نحتاج إلى مصفوفة.

مصفوفة تسي ، ياك ماي (اي جاي)-العنصر - علامة الارتباط (X i، X j). دعنا نخمن صيغة التغاير:

من السهل على أذهاننا أن نقول إن E (X i) = E (X j) = 0:

بكل احترام ، إذا كان X i = X j:

وهذا صحيح بالنسبة لأية قيم vipadkovyh.

بهذا الترتيب ، ستحتوي المصفوفة على طول القطر على علامة التباين (لأن i = j) ، وفي وسط المصفوفة - التغاير بين أزواج الإشارات. وبسبب تناظر التغاير ، ستكون المصفوفة أيضًا متماثلة.

احترام:مصفوفة التغاير є zagalnenny التباين بقيم متغيرة غنية مختلفة - وون ياك і يدل على قيمة الشكل (rozkid) vypadkovoї ، التباين yak і.

بادئ ذي بدء ، فإن التباين في قيمة المتغير أحادي البعد هو مصفوفة 1x1 ، حيث يوجد عضو واحد من المهام بواسطة الصيغة Cov (X ، X) = Var (X).

ثم ، دعونا نشكل مصفوفة التغاير Σ لاختيارنا. لأي تباين X i і X j وكذلك تغايرهما. يمكنك الإسراع بصيغة مكتوبة ، ولكن إذا اعتدنا على لغة بايثون ، فمن الخطيئة عدم تسريع الوظيفة numpy.cov (X). تقبل كمدخل قائمة بجميع علامات الحجم المتغير وتدور مصفوفة التغاير و de X - n متغير عالمي متجه (عدد الصفوف n). الوظيفة vіdmіnno і dkhodit і لتوسيع التباين غير المتحيز ، і للتغاير بين كميتين ، і لطي مصفوفة التغاير.
(أظن أن المصفوفة في Python عبارة عن صف صفيف من المصفوفات-الصفوف.)

Covmat = np.cov (Xcentered) print covmat ، "n" print "Variance of X:" ، np.cov (Xcentered) print "Variance of Y:" ، np.cov (Xcentered) print "Covariance X and Y:" ، np.cov (Xcentered) OUT: [[9.16666667 17.93002811] [17.93002811 37.26438587]] تباين X: 9.16666666667 تباين Y: 3: 3

كروك 3

حسنًا ، لقد أخذنا مصفوفة تصف شكل حجم القطرة ، لذا يمكننا أن نفصلها عن طريق x و y (أي X 1 و X 2) ، وكذلك الشكل المسطح على المستوى. الآن نحن بحاجة إلى معرفة مثل هذا المتجه (نوع واحد فقط) ، مع تعظيم التوسع (التشتت) لإسقاط اختيارنا على النوع الجديد.

احترام:الاختلاف الرئيسي في العالم الحقيقي هو المصفوفة المتاحة ، والمفهومان متكافئان. عند الإسقاط على متجه ، يتم تكبير تباين الإسقاط ، عند الإسقاط على مساحة شاسعة من الطلبات الكبيرة ، يتم تكبير مصفوفة التغاير بالكامل.

أيضًا ، خذ متجهًا واحدًا على بعض الإسقاط لمتجه الإسقاط X الخاص بنا. ثم الإسقاط على مسار جديد v T X. سيكون تباين الإسقاط على المتجه مشابهًا لـ Var (v T X). في العرض العام ، في نموذج المتجه (لقيم التوسيط) ، يتم التعبير عن التباين على النحو التالي:

من الواضح ، تشتت الإسقاط:

من السهل أن نتذكر أن التباين قد تم تكبيره بما يتجاوز القيمة القصوى v T v. هنا سيساعدنا إعداد رايلي. بدون التعمق في الرياضيات ، سأقول فقط أن مخططات Rayleigh يمكن أن تشكل حالة خاصة لمصفوفات التغاير:

يمكن معرفة باقي الصيغة بموضوع وضع مصفوفة على موجة من المتجهات وتلك القيمة. x هو متجه تعسفي ، وهو قيمة عشوائية. عدد المتجهات الخاصة وتلك القيمة يساوي حجم المصفوفة (يمكن تكرار قيم i).

قبل الكلام ، في اللغة الإنجليزية ، يتم استدعاء معاني هذا المتجه القيم الذاتيةі المتجهات الذاتيةبوضوح.
Meni zdaєtsya ، tse يبدو جميلًا وغنيًا (وأسلوبًا) ، يخفض شروطنا.

بهذه الطريقة ، يتغير الحد الأقصى للتباين المباشر دائمًا مع eigenvector ، والذي يمكن أن يكون له أقصى قيمة ، والتي تكون أكثر قيمة للتباين.

هذا صحيح أيضًا بالنسبة للإسقاطات على عدد أكبر من المتغيرات - سيكون التباين (مصفوفة التغاير) للإسقاط على مساحة العالم m هو الحد الأقصى للمتجهات الذاتية المباشرة m ، والتي قد يكون لها أقصى قيمة للطاقة.

تنوع اختيارنا جيد لشخصين وعدد المتجهات الذاتية فيها واضح 2. نحن نعرفها.

قامت المكتبة الرقمية بتنفيذ الوظيفة numpy.linalg.eig (X)حيث X عبارة عن مصفوفة مربعة. تقوم بتشغيل صفيفين - مجموعة من قيم eigenvalues ​​ومجموعة من المتجهات الذاتية (المتجهات). І نواقل التطبيع - їhnya dozhina dorіvnyuє 1. هي نفسها المطلوبة. تضع متجهات Qi 2 أساسًا جديدًا للاختيار ، بحيث يعتمد محورها على مبادئ الشكل البيضاوي التقريبي لاختيارنا.



في هذا الرسم البياني ، اقتربنا من اختيارنا بقطع ناقص مع نصف قطر 2 سيجما (وهذا هو السبب في أن 95٪ من جميع التحذيرات مذنبة بالانتقام - ما الذي يمكننا هنا والملصق). لقد قلبت متجهًا أكبر (الوظيفة eig (X) وجهته إلى الاتجاه العكسي) - من المهم بالنسبة لنا توجيهه ، وليس اتجاه المتجه.

Krok 4. حجم مخفض (إسقاط)

يمكن أن يكون المتجه الأكبر مستقيماً إلى الأمام ، على غرار خط الانحدار وإسقاطه على معلوماتنا التمهيدية واختيارنا الجديد ، المستمدة من مجموع شروط الانحدار الزائدة (الآن فقط إقليدية ، وليس دلتا في Y). في بعض الأحيان ، يكون وجود العلامات بين العلامات قويًا بالفعل ، وبالتالي فإن فقدان المعلومات سيكون ضئيلًا. "سعر" الإسقاط - التشتت خلف Eigenvector الأصغر - كما يتضح من الرسم البياني الأمامي ، صغير بالفعل.

احترام:توضح العناصر القطرية لمصفوفة التغاير التباينات وفقًا للأساس الأولي ، وقيم الطاقة - وفقًا للجديد (حسب المكونات الرئيسية).

غالبًا ما يكون من الضروري تقييم مقدار المعلومات التي تم إنفاقها (وحفظها). أفضل طريقة لمعرفة ذلك هي بالمئات. نأخذ التباين على طول محور الجلد ونقسمه على المجموع الكلي للتباينات على طول المحاور (أي مجموع كل أرقام القوة للمصفوفة المتاحة).
لذا ، فإن المتجه الأكبر لدينا يصف 45.994 / 46.431 * 100٪ = 99.06٪ ، ويبدو أن المتجه الأصغر يكون حوالي 0.94٪. عند تقديم متجه أصغر وإسقاط البيانات لواحد أكبر ، فإننا ننفق أقل من 1٪ من المعلومات! نتيجة Vidminny!

احترام:حقًا ، zdebilshoy ، حيث أصبح إجمالي إدخال المعلومات أكثر من 10-20 ٪ ، يمكنك تقليل الحجم بهدوء.

لتنفيذ الإسقاط ، كما تم التخطيط له مسبقًا في croc 3 ، يلزم تنفيذ العملية v T X (يرجع السبب في المتجه إلى buti dozhini 1). بخلاف ذلك ، نظرًا لأنه ليس لدينا متجه واحد ، بل مستوي فائق ، فبدلاً من المتجه v T ، نأخذ مصفوفة متجهات الأساس V T. سيكون المتجه المطروح (أو المصفوفة) عبارة عن مجموعة من الإسقاطات.

V = (-vecs، -vecs) Xnew = dot (v، Xcentered)

نقطة (س ، ص)- memberwise tvir (هذه هي الطريقة التي نضاعف بها المتجهات والمصفوفات في Python)

ليس من المهم تذكر معنى الإسقاطات في اللوحات على الرسم البياني الأمامي.

كروك 5

من الإسقاط ، تدرب يدويًا ، كن على أساس الفرضية وقم بتوسيع النموذج. لا تنسى أن تأخذ المكونات الرئيسية و matimut واضح ، عاقل من طرف ثالث ، حس. في بعض الأحيان ، تهب corisno ، على سبيل المثال ، vyyavlenі wikidi ، schob to talk ، scho للوقوف عليها.

تسي دوزه بسيط. لدينا جميع المعلومات الضرورية ، وإحداثيات متجهات الأساس في الأساس الخارجي (المتجهات التي تم تصميمها عليها) ومتجه المتوسطات (للتوسيط). خذ ، على سبيل المثال ، القيمة القصوى: 10.596 ... من أجل ذلك نقوم بضرب iogo الأيمن في متجه التحويل i dodamo متجه الوسطاء ، أو بطريقة عالمية لجميع viboki: X T v T + m

Xrestored = dot (Xnew، v) + m print "Restored:"، Xrestored print "Original:"، X [:، 9] OUT: Restored: [10.13864361 19.84190935] الأصل: [10. 19.9094

التجزئة صغيرة ، ولكن هناك المزيد. لم يتم تأكيد معلومات Adzhe vtrachena. بروتين ، لأن البساطة مهمة للدقة ، فقد ثبت أن القيمة تقترب من اليوم.

نائب زرع - إعادة فحص الخوارزمية

لاحقًا ، أخذ العالم الخوارزمية ، وأظهر كيف تعمل على لعبة ، والآن لم يعد كافيًا لمطابقة اليوغا مع PCA ، سنقوم بتنفيذها في sklearn - حتى لو كنا نصحح أنفسنا.

sklearn.decomposition import PCA pca = PCA (n_components = 1) XPCAreduced = pca.fit_transform (تبديل (X))

معامل n_commonentsأشير إلى عدد vimiryuvan ، حول كيفية تنفيذ الإسقاط ، لذلك نريد تقليل مجموعة البيانات الخاصة بنا إلى مستوى vimiryuvan. بمعنى آخر - عدد n المتجهات الذاتية مع أكبر عدد ممكن من الأرقام. دعنا نعيد النظر في نتيجة انخفاض الحجم:

طباعة "لدينا X: n" ، طباعة Xnew الجديدة "Sklearn مخفضة X: n" ، XPC ، إخراج مخفض: لدينا X: [-9.56404106 -9.02021625 -5.52974822 -2.96481262 0.68933859 0.74406645 2.33433492 7.39307974 5.3212742 10.59674254] ] [-9.02021625] [-5.52974822] [-2.96481262] [0.68933859] [0.74406645] [2.33433492] [7.39307974] [7] 5 5

قمنا بتدوير النتيجة كمصفوفة من أعمدة المتجهات (أكثر طريقة عرض متعارف عليها من وجهة نظر الجبر الخطي) ، قامت PCA في sklearn بتدوير المصفوفة الرأسية.

من حيث المبدأ ، السعر ليس حرجًا ، فقط فارتو يشير إلى أنه في الجبر الخطي من المقبول كتابة المصفوفات من خلال المتجهات ، وفي تحليل البيانات (تلك الجوانب الأخرى لمناطق قاعدة البيانات) التحذيرات (المعاملات ، السجلات) مسجلة في الصفوف.

عكس تلك المعلمات الأخرى للنموذج - يمكن أن تحتوي الوظيفة على عدد من السمات التي تتيح لك الوصول إلى المتغيرات الوسيطة:

يعني ناقلات: يعني_
- متجه الإسقاط (مصفوفة): عناصر_
- تشتت محاور الإسقاط (الاهتزاز): شرح التباين
- جزء من المعلومات (جزء من التشتت العالمي): وصف_تباين_الشرح_

احترام:شرح_تباين_عرض فيبيركوفا variance وكذلك دالة cov () لتوليد مصفوفة التغاير لا ترحمتشتت!

نأخذ القيم بالتساوي مع قيم وظيفة المكتبة.

اطبع "المتوسط ​​المتجه:" ، pca.mean_ ، طباعة m "الإسقاط:" ، pca.components_ ، v طباعة "نسبة التباين الموضحة:" ، pca.explained_variance_ratio_ ، l / sum (l) OUT: متوسط ​​المتجه: [5.5 10.31439 ( 5.5 ، 10.314393916) الإسقاط: [[0.43774316 0.89910006]] (0.43774316434772387 ، 0.89910006232167594) التباين الموضح: [41.39455058] 45.9939450918 شرح نسبة التباين: [0.99058588] 0.99058588818

الاختلاف الوحيد هو في التباينات ، ولكن كما توقعنا بالفعل ، نحن منتصرون في الوظيفة cov () ، مثل التباين المنتصر غير المتحيز ، ثم يتم تحويل سمة التباين الموضح إلى vibrkov. الرائحة الكريهة vіdrіznyayutsya أقل توقيتًا ، scho persha لحصيرة otrimannya. اقسم النتيجة على (n-1) والصديق على n. من السهل تفسير أن 45.99 ∙ (10-1) / 10 = 41.39.

تختلف جميع القيم الأخرى ، مما يعني أن خوارزمياتنا متكافئة. أحترم أن سمات خوارزمية المكتبة قد تكون أقل دقة ، أو قطع نبيذ ، أو غناء ، أو تحسينات لرمز swidcode ، أو ببساطة تقريب القيم من أجل الوضوح (وإلا فإنني أعاني من بعض الثغرات).

احترام:يتم عرض طريقة المكتبة تلقائيًا على محور يعمل على زيادة التباين. لا تكن عقلانيًا. على سبيل المثال ، لقد أحضرت هذا الطفل الصغير بشكل غير دقيق إلى الدرجة التي يصبح فيها التصنيف مستحيلًا. يمكن أن يؤدي الإسقاط النشط على متجه أصغر إلى تغيير الحجم وحفظ المصنف بنجاح.

لاحقًا ، نظرنا في مبادئ عمل خوارزمية PCA وتنفيذها في sklearn. أنا متأكد من أن هذه المقالة قد تم توضيحها لأولئك الذين بدأوا للتو في التعرف على تحليل البيانات ، وأيضًا على الأقل القليل من المعلومات لأولئك الذين يعرفون الخوارزمية جيدًا. يعد المظهر الحدسي أكثر ملاءمة لفهم كيفية ممارسة الطريقة ، والفهم أكثر أهمية من أجل التعديل الصحيح للنموذج المختار. للاحترام!

ملاحظة: Prohannya لا تنبح المؤلف لاحتمال عدم الدقة. المؤلف نفسه في طور التعلم حول تحليل البيانات ويريد المساعدة بنفس الطريقة ، حيث إنه بصدد إتقان قيمة المعرفة الرائعة! البيرة ، والنقد البناء و rіznomantny dosvіd u vitayutsya!