個のデータ
がある時、
個の主成分
とこれらの関係は、次式のような互いに独立な線形結合として表される。
主成分が多くの情報を持つようにするためには、この結合係数を上手く決めてやる必要があり、それにはデータの分散に着目する。この例を示す為にFigure 3.1のような2次元のデータを考える。この図において、データのばらつきが最も大きくなる方向に着目すると、
という軸が出来ることが分かる。これが第1主成分となり、このような軸が出来るように式(3.5)の結合係数を決定するのである。しかし、これだけではデータの持つ情報を大まかに表したとは言えない。そこで次にデータのばらつきが大きい軸、すなわち第2主成分
をとり、これによって情報量の損失を最小にしながら、
から得られる特性を上手く把握することが出来る。
ここで、もし全てのデータが一直線上に並んだならば第2主成分は0となり、
はデータの分析に全く役に立たないことになる。よって、データのばらつきである分散が大きいほど、情報を多く含んでいると言えるのである。以上の例は2次元という簡単な例であった為に、主成分分析はあまり役に立たないが、高次元であるとその効果は顕著に現れる。
ここでは分かりやすく第1主成分を取り上げて、結合係数が固有ベクトルで表されることを示す。 まず、第1主成分の分散
は式(3.7)のように与えられ、ここで
は第1主成分得点と言い、これは
番目のデータに対応する第1主成分の値をベクトルにまとめたものである。また
は分散共分散行列を表す。ここで、
で割っていることから標準分散ではなく不偏分散を用いていることが分かり、後述するRの関数もこちらを採っているようである。不偏分散は、母集団が大きく標本が少ない時に向く。
![]() |
![]() |
![]() |
|
![]() |
![]() |
||
![]() |
![]() |
(10) |
ここまで単に式を追ってきただけであったが、実際に測定や調査を行う時には、各項目は異なる単位系となることが多い。よって、単位の取り方により異なる主成分が得られることになり、 同じ単位系であっても分散が大きく異なる項目に対して主成分分析を行えば、 大きい方の影響を強く受けることになり、正しい結果が得られなくなる。そこで全ての項目を何らかの手法を用いて標準化する必要が出てくるが、広く利用されている方法として、各項目において平均1・分散1となるように正規化するものがある。このような処置を施すことで、得られる結果の信頼性を高めることが出来る。
Deguchi Lab. 2017年3月6日