まず P個のデータ があった時、 個の主成分 とこれらの関係は、 次式のような互いに独立な線形結合として表される。
ここでは第主成分と呼ばれ、その結合係数 は以下の式を満たす必要がある。
主成分が多くの情報をもつようにする為には、この結合係数を上手く決めてやる必要があり、 それにはデータの分散に着目する。この例を示す為に図3.1のような2次元のデータを考える。 この図において、データのばらつきが最も大きくなる方向に着目すると、 という軸が出来ることが分かる。 これが第1主成分となり、このような軸が出来るように式3.1の結合係数を決定するのである。 しかし、これだけではデータの持つ情報を大まかに表したとは言えない。 そこで次にデータのばらつきが大きい軸、すなわち第2主成分をとり、 これによって情報量の損失を最小にしながら、, から得られる特性を上手く把握することが出来る。
ここで、もし全てのデータが一直線上に並んだならば第2主成分は0となり、 はデータの分析に全く役に立たないことになる。 よって、データのばらつきである分散が大きいほど、情報を多く含んでいると言えるのである。 以上の例は2次元という簡単な例であった為に、主成分分析はあまり役に立たないが、 高次元であるとその効果は顕著に現れる。
結合係数の決定の仕方としては、特異値分解に基づくものとスペクトル分解に基づくものがある。 第 主成分の結合係数は、前者においてはデータ行列の番目に大きな特異値に 対応する右特異ベクトルとして与えられ、後者においては行列の番目に大きな固有値に 対応する固有ベクトルとして与えられる。前者については3.4項でもう少し詳しく説明することにして、ここでは後者について取り扱う。
ここでは分かりやすく第1主成分を取り上げて、結合係数が固有ベクトルで表されることを示す。 まず、第1主成分の分散 は式3.3のように与えられ、ここでは第1主成分得点と言い、 これは 番目のデータに対応する第1主成分の値をベクトルにまとめたものである。 または分散共分散行列を表す。ここで、で割っていることから標準分散ではなく不偏分散を用いていることが分かり、 後述するRの関数もこちらを採っているようである。不偏分散は、母集団が大きく標本が少ない時に向く。
ここでは単位行列を示し、式3.5のように固有方程式が得られた。 このことより、結合係数は分散共分散行列の固有値および固有ベクトルとして与えられることが分かる。 この固有値が大きい主成分ほど情報を多くもっていることになり、大きい固有値から順に、 その対応する主成分が第1主成分, 第2主成分, , 第主成分に当たる。 また式3.3に式3.4, 式3.2を代入することにより、以下の式が導かれる。
(3.6) |
これは先程述べたように分散が情報の大きさを決定していることを示しており、 最大値をとるべき は最大固有値に等しい必要がある。 これまでのことを以下第主成分まで同様に導くことが出来る。 以上のことより、結合係数は最大固有値に対する固有ベクトルとして求められ、 これがスペクトル分解に基づく結合係数の決め方になる。 なお、ここまで分散共分散行列を使って主成分分析を行う方法を記したが、 相関係数行列を使って行う方法もある。どちらも一長一短であり、どちらが良いとは一概には言えない。
ここまで単に式を追ってきただけであったが、実際に測定や調査を行う時には、各項目は異なる単位系となることが多い。 よって、単位の取り方により異なる主成分が得られることになり、 同じ単位系であっても分散が大きく異なる項目に対して主成分分析を行えば、 大きい方の影響を強く受けることになり、正しい結果が得られなくなる。 そこで全ての項目を何らかの手法を用いて標準化する必要が出てくるが、広く利用されている方法として、 各項目において平均1・分散1となるように正規化するものがある。 このような処置を施すことで、得られる結果の信頼性を高めることが出来る。