主成分分析

まず P個のデータ $x_{p}(p=1,2,\cdots,P)$ があった時、 $N(N\le P)$ 個の主成分 $z_{n}(n=1,2,\cdots,N)$ とこれらの関係は、次式のような互いに独立な線形結合として表される。

ここで $z_{n}$ は第

主成分と呼ばれ、その結合係数 $a_{pn}$ は以下の式を満たす必要がある。

主成分が多くの情報をもつようにする為には、この結合係数を上手く決めてやる必要があり、それにはデータの分散に着目する。この例を示す為に図3.1のような２次元のデータを考える。この図において、データのばらつきが最も大きくなる方向に着目すると、

という軸が出来ることが分かる。これが第１主成分となり、このような軸が出来るように式3.1の結合係数を決定するのである。しかし、これだけではデータの持つ情報を大まかに表したとは言えない。そこで次にデータのばらつきが大きい軸、すなわち第２主成分

をとり、これによって情報量の損失を最小にしながら、

から得られる特性を上手く把握することが出来る。

ここで、もし全てのデータが一直線上に並んだならば第２主成分は０となり、

はデータの分析に全く役に立たないことになる。よって、データのばらつきである分散が大きいほど、情報を多く含んでいると言えるのである。以上の例は２次元という簡単な例であった為に、主成分分析はあまり役に立たないが、高次元であるとその効果は顕著に現れる。

**図 3.1:** 二次元データにおける主成分分析
$\includegraphics[width=8cm]{img3-1.eps}$

結合係数の決定の仕方としては、特異値分解に基づくものとスペクトル分解に基づくものがある。第

主成分の結合係数

は、前者においてはデータ行列

の

番目に大きな特異値 $\sigma _i$ に対応する右特異ベクトルとして与えられ、後者においては行列 $X^{T}X$ の

番目に大きな固有値 $\lambda _i$ に対応する固有ベクトルとして与えられる。前者については3.4項でもう少し詳しく説明することにして、ここでは後者について取り扱う。

ここでは分かりやすく第１主成分を取り上げて、結合係数が固有ベクトルで表されることを示す。まず、第１主成分の分散 $\sigma ^2_{z_1}$ は式3.3のように与えられ、ここで

は第１主成分得点と言い、これは

番目のデータに対応する第１主成分の値をベクトルにまとめたものである。また

は分散共分散行列を表す。ここで、

で割っていることから標準分散ではなく不偏分散を用いていることが分かり、後述するRの関数もこちらを採っているようである。不偏分散は、母集団が大きく標本が少ない時に向く。

$\displaystyle \sigma ^2_{z_1}$	$\textstyle =$	$\displaystyle \frac{1}{N-1}t^T_{1}t_1$
	$\textstyle =$	$\displaystyle \frac{1}{N-1}(Xa_1)^T(Xa_1)$
	$\textstyle =$	$\displaystyle a^T_{1}(\frac{1}{N-1}X^{T}X)a_1$
	$\textstyle =$	$\displaystyle a^T_{1}Va_1$	(3.3)

$\displaystyle J_1$	$\textstyle =$	$\displaystyle f+\lambda _g$
	$\textstyle =$	$\displaystyle a^T_{1}Va_{1}-\lambda (a^T_{1}a_{1}-1)$
$\displaystyle \frac{\partial J_1}{\partial a_1}$	$\textstyle =$	$\displaystyle 2Va_{1}-2\lambda a_{1}=0$
$\displaystyle (V-\lambda I)a_1$	$\textstyle =$	$\displaystyle 0$	(3.4)
$\displaystyle \vert V-\lambda I\vert$	$\textstyle =$	$\displaystyle 0$	(3.5)

ここで

は単位行列を示し、式3.5のように固有方程式が得られた。このことより、結合係数

は分散共分散行列

の固有値 $\lambda$ および固有ベクトルとして与えられることが分かる。この固有値が大きい主成分ほど情報を多くもっていることになり、大きい固有値から順に、その対応する主成分が第１主成分, 第２主成分, $\ldots$ , 第

主成分に当たる。また式3.3に式3.4, 式3.2を代入することにより、以下の式が導かれる。

$\displaystyle \sigma ^2_{z_1}$	$\textstyle =$	$\displaystyle a^{T}_{1}Va_1$
	$\textstyle =$	$\displaystyle a^{T}_{1}\lambda a_1$
	$\textstyle =$	$\displaystyle \lambda$	(3.6)

これは先程述べたように分散が情報の大きさを決定していることを示しており、最大値をとるべき $\sigma^2_{Z_1}$ は最大固有値に等しい必要がある。これまでのことを以下第

主成分まで同様に導くことが出来る。以上のことより、結合係数

は最大固有値に対する固有ベクトルとして求められ、これがスペクトル分解に基づく結合係数の決め方になる。なお、ここまで分散共分散行列を使って主成分分析を行う方法を記したが、相関係数行列を使って行う方法もある。どちらも一長一短であり、どちらが良いとは一概には言えない。

ここまで単に式を追ってきただけであったが、実際に測定や調査を行う時には、各項目は異なる単位系となることが多い。よって、単位の取り方により異なる主成分が得られることになり、同じ単位系であっても分散が大きく異なる項目に対して主成分分析を行えば、大きい方の影響を強く受けることになり、正しい結果が得られなくなる。そこで全ての項目を何らかの手法を用いて標準化する必要が出てくるが、広く利用されている方法として、各項目において平均１・分散１となるように正規化するものがある。このような処置を施すことで、得られる結果の信頼性を高めることが出来る。