主成分分析とは

Next: 分析の手順 Up: 主成分分析 Previous: 主成分分析目次

主成分分析とは

実験や調査においては、多数の項目を記録することが多い。項目数が少ない時にはグラフや統計量を用いてその特性を簡単に知ることが出来るが、項目数が多い時にはデータの関係が複雑になり、結果の分析が難しくなる。これを解決する手法として、Hotelling氏が1933年に提唱した主成分分析（Principal Component Analysis）がある。主成分分析は各データを独立に扱うのではなく、主成分と呼ばれる総合的な指標によってデータの持つ関係や特徴を表す。これをもう少し詳しく説明すると、データが本来もっている情報の損失を最小限に抑えながら、このデータを合成変数（主成分）に縮約して低次元化を行うことで、多量のデータに埋もれた情報を把握するというのがこの手法である。

**図 2.4:** 二次元データにおける主成分分析
$\includegraphics[scale=0.7]{figure/PCA_2D.eps}$

主成分が多くの情報をもつようにするためには、データのばらつきに注目する必要がある。例として、図2.4のような2次元のデータを考える。この図において、データのばらつきが最も大きくなる方向に着目すると、 $z_{1}$ という軸が出来ることが分かる。これが第１主成分となり、このような軸が出来るように主成分を決定するのである。しかし、これだけではデータの持つ情報を大まかに表したとは言えない。そこで次にデータのばらつきが大きい軸、すなわち第2主成分 $z_{2}$ をとり、これによって情報量の損失を最小にしながら、 $x_{1}, x_{2}$ から得られる特性を上手く把握することが出来る。

Deguchi Lab. 2012年3月12日