主成分の選択

主成分分析を行うことにより主成分をデータとして表すことができることは述べたが、主成分の数を決めることは重要な問題である。少なすぎれば情報の損失が多くなるし、多すぎては次元圧縮にならない。主成分の選択方法としては以下のようなものがある。
  1. 固有値が1を越える主成分を採用する。
  2. ある固有値とその次の固有値の差が小さくなるまでの主成分を採用する。
  3. 累積寄与率がある値に達するまでの主成分を採用する。
これらをもう少し詳しく説明すると、1.は先述したように平均1・分散1としたことで、分散(固有値)がこの標準化された値である1よりも大きければ、説明力のある主成分として用い得るという考えに基づいている。2.はある固有値とその次の固有値の差が小さければ、主成分の採用・非採用の区別にあまり意味はないという考えに基づいている。3.はデータから得られる全情報の何割かを含んでいれば良いという考えに基づくもので、普通60%〜80%に達するまでの主成分数を採用する。累積寄与率(cumulative contribution ratio)は寄与率(contribution ratio)に関係するものであり、寄与率は次式で表される。
$\displaystyle P_{n}=\frac{\lambda _n}{\sum^P_{p=1}\lambda _p}$     (11)

ここで、 $ \lambda_{n}$ $ n$ 番目の主成分の固有値を示す。このように、ある主成分の固有値が表す情報が、全ての情報の中でどの程度の割合を占めているかを表すのが寄与率である。一方、累積寄与率は次に示すように第$ n$ 成分までの寄与率の総和で表される。
$\displaystyle C_{n}=\sum^n_{i=1}P_i$     (12)



Deguchi Lab. 2017年3月6日