next up previous contents
Next: 潜在的意味解析 Up: 主成分分析 Previous: 主成分分析   目次


主成分の選択方法

さて、主成分分析によりデータを総合的な指標である主成分として表せることを述べてきたが、 その主成分はいくつほど採用してデータを圧縮すれば良いのだろうか。 その選択の方法としては、以下に示すようなものがある。

  1. 固有値が1を越える主成分を採用する。
  2. ある固有値とその次の固有値の差が小さくなるまでの主成分を採用する。
  3. 累積寄与率がある値に達するまでの主成分を採用する。
これらをもう少し詳しく説明すると、1は先述したように平均1・分散1としたことで、 分散(固有値)がこの標準化された値である1よりも大きければ、説明力のある主成分として用い得るという考えに基づいている。 2はある固有値とその次の固有値の差が小さければ、主成分の採用・非採用の区別にあまり意味はないという考えに基づいている。 3はデータから得られる全情報の何割かを含んでいれば良いという考えに基づくもので、 普通60%〜80%に達するまでの主成分数を採用する。 累積寄与率(cumulative propotion)は寄与率(proportion)に関係するものであり、寄与率は次式で表される。


$\displaystyle P_{n}=\frac{\lambda _n}{\sum^P_{p=1}\lambda _p}$     (3.7)

このように、ある主成分の固有値が表す情報が、全ての情報の中でどの程度の割合を占めているかを表すのが寄与率である。一方、累積寄与率は次に示すように第$n$成分までの寄与率の総和で表される。


$\displaystyle C_{n}=\sum^n_{i=1}P_i$     (3.8)



Deguchi Lab. 2013年2月28日