next up previous contents
Next: 結論 Up: 実験3 : PLSAを用いた類似度計算 Previous: ベクトル空間法の実行と2値化処理   目次


実験結果

6.2 項で述べたパラメータでPLSAを実行し、その結果を前章と同様に評価した。これと、用語一致やLSAで一番良かった結果(複合語無・重要度有時)と比較したものを表 6.2に示す。この表を見ると、PLSAが教科の繋がりをほとんど見つけられておらず、その効果を発揮出来ていないことが分かる。これがパラメータの与え方が悪いのが原因なのかは分からないが、PLSAの計算量は他の2つの手法と比べて格段に多く、今回のデータに対しては割に合わない結果となった。この結果から見ると、PLSAの適切な隠れ変数の数がLSAの適切な主成分数と同じになるとは言えないようである。


表 6.2: 各手法における教科数に伴う得点の変化
抽出教科数 用語一致 LSA PLSA
1 84.93 112.73 55.61
2 87.35 92.83 49.69
3 79.08 86.04 45.03
4 72.61 84.47 44.49
5 69.78 77.50 44.94

しかし、尤度と第 4 章で定義した得点には図 6.1のように、尤度を上げることが得点に繋がることが分かる。なお、この図では尤度ではなく反復回数が横軸となっているが、前述したようにEMアルゴリズムには尤度の単調増加が保証されているので、反復回数が多くなることは尤度が高くなることと同義である。このことから、PLSAを用いる際に式(3.19)に示す尤度を基準とするのは間違っていないと考えられる。

図 6.1: PLSAにおける反復回数と得点の変化
\includegraphics[scale = 1.0]{fig07.eps}

また、偶然であったのかどうかは分からないが、新たな教科の繋がりとして4E応用数学Bと5E自動制御が見つかった。自動制御においてはラプラス変換を用いて問題を解くことが多く、応用数学Bではこのラプラス変換を学習する為に、適切な繋がりだと考えられる。もっともこのような繋がりがプログラムを実行する度に見つかる訳ではなく、PLSAの扱いにくさを物語っている。



Deguchi Lab. 2011年3月4日