next up previous contents
Next: 実験3 : PLSAを用いた類似度計算 Up: 実験2 : LSAを用いた類似度計算 Previous: ベクトル空間法の実行と2値化処理   目次


実験結果

結果を評価する基準は前章と同じである。この基準を用いて得点を算出した結果を表 5.6と表 5.7に示す。また、これをグラフ化したものを図 5.1と図 5.2に示す。前者はLSAによる結果であり、この時の主成分数は複合語無・重要度有時では固有値が1を越えるものを採用し、それ以外では累積寄与率が80%を越えるまでのものを採用することにした。これは複合語無・重要度有以外では、固有値が1を越える主成分が得られなかったからである。後者は5.1 項で得られたデータを新たに用いて、実験1と同じ用語一致によって類似度計算を行った結果である。



表 5.6: 重要度と複合語の有無による得点の変化( LSA )
  複合語無 複合語有
  重要度無 重要度有 重要度無
1 90.51 112.73 64.58
2 73.57 92.83 56.00 63.72
3 66.18 86.04 54.06 62.74
4 61.71 84.47 51.00 60.90
5 57.34 77.50 48.23 57.52

図 5.1: 重要度と複合語の有無による得点の変化( LSA )
\includegraphics[scale = 0.95]{fig04.eps}


表 5.7: 重要度と複合語の有無による得点の変化( 用語一致 )
  複合語無 複合語有
  重要度無 重要度有 重要度無
1 104.2 84.93 87.94
2 82.78 87.35 75.48 82.50
3 71.59 79.08 66.94 71.74
4 68.40 72.61 63.02 66.53
5 65.39 69.78 58.26 62.20

図 5.2: 重要度と複合語の有無による得点の変化( 用語一致 )
\includegraphics[scale = 0.95]{fig05.eps}

まず図 5.1に着目すると、LSAにおいては複合語が無く、重要度が有るデータの時にしか、その効力を発揮していないことが分かる。これは他のデータにおいて固有値が1を越える成分が無かったことに関係していると考えられ、そのデータでは同条件における用語一致による結果を全て下回っている。しかし、唯一の例外である複合語無・重要度有では、抽出教科数が1の時に得点が100を大きく越え、4までは80以上をキープしている。これはどの結果よりも優れており、より適切な類似度計算が出来ていると考えられる。

次に図 5.2に着目すると、LSAで好成績を残した複合語無・重要度有のグラフは抽出教科数が1の時は他に劣るとしても、2以降は他の結果を上回っている。このことから、LSAだけでなく用語一致においてもこの条件が重要であることを示していると考えられる。重要度が有る方が結果がよいというのは実験1の結果と一致しているが、これに続いて複合語が無い方がよいという結論が得られた。

さて、実験1において5Eオペレーティングシステムに一番近いのは3E電気機器となったが、LSAにおいては5E人工知能であった。同じ情報系の科目が一番似ているとされたので、これは大きな進歩と言えるだろう。


next up previous contents
Next: 実験3 : PLSAを用いた類似度計算 Up: 実験2 : LSAを用いた類似度計算 Previous: ベクトル空間法の実行と2値化処理   目次
Deguchi Lab. 2011年3月4日