next up previous contents
Next: 文書行列の作成 Up: 実験 Previous: 実験2の結果   目次

実験3:LSAを使った類似度の計算

実験1は重要語、重要度を元にベクトル空間法で類似度の計算を、 実験2は重要語、重要度および関連度を元に類似度の計算を行った。 実験3では、良好な計算結果を示すと言われているLSAを利用し、その結果を実験1や実験2の結果と比較する。 LSAや主成分分析については、2.6 節や2.7 節を参照されたい。

処理の流れとしては以下のようになる。

  1. Xpdfを用いてpdfをテキスト化
  2. MeCabを用いて形態素解析
  3. TermExtractを用いて重要語の抽出および重要度を計算
  4. 重要語からシラバス特有の単語を除去
  5. 文書行列を作成
  6. 主成分分析により主成分数を計算
  7. LSAにより文書行列の主成分数まで次元を圧縮
  8. ベクトル空間法により類似度を計算

今回の対象とするシラバスも先の実験1,2と同じとし、プログラミング言語も同じくPerlを使用した。 また上記の処理の1〜4までの手順は同じであるため説明は省略する。 ただし、6〜8の手順ではRを用いた。



Subsections

Deguchi Lab. 2012年3月12日