Next: 文書行列の作成
Up: 実験
Previous: 実験2の結果
目次
実験1は重要語、重要度を元にベクトル空間法で類似度の計算を、
実験2は重要語、重要度および関連度を元に類似度の計算を行った。
実験3では、良好な計算結果を示すと言われているLSAを利用し、その結果を実験1や実験2の結果と比較する。
LSAや主成分分析については、2.6 節や2.7 節を参照されたい。
処理の流れとしては以下のようになる。
- Xpdfを用いてpdfをテキスト化
- MeCabを用いて形態素解析
- TermExtractを用いて重要語の抽出および重要度を計算
- 重要語からシラバス特有の単語を除去
- 文書行列を作成
- 主成分分析により主成分数を計算
- LSAにより文書行列の主成分数まで次元を圧縮
- ベクトル空間法により類似度を計算
今回の対象とするシラバスも先の実験1,2と同じとし、プログラミング言語も同じくPerlを使用した。
また上記の処理の1〜4までの手順は同じであるため説明は省略する。
ただし、6〜8の手順ではRを用いた。
Subsections
Deguchi Lab.
2012年3月12日