Next: 単語の意味を考慮した文書行列の作成 Up: 実験 Previous: 実験3の結果目次

実験4：日本語Wordnetによる文書行列補正後の類似度の計算

実験1は重要語、重要度を元にベクトル空間法で類似度の計算を、実験2は重要語、重要度および関連度を元に類似度の計算を行った。実験3は、良好な計算結果を示すと言われているLSAを利用して計算を行った。実験4では、このLSAにさらに日本語Wordnetを利用して文書行列を補正し、補正後にLSAをかけることで単語の意味を考慮した計算をすることを目的とする。

処理の流れとしては以下のようになる。

Xpdfを用いてpdfをテキスト化
MeCabを用いて形態素解析
TermExtractを用いて重要語の抽出および重要度を計算
重要語からシラバス特有の単語を除去
単語の意味を考慮した文書行列を作成
主成分分析により主成分数を計算
LSAにより文書行列の次元を圧縮
ベクトル空間法により類似度を計算

今回の対象とするシラバスも先の実験1,2と同じとし、プログラミング言語も同じくPerlを使用した。また上記の処理の1〜4までの手順は実験1,2と同じであり、8は実験3と同じであるため説明を省略する。ただし、実験3同様6〜8の手順ではRを用いた。

Subsections

Deguchi Lab. 2012年3月12日