Next: 重要語同士の関連度の計算
Up: 実験
Previous: 実験1の結果
目次
実験2:日本語Wordnetを利用した類似度の計算
実験1では、重要語と重要度を用いてベクトル空間法により類似度を求めた。
しかし、ベクトル空間法は重要語の意味を考慮せず、ただ重要語が一致したら類似度が増加するものであったため、同じグループ内の科目の類似度でさえ非常に低くなってしまっている科目が多い。
そこで実験2では、重要語の意味を考慮するため日本語Wordnetを利用して重要語同士の関連度というものを計算し、
その関連度を反映させた類似度の計算の過程および結果を述べる。
類似度、関連度の計算式については2.5 節を参照されたい。
処理の流れとしては以下のようになる。
- Xpdfを用いてpdfをテキスト化
- MeCabを用いて形態素解析
- TermExtractを用いて重要語の抽出および重要度を計算
- 重要語からシラバス特有の単語を除去
- 式(2.7)を用いて重要語同士の関連度を計算
- 式(2.8)を用いて類似度を計算
今回の対象とするシラバスは3.3 節の実験結果を比較するため実験1と同じとし、
プログラミング言語も同じくPerlを使用した。
また上記の処理の1〜4までの手順は同じであるため説明は省略する。
Subsections
Deguchi Lab.
2012年3月12日