next up previous contents
Next: 実験結果 Up: 実験1:用語の重要度を考慮しない類似度計算 Previous: TermExtractによる用語抽出   目次


ベクトル空間法の実行と2値化処理

4.1 項により類似度計算に必要なデータが得られたので、ここから総数58教科のシラバスごとにその用語に関してベクトル空間法を実行し、各々に対する類似度を求めた。ベクトル空間法については3.3 項を参照されたい。計算された類似度はある範囲に収まることになるが、本研究で知りたいことは似ているか似ていないかのどちらかであるので、2値化処理を行うことにした。

2値化処理については3.4 項に記してあるが、ここではその中でもモード法を適用することにした。その理由を説明する為に表4.5を示す。これは重要度と除去語句を考慮した時の3Eプログラミングの類似度計算の結果である。これを見て分かるように、必ず最大値1をとる3Eプログラミングを除けば、2Eプログラミングと次の4Eデータ構造とアルゴリズムの類似度の差が他に比べて大きいことが分かる。ここでモード法を使えば2Eプログラミングに対する類似度未満の教科を全てカットすることができ、3Eプログラミングに繋がりがあるのは2Eプログラミングであると言えるようになる。このようなデータの並びをもつ教科が多かったので、この手法を採用することにした。なお類似度の差が小さ過ぎる時に2値化をしても仕方がないので、0.1以上の差があった時はモード法を実行して、しきい値以下の教科のもつ類似度を0とした。なかった時は、全ての教科を4.3 項で述べる評価対象にすることにした。


表 4.5: ベクトル空間法の実行結果の上位一部
教科名 3Eプログラミングに対する類似度
3Eプログラミング 1.000000
2Eプログラミング 0.747915
4Eデータ構造とアルゴリズム 0.396136
4E情報工学実験 0.288584
4E情報理論 0.267316
4E情報工学実験 0.186127
5Eソフトウェア工学 0.139631
5Eコンパイラ 0.117822
2E電気回路 0.112716



Deguchi Lab. 2012年3月9日