next up previous contents
Next: 実験結果 Up: 実験1 : 用語の重要度を考慮しない類似度計算 Previous: TermExtractによる用語抽出   目次


ベクトル空間法の実行と2値化処理

4.1 項により類似度計算に必要なデータが得られたので、ここから総数62教科のシラバスごとにその用語に関してベクトル空間法を実行し、各々に対する類似度を求めた。ベクトル空間法については3.3 項を参照されたい。計算された類似度はある範囲に収まることになるが、本研究で知りたいことは似ているか似ていないかのどちらかであるので、2値化処理を行うことにした。

2値化処理については3.4 項に記してあるが、ここではその中でもモード法を適用することにした。その理由を説明する為に表 4.3を示す。これは重要度と除去語句を考慮した時の4E数値計算の類似度計算結果であるが、必ず最大値1をとる4E数値計算を省けば、3Eプログラミングと次の4EJ情報工学実験の類似度の差が他に比べて大きいことが分かる。ここでモード法を使えば3Eプログラミングに対する類似度未満の教科を全てカット出来、4E数値計算に繋がりがあるのは2Eプログラミングと3Eプログラミングであると言えるようになる。このようなデータの並びをもつ教科が多かったので、この手法を採用することにした。なお類似度の差が小さ過ぎる時に2値化をしても仕方がないので、0.1以上の差があった時はモード法を実行して、しきい値以下の教科のもつ類似度を0とした。なかった時は、全ての教科を4.3 項で述べる評価対象にすることにした。


表 4.3: ベクトル空間法の実行結果の上位一部
教科名 4E数値計算に対する類似度
4E数値計算 1.000000
2Eプログラミング 0.442651
3Eプログラミング 0.378751
4EJ情報工学実験 0.065416
4E信号処理 0.062888
4E応用数学B 0.056865
5EJ電磁波工学 0.052131
4EJデータ構造とアルゴリズム 0.019418
4E通信工学 0.016286
4EJ情報数学 0.013185



Deguchi Lab. 2011年3月4日