next up previous contents
Next: 実験結果 Up: 実験1:ベクトル空間法を用いた類似度計算 Previous: TermExtractによる用語抽出   目次


ベクトル空間法の実行と2値化処理

4.1 節により類似度計算に必要なデータが得られたので、ここから総数58教科のシラバスごとにその用語に関してベクトル空間法を実行し、各々に対する類似度を求めた。ベクトル空間法については3.3 節を参照されたい。計算された類似度はある範囲に収まることになる。この類似度をそのまま使って評価する方法と、似ているか似ていないをみるため2値化処理をして評価を行う2通り試行した。

2値化処理については3.4 節に記してあるが、ここではその中でもモード法を適用することにした。その理由を説明する為に表4.5を示す。これは重要度と除去語句を考慮した時の2Eディジタル回路1の類似度計算の結果である。これを見て分かるように、必ず最大値1をとる2Eディジタル回路1を除けば、5Eディジタル回路2と次の3E電気回路1の類似度の差が他に比べて大きいことが分かる。ここが出現頻度の谷となるため、モード法を使えば3E電気回路1に対する類似度未満の教科を全てカットすることができ、 2Eディジタル回路1に繋がりがあるのは5Eディジタル回路2であると言えるようになる。このようなデータの並びをもつ教科が多かったので、この手法を採用することにした。なお類似度の差が小さ過ぎる時に2値化をせずに、0.1以上の差があった時はモード法を実行して、しきい値以下の教科のもつ類似度を0とした。なかった時は、全ての教科を4.3 節で述べる評価対象にすることにした。また、以前の研究においてはベクトル空間法の場合に複合語の有無について考慮していなかったため、今回はベクトル空間法についても複合語がある場合とない場合について実行した。


表 4.5: ベクトル空間法の実行結果の上位一部
教科名 2Eディジタル回路1に対する類似度
2Eディジタル回路1 1.000000
5Eディジタル回路2 0.748289
3E電気回路1 0.535077
5E情報ネットワーク 0.528403
1E電気電子設計製図 0.413029
5E電気材料2 0.334591
2E電気回路1 0.332335
4E情報工学実験 0.316928
5E応用物理2 0.285143



Deguchi Lab. 2016年3月4日