LSAでも、先ほどと同じように、シラバスのテキストファイルの複合語と重要度の有無による得点を調べた。結果を評価する基準は前章と同じである。この基準を用いて2値化処理をせずに得点を算出した結果を表5.3に示す。また、これをグラフ化したものを図5.1に示す。この時の主成分数は複合語無・重要度有時では固有値が1を越えるものを採用し、それ以外では累積寄与率が80%を越えるまでのものを採用することにした。
抽出 教科数 |
複合語有 | 複合語無 | ||
重要度無 | 重要度有 | 重要度無 | 重要度有 | |
1 | 28.29 | 32.49 | 32.86 | 35.37 |
2 | 28.09 | 30.53 | 31.06 | 33.24 |
3 | 29.00 | 31.10 | 31.75 | 32.49 |
4 | 29.63 | 32.11 | 32.16 | 32.04 |
5 | 29.94 | 32.33 | 32.20 | 32.28 |
また、2値化処理後に評価を行った結果を表5.4に、グラフ化したものを図5.2に示す。
抽出 教科数 |
複合語有 | 複合語無 | ||
重要度無 | 重要度有 | 重要度無 | 重要度有 | |
1 | 28.29 | 32.49 | 32.86 | 35.37 |
2 | 27.63 | 31.52 | 30.97 | 33.65 |
3 | 28.85 | 32.05 | 32.05 | 32.77 |
4 | 29.22 | 32.37 | 32.60 | 32.53 |
5 | 29.99 | 32.68 | 33.12 | 33.01 |
2値化処理をしていない時の実験結果は、表5.3をみると、複合語を有効、重要度を無効にした時のスコアが、他のものに比べて著しく低いことがわかる。実験1でも同様の条件下での実行結果は他のものよりもスコアが低い結果であったが、LSAではその傾向がより顕著に現れた。 反対に、複合語を無効、重要度を有効にした時のスコアは他の条件下でのものよりも高い傾向にあり、抽出教科数が少ないほどその傾向は顕著である。この結果から、重要度を有効にし複合語は無効にしてLSAによる類似度計算を行うと、より理想的な結果が得られる、ということが言える。これは以前の研究結果と同じ結果になった。しかし、これはあくまで抽出教科数が小さい時の実行結果であり、図5.1を見ると、重要度有効、複合語無効の結果は抽出教科数が大きくなっていくと値は減少し、逆に複合語を有効、重要度を無効にした時のスコアは値が上昇していることがわかる。
2値化処理時の実行結果は、表5.4をみると、2値化処理をしていない時よりも全体的に低いスコアになっていることが分かる。