next up previous contents
Next: 結論 Up: LSAによる類似度計算 Previous: 多次元尺度法による視覚的な類似度評価   目次

実験結果

LSAによる類似度計算では、語句の重要度を考慮しない場合と考慮した場合を調べた。 その結果を表5.4と表5.5に示す。


表 5.4: 重要度無の結果
\includegraphics[width=15cm]{fig/juuyoudonasi.eps}


表 5.5: 重要度有の結果
\includegraphics[width=15cm]{fig/juuyoudoari.eps}

また、このデータからユークリッド距離を用いた古典的多次元尺度法によって作成した 2次元散布図を図5.1と図5.2に示す。

図 5.1: 重要度無の結果
\includegraphics[width=10cm]{fig/kekka2.eps}

図 5.2: 重要度有の結果
\includegraphics[width=10cm]{fig/kekka1.eps}

図の中のラベルは、シラバスの教科名である。 結果を評価する基準は二次元グラフ上の文書間の距離とした。 この距離が近ければ近いほどその文書との類似度が高いということだ。

まず重要度を考慮しない場合の図5.1に着目すると、 「電気回路と電気機器」、「プログラミングと電気材料と数値計算」、「技術者倫理と技術英語と電気磁気学と通信工学と応用物理と電子工学」がそれぞれ寄っている。 次に重要度を考慮した場合の図5.2に着目すると、 「技術者倫理と技術英語と応用物理」、「電気磁気学と電子工学と通信工学」、「電気回路と電気機器」がそれぞれ寄っている。 理論からこれらは類似関係にあると考えられるのだが、図5.1とシラバスの位置が大幅に違っている。 特に図5.1の「技術者倫理と技術英語と電気磁気学と通信工学と応用物理と電子工学」の6つは、 文字が読めないくらいに重なっているのに対して、図5.2では「電気磁気学と電子工学と通信工学」が少し離れた所で寄っている。 つまり、重要度を考慮した場合では、電気系の科目(電気磁気学と電子工学と通信工学)と 一般科目(技術者倫理と技術英語と応用物理)の距離が離れているということだ。 この結果から、重要度を考慮したほうがより優れた類似度の計算が行えるということが分かった。 実際に図5.2で距離が近くなっている教科は、シラバスに出てくる単語や授業内容も似ているため、正しい結果であると言える。

また、実験1の結果とも比較してみる。 ネットワーク図の形が似ていた「電子工学(図4.1)と通信工学(図4.2)」はこの結果では距離が近くなっているため類似度は高い。 しかし、「プログラミング(図4.3)とディジタル回路(図4.4)」と「技術英語(図4.5)と電気材料(図4.6)」はネットワーク図の形は似ていたがこの結果では類似度は低い。 この結果からネットワーク分析を使った類似度計算は正確な類似度が出るわけではないがおおよそ類似しているかどうかの判断ができることがわかった。 今回は評価が主観であったため人為的誤差があると考えられる。 従って、ネットワーク図が似ているかどうかの基準をしっかりと設定し、それによって評価したらさらに良い結果が得られるだろう。



Deguchi Lab. 2013年2月28日