next up previous contents
Next: 結論 Up: 実験4:日本語Wordnetによる文書行列補正後の類似度の計算 Previous: 主成分数   目次

実験4の結果

以上のような手順で実際に全科目のシラバスの類似度を調べた。 そのうち3Eプログラミング、3E電気回路Iの結果を図3.7、図3.8に示す。 結果の表示の方法は3.3.6 項で述べた通りである。

図 3.7: 日本語WordnetとLSAを利用して類似度を算出した3Eプログラミングの結果
図 3.8: 日本語WordnetとLSAを利用して類似度を算出した3E電気回路Iの結果
図 3.9: 実験3,4の結果(3E電子工学)
\includegraphics[scale=0.45]{figure/3Eprog4.eps} \includegraphics[scale=0.45]{figure/3Edenki1-4.eps} \includegraphics[scale=0.45]{figure/3Edenshikogaku.eps}

実験3の結果と比べ全体的に少し類似度が増加した。 これは単語の意味を考慮した文書行列を作成したことによって、考慮していない文書行列の重要度が全体的に上昇した結果であると言える。 このような結果は、3Eプログラミングや3E電気回路Iだけではなく、多くの科目において言える。 ただし、4EJ信号処理などでは電気磁気系の類似度が0.390から0.264へ、電気回路系は0.158から0.137へ下がるなど減少した科目もいくつかあった。 これは文書行列を補正したことにより、主成分数の変化はないものの選択した主成分が変わり縮約されてしまったためだと考えられる。

また、単語の意味を考慮することで3Eプログラミングが属するプログラム系の科目の類似度がわずかではあるが一番高くなった。 しかし、逆に3E電気回路Iでは、電気回路系よりも電気磁気系の類似度が大きくなってしまった。 調べた結果、このように所属するグループの類似度が1番高くない科目は補正する後で26科目であり、実験3の補正前と変わらない。 すなわち、補正することで所属するグループの類似度が1番高くなった科目もあれば、そうでなくなった科目もあるということである。 補正後所属するグループの類似度が1番高くなった科目は「3Eプログラミング」、「4EJ信号処理」、「4E数値計算」、「5Eディジタル回路I I」、「5E信号処理」の6科目であり、補正後所属するグループの類似度が1番ではなくなった科目は「3E電気回路I」、「5Eオペレーティングシステム」、「5Eプラズマ工学」、「5E人工知能」、「5E電気回路I I」であった。

補正処理を行うことで所属するグループの類似度が1番高くなった、という結果は望ましい結果であると考える。 それは3.5.4 項でも述べたが、グループ分けは学ぶ内容で決めており、専門的な科目にしろ基礎を元にしているので、基礎的な内容を扱う科目や他の専門的な科目とグループが同じならば他のグループの文書よりも似通った文書になるからである。 ここで、電子工学系のグループに属する3E電子工学の実験3,4の結果を図3.9に示す。 3E電子工学では、文書の補正を行うことで電子工学系と電気磁気系の類似度が大きく上昇した。 また、実験3では電子工学系よりも電気磁気系のほうが類似度が大きかったのに対し、実験4では電子工学系のほうがわずかではあるが大きくなっている。 これは文書の補正をすることで良い結果が得られた顕著な例である。

しかし、実際には補正後所属するグループの類似度が1番ではなくなった科目も存在する。 文書行列の補正は、重要語が日本語Wordnetに登録されており、同じSynsetに登録されている語に関してのみ補正を行っている。 複合名詞は先にも述べたが日本語Wordnetに登録されていない語も多い。 補正処理でも、複合名詞を単名詞に分けることで少しは改善が期待できるのではないだろうか。



Deguchi Lab. 2012年3月12日