next up previous contents
Next: 参考文献 Up: hayashi_ad2 Previous: 実験4の結果   目次

結論

本研究では、ベクトル空間法だけではなく、日本語Wordnetによる重要語の意味を考慮して 本校電気情報工学科のシラバスにおけるシラバス同士の類似度について調べた。

まず、本校ホームページより調査対象のシラバスをダウンロードし、 それらをXpdfツールを用いてテキストファイル化した。 テキストファイル化したものを、Mecabツールを用いて形態素解析し、 形態素解析したものから名詞を取り出して、それらを単名詞または複合名詞として重要語を抽出、 さらに重要語の重要度を計算した。

実験1では、重要語と重要度を基にシラバス同士の類似度をベクトル空間法により計算した。 実験2では、重要語の意味を考慮するために、日本語Wordnetの上位関係ancestorを用いて、重要語同士の関連度を計算し、その関連度を利用してシラバスの類似度を調べた。 実験3では、重要語の意味を考慮せず、良好な結果を示すと言われるLSAを利用して、文書行列のデータの縮約を行った後、ベクトル空間法により類似度を計算した。 最後に、実験4では、日本語WordnetのSynsetを利用して文書行列の補正を行うことで重要語の意味を考慮し、LSAでデータ縮約を行った後にベクトル空間法により類似度を計算した。

まず、実験1ではベクトル空間法により類似度を求めた結果、全科目でその科目が所属するグループの類似度が圧倒的に1番高くなった。これは、その科目自身の類似度が1.0に対し、他の科目の類似度が低すぎることが原因であると考えられる。 ベクトル空間法は、重要語が一致すれば類似度が上昇していくものであり、似たような意味で表記が違う重要語(プログラミングとプログラム)では全く違う言葉となってしまう。

実験2では、実験1よりも日本語Wordnetにより求めた関連度の影響で、全体的な類似度の向上が見られた。 これは、基礎的な科目が専門科目を包含していると考えると適切であると言えるが、関連度の算出式の構造上、一般的な語の関連度が大きくなりすぎてしまい、関連度の算出式の見直しが必要である。 また、複合名詞は日本語Wordnetに登録されていない語も多く、複合名詞を単名詞にわけて関連度の式に加える必要もある。

実験3では、LSAによりデータの縮約を行ったため、実験1や実験2と比べて全体的な類似度が向上した。 また、実験1や実験2と比べて3Eプログラミングの結果では、プログラム系やその他情報系のグループの類似度が大きく上昇した。 しかし、3Eプログラミングが属するプログラム系の類似度が、その他情報系の類似度よりも小さくなってしまった。

実験4では、日本語Wordnetによる文書行列の補正処理を行ったことで、実験3の結果よりも全体的な類似度の向上が見られただけではなく、3Eプログラミングではその他情報系よりもプログラム系の類似度がわずかではあるが1番大きくなった。 しかし、逆に3E電気回路Iでは電気回路系よりも電気磁気系の類似度がわずかではあるが1番大きくなってしまった。 文書行列の補正をすることで望ましい結果になったとは言いがたい。 ただ、3E電子工学のような結果が出ている以上、文書行列の補正は良い結果を産んでいる場合もある。 文書行列の補正でも、複合名詞のみを対象としているため、複合名詞を単名詞にわけて文書行列の補正を行うことで改善できると思われる。

以上のように、単純なベクトル空間法やLSAに加え、日本語Wordnetを利用した重要語の意味を考慮する計算方法を考案し、結果を比較してきた。 まだ、重要語の意味を考慮したことで良い結果を産んでいるとは言いがたいが、意味を考慮する必要性はあると考えられる。



Deguchi Lab. 2012年3月12日