next up previous contents
Next: 参考文献 Up: yoshimura Previous: 実験結果   目次

結論

本研究では岐阜工業高等専門学校電気情報工学科のシラバスを用いて、テキストマイニングにより各教科の類似度を求めた。

その計算方法としてまず初めに、あるシラバスがもつ用語と他のシラバスがもつ用語の完全一致から求める手法を用いた。さらに用語がもつ重要度を考慮する必要があるかということと、シラバスにあって当然の語句を除去する意味があるかを検証する為に、計4つのデータを用意して結果を比較した。

その結果、ほとんどのシラバスに出てくるような語は排除した方が適切に計算出来ることが分かり、多くの文書において存在する語句は無視して計算する方が良好な類似度が得られることが分かった。また、重要度は考慮してもしなくても結果に大きな違いはなかったが、あるに越したことは無いことが分かった。

次にLSAを用いて類似度を求めることにした。この時、シラバス内の語句の類義語や書き間違えを減少させる為に少し工夫を入れ、先程と同じ重要度の有無に加えて、複合語の有無を検証する為に4つのデータを用意し、先の用語一致の方法と結果を比較した。

その結果、どちらの方法も重要度有りで複合語無しの場合が最も精度が良いことが分かり、その時にLSAの精度が用語一致の手法を上回った。また、科目構成図に存在せず、かつ授業を実際に受けた筆者として正しいと言える教科の繋がりをいくつか発見することが出来た。

最後に、LSAを越える性能をもつとされるPLSAを用いて類似度を計算した。PLSAには初期値依存性がある為、いくつか乱数の種類を変え、また隠れ変数の数を変更して実験を行った。

その結果、LSAだけでなく初めに行った手法よりも低い結果を示し、今回のようなデータの場合にはその効力が発揮されないことが分かった。

以上の結果から、文書の類似度計算においては重要度を考慮し、かつ複合語を生成しない方がよいことが分かった。またシラバスの類似度計算においては、その書式上必ず存在するような語句は無視して計算した方がよく、語句の揺らぎを無くすような細かい処理を加えた方がよいことが分かった。手法としては、計算結果はもちろん、計算量やメモリ使用量の観点からもPLSAよりLSAを用いる方が推奨され、この時に適切な教科の繋がりを多く見つけられることが分かった。

謝辞
最後に本研究に進めるに当たり、御多忙にも関わらず多大な御指導を賜りました出口利憲先生に深く感謝するとともに、 同研究室において助言をいただいた専攻科の林郁真氏、 共に勉学に励んだ小島寛樹氏、近藤秀祐氏、吉田靖司氏に厚くお礼を申し上げます。



Deguchi Lab. 2011年3月4日