next up previous contents
Next: 参考文献 Up: morishita Previous: 実験結果   目次

結論

本研究では岐阜工業高等専門学校電気情報工学科のシラバスを用いて、テキストマイニングにより各教科の類似度を求めた。 その計算方法としてまず実験1では、シラバスの語句の共起パターンから作成したネットワーク図が類似しているかどうかで各教科の類似度を求めた。 結果から正確な類似度が出るわけではないがおおよそ類似しているかどうかの判断ができることがわかった。 今回は結果を比較する際の基準が見た目であり、曖昧である。 従って、明確な基準を設定することができたらより良い結果が得られるだろう。

次に実験2ではLSAによってデータの縮約を行った後、ベクトル空間法により類似度を求めた。 この時、シラバス内の語句の類義語や書き間違えを減少させる為に代表語句への置換を行った。 さらに類似度の計算の際に重要度を考慮したほうがいいか調べるために、重要度の有無で2つのデータを用意した。 また、今回は類似度の評価の基準を文書間の距離にすることによって二次元グラフでの視覚的な評価をできるようにした。 結果は重要度を考慮したほうがより正確に電気系の科目や情報系の科目に分類できることが分かった。 一番の成果は昨年までの実験結果とは違い、ひと目でどの教科のシラバスが類似しているかが分かるようになった点である。

以上の結果からネットワーク分析を用いての類似度計算はできることがわかった。 しかし、類似度計算の手法としてはいまひとつである。 また、文書の類似度計算においてはの書式上必ず存在するような語句は無視して計算した方がよく、 語句の揺らぎを無くすような細かい処理を加えた、重要度を考慮したほうが良い結果が得られることがわかった。 さらに類似度を視覚的に評価できるようにすることで文書間の類似関係が非常に分かりやすくなった。

謝辞
最後に本研究を進めるにあたり、ご多忙中にも関わらず多大なご指導を賜りました出口利憲先生に深く感謝するとともに、ともに勉学に励んだ勝股翔太氏、小酒井巽氏、渡辺真広氏に厚くお礼申し上げます。



Deguchi Lab. 2013年2月28日