序論

近年、SNSの発展により多くの情報があふれ、その情報をデータとして手に入れることはとても容易になっている。データの中には特に意味のない発言も含まれており、その中から有用な情報を発見することはとても重要である。しかし、データの量は非常に多く、人の判断で有用な情報を見つけ出すには限界が存在する。そんな中、テキストマイニングは、コンピュータによる処理により自動で大量の情報から有用な情報を発見することができる技術である。 テキストマイニングを使用することにより、大量のテキストデータから傾向や特徴、相関関係などが発見できる。テキストマイニングは1990年代には重要性が説かれていたが、まだまだ発展途上の技術でもある。最近ではテキストマイニングを企業のアンケート結果に用いることで有用な情報を安いコスト発見できることが知られてきたため、テキストマイニングの技術を利用したソフトも増えてきている。

本研究では、このテキストマイニングを利用することにより、本校電気情報工学科情報コースの専門科目の授業のシラバスの類似度を求めた。シラバス間の類似度からは教科間の関係がわかる。教科間の関係からは、ある科目を学ぶためにはどの科目を学ぶ必要があるかといったことが把握することができる。これにより、これから先に学ぶの科目を意識して授業を受けることができる。

シラバス間の類似度の計算方法として、日本語WordNetによる概念距離を利用したクラスター分析による次元圧縮ができると考えた。この方法の結果が正しいか判断することは、指標がないため難しい。そこで従来から存在する、cos類似度計算法と潜在的意味インデキシングを用いた類似度計算法を、それぞれ比較対象として実験を行った。



Deguchi Lab. 2017年3月6日