next up previous contents
Next: テキストマイニング Up: morishita Previous: 目次   目次

序論

文章の分析そのものには長い歴史があるがデータマイニングの一手法としてのテキストマイニングという名が与えられ、 特に実用化が進んできたのは、インターネットやパソコンの普及に伴い電子化された文書が急激に増加し始めた1990年代後半になってからである。さらに近年では、様々なものの情報化が更に加速し、電子化された文書は手軽に入手することが可能になった。

このような、利用可能な情報が増えた中で、膨大な文書の中から欲しい情報を探したい、 あるいは文書の集合を分析して傾向をつかみたいといった、 利用者のさまざまな要求に十分対応できる情報アクセス手段はまだ乏しいのが現状である。 その原因として、従来、文書データは定性データであり定量化できなかったため、 データマイニングのような効果的な分析・分類は不可能だったからである。 ところがテキストを上手く数量化しデータマイニングの手法を利用することで, 文書データを解析できるようになった。このような研究が進み、世の中に普及し始めたのがテキストマイニングである。

本研究では、テキストマイニングを使用して、本校電気情報工学科のシラバスという文書に対して、 類似度を求める方法を模索し、どのような処理をすればいいか検証することにした。 シラバスの類似度が高いと、その2つのシラバスは似通った内容を扱っていると言える。 すなわち、ある科目の学ぶ内容はどの科目につながるのかを把握することができるということであり、 これにより、学生は今勉強している教科が今後どのような教科の勉強につながるか、 また単位を落としてしまった教科には、どの教科の理解が足りていなかったかを知ることができるようになる。

昨年の研究では、結果でどの教科がどの教科とどの位類似しているのかが分かりにくかった。 そこで今回の研究では結果の類似度を視覚的に表現することでこの問題を解決する。 また、新たな手法としてネットワーク分析を用いて視覚的な類似度計算ができるかを調べることで、テキストマイニングの可能性を探求したい。 以上のことを意識しながら研究を進めることにした。



Deguchi Lab. 2013年2月28日