next up previous contents
Next: テキストマイニング Up: yoshimura Previous: 目次   目次


序論

今日、テキストマイニングという技術が発達し広く利用されているが、これにはデータマイニングという前身が存在する[1]。データマイニングは大量のデータに埋もれている有益な情報を見つけ出すことを目標とし、この対象となるデータは文章ではなく主として数値を扱うことになる。この技術を文章にも応用しようと提唱した論文としてH. Ahonen氏らのMining in the Phrasal Frontierが挙げられるが、こういった動き[2]によってマイニングの新しい領域が広がった。マイニング(mining)には採掘という意味があるが、文章からも有用な情報を取り出せるようになったのである。

しかし、当時は今ほどインターネットは普及しておらず、また文書の電子化も進んでいなかった為、この技術はあまり注目されなかった。それが社会の情報化に伴って徐々に活躍出来るようになり、企業はもちろん研究室においても利用される機会が増えてきた。またテキストマイニングに必要な形態素解析ソフトウェア[3]を無償で入手出来たり、インターネット上からテキストマイニングを行うことが可能になったりしてきている。このようなことから、この技術が我々にとって身近に感じられるものになっていると言える。

本研究ではこのテキストマイニングを用いて、文書と文書がどれほど似ているかという類似度を、適切に計算する方法を模索する。それと同時にシラバスという文書群に対して類似度を計算し、どのような処理を施せばよいかを検証することにした。これは、もしシラバスの類似度を適切に求めることが出来れば、落としてしまった教科に対してどんな教科の知識が足りなかったかや、逆に今勉強している教科がこれからどんな教科に役立つかを理解する手助けとなり得ることから来ている。以上のことを岐阜工業高等専門学校電気情報工学科の専門科目を例として、研究を進めることにした。



Deguchi Lab. 2011年3月4日