next up previous contents
Next: テキストマイニング Up: ito Previous: 目次   目次


序論

1990年代半ばから急激に普及したパソコンやインターネットにともない、文書(テキスト)の多くは電子化されるようになった。文書の電子化とは、ワープロなどを使い文書をファイルに記録することである。そして、作成された文書はファイルとして保存され、その一部は、インターネット上に公開される。ホームページやブログはそうして電子化された文書の一例である。

このように、誰もがコンピュータ上で膨大な量の文書に向かい合える用になり、利用可能な情報が増えた中で、情報過多という問題も生じるようになった。少量であれば目を通すところが、とても手に負えない量となると全く目を通さなくなる。その結果、文書データが十分に活用されていないという現状になっている。このような中で研究が進み、世の中に普及し始めたのがテキストマイニングである。

本研究では、テキストマイニングを使用して、本校電気情報工学科のシラバスという文書に対して、類似度を求める方法を模索し、どのような処理をすればいいか検証することにした。これによりシラバスの類似度を適切に求めることができれば、今勉強している教科が今後どのような教科の勉強につながるか、また単位を落としてしまった教科には、どの教科の理解が足りていなかったかを知ることができるようになる。

昨年度の研究では、複合語の有無という条件で複合語を使用しないほうが良い結果が得られたが、これは複合語がうまく分けられていないことに可能性があると考えられる。今年度は、シラバスのテキストファイルに人が読んでいて違和感がないように改行やスペースを空けるなどの理想的な前処理を行うという条件を入れて類似度の計算を行う。これによって、専門用語でよく出てくる複合語をうまく分けられると考えられる。これにより、複合語がうまく分けられていた時でも使用しない方が良いのかどうかを調べることができる。 また、昨年の研究では教員名などを辞書登録していたが、今回の研究では、教員名などを辞書登録を行わないことにした。教員名とは、姓と名の2つの単語からなるものを組み合わせた複合語のことである。この複合語を辞書に入れておくと、実験の条件で複合語を無効にした時でも、別々の単語として抽出されないからである。

このようなことを、今年度は意識しながら研究を進めることにした。



Deguchi Lab. 2012年3月9日