Next: テキストマイニング Up: hayashi_ad2 Previous: 目次目次

序論

近年、電子化された文書は増加の一途をたどっており、WWWの普及と相まって、これらの文書を手軽に入手することも可能になってきた。しかしながら、膨大な文書の中から欲しい情報を探したい、あるいは文書の集合を分析して傾向をつかみたいといった、利用者のさまざまな要求に十分対応できる情報アクセス手段はまだ乏しいのが現状である。このような状況下で、研究開発が進み、世の中に普及し始めたのがテキストマイニングである。

テキストマイニングは、1997年のKDD(知識発見に関する国際会議)での R. Feldman によるチュートリアル、1999年のACL(自然言語処理に関する国際会議)での M. Hearst による講演、1999年のIJCAIにおける Feldman によるチュートリアルと併設のText Mining Workshopなどなど、著名な国際会議でその重要性は説かれている。

テキストマイニングはまだまだ未発達な部分が多く、キラーアプリケーションも確立していない。しかし、その必要性は大きく、とても人間が目を通すことのできないような、大量の文書でさえも、テキストマイニングを用いてコンピュータに処理させればあっという間にそれらの文書を分析することが可能になる。

本研究では、このテキストマイニングを利用して、本校電気情報工学科のシラバスの類似度を求めた。シラバスの類似度が高いと、その2つのシラバスは似通った内容を扱っていると言える。それはすなわち、ある科目の学ぶ内容はどの科目につながるのかを把握することができるということであり、これにより、学生は「これからこの科目を学ぶにはどのような知識が必要か」、「その知識はどの科目で得られるのか」を意識して授業に望むことができる。

どのようなシラバスの類似度の計算方法が良いのかを比較するため、本研究では4つの実験を行った。実験1は、単純に重要語と重要度を算出してベクトル空間法により類似度を計算する方法。実験2は、日本語Wordnetを利用して重要語同士の関連度というものを算出し、重要語と重要度、さらに関連度を含めた新しい類似度の計算による方法。実験3は、文書行列を作成し、その文書行列を潜在的意味解析(LSA:Latent Semantic Analysis)により縮約してベクトル空間法により類似度を計算する方法。実験4は、日本語Wordnetを利用して文書行列に重要語の意味を考慮して重要度の補正を行い、LSAにより縮約してベクトル空間法により類似度を計算する方法である。

文書の類似度の計算では、重要語の重要度ももちろんだが重要語の意味も大切なのではないかと考えた。しかし、ベクトル空間法は重要語の意味を考慮した類似度の計算とは言いがたい。そこで、本研究では日本語Wordnetを利用して重要語の意味を考慮した類似度の計算を考案し、実験し、単純にベクトル空間法を使った類似度計算方法と比較した。

Deguchi Lab. 2012年3月12日