next up previous contents
Next: ベクトル空間法の実行と2値化処理 Up: データ準備 Previous: MeCabによる形態素解析   目次


TermExtractによる用語抽出 [14]

4.1.2 節により文章を形態素に分解することが出来たので、次はここから用語を発見してその重要度を求めることになる。しかし4.1.2 節で挙げたようなソフトを使って、そのまま専門用語の抽出を行うには2つの問題点がある。まず1つ目は複合語に対応していないことであり、単語を組み合わせて成ることが多い専門用語にとってこれは大きな問題となる。2つ目は、どの用語が重要であるか判断する仕組みを持たないことである。これらの問題を解決したソフトとして、東京大学情報基盤センター図書館電子化部門・中川裕志教授と横浜国立大学環境情報研究院・森辰則助教授が作成した「専門用語自動抽出システム」がある。今回用いるTermExtract(Ver.4.08)というモジュールは、東京大学経済学部・前田朗氏が中川裕志教授の教示を受けて全面的に組み直したものであり、形態素解析によらない英文及び中文の専門用語自動抽出機能などが追加されている。

今回使用するTermExtractのMeCab版には、get_imp_wordという関数のみが実装されている。この関数は形態素解析を行って抽出された単語を、個々の単語の語順と品詞情報を元に複合語を生成するものである。第1引数には処理対象のデータを、第2引数としては第1引数の種別を与え、生成された語とその重要度が戻り値として得られる。これにより前研究と同じ形式のデータを得て、複合語はそのままに重要度を全て1とした、重要度を考慮しないデータの2つを得た。

この用語抽出の際、シラバスにあって当然の語句は省略するようにした。これはシラバスの書き方が似ていることから、ある教科と全く関係のない教科が似てしまうことを少しでも防ぐ為の処置であり、その語句を表 4.2に示す。このような語句を含む用語は、全て計算の対象外にすることにした。なお、この処理による効果は前研究により明らかにされているが、今回もその効果を確認する為に、除去語句を使用しないデータも用意することにした。


表 4.2: 用語から排除した語句の一部
・通年 ・学年 ・年度 ・期末 ・中間
・平成 ・前期 ・後期 ・目標 ・試験
・達成 ・成績 ・課題 ・演習 ・学習
・学修 ・予習 ・復習 ・予定 ・授業
・講義 ・板書 ・宿題 ・科目 ・重み
・教科書 ・参考書 ・報告書 ・非常勤 ・得点率



Deguchi Lab. 2011年3月4日