next up previous contents
Next: termmiを用いて類似度を計算 Up: シラバスの類似度の計算 Previous: Mecabを用いて形態素解析   目次

TermExtractを用いて重要語の抽出および重要度を計算

TermExtractは「専門用語自動抽出システム」として 東京大学情報基盤センター図書館電子化部門中川裕志教授および、 横浜国立大学環境情報研究院森辰則助教授が共同で開発したもので、 それを主として中川教授、 東京大学経済学部図書館前田朗、 東京大学経済学部資料室助手小島浩之の三者で検討を重ね、「専門用語自動抽出システム」を改良したものの一部である。

TermExtractでは名詞(単名詞と複合名詞)を対象として専門用語抽出を行っている。 まず対象となるコーパスから専門用語の候補となる語を抽出し、 次に、各候補語の専門用語としての重要度を計算する。 その結果、スコアの高い順に候補語をソートしたものを出力している。 なお、重要度計算には単名詞バイグラムを用いることにより、 複合名詞がどのような単名詞で構成されているか、という連接情報と候補語の頻度情報を手掛かりとしている。 詳しくは、第2.5.1節や第2.5.2節を参照されたい。



Deguchi Lab. 2010年3月5日