next up previous contents
Next: 実験 Up: テキストマイニング Previous: Rでの主成分分析   目次


日本語Wordnetを利用した重要度の補正

2.5 節でも述べた日本語Wordnetのsynsetを利用して、文書行列の書き換えを行う。 例えば、シラバス全体のうちA,Bという重要語が挙げられたとする。 そのうち、Dという科目でのA,Bの重要度は20.0,1.0であった。 この重要語A,Bはそれぞれ同じsynset内にあるとすると、似たような意味になるはずである。 しかし、Dという科目でAの重要度は20.0と非常に高いのに対し、Bの重要度は1.0と非常に低い。 この2つの意味は似ているのであれば、Bの重要度も高くなってよいのではないだろうか。 そこで、文書行列の重要度に補正処理を行った。 文書docにおける重要語$ w_x$ の新しい重要度 $ I'(w_x,doc)$ は以下のようになる。

$\displaystyle I'(w_x,doc) = I(w_x,doc) + \sum_i^n \left( \cfrac{ I(w_i ,doc) }{2} \right)$ (2.21)

ただし、 $ I(w_x,doc)$ は書き換え前の文書docにおける$ w_x$ の重要度であり、 $ w_x,w_1,w_2,\cdots,w_n$ は同じsynsetにあるものとする。 こうすることで、意味は似ているにも関わらず重要度の低かった単語の重要度が高くなり、文書の特徴を文書行列により反映させることが期待できる。

式(2.21)は、同じsynsetにある重要語同士ならば、その重要度の半分をお互いに足すということを意味している。 単語が同じsynsetを持つということは概念的には同じ言葉であることを表すが、意味が全く同じとは限らない場合がある。 例えば「インピーダンス」と「抵抗」は同じsynsetを持つが、この2つの言葉は厳密に言えば同じ意味を持っていない。 このような例もあるため、重要度をそのまま足すのではなく半分程度足すことで程よい補正ができると考えた。



Deguchi Lab. 2012年3月12日