next up previous contents
Next: 候補語の出現頻度情報 Up: 重要度の計算 Previous: 単名詞バイグラムを用いる重要度の計算   目次

複合名詞への拡張

以上のような方法で単名詞の重要度の計算ができた。しかし、専門用語は単名詞だけではなく、 複数の単名詞から生成される複合名詞も含まれる。 専門用語ではむしろ複合名詞が多数であるので、単名詞の重要度を複合名詞に拡張することが必要である。

複合名詞の重要度の計算には二つの考え方がある。 第一の考え方は、複合名詞の重要度はその構成単名詞数、すなわち長さに依存するというものである。 この考え方に従えば、長い複合名詞ほど高い重要度がつくことが自然である。 第二の考え方は、重要度は複合名詞の長さに依存しないというものである。この考え方に従えば、 長さに対して依存しないような正規化が必要になる。 専門用語に複合名詞が多いことは認めるにしても、長い程、あるいは短い程、重要であるという根拠は 今のところない。 よって、第二の考え方を進めていくことにする。

まず、単名詞 $ N_1,N_2,...,N_L$ がこの順で連接した複合名詞を $ CN$ とする。$ CN$ の重要度として 各単名詞の重要度の平均をとれば、第二の考えに沿った $ CN$ の長さに依存しない重要度を定義できる。 平均として、ここでは相加平均ではなく相乗平均を採用する。 ただし、$ CN$ の構成要素の単名詞の重要度が一つでも0になると $ CN$ の重要度が0になってしまうのを避けるために次式で $ CN$ の重要度 $ LR(CN)$ を定義する。

$\displaystyle LR(CN)=\left( \prod_{i=1}^L \left(\char93 LN\left(N_i\right)+1\right)\left(\char93 LR\left(N_i\right)+1\right) \right)^{\frac{1}{2L}}$ (2.3)

例えば、図 2.2の場合、 $ LR($トリグラム$ )=\sqrt{(3+1)(5+1)}=4.90$ である。 式(2.3)では $ CN$ の長さ $ L$ の逆数でべき乗しているので、$ LR(CN)$ $ CN$ の長さに依存しないようになる。したがって、単名詞も複合名詞も同じ基準でその重要度を比較できる。



Deguchi Lab. 2010年3月5日