next up previous contents
Next: 複合名詞への拡張 Up: 重要度の計算 Previous: 重要度の計算   目次

単名詞バイグラムを用いる重要度の計算

まず、特定のコーパスを想定しておき、単名詞 : N が連接する状況すなわち語幹バイグラムを一般的に 図 2.1のように表す。

図 2.1: 単名詞Nを含む単名詞バイグラムと左右連接単名詞の頻度
\includegraphics{fig1.eps}

図 2.1において、 $ LN_i(i=1,...,n)$ は単名詞バイグラム $ [LN_i \quad N]$ $ N$ の左方に連接する$ n$ 種類の単名詞を表し、単名詞バイグラム $ [N \quad RN_j]$ $ RN_j(j=1,...,m)$ $ N$ の右方に連接する$ m$ 種類の単名詞を表す。 また、()内の $ \char93 L_i(i=1,...,n)$ $ N$ の左方に連接する$ n$ 個の単名詞の頻度を表し、 $ \char93 R_j(j=1,...,m)$ $ N$ の右方に連接する$ m$ 個の単名詞の頻度を表す。 もちろん、単名詞バイグラム $ [LN_i \quad N]$ $ [N \quad RN_j]$ はより長い複合名詞の 一部分であってもよい。以下にコーパスから抽出した「トリグラム」という単名詞を含む用語候補集合 の簡単な作例を示す。

例:単名詞バイグラム

トリグラム 統計、単語 トリグラム、クラス トリグラム、単語 トリグラム、トリグラム 抽出、 単語 トリグラム、トリグラム 統計、文字 トリグラム

この例を図 2.1のような形式で表記すると図 2.2のようになる。

図 2.2: 単名詞「トリグラム」を含む単名詞バイグラムと左右連接単名詞の頻度の例
\includegraphics{fig2.eps}

単名詞バイグラムには異なり数 2.1の他に頻度情報 $ \char93 L_i$ , $ \char93 R_j$ がある。この二つの要因を 組み合わせた方法としては種々の方法が考えられるが、簡単なのは異なる単名詞毎の頻度に何らかの 関数を施して総和をとる方法であり、次式で表される。ただし、記法は図 2.1の記法を用いる。

$\displaystyle \char93 LN(N)$ $\displaystyle =$ $\displaystyle \sum_{i=1}^n (\char93 L_i)$ (2.1)
$\displaystyle \char93 RN(N)$ $\displaystyle =$ $\displaystyle \sum_{j=1}^m (\char93 R_j)$ (2.2)

$ \char93 LN(N)$ , $ \char93 RN(N)$ は、それぞれ$ N$ の左方、右方に連接して複合名詞を形成する全単名詞 の頻度である。図 2.2の例だと $ \char93 LN($トリグラム$ )=5$ $ \char93 RN($トリグラム$ )=3$ となる。



Deguchi Lab. 2010年3月5日