next up previous contents
Next: 複合名詞への拡張 Up: 重要度の計算 Previous: 重要度の計算   目次

単名詞バイグラムを用いる重要度の計算

まず、特定のコーパスを想定しておき、単名詞 : N が連接する状況すなわち単名詞バイグラムを一般的に図2.1のように表す。

\begin{figure}
% latex2html id marker 101 \par
\begin{center}
$[LN_1 \quad N](\...
...を含む単名詞バイグラムと左右連接単名詞の頻度}
\end{figure}

2.1において、 $ LN_i(i=1,...,n)$ は単名詞バイグラム $ [LN_i \quad N]$ において$ N$ の左方に連接する$ n$ 種類の単名詞を表し、単名詞バイグラム $ [N \quad RN_j]$ において $ RN_j(j=1,...,m)$ $ N$ の右方に連接する$ m$ 種類の単名詞を表す。 また、()内の $ \char93 L_i(i=1,...,n)$ $ N$ の左方に連接する単名詞 $ LN_i$ の頻度を表し、 $ \char93 R_j(j=1,...,m)$ $ N$ の右方に連接する単名詞 $ RN_j$ の頻度を表す。 もちろん、単名詞バイグラム $ [LN_i \quad N]$ $ [N \quad RN_j]$ はより長い複合名詞の一部分であってもよい。 以下にコーパスから抽出した「トリグラム」という単名詞を含む用語候補集合の簡単な作例を示す。

例:単名詞バイグラム

トリグラム 統計、単語 トリグラム、クラス トリグラム、単語 トリグラム、トリグラム 抽出、 単語 トリグラム、トリグラム 統計、文字 トリグラム

この例を図2.1のような形式で表記すると図2.2のようになる。

\begin{figure}
% latex2html id marker 111 \par
\begin{center}
\begin{tabular}{\...
...イグラムと左右連接単名詞の頻度の例}
\end{center}\end{figure}

単名詞バイグラムには異なり数 2.1の他に頻度情報 $ \char93 L_i$ , $ \char93 R_j$ がある。この二つの要因を 組み合わせた方法としては種々の方法が考えられるが、簡単なのは異なる単名詞毎の頻度に何らかの 関数を施して総和をとる方法であり、次式で表される。ただし、記法は図2.1の記法を用いる。

$\displaystyle \char93 LN(N)$ $\displaystyle =$ $\displaystyle \sum_{i=1}^n (\char93 L_i)$ (2.1)
$\displaystyle \char93 RN(N)$ $\displaystyle =$ $\displaystyle \sum_{j=1}^m (\char93 R_j)$ (2.2)

$ \char93 LN(N)$ , $ \char93 RN(N)$ は、それぞれ$ N$ の左方、右方に連接して複合名詞を形成する全単名詞 の頻度である。図2.2の例だと $ \char93 LN($トリグラム$ )=5$ $ \char93 RN($トリグラム$ )=3$ となる。



Deguchi Lab. 2012年3月12日