図 2.1において、
は単名詞バイグラム
の
の左方に連接する
種類の単名詞を表し、単名詞バイグラム
の
は
の右方に連接する
種類の単名詞を表す。
また、()内の
は
の左方に連接する
個の単名詞の頻度を表し、
は
の右方に連接する
個の単名詞の頻度を表す。
もちろん、単名詞バイグラム
や
はより長い複合名詞の
一部分であってもよい。以下にコーパスから抽出した「トリグラム」という単名詞を含む用語候補集合
の簡単な作例を示す。
例:単名詞バイグラム
トリグラム 統計、単語 トリグラム、クラス トリグラム、単語 トリグラム、トリグラム 抽出、
単語 トリグラム、トリグラム 統計、文字 トリグラム
この例を図 2.1のような形式で表記すると図 2.2のようになる。
単名詞バイグラムには異なり数
2.1の他に頻度情報
,
がある。この二つの要因を
組み合わせた方法としては種々の方法が考えられるが、簡単なのは異なる単名詞毎の頻度に何らかの
関数を施して総和をとる方法であり、次式で表される。ただし、記法は図 2.1の記法を用いる。