図2.1において、
は単名詞バイグラム
において
の左方に連接する
種類の単名詞を表し、単名詞バイグラム
において
は
の右方に連接する
種類の単名詞を表す。
また、()内の
は
の左方に連接する単名詞
の頻度を表し、
は
の右方に連接する単名詞
の頻度を表す。
もちろん、単名詞バイグラム
や
はより長い複合名詞の一部分であってもよい。
以下にコーパスから抽出した「トリグラム」という単名詞を含む用語候補集合の簡単な作例を示す。
例:単名詞バイグラム
トリグラム 統計、単語 トリグラム、クラス トリグラム、単語 トリグラム、トリグラム 抽出、
単語 トリグラム、トリグラム 統計、文字 トリグラム
この例を図2.1のような形式で表記すると図2.2のようになる。
単名詞バイグラムには異なり数
2.1の他に頻度情報
,
がある。この二つの要因を
組み合わせた方法としては種々の方法が考えられるが、簡単なのは異なる単名詞毎の頻度に何らかの
関数を施して総和をとる方法であり、次式で表される。ただし、記法は図2.1の記法を用いる。