next up previous contents
Next: 重要度の計算 Up: テキストマイニングのための自然言語処理技術 Previous: テキストマイニングのための自然言語処理技術   目次


候補語の抽出

西欧の言語と違い、日本語や中国語は空白のような明確な語境界がないため、情報検索に使う索引語として 文字N-gramも考えられる。

オープンソースの検索エンジンを含め、多くの検索システムでは、転置インデックス (キーワードとページの組み合わせ = 本の後ろの目次のような構造)が一般的であるが、 その転置インデックスのキーの切り出しを、辞書や構文解析に基づくのではなく、 単に一定の文字数で切り出した語を入れることで作る方式のことをN-gramという。 一定の文字数を1文字にした場合はユニグラム(unigram)、2文字にした場合はバイグラム(bigram)、 3文字にした場合はトリグラム(trigram)となっており、実際はこのどれかを使うのが現実的である。 しかし、専門用語という観点に立てばやはり人間に理解できる言語単位でなければならず、 結果として単語を候補にせざるをえない。

さて、単語も内実は単名詞と複合名詞に分かれる。単名詞とは形態素解析した名詞であり、 複合名詞はその単名詞を組み合わせてできる名詞である。単名詞を最も基本的な要素として、 文章を形態素解析によって単語を切り出し、連続する名詞を複合名詞として抽出することで 候補の抽出を行うことができる。



Deguchi Lab. 2010年3月5日