next up previous contents
Next: ネットワーク分析 Up: 実験に使用した技術 Previous: 実験に使用した技術   目次


N-gram解析

N-gram統計とは、対象となるテキストの中で、連続するN個の表記単位(gram)の出現頻度を求めることである。 それによって、テキスト中の任意の長さの(共起)表現の出現頻度パターンなどを知ることができる。 表記単位(gram)としては、文字または空白で分かち書きされる単語が使われる。 N-gram で N=1 の場合を unigram、N=2 の場合をbigram、N=3の場合を trigram という。

例えば「あいうえおあいう」というデータから N=3 で N-gram の種類を求めると、 「あいう」「いうえ」「うえお」「えおあ」「おあい」の5種類となる。 データがこれだけなら、出現頻度は「あいう」が2でその他はそれぞれ1である。 すなわち「あいう」の出現確率とは「あい」が先行して生起することを条件とした「う」の出現確率に他ならない。 N-gram 統計を使って、テキスト中の欠字・不明字などを、 先行する適当な長さの文字列を手がかりに確率的に推測するような使い方もできるが確定することはできない。

英語のように分かち書きされる書き言葉の場合は、単語を表記単位として、 N個の隣接する単語の共起頻度を求めることも簡単である。 しかし、分かち書きをしない日本語の書き言葉のような場合、文字を表記単位として、 むしろ意味とは無関係に任意の長さの文字連鎖の共起頻度を求め、 その種類ごとの統計をとってテキストの特徴を記述する方法として使われたりしている。



Deguchi Lab. 2013年2月28日