形態素解析

Next: 自然言語処理の難しさ Up: 自然言語処理 Previous: 自然言語処理の必要性目次

文書データは、特に日本語の場合、基本的に連続した文字列で構成されている。形態素解析は、この一連の文字列を文法的に意味のある単位の構成要素に分割し、各要素の文法的素性（品詞など）を決定する。

例えば、「この製品を使いたい。」という文は

この連体詞,*,*,*,*,*,この,コノ,コノ

製品名詞,一般,*,*,*,*,製品,セイヒン,セイヒン

を助詞,格助詞,一般,*,*,*,を,ヲ,ヲ

使い動詞,自立,*,*,五段・ワ行促音便,連用形,使う,ツカイ,ツカイ

たい助動詞,*,*,*,特殊・タイ,基本形,たい,タイ,タイ

。記号,句点,*,*,*,*,。,。,。

というように分析される。この処理に関しては

MeCab (和布蕪) : http://mecab.sourceforge.net/

ChaSen(茶筅) : http://chasen-legacy.sourceforge.jp/

といった形態素解析ツールがフリーで公開されており、これらを利用することで、名詞句や終止形に直した動詞を文から抽出する処理が簡単に実現できる。

ここで形態素というのは、いわゆる単語よりも若干細かい言語単位である。上記の例では「使いたい」が「使い」という語幹と「たい」という助動詞に分けられる。すなわちこの語幹のように、活用によって変化しない形態的に安定したレベルの要素が形態素と呼ばれる。

自然言語処理の代表的な技術として他に「構文解析」というものがあるが、本論文では割愛する。

Deguchi Lab. 2010年3月5日