例えば、「この製品を使いたい。」という文は
この 連体詞,*,*,*,*,*,この,コノ,コノ
製品 名詞,一般,*,*,*,*,製品,セイヒン,セイヒン
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
使い 動詞,自立,*,*,五段・ワ行促音便,連用形,使う,ツカイ,ツカイ
たい 助動詞,*,*,*,特殊・タイ,基本形,たい,タイ,タイ
。 記号,句点,*,*,*,*,。,。,。
というように分析される。この処理に関しては
MeCab (和布蕪) : http://mecab.sourceforge.net/
ChaSen(茶筅) : http://chasen-legacy.sourceforge.jp/
といった形態素解析ツールがフリーで公開されており、これらを利用することで、名詞句や終止形に直した動詞を 文から抽出する処理が簡単に実現できる。
ここで形態素というのは、いわゆる単語よりも若干細かい言語単位である。 上記の例では「使いたい」が「使い」という語幹と「たい」という助動詞に分けられる。 すなわちこの語幹のように、活用によって変化しない形態的に安定したレベルの要素が形態素と呼ばれる。
自然言語処理の代表的な技術として他に「構文解析」というものがあるが、本論文では割愛する。