自然言語の難しさ

Next: 自然言語処理の精度と意義 Up: 自然言語処理 Previous: 形態素解析目次

文中では明示されていない省略された内容を推定したり、代名詞などの照応表現が何を示しているかを分析したりする処理も必要である。しかし、それ以上に困難なのが曖昧性の問題であり、さらには、誤字脱字といった誤りの問題も存在する。

ここで、曖昧性の問題の例を挙げてみる。曖昧性は形態素解析のレベルでも頻繁に発生する。

「株価が下がる」という文字列は

（総体ではない）株価　が　下がる

という解釈と

株（の）　価（値）　が　下がる

という解釈が可能であり、そのどちらが正しいかは「株価が下がる」の周囲の文脈を参照しなければ決定できない。

さらに、語の意味や役割の解釈における曖昧性も存在する。例えば、「HP」は、「ホームページ(Home Page)」を表すこともあれば、「ヒットポイント(Hit Point)」、さらに、「ヒューレット・パッカード(Hewlett Packard)」などを表すこともある。

このように、人間にとっては、一見して解釈が明白に思える文章も、意味や文脈を完全に把握することのできないコンピュータにとっては曖昧性の高い文章であることがある。このことが、コンピュータで自然言語を処理する上での難しさとなっている。

Deguchi Lab. 2013年2月28日