自然言語の難しさ

Next: 自然言語の精度と意義 Up: 自然言語処理 Previous: 形態素解析目次

文中では明示されていない省略された内容を推定したり、代名詞などの照応表現が何を示しているかを分析したりする処理も必要である。しかし、それ以上に困難なのが曖昧性の問題であり、さらには、誤字脱字といった誤りの問題も存在する。

ここで、曖昧性の問題の例を挙げてみる。曖昧性は形態素解析のレベルでも頻繁に発生する。

「絶対値が上がる」

という文字列は

（総体ではない）絶対値　が　上がる

という解釈と

絶対（に）　値（段）　が　上がる

という解釈が可能であり、そのどちらが正しいかは「絶対値が上がる」の周囲の文脈を参照しなければ決定できない。

さらに、語の意味や役割の解釈における曖昧性も存在する。例えば、「CD」は、「コンパクトディスク(CompactDisc)」を表すこともあれば、「チェックディジット(Check Digit)」などを表すこともある。

このように、人間にとっては、一見して解釈が明白に思える文章も、意味や文脈を完全に把握することのできないコンピュータにとっては曖昧性の高い文章であることがある。このことが、コンピュータで自然言語を処理する上での難しさとなっている。

Deguchi Lab. 2012年3月9日