文中では明示されていない省略された内容を推定したり、代名詞などの照応表現が何を示しているかを分析したりする処理も必要である。しかし、それ以上に困難なのが曖昧性の問題であり、さらには、誤字脱字といった誤りの問題も存在する。
ここで、曖昧性の問題の例を挙げてみる。曖昧性は形態素解析のレベルでも頻繁に発生する。
「絶対値が上がる」
という文字列は
(総体ではない)絶対値 が 上がる
という解釈と
絶対(に) 値(段) が 上がる
という解釈が可能であり、そのどちらが正しいかは「絶対値が上がる」の周囲の文脈を参照しなければ決定できない。
さらに、語の意味や役割の解釈における曖昧性も存在する。例えば、「CD」は、「コンパクトディスク(CompactDisc)」を表すこともあれば、「チェックディジット(Check Digit)」などを表すこともある。
このように、人間にとっては、一見して解釈が明白に思える文章も、意味や文脈を完全に把握することのできないコンピュータにとっては曖昧性の高い文章であることがある。このことが、コンピュータで自然言語を処理する上での難しさとなっている。