文中では明示されていない省略された内容を推定したり、代名詞などの照応表現が何を示しているかを分析したりする処理も必要である。しかし、それ以上に困難なのが曖昧性の問題であり、さらには、誤字脱字といった誤りの問題も存在する。
ここで、曖昧性の問題の例を挙げてみる。曖昧性は形態素解析のレベルでも頻繁に発生する。
「連続値を測定する」
という文字列は
(総体ではない)連続値 を 測定するという解釈と、
連続(に) 値 を 測定するという解釈が可能であり、そのどちらが正しいかは「連続値を測定する」の周囲の文脈を参照しなければ決定できない。
さらに、語の意味や役割の解釈における曖昧性も存在する。例えば、「FA」は、「フライトアテンダント(Flight Attendant)」を表すこともあれば、「有限オートマトン(Finite Automaton)」などを表すこともある。
このように、人間にとっては、一見して解釈が明白に思える文章も、意味や文脈を完全に把握することのできないコンピュータにとっては曖昧性の高い文章であることがある。このことが、コンピュータで自然言語を処理する上での難しさとなっている。