形態素解析を終えた後に行う各単語の重要度の計算には、その単語が文書内でどれだけ現れたかや複合語となっているかなどの要素が考慮される。例として、重要度の計算に良く使われる方を説明する。これは文書中に出現した単語がどれほど特徴的であるかを識別するための指標であり、(Term Frequency)と(Inverse Document Frequency)はそれぞれ次式のように表される。
このようにtfは文書中の単語の出現頻度を表し、idfはその単語がどれだけ他の文書にも含まれているかを表す。このidfを取り入れることによって、多くの文書で見受けられる語句は一般的であり、特定の文書で頻繁に出現する語句が特徴的であることが示せるのである。なお、式(2.2)は文献によって1が足されなかったり、対数の底の値が異なったりする。