TfIdfの計算

R言語でTfIdfを求めた。方法は3.2.1節で説明した通りで、docMatrix関数にファイル名、引数posに``名詞''、methodに``Tf''を指定すると自動でR言語がTfを計算する。計算されたTfは式(3.13)の形式の行列で表示され、$ doc,w$ はそれぞれ$ N$ 個の文書、$ M$ 個の名詞を示し、 $ I_{w_1,doc_1}$ $ doc_1$ における$ w_1$ のTfを表す。Idfは式(3.3)をR言語で計算し、Tfの行列にかけることでTfIdfの行列を求めた。

Deguchi Lab. 2017年3月6日