TfIdf[1]

TfIdfとは、文書中の単語の重みである。TfIdfは、文書中の単語の頻度を表す Tf (Term Frequency) と単語の情報量を表す Idf (Inverse Document Frequency) の積で求められる。 文書が$ N$ 個のとき、各文書を$ d_i$ $ (i=1,2,\ldots,N)$ 、文書$ d_i$ のにおける単語が$ M$ 種類のとき、各単語を$ t_{ij}$ $ (j=1,2,\ldots,M)$ とする。 文書$ d_i$ で単語$ t_{ij}$ の Tf、Idf、TfIdfは次の式で表される。


Tf$\displaystyle _{ij}$ $\displaystyle =$ $\displaystyle \mbox{文書$d_i$における単語$t_{ij}$の出現回数}$ (1)
Idf$\displaystyle _j$ $\displaystyle =$ $\displaystyle -\log\frac{\mbox{全文書数$N$}}{\mbox{文書に単語$t_{ij}$を含む文書数}}$ (2)
TfIdf$\displaystyle _{ij}$ $\displaystyle =$ Tf$\displaystyle _{ij}\times$Idf$\displaystyle _j$ (3)

他に、出現頻度を総単語数で割ったものをTfとする方法がある。出現頻度は長文であればあるほど増加するので、文の長さの違いが重要度として関係しないとする場合に用いられる。シラバスは長文ではないので、この方法は使用しなかった。Idfは1を足すことによって重要度を0にならないようにする場合があるが、この研究では、すべてのシラバスに含まれる単語は類似度に影響しないと考えたので、すべてのシラバスに含まれる単語は重要度が0になるように式(3.3)を用いた。他にもIdfの底が違う場合がある。


Deguchi Lab. 2017年3月6日