今回使用するTermExtractのMeCab版には、get_imp_wordという関数のみが実装されている。この関数は形態素解析を行って抽出された単語を、個々の単語の語順と品詞情報を元に複合語を生成するものである。第1引数には処理対象のデータを、第2引数としては第1引数の種別を与え、生成された語とその重要度が戻り値として得られる。これにより前研究と同じ形式のデータを得て、複合語はそのままに重要度を全て1とした、重要度を考慮しないデータの2つを得た。
この用語抽出の際、シラバスにあって当然の語句は省略するようにした。これはシラバスの書き方が似ていることから、ある教科と全く関係のない教科が似てしまうことを少しでも防ぐ為の処置であり、その語句を表 4.2に示す。このような語句を含む用語は、全て計算の対象外にすることにした。なお、この処理による効果は前研究により明らかにされているが、今回もその効果を確認する為に、除去語句を使用しないデータも用意することにした。
・通年 | ・学年 | ・年度 | ・期末 | ・中間 |
・平成 | ・前期 | ・後期 | ・目標 | ・試験 |
・達成 | ・成績 | ・課題 | ・演習 | ・学習 |
・学修 | ・予習 | ・復習 | ・予定 | ・授業 |
・講義 | ・板書 | ・宿題 | ・科目 | ・重み |
・教科書 | ・参考書 | ・報告書 | ・非常勤 | ・得点率 |