Next: Xpdfを用いてpdfをテキスト化 Up: hayashi Previous: ベクトル空間法による文書の類似度の算出目次

シラバスの類似度の計算

前章で述べたテキストマイニング処理を岐阜工業高等専門学校電気情報工学科のシラバスに適用する。シラバスの類似度は、そのシラバスのどのような語が重要語になっていて、その語がお互いのシラバスに存在するか、またその語の重要度はどれくらいなのかを基に算出されている。そのため、シラバスの類似度はその教科同士の関連度を示していると考えられ、教科同士の関連度がハッキリすれば、学生は「この教科を学ぶには、この教科を復習しなければならない」、また「この教科は進級するとこの教科につながる」ということを意識して授業に望むことができ、学生の学習意欲を刺激することができるだろう。本研究の調査対象のシラバスの一覧は表 3.1の通りである。実験を簡単にするため「応用数学A」のような一般教科は省略した。

**表 3.1:** 調査対象のシラバス
$\scalebox{0.8}{ \begin{tabular}{\vert c\vert lll\vert} \hline 1年 & 1E電気... ...�ス & 5E電磁波工学 \\ & 5E高電圧工学 & & \\ \hline \end{tabular} }$

処理の流れとしては以下のようになる。

Xpdfを用いてpdfをテキスト化
Mecabを用いて形態素解析
TermExtractを用いて重要語の抽出および重要度を計算
termmiを用いて類似度を計算
シラバス特有の単語を除外して同じ処理を行う

今回プログラミング言語に関してはPerlを用いた。Perlはインタプリタ方式のプログラミング言語で、特長として

文字列処理に強い
サンプルやモジュールが豊富
柔軟な記述でプログラムが作りやすい

などがあげられ、自然言語処理には適切な言語だと言える。

Subsections

Deguchi Lab. 2010年3月5日