Next: Xpdfを用いてpdfをテキスト化
Up: hayashi
Previous: ベクトル空間法による文書の類似度の算出
目次
前章で述べたテキストマイニング処理を岐阜工業高等専門学校電気情報工学科のシラバスに適用する。
シラバスの類似度は、そのシラバスのどのような語が重要語になっていて、
その語がお互いのシラバスに存在するか、またその語の重要度はどれくらいなのかを基に算出されている。
そのため、シラバスの類似度はその教科同士の関連度を示していると考えられ、
教科同士の関連度がハッキリすれば、学生は「この教科を学ぶには、この教科を復習しなければならない」、
また「この教科は進級するとこの教科につながる」
ということを意識して授業に望むことができ、学生の学習意欲を刺激することができるだろう。
本研究の調査対象のシラバスの一覧は表 3.1の通りである。
実験を簡単にするため「応用数学A」のような一般教科は省略した。
処理の流れとしては以下のようになる。
- Xpdfを用いてpdfをテキスト化
- Mecabを用いて形態素解析
- TermExtractを用いて重要語の抽出および重要度を計算
- termmiを用いて類似度を計算
- シラバス特有の単語を除外して同じ処理を行う
今回プログラミング言語に関してはPerlを用いた。Perlはインタプリタ方式のプログラミング言語で、特長として
- 文字列処理に強い
- サンプルやモジュールが豊富
- 柔軟な記述でプログラムが作りやすい
などがあげられ、自然言語処理には適切な言語だと言える。
Subsections
Deguchi Lab.
2010年3月5日