Next: MeCabによる形態素解析
Up: データ準備
Previous: データ準備
目次
Xpdfによるシラバスのテキスト化
シラバスを例に類似度計算を行っていくが、まず岐阜工業高等専門学校のホームページ[12]に掲載されてある電気情報工学科専門科目のシラバス(PDF形式)をダウンロードした。次にこれをTXT形式に変換する為にXpdf(Ver.3.02)[13]というソフトウェアを用いた。XpdfはオープンソースのPDFビューアであり、PDFファイルから画像を取り出したり、テキストファイルに変換したりするプログラムを含んでいる。今回はこの後者のプログラムを用いて全てのシラバスをTXT形式に変換したが、一部文字化けを起こしていたり、レイアウト上の関係から文の繋がりがおかしかったりする箇所が見受けられたので、その点を手作業で修正した。また、文の中途半端な位置で改行されることが多く、全ての改行を消去することにした。
表 4.1に今回実験の対象としたシラバスの一覧を示す。本校のホームページと照らし合わせてみると分かるが、4・5年で共通の科目と、コース別で教科名は異なるが同じ内容のものはその一方を省いてある。また、留学生用科目の電気情報工学演習は補習的な授業である為、同様に省くことにした。
Deguchi Lab.
2011年3月4日