next up previous contents
Next: MeCabによる形態素解析 Up: データ整理 Previous: データ整理   目次

Xpdfによるシラバスのテキスト化

実験に使用したシラバスは岐阜工業高等専門学校のホームページで公開されている 電気情報工学科専門科目の情報コースのものをダウンロードした。 シラバスはPDF形式だがこのままMeCabに入力することはできないので、まずこれをTXT形式に変換する必要がある。 そのためにXpdfというソフトウェアを使用した。XpdfはオープンソースのPDFビューアであり、 PDFファイルから画像を取り出したり、テキストファイルに変換したりするプログラムを含んでいる。 今回は、Xpdfに含まれる「pdftotext」というコマンドを用いてPDFファイルをテキストファイルに変換した。

4.1に今回実験の対象としたシラバスの一覧を示す。


表 4.1: 実験対象のシラバス
オペレーティングシステム ディジタル回路 プログラミング
応用物理 画像処理工学 技術英語
技術者倫理 計算機アーキテクチャ 数値計算
通信工学 電気回路 電気機器
電気材料 電気磁気学 電子回路
電子工学 電子物性  



Deguchi Lab. 2013年2月28日