シラバスをpdfからテキストに変換

シラバスは、岐阜高専のホームページから確認することができる。それらは、pdf形式となっているためR言語では読み込むことができない。そこで、pdfをテキストファイルにする必要がある。変換には、pdfをそのままコピーし、テキストファイルにペーストすることによりテキストファイルにすることにした。pdfをコピーすると改行や空白が文としておかしなところにできるので、それらは手作業で修正した。また、Macのテキストエディットでは、PDFをコピー&ペーストして保存すると、NFDと呼ばれる全ての文字をバラバラのパーツで表現される文字で保存する形式となる。このNFDをRで読み込むと濁点が一つの文字として認識されてしまい、形態素解析ができない。なので、NFCという文字を単体で表現する方式に変換することにより、R言語で読み込むことができるようにした。 シラバスの文字コードはUTF-8とした。

Deguchi Lab. 2017年3月6日