next up previous contents
Next: Mecabを用いて形態素解析 Up: データ準備 Previous: Xpdfによるシラバスのテキスト化   目次


テキストファイルの前処理

pdfをテキスト化した時に、pdfのレイアウト上改行になってしまった部分はpdftotextではそのまま改行扱いになってしまう。 以前の研究[16]で、手作業でシラバスを違和感のないよう改行や空白を編集した方がより良い結果が出ることが分かっているため、本実験では編集済みのテキストファイルを使用する。



Deguchi Lab. 2016年3月4日