next up previous contents
Next: Mecabを用いて形態素解析 Up: データ準備 Previous: Xpdfによるシラバスのテキスト化   目次


テキストファイルの前処理

pdfをテキスト化した時に、pdfのレイアウト上改行になってしまった部分はpdftotextではそのまま改行扱いになってしまう。そのため、今回の実験では改行を直さずそのままの状態のテキストファイルと、手作業でよけいな改行や空白を考慮して編集し人が読んで違和感がないような前処理をした状態のテキストファイルの2種類のテキストファイルを用いて実験を行うことにした。これによって、シラバスのテキストファイルに前処理をする必要性があるのかどうかを調べることができるからである。



Deguchi Lab. 2012年3月9日