pdfをテキスト化した時に、pdfのレイアウト上改行になってしまった部分はpdftotextではそのまま改行扱いになってしまう。そのため、今回の実験では改行を直さずそのままの状態のテキストファイルと、手作業でよけいな改行や空白を考慮して編集し人が読んで違和感がないような前処理をした状態のテキストファイルの2種類のテキストファイルを用いて実験を行うことにした。これによって、シラバスのテキストファイルに前処理をする必要性があるのかどうかを調べることができるからである。