Next: Mecabを用いて形態素解析 Up: シラバスの類似度の計算 Previous: シラバスの類似度の計算目次

Xpdfを用いてpdfをテキスト化

岐阜工業高等専門学校のシラバスはpdf形式でホームページに掲載されているため、それらをダウンロードしたあと形態素解析ができるようにテキストファイルに直す必要がある。 XpdfはX window SystemとMotif用のオープンソースのPDFビューアである。このXpdfに含まれる「pdftotext」というコマンドを用いてpdfファイルをテキストファイル化する。

pdfをテキスト化した時に、pdfのレイアウト上改行になってしまった部分はpdftotextでは読み取ってくれずそのまま改行の扱いになってしまう。すると、単語の間に改行が入ってしまっていた場合にその単語が候補語を抽出する際に１単語として読み取られなくなってしまうのでこれを避けるため、ある程度手作業で文章を綺麗な形にする必要がある。

また、単語間にスペースがある場合、Mecab(次節にて説明する)ではそのスペースを考慮せず１単語として読み取ってしまう。シラバスの文章は句読点が少なく、体言止めが多い。例えば、3E電気磁気学Iの授業予定第23回では

$\fbox{第２３回：静電界における力エネルギーと帯電導体に働く力}$

と記述されているが、この場合「静電界における力」という文章は「力」で体言止めされており、次の文章に続いているわけではない。しかし、この文章と次の文章の間がスペースの場合、Mecabはスペースを考慮せず文章の終わりを読み取らない。その結果、重要語を抽出する際に「力エネルギー」という複合語を抽出してしまい、その複合語を重要語として挙げてしまう。そのため、スペースを改行へ変換することでさらに確実に形態素解析を行うことができる。

Deguchi Lab. 2010年3月5日