next up previous contents
Next: MeCabを用いて形態素解析 Up: 実験1:ベクトル空間法による類似度の計算 Previous: 実験1:ベクトル空間法による類似度の計算   目次

Xpdfを用いてpdfをテキスト化

岐阜工業高等専門学校のシラバスはpdf形式でホームページに掲載されているため、 それらをダウンロードしたあと形態素解析ができるようにテキストファイルに直す必要がある。 XpdfはX window SystemMotif用のオープンソースのPDFビューアである。 このXpdfに含まれる「pdftotext」というコマンドを用いてpdfファイルをテキストファイル化する。

pdfをテキスト化した時に、pdfのレイアウト上改行になってしまった部分はpdftotextでは読み取ってくれず、そのまま改行の扱いになってしまう。 すると、単語の間に改行が入ってしまっていた場合にその単語が候補語を抽出する際に1単語として読み取られなくなってしまうので、これを避けるためある程度手作業で文章を綺麗な形にする必要がある。

また、単語間にスペースがある場合、MeCabではそのスペースを考慮せず1単語として読み取ってしまう。 さらに、シラバスの文章は句読点が少なく、体言止めが多い。 そのため、例えば3E電気磁気学Iの授業予定第23回では

\fbox{第23回:静電界における力 エネルギーと帯電導体に働く力}

と記述されているが、 この場合「静電界における力」という文章は「力」で体言止めされており、次の文章に続いているわけではない。 しかし、この文章と次の文章の間がスペースの場合、MeCabはスペースを考慮せず文章の終わりを読み取らない。 その結果、重要語を抽出する際に「力エネルギー」という複合語を抽出してしまい、その複合語を重要語として挙げてしまう。 そのため、スペースを改行へ変換する処理を施すことで、さらに確実に形態素解析を行うことができる。



Deguchi Lab. 2012年3月12日