シラバスと用語の行列生成

Next: 主成分数の導出と近似行列の生成 Up: データ整理 Previous: テキスト中の記号や語句の置換目次

LSAを実行する時には行を用語、列を文書とした表5.3のようなデータ行列が必要になるので、5.1.2節を考慮して作成した。この用語群は各シラバスのもつ用語を全て集めたもので、重複するものは削除した。また数字だけ構成された語も削除することにした。これは用語として認めるには難しいからである。

行列の要素は重要度を表すがほとんど０となり、疎行列であることが分かる。テキストデータの処理においてはこのような行列になることが多く、その性質を考慮して計算時間を短縮しようとするアルゴリズムが存在している。なお用語数は約1120個となった。

Deguchi Lab. 2013年2月28日