next up previous contents
Next: 主成分数の導出と近似行列の生成 Up: データ整理 Previous: テキスト中の記号や語句の置換   目次


シラバスと用語の行列生成

LSAを実行する時には行を用語、列を文書とした表5.3のようなデータ行列が必要になるので、5.1.2節を考慮して作成した。 この用語群は各シラバスのもつ用語を全て集めたもので、重複するものは削除した。 また数字だけ構成された語も削除することにした。これは用語として認めるには難しいからである。

行列の要素は重要度を表すがほとんど0となり、疎行列であることが分かる。テキストデータの処理においてはこのような行列になることが多く、その性質を考慮して計算時間を短縮しようとするアルゴリズムが存在している。なお用語数は約1120個となった。


表 5.3: LSAで取り込むデータ行列
  電子工学 プログラミング to 5mm$\cdots$to 5mm 数値計算
FET 1 0 $\cdots$ 0
センサ 0 0 $\cdots$ 0
$\vdots$ $\vdots$ $\vdots$ $\ddots$ 0
割当 0 1 $\cdots$ 0
活用 0 0 $\cdots$ 0



Deguchi Lab. 2013年2月28日