LSAを実行する時には行を用語、列を文書とした表5.3のようなデータ行列が必要になるので、5.1.2節を考慮して作成した。 この用語群は各シラバスのもつ用語を全て集めたもので、重複するものは削除した。 また数字だけ構成された語も削除することにした。これは用語として認めるには難しいからである。
行列の要素は重要度を表すがほとんど0となり、疎行列であることが分かる。テキストデータの処理においてはこのような行列になることが多く、その性質を考慮して計算時間を短縮しようとするアルゴリズムが存在している。なお用語数は約1120個となった。