入力データの正規化

Next: 実験 Up: 学習と気象予測方法 Previous: 降水量観測データの対数化目次

入力データの正規化

第3章で述べたように、自己組織化マップを学習させるときに決める勝者ニューロンは各入力層のデータの距離をもとに決定される。この距離は単純なデータの大きさなので、もとのデータの値の開き具合によって勝者ニューロンの決定に与える影響が変わってくる。

学習させるデータは、入力層ごとに単位もあつかう数値もばらばらなので、そのまま入力してしまうと数値の開きが大きい次元のデータばかり優先して勝者ニューロンの決定に影響してしまう。特に4.1.2節で述べたように対数化をすると、元は大きな数値でもとても小さくなってしまうので影響までもとても小さくなってしまう。これを防ぐために、すべての入力層の値を同じようなばらつき方になるように正規化する、という方法がある。

すべての値を正規化することで、どの次元の値の変化も同じように勝者ニューロンの決定に影響し、逆にある次元のデータを他の次元のデータに比べて大きくすることで勝者ニューロンの決定にも大きく影響させることができる。

降水量のデータに関しては、4.1.2節で述べたように対数化をするのだが、降水量は台風などの気象のせいで特に異常な値が出やすい。なので、できるだけそのような値に左右されないように、まず降水量の元のデータに上限を決め、その上限を上回ったデータは頭打ちをしたということでデータをカットする。そのカットしたデータに対して対数化をして、それによって小さくなってしまった値を今節で述べたような正規化をして、影響力を大きくするために少し大きめの値に設定した。

Deguchi Lab. 2013年2月28日