データ番号 | データ数 | 降水の有無の
適中率[%] |
最高気温の
予測誤差(RMS)[ ![]() |
最低気温の
予測誤差(RMS)[ ![]() |
データ1 | 18 | 44.70 | 3.49 | 2.64 |
データ2 | 16 | 65.95 | 3.27 | 2.35 |
データ3 | 14 | 65.90 | 3.28 | 2.35 |
データ4 | 9 | 66.85 | 2.88 | 1.81 |
データ5 | 6 | 66.20 | 2.89 | 1.78 |
結果をみると、気圧が含まれることにより大幅に降水の有無の適中率が下がることがわかる。 データ数を14から9にしたとき、多少ではあるが適中率、気温の誤差は良くなっていることがわかる。 それ以外のデータの変化では、データ数を減らしても結果は殆ど変化していない。 このことよりデータ数を増やすことが気象の予測精度をあげることにはならず、 反対に増やすことにより予測結果が悪くなることもあるといえる。
データを減らしても結果に影響がなかったデータは、湿度、日射時間と降雪積雪であった。 これらの結果は前年と同様であった。 そのためデータを減らしても結果に影響を与えない原因は、 前年と同様気象データには相関性があるためであり、 学習結果に影響を与えないためといえる。 例えば降雪積雪のデータであれば、降水量と気温があれば気温が低く、降水のときは降雪があることがわかる。 これらのように他のデータと相関性があり、データを減らしたとしても学習に影響を与えないといえる。
次に、気圧の観測データがある場合とない場合を比較して、 気圧の観測データがない場合の方が予測精度が良くなったという結果について考察する。 気圧のデータは低いときは990hPa程度、高いときは1020hPa程度となり、差は30ほど生まれる。 これ対し、他の入力データの差は20もなく小さい。 そのため、勝者ニューロンを決定するときに用いるユーグリッド距離が気圧の差によって決まってしまう。 ゆえに気圧のデータを用いることにより、正しいパターン分類が行われず、 翌日の気象の学習に影響を与えてしまうため予測精度が下がったと考えられる。 そのため、気圧の入力データの差を小さくすることで、 予測精度が良くなる可能性もあると考えられる。
データ数を14から9に減らしたとき、つまり風のデータを消したとき多少ではあるが予測は良くなった。 自己組織化マップにより多次元の入力ベクトルを二次元のベクトルに直して出力することができる。 しかし、多次元から二次元にするため、入力の次元数が多いほど、 複雑になってしまい、必要とするデータに対して分類することが困難になってしまう。 そのため風のデータを消すことで予測は良くなったと考えられる。 また、風の入力データの一つである風向きのデータに問題があることも理由であると考えられる。 風向きは北を0、北北東を1、と時計回りに増やし、北北西を15になっている。 そのため、北と北北西は実際には近いはずであるのに、 入力データには大きな違いが出てしまっている。 これが原因で、風のデータを入れることで気象のパターン分類がうまく行われず 予測が悪くなってしまったと考えられる。 また、これが原因の場合、入力データを直すことで予測が良くなると考えられる。
これらの結果から、入力データは多いほど予測精度が高くなるわけではないことがわかる。 入力データは、相関性があるものは減らしても良く、 また、必要なデータに関係のないものを入れすぎることより、 学習が複雑になるため、予測が悪くなることもある。 また、入力データを適切な値な変換を行うことでさらに予測精度を上げることも可能だと考えられる。