Next: 謝辞 Up: 無題 Previous: 考察

結論

本研究では、3層パーセプトロンにオセロの盤面データを入力することによってその盤面の評価値を得られるように学習を行った。

盤面データのネットワークへの入力方法には主に2つを試した。一つ目の方法は盤面データをそれぞれ黒石、白石のみの盤面に分けて、石があれば１、無ければ０を入力した。当初は１手目から６０手目まですべてを１つのネットワークに学習させていたが、学習係数などを調整してもなかなか学習が進まない結果となった。これは、序盤においては有利であったパターンが中盤、終盤においても有利であるとは限らないためと考えられる。次にネットワークをいくつか用意し、全60手をいくつかの段階に分けてそれぞれ別のネットワークに学習させる方法について実験した。この結果として、ネットワークの数を多く用意すればするほど誤差の変化が滑らかになった。ただ、ネットワーク数を増やすほどメモリ使用量が増える上、誤差の減少があまり見られなくなる、学習により多くの時間が必要になるなどの点から、分割数は12～20程度が妥当であると考えられる。

二つ目の方法として、盤面をいくつかのパターンに分けてそのパターンの数だけ入力ノードを用意した。この入力方法においても第7章の直接入力による実験と同様にネットワークの数を調整したときの学習誤差について検証した。直接入力では、分割数を上げるほど学習誤差がより減少し、パターン化では分割数を上げると逆に学習誤差が増加した。これはパターン化ではネットワークのノード数が極端に多いためで、学習回数を増やすことによって改善することが出来た。次に、入力データとして着手可能数、2x5-corner、開放度、次の手番を付加することによって学習にどのような影響があるかを調べた。開放度以外はそれぞれが異なる範囲で学習誤差の減少に効果があることが分かった。また、開放度以外のデータを組み合わせることにより、総合的に学習誤差が減少することも分かった。最後に、この入力データの組み合わせで学習回数を変化させたとき、学習回数を重ねるごとに徐々に誤差が減少するということが分かった。

これらの研究を通して、オセロの評価関数の場合においては、パーセプトロンにおいて極所解に陥ることがあまり無いということが分かった。また、オセロの特徴が把握できるデータをネットワークに入力することにより良い点が組み合わさり、学習誤差が減少するということが分かった。この研究で得られた評価関数の特性を見ると(図 8.11)、特に終盤においてはまだ学習誤差が大きいことがわかる。この部分の改善が今後の課題である。

Deguchi Lab.