この実験で使用するパーセプトロン、畳み込みニューラルネットワークは教師あり学習なので、棋譜データとその盤面を評価した教師信号が必要不可欠である。棋譜データについては、50万棋譜計画 - OWiki[6]からのものを使用する。
しかし、盤面一つ一つについて完璧な教師信号は無く、既存の評価関数をもとに生成したのではその評価関数を超すことが非常に難しくなる点などから、その試合の終了時点においての石差を教師信号とする。
ここで、評価値について説明しておく。
基本的にオセロの評価値は
〜64までの値を取る。この値というのは最良手を打った時の最終的な石差に近いほどよく、正の値なら自分が優勢、負の値なら相手側が優勢ということである。
これをニューラルネットワークの教師信号にすることを考えると、このまま使用することはできず、0〜1の値に収まるようにしなければならない。
ここで、
を評価値として式(6.1)を用いてニューラルネットワークの教師信号とする。
 |
(25) |
Deguchi Lab.
2017年3月6日