Next: 入力信号
Up: 実験準備(基本事項)
Previous: 実験準備(基本事項)
この実験で使用するパーセプトロンは教師あり学習なので、棋譜データとその盤面を評価した教師信号が必要不可欠である。
しかし、盤面一つ一つについて完璧な教師信号は無く、既存の評価関数を元に生成したのではその評価関数を越すことが非常に難しくなる点などから、その試合の終了時点においての石差を教師信号とした。
この場合学習させる棋譜パターンが少量であると、学習結果に大きな偏りが見られると考えられるが、大量の棋譜パターンを学習させることにより偏りがなくなると考えられる。
ここで、評価値について説明しておく。
基本的にオセロの評価値は-64〜64までの値を取る。この値というのは最良手を打ったときの最終的な石差に近いほど良く、正の値なら自分側が優勢、負の値ならば相手側が優勢ということである。
これをニューラルネットワークの教師信号にすることを考えると、このまま使うことはできない。ニューラルネットワークは0〜1の値を取るためだ。
ここで、xを評価値として以下の式を用いてニューラルネットワークの教師信号とする。
Deguchi Lab.