next up previous contents
Next: 入力信号 Up: 実験準備(基本事項) Previous: 実験準備(基本事項)   目次


教師信号

この実験で使用するパーセプトロンは教師あり学習なので、棋譜データとその盤面を評価した教師信号が必要不可欠である。 しかし、盤面一つ一つについて完璧な教師信号は無く、既存の評価関数をもとに生成したのではその評価関数を超すことが非常に難しくなる点などから、その試合の終了時点においての石差を教師信号とした。

この場合学習させる棋譜パターンが少量であると、学習結果に大きな偏りが見られると考えられるが、大量の棋譜パターンを学習させることにより偏りがなくなると考えられる。

ここで、評価値について説明しておく。 基本的にオセロの評価値は$-64$〜64までの値を取る。この値というのは最良手を打った時の最終的な石差に近いほどよく、正の値なら自分が優勢、負の値なら相手側が優勢ということである。 これをニューラルネットワークの教師信号にすることを考えると、このまま使用することはできず、0〜1の値に収まるようにしなければならない。ここで、$x$を評価値として以下の式を用いてニューラルネットワークの教師信号とする。


\begin{displaymath}
t(x) = \frac{x+64}{128}
\end{displaymath} (5.1)



Deguchi Lab. 2014年2月25日