この場合学習させる棋譜パターンが少量であると、学習結果に大きな偏りが見られると考えられるが、大量の棋譜パターンを学習させることにより偏りがなくなると考えられる。
ここで、評価値について説明しておく。
基本的にオセロの評価値は〜64までの値を取る。この値というのは最良手を打った時の最終的な石差に近いほどよく、正の値なら自分が優勢、負の値なら相手側が優勢ということである。
これをニューラルネットワークの教師信号にすることを考えると、このまま使用することはできず、0〜1の値に収まるようにしなければならない。ここで、
を評価値として以下の式を用いてニューラルネットワークの教師信号とする。