実際にゲームを開始し、内部記憶を持つニューラルネットワークでの学習において各教師信号をそれぞれ用いて学習させる。 その際に、実際にニューラルネットワークからの出力と教師信号との誤差を比較することで、学習の評価をする。 また、学習が100万回ごとに、その時の結合荷重としきい値を取り出しておく。 その値を用いて、新たな仕様のゲームを行なうことでも学習の評価をする。
学習には、遅れ時間1の遅れ学習と遅れ時間2の遅れ学習を用い教師信号No.1〜No.3を与え学習させる。
遅れ時間1の遅れ学習は、昨年度の研究でも行なわれ結果も出ているが[4]、プログラムに誤りが見つかったので、 プログラムを修正し今年度の研究でも遅れ時間1の遅れ学習について実験を行なう。