本研究では、仮想二次元平面空間におけるゲームを設定し、 実行と学習を試みる。 なお、このゲームは本研究の前身となる研究を行った、 森裕紀氏の作成したゲームプログラムをもとに、 本研究用に若干設計し直したものを用いている。 対象となるゲームのルールを以下に説明する。
ゲームの様子を図 6.5 に示す。
正方形の形をしたフィールド上を、ターゲットは縦横無尽に走り回る。
コンピュータの画面上の1ドットを1[pixel]としたとき、
フィールドは [pixel]の広さを持つ。
プレーヤーは自分とターゲットを座標的に重ねることで、
ターゲットを「捕獲」する。
このゲームは、ターゲットを捕獲することが第一の目的であり、 最終的な目的は、ターゲットを素早く、かつ効率良く捕獲することである。 学習時の教師信号や、学習の評価も、この目的を基準として判断する。
なお、ゲームには時間軸が存在し、 1単位時間ごとにターゲットとプレーヤーは同時に移動を行うものとする。 プレーヤーはその環境からニューラルネットワークへの入力を作成することができ、 その出力からプレーヤーの移動、又は回転の制御を行う。[4]