サッカー

サッカー

HFO (Half Field Offense) での強化学習

Half field offense RoboCup 2D Soccer (HFO) は RoboCup のシミュレーション環境の課題の一つで,強化学習の課題の一つです. 行動空間の階層性を適切に扱うため(turn 30 のようにパラメータ付き行動を扱うため),HA-PPOを提案しました.1:1での得点成功率約71%と強化学習手法では過去最高の成績を実現しました.

論文など