サッカー
HFO (Half Field Offense) での強化学習
Half field offense RoboCup 2D Soccer (HFO) は RoboCup のシミュレーション環境の課題の一つで,強化学習の課題の一つです.
行動空間の階層性を適切に扱うため(turn 30
のようにパラメータ付き行動を扱うため),HA-PPOを提案しました.1:1での得点成功率約71%と強化学習手法では過去最高の成績を実現しました.
論文など
- Hu, Z. and T. Kaneko. “Hierarchical Advantage for Reinforcement Learning in Parameterized Action Space,” in IEEE International Conference on Computers and Games (2021). https://ieee-cog.org/2021/assets/papers/paper_211.pdf