サッカー

HFO (Half Field Offense) での強化学習

Half field offense RoboCup 2D Soccer (HFO) は RoboCup のシミュレーション環境の課題の一つで，強化学習の課題の一つです．行動空間の階層性を適切に扱うため(turn 30 のようにパラメータ付き行動を扱うため)，HA-PPOを提案しました．1:1での得点成功率約71%と強化学習手法では過去最高の成績を実現しました．

論文など

Hu, Z. and T. Kaneko. “Hierarchical Advantage for Reinforcement Learning in Parameterized Action Space,” in IEEE International Conference on Computers and Games (2021). https://ieee-cog.org/2021/assets/papers/paper_211.pdf