研究紹介

ゲーム一般

ゲーム一般

ゲームAIの思考方法や学習方法は,ゲームの性質たとえば完全情報/不完全情報,人数(1,2,3以上),報酬(ゼロ和/その他)などで,適する手法や難しさが大きく変わります.適した性質を持つゲームを題材とすることで,様々な正則面から手法を評価することができます. 二人ゼロ和完全情報ゲームについては,囲碁将棋のページもご覧ください.

サッカー

サッカー

HFO (Half Field Offense) での強化学習

Half field offense RoboCup 2D Soccer (HFO) は RoboCup のシミュレーション環境の課題の一つで,強化学習の課題の一つです. 行動空間の階層性を適切に扱うため(turn 30 のようにパラメータ付き行動を扱うため),HA-PPOを提案しました.1:1での得点成功率約71%と強化学習手法では過去最高の成績を実現しました.

強化学習

ゲームにおける強化学習を研究しています. 対象ゲームに関する人の知識や棋譜などを使わずに,ゲームのルール,あるいはシミュレータを通しての経験だけから学ぶことに挑戦があります.AlphaZeroも強化学習の応用と位置づけられます.

囲碁

囲碁

コンピュータ囲碁の研究を行っています

論文など

Migo

探索

探索

並列・分散探索

多数の計算機で協調して、効率よく探索する方法を研究しています。

モンテカルロ木探索

モンテカルロ木探索の性能を改善する研究を、理論的な側面と実践的な側面の双方から行っています。

将棋

コンピュータ将棋の研究を行っています。

学習

棋風

第二回電王戦 (2013)

2013年4月にGPS将棋と三浦八段(当時,現九段)と対局が第二回電王戦第五局で行われました。

(将棋連盟提供)