北海道大学 大学院情報科学研究科 複合情報学専攻 複雑系工学講座 調和系工学研究室 修士2年 菅原 翔悟 修士論文発表
研究背景
150Y
100Y
50Yスコアアップしたい!
3番アイアン
上級者:72~80日本人平均:約100
私 :約130
適切な状況判断、適切な行動選択ができればスコアアップできる
ゴルファーをサポートするバーチャルゴルフコーチを開発
○ゴルファーのスコアアップをサポートする
状況
コース
スキルキャディコーチ
コーチング・正確性・飛距離・etc…
行動
・クラブ、方向、力加減、etc…
状況に応じた適切なコーチングが必要
スコアミスショットが多い 判断ミスも多い
(例)・飛距離を稼ごうとしてOB・林の中から木の間を狙って木に当てる・池越えを狙って池ポチャ
状況判断 行動選択
目標
コーチングを獲得するための手法と課題
一般的な戦略知識(Tips)
期待スコア
コーチング
例)・向かい風:クラブの番手を大きく・左足下がりの斜面:右に飛びやすい
Q学習の最適性課題
?行動・クラブ・力加減・方向
・低く打つ・高さをつける・右、左に曲げる・バックスピン
期待スコアDR :3.983W:3.985W:4.002I :3.753I :3.95
・期待スコアを求めたい
1、ゴルフのシミュレーションモデル開発・期待スコアの中から最小のものを見つけたい
2、期待スコアを最小化する最適化問題を定義・モデルがマルコフ決定過程である
3、Q学習により最適化
コース
スキル状況
・コースレイアウト ・芝の状態
・飛距離・方向のずれ・ミス確率
・ショットの精度・スピン
・現在位置・地面の傾斜 ・天候気温、気圧、湿度、雤、風
手法
ゴルフの行動選択の難しさ
○最適化した期待スコアをクラブと方向ごとに色分けして図示
最長飛距離 :270Y正確性 :3σ
最長飛距離 :270Y正確性 :1σ
期待スコアDR :3.563W:3.585W:3.582I :3.583I :3.604I :3.585I :3.586I :3.587I :3.598I :3.619I :3.67PW:3.72SW:3.63
期待スコアDR :3.663W:3.655W:3.662I :3.583I :3.684I :3.665I :3.686I :3.817I :3.798I :3.869I :3.88PW:3.95SW:3.96
期待スコアDR :3.983W:3.985W:4.002I :3.753I :3.954I :3.965I :4.016I :4.087I :4.138I :4.119I :4.10PW:4.20SW:4.26
最長飛距離 :270Y正確性 :2σ
200yard
・使うクラブやスキルの違いによる期待スコアの差はごくわずか・その微妙な差を認識して正しい選択をすることが重要
ゴルファーA ゴルファーB ゴルファーC
ゴルフのモデリング
ゴルフコース ゴルフショット
フック、ドロー スライス、フェード
ストレートボール
ダフり・チョロ
ショットの分布ショットスキル
qミス グッド
トップ
テンプラ
インテンショナルハイボール
インテンショナルローボール
②ショット キャリー:空中での飛距離ラン :落下後転がった距離
①パッティング
パッティングの分布パッティングスキル
天候・風 ・気温・気圧 ・湿度・雤
コースレイアウト
林OB
池
グリーンバンカー フェアウェイ
ラフ
ティーインググラウンド
コースの状態・芝の長さ・起伏
○Q学習による最適性を確認するためのシミュレーションモデル○ボール位置が確率的に決まる2次元確率モデルとして定義○グリーンオンまでの最適化を目標とする
正規分布とそのパラメータ
確率的にパットの回数を決定する
コース区分
ショットの種類
ショット&スキルモデルSyxs ),(状態 Apwca },,{ 行動
c:クラブ θ:打ち出し方向 pw:力加減(0≦pw≦1)
},,,,{ missd PSigMSigDskill スキル
}|{
}|{
CcM
CcdD c
方向の平均値
飛距離の平均値
}|{
}|{
CcSig
CcSig
c
cdd
方向の標準偏差
飛距離の標準偏差
}|{ CcpPcmissmiss ミスショットの確率
2
2
)(,'
)(,'
c
cddc
N
pwdNd
~
~
ボールの落下位置 s’
ラン r
)(
1
dr
dfractioncarry
d
dr
キャリー
ラン
[Werner and Greig (2000)]
パッティング
[Bansal, et al. (2008)]
青:発表者のデータ(5I)赤:シミュレーション
'sin'
'cos'
'
''
dy
dx
y
xs
カップまでの距離に応じたパット数の確率
α:現在位置のコース区分により決まる値
ショットによるボール落下位置の分布
50100
全体の飛距離に対するキャリーの割合
グリーン
ゴルフコースモデル
飛距離の標準偏差σd 方向の標準偏差σθ ラン
ティーインググラウンド ×1.0 ×1.0 -
フェアウェイ ×1.0 ×1.0 ×1.0
ラフ×2.0 ×0.5
バンカー×2.5 ×0.0
[Broadie, 2008, 2012][Ko, 2012]
)180/tan(2tan180 1
)180/tan(2tan180 1
基準
打ち始めの地点にボールを戻すペナルティとして1打プラス(1打罰)確率的に木と衝突するか判定
池を横切った最後の地点にボールを置くペナルティとして1打プラス
グリーンオンしたら終了パット数をカップまでの距離から確率的に決める
OB
WH
林
コース区分
最適化問題
],,|[min
],,|[],,|[],,|[
:
21
21
hskillstNE
hskillstNEhskillstNEhskillstNE
NN
hskillASst
Stst
目的関数
期待スコア
ア、パッティングのスココアグリーンオンまでのス
、、コース、スキル戦略
戦略、スキル、コースを条件とするスコアの条件付期待値を定義
についての確率ショット後の
を条件とする、
、グリーン領域、ペナルティ、スコア位置
0000
1
0
111
11
1
01
0 11
11
11
0
1
)(),,|,(
),,|,(
),,,,|,(),,|,(
),,|,(),,|(
),,|(],,|[
),,,,|,(
,
,,,,
utee
u
nnn
nnnn
nn
u Dnnn
n
iiii
ii
ii
hskillstusp
dshskillstusp
hskillstususphskillstusp
dshskillstusphskillstnP
nhskillstnPhskillstNE
hskillstususp
us
hskillstus
Duns
n
n
xx
のボール位置分布:
置分布:池に関わるボール位
るボール位置分布:現在状態の罰打によ
の分布:次状態のペナルティ
置分布:ランによるボール位
置分布:林に関わるボール位
ル落下位置分布:ショットによるボー
OB
),,;(
),,;(),,,;(
),;(),),(,,;(
),,;(),),(,;(
),,,,;,(
),,,,|,(
7
6
5
4
3
2
1
1)5(
1)4(
1)3(
1)2(
1)1(
1)5(
16
1)4(
1)5(
61)3(
1)4(
5
1)3(
141)2(
1)3(
3
1)1(
1)2(
21)1(
1
11
11
f
f
f
f
f
f
f
dsdsdsdsdshsssf
hsssfhusssf
hsufhskillsstsssf
hsssfhskillsstssf
hskillstususf
hskillstususp
nnnnnnnn
nnnnnnn
nnnnnn
nnnnnn
nnnn
nnnn
(1)
(2)
(3)
(4)
(5)
(6)
(7)
Q学習の設定○Q(s, a)の値が状態sで行動aをとったときの期待スコアを表すよう設定
方向 0~359までの整数クラブ最長飛距離から約10yard刻みの本数
状態空間 S
約3yard四方の大きさで離散化
行動空間 A 方向とクラブの組み合わせ
方策ε-greedy
)},(),(min{),(),( 11 ttta
ttttt asQasQrasQasQ
OB : 2
報酬
WH : 2
報酬
その他 : 1
報酬
グリーン :1+期待パット数
報酬
エピソードスタート
エピソードエンド
Qの初期化
グリーン:0
それ以外:スキルから推測される期待スコアより大きい値
実験環境
コース スキル・グリーンとフェアウェイだけの単純なコース・札幌近郊のゴルフ場8箇所
・プロゴルファーの平均的なスキルを推定・それをもとに複数のスキルを設定
コース :オーガスタ・ナショナル・ゴルフクラブスキル :270D、1σ比較データ:大会結果の平均(Masters)
シミュレーション ・Q学習を2千万エピソード行う・Qテーブルによって行動選択をするシミュレーションをティーショットからグリーンオンまでを1万回繰り返す・学習中にティーインググラウンドの最小Q値(minaQ(tee, a))が最小となるQテーブルを用いる
プロスキル(270D, 1σ)
No.2 PAR5
No.4 PAR3
No.1 PAR4
minaQ(tee, a)の推移
○Q学習の最適性を確かめる○様々なコースでQ学習が適用できるか確かめる
Q学習の最適性を確認
150yard
最適戦略のときとQを用いたときのスコアの平均値と標準偏差の比較
・カップを直接狙う戦略が最適戦略となるような単純なコース・Qを行動選択に用いたときと最適戦略を用いたときのスコアを比較する
○最適性の評価に向けて簡単な状況を考える
・単純なコースでは最適戦略とQのスコアの差はほとんどない
Q Q Q Q
最適戦略
最適戦略
最適戦略
最適戦略
Q
最適戦略
Q
最適戦略
様々なコースに対してQ学習を適用
○(270D, 1σ)ゴルファーで、PAR 3、PAR 4、PAR 5のコースにQ学習を適用
・多くのコースでスコアのばらつきが小さい戦略を獲得できた・PAR 3のコースでは学習が上手くいかない場合が多い
まとめ
一般的な戦略知識(Tips)
期待スコア
コーチング
例)・向かい風:クラブの番手を大きく・左足下がりの斜面:右に飛びやすい
Q学習の最適性課題
?行動・クラブ・力加減・方向
・低く打つ・高さをつける・右、左に曲げる・バックスピン
期待スコアDR :3.983W:3.985W:4.002I :3.753I :3.95
・期待スコアを求めたい
1、ゴルフのシミュレーションモデル開発・期待スコアの中から最小のものを見つけたい
2、期待スコアを最小化する最適化問題を定義・モデルがマルコフ決定過程である
3、Q学習により最適化
コース
スキル状況
・コースレイアウト ・芝の状態
・飛距離・方向のずれ・ミス確率
・ショットの精度・スピン
・現在位置・地面の傾斜 ・天候気温、気圧、湿度、雤、風
手法
課題個人ごとのショット分布、スキルパラメータの推定
課題上達のためのよりよいコーチング(例)・状況に適したTipsの表示・期待スコアの見せ方課題
多様な状況で適用できるQ学習
・ゴルフの詳細なモデリング・ゴルフにQ学習を適用し、最適性を確認