Top Banner
PG - Q @shohu33
41

PGに簡単なゲームのやり方を学習させる Vol.1 - まずはQ学習を理解する

Jan 21, 2018

Download

Engineering

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する

PG - Q@shohu33

Page 2: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する

ATARI

Page 3: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する

PG

PG

Page 4: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する

(policy)

Page 5: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する

PG

PG

Page 6: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する

PG

Q

( ) ( or

) (

) Q

Page 7: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する

"Q-Learning Tutorial". Mnemosyne Studio. http://mnemstudio.org/path-finding-q-learning-tutorial.htm

Page 8: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する

6

5

Page 9: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する

1. (Gamma)

2. Q 0

3. :

3.1

3.2 5 :

3.2.1

3.2.2

3.2.3 Q

Q(state, action) = R(state, action) + Gamma * Max[Q(next state, all actions)]* Q

3.2.4

3.2.5 5

3.3

Page 10: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する
Page 11: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する

1. (Gamma)

Page 12: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する

(Gamma) 0 1

0 ( )

0.8

Page 13: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する

[ ]

Page 14: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する

100

Page 15: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する
Page 16: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する

2. Q( ) 0

Page 17: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する

0

1 5

100

Q( )

0( )

Page 18: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する
Page 19: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する

3.1

Page 20: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する

RANDOM

Page 21: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する

3.2 5

Page 22: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する

3.2.1

Page 23: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する

3 5

Page 24: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する

3.2.2

Page 25: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する

5

Page 26: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する

3.2.3 Q

Q(state, action) = R(state, action) + Gamma * Max[Q(next state, all actions)]

Page 27: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する

今回、部屋1 から 部屋5 に移動する⾏動を選んだので

Q

state=1, action=5, Gamma=0.8, next state=5, all actions = 1,4,5

Q

Page 28: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する

Q

Q

5

1,4,5

Q

Page 29: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する

3.2.4

Page 30: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する

5

Page 31: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する

3.2.6 5

Page 32: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する

5

Page 33: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する

3.3

Page 34: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する

3.1

Page 35: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する

31

Q(state, action) = R(state, action) + Gamma * Max[Q(next state, all actions)]

Q(3, 1) = R(3, 1) + 0.8 * Max[Q(1, 3), Q(1, 5)] = 0 + 0.8 * Max(0, 100) = 80

1

Page 36: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する
Page 37: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する

1 55

5 Q(state, action) = R(state, action) + Gamma * Max[Q(next state, all actions)]

Q(1, 5) = R(1, 5) + 0.8 * Max[Q(5, 1), Q(5, 4), Q(5, 5)] = 100 + 0.8 * Max(0, 0, 0) = 100

Q

Page 38: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する
Page 39: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する

Q

Q

2Q 2 → 3 → 1 → 5

OR

2 → 3 → 4 → 5

5

Page 40: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する

Q

Page 41: PGに簡単なゲームのやり方を学習させる Vol.1  - まずはQ学習を理解する

Q