Belöningsbaserad Inl ärning Reinforcement Learning Orjan ... · 2 Känd omgivning Bellmans ekvation Lösningsmetoder 3 Okänd omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Beloningsbaserad Inlarning

Reinforcement Learning

Orjan Ekeberg Maskininlarning



1 Definition av problemetInlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

2 Kand omgivningBellmans ekvationLosningsmetoder

3 Okand omgivningMonte-Carlo metodenTemporal-DifferenceQ-LearningSarsa-Learning

4 ForbattringarNyttan av att gora felEligibility Trace




InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp









Beloningsbaserad inlarning

Reinforcement LearningInlarning av ett beteende utan tillgang till facit.

En beloning ger information om hur bra det garBeloningen kommer inte samtidigt som man gor nagot braTemporal credit assignmentBeloningen anger inte vad som var braStructural credit assignment







En beloning ger information om hur bra det gar

Beloningen kommer inte samtidigt som man gor nagot braTemporal credit assignmentBeloningen anger inte vad som var braStructural credit assignment







En beloning ger information om hur bra det garBeloningen kommer inte samtidigt som man gor nagot braTemporal credit assignment

Beloningen anger inte vad som var braStructural credit assignment







En beloning ger information om hur bra det garBeloningen kommer inte samtidigt som man gor nagot braTemporal credit assignmentBeloningen anger inte vad som var braStructural credit assignment





Modell for inlarningssituationen

En agent interagerar med sin omgivningAgenten utfor handlingarHandlingarna paverkar omgivningens tillstandAgenten observerar omgivningens tillstandAgenten far aven en beloning fran omgivningen

Agent

Handling

a

sTillstånd

Omgivning

Belöning r






En agent interagerar med sin omgivning

Agenten utfor handlingarHandlingarna paverkar omgivningens tillstandAgenten observerar omgivningens tillstandAgenten far aven en beloning fran omgivningen

Agent

Handling

a

sTillstånd

Omgivning

Belöning r






En agent interagerar med sin omgivningAgenten utfor handlingar

Handlingarna paverkar omgivningens tillstandAgenten observerar omgivningens tillstandAgenten far aven en beloning fran omgivningen

Agent

Handling

a

sTillstånd

Omgivning

Belöning r






En agent interagerar med sin omgivningAgenten utfor handlingarHandlingarna paverkar omgivningens tillstand

Agenten observerar omgivningens tillstandAgenten far aven en beloning fran omgivningen

Agent

Handling

a

sTillstånd

Omgivning

Belöning r






En agent interagerar med sin omgivningAgenten utfor handlingarHandlingarna paverkar omgivningens tillstandAgenten observerar omgivningens tillstand

Agenten far aven en beloning fran omgivningen

Agent

Handling

a

sTillstånd

Omgivning

Belöning r







Agent

Handling

a

sTillstånd

Omgivning

Belöning r







Agent

Handling

a

sTillstånd

Omgivning

Belöning r





Uppgiften for agentenHitta ett beteende som maximerar den totala beloningen.

Hur lang framtid ska vi ta hansyn till?

Begransad tidshorisont

max

[h∑

t=0

rt

]Oandlig tidshorisont

max

[ ∞∑t=0

γtrt

]Kraver nedskrivning av framtida beloningar (0 < γ < 1)








max

[h∑

t=0

rt


max

[ ∞∑t=0

γtrt









max

[h∑

t=0

rt

]

Oandlig tidshorisont

max

[ ∞∑t=0

γtrt









max

[h∑

t=0

rt


max

[ ∞∑t=0

γtrt






Beloningsfunktionen

Beloningsfunktionen styr vilken uppgift som ska losas

Spel (Schack, Backgammon)

Beloning bara i slutet: +1 vid vinst, −1 vid forlust

Undvika misstag (cykla, ramla, ...)

Beloning −1 i slutet (nar man misslyckas)

Hitta kort/snabb/billig vag till malet

Beloning −1 hela tiden





Beloningsfunktionen


Spel (Schack, Backgammon)

Beloning bara i slutet: +1 vid vinst, −1 vid forlustUndvika misstag (cykla, ramla, ...)








Beloningsfunktionen


Spel (Schack, Backgammon)Beloning bara i slutet: +1 vid vinst, −1 vid forlust

Undvika misstag (cykla, ramla, ...)








Beloningsfunktionen


Spel (Schack, Backgammon)Beloning bara i slutet: +1 vid vinst, −1 vid forlustUndvika misstag (cykla, ramla, ...)

Beloning −1 i slutet (nar man misslyckas)Hitta kort/snabb/billig vag till malet






Beloningsfunktionen


Spel (Schack, Backgammon)Beloning bara i slutet: +1 vid vinst, −1 vid forlustUndvika misstag (cykla, ramla, ...)Beloning −1 i slutet (nar man misslyckas)







Beloningsfunktionen


Spel (Schack, Backgammon)Beloning bara i slutet: +1 vid vinst, −1 vid forlustUndvika misstag (cykla, ramla, ...)Beloning −1 i slutet (nar man misslyckas)Hitta kort/snabb/billig vag till malet






Beloningsfunktionen


Spel (Schack, Backgammon)Beloning bara i slutet: +1 vid vinst, −1 vid forlustUndvika misstag (cykla, ramla, ...)Beloning −1 i slutet (nar man misslyckas)Hitta kort/snabb/billig vag till maletBeloning −1 hela tiden





Forenklande antaganden

Diskret tidAndligt antal handlingar ai

ai ∈ a1, a2, a3, . . . , an

Andligt antal tillstand si

si ∈ s1, s2, s3, . . . , sm

Omgivningen ar en konstant MDP(Markov Decision Process)

Beloningen och nasta tillstandberor bara pa s, a och slumpen

Deterministisk eller icke-deterministisk omgivning






Diskret tid

Andligt antal handlingar ai

ai ∈ a1, a2, a3, . . . , an


si ∈ s1, s2, s3, . . . , sm










ai ∈ a1, a2, a3, . . . , an


si ∈ s1, s2, s3, . . . , sm










ai ∈ a1, a2, a3, . . . , an


si ∈ s1, s2, s3, . . . , sm










ai ∈ a1, a2, a3, . . . , an


si ∈ s1, s2, s3, . . . , sm


Beloningen och nasta tillstandberor bara pa s, a och slumpenDeterministisk eller icke-deterministisk omgivning







ai ∈ a1, a2, a3, . . . , an


si ∈ s1, s2, s3, . . . , sm

Omgivningen ar en konstant MDP(Markov Decision Process) Beloningen och nasta tillstandberor bara pa s, a och slumpen








ai ∈ a1, a2, a3, . . . , an


si ∈ s1, s2, s3, . . . , sm

Omgivningen ar en konstant MDP(Markov Decision Process) Beloningen och nasta tillstandberor bara pa s, a och slumpenDeterministisk eller icke-deterministisk omgivning





Agentens interna representation

PolicyDen handling agenten valjer i varje tillstand

π(s) 7→ a

VardefunktionenForvantad framtida beloning fran s nar man foljer policy π

V π(s) 7→ <







π(s) 7→ a


V π(s) 7→ <







π(s) 7→ a


V π(s) 7→ <





Klassiskt modellproblem: Grid World

Varje tillstand representeras av en plats i ett rutnatAgenten handlar genom att ga till andra rutor

G

GTrivial labyrint

Beloning: −1 i varje stegtills man nar nagot avmaltillstanden (G)






Varje tillstand representeras av en plats i ett rutnat

Agenten handlar genom att ga till andra rutor

G

GTrivial labyrint








G

GTrivial labyrint








G

GTrivial labyrint








G

GTrivial labyrint






Vardet av ett tillstand beror av aktuell policy.

0

0

−1 −2 −3

−1 −2 −3 −2

−2 −3 −2 −1

−3 −2 −1

V vidoptimal policy

−14

−14

−14

−140 −20 −22

−18 −22 −20

0

−18−22

−22 −20

−20

V vidslumpmassig policy






0

0

−1 −2 −3

−1 −2 −3 −2

−2 −3 −2 −1

−3 −2 −1

V vidoptimal policy

−14

−14

−14

−140 −20 −22

−18 −22 −20

0

−18−22

−22 −20

−20







0

0

−1 −2 −3

−1 −2 −3 −2

−2 −3 −2 −1

−3 −2 −1

V vidoptimal policy

−14

−14

−14

−140 −20 −22

−18 −22 −20

0

−18−22

−22 −20

−20





Bellmans ekvationLosningsmetoder









Modell av omgivningen

Var hamnar vi?

δ(s, a) 7→ s′

Hur mycket beloning far vi?

r(s, a) 7→ <

Vardet av olika tillstand hanger ihopBellmans ekvation:

V π(s) = r(s, π(s)) + γ · V π(δ(s, π(s)))






Var hamnar vi?

δ(s, a) 7→ s′


r(s, a) 7→ <


V π(s) = r(s, π(s)) + γ · V π(δ(s, π(s)))






Var hamnar vi?

δ(s, a) 7→ s′


r(s, a) 7→ <


V π(s) = r(s, π(s)) + γ · V π(δ(s, π(s)))






Var hamnar vi?

δ(s, a) 7→ s′


r(s, a) 7→ <

Vardet av olika tillstand hanger ihop

Bellmans ekvation:

V π(s) = r(s, π(s)) + γ · V π(δ(s, π(s)))






Var hamnar vi?

δ(s, a) 7→ s′


r(s, a) 7→ <


V π(s) = r(s, π(s)) + γ · V π(δ(s, π(s)))





Kan man losa Bellmans ekvation?

V π(s) = r(s, π(s)) + γ · V π(δ(s, π(s)))

Direkt losning (linjart ekvationssystem)Iterativt (value iteration)

V πk+1(s)← r(s, π(s)) + γ · V π

k (δ(s, π(s)))






V π(s) = r(s, π(s)) + γ · V π(δ(s, π(s)))

Direkt losning (linjart ekvationssystem)

Iterativt (value iteration)

V πk+1(s)← r(s, π(s)) + γ · V π

k (δ(s, π(s)))






V π(s) = r(s, π(s)) + γ · V π(δ(s, π(s)))

Direkt losning (linjart ekvationssystem)Iterativt (value iteration)

V πk+1(s)← r(s, π(s)) + γ · V π

k (δ(s, π(s)))





Hur far man fram en optimal policy π??

Latt om man visste den optimala vardefunktionen V ?:

π?(s) = argmaxa

(r(s, a) + γ · V ?(δ(s, a)))

Optimala varianten av Bellmans ekvation

V ?(s) = maxa

(r(s, a) + γ · V ?(δ(s, a)))

Svar att losa

Policy iteration:Iterera policy och vardeberakningarna vaxelvis





Hur far man fram en optimal policy π??Latt om man visste den optimala vardefunktionen V ?:

π?(s) = argmaxa

(r(s, a) + γ · V ?(δ(s, a)))


V ?(s) = maxa

(r(s, a) + γ · V ?(δ(s, a)))

Svar att losa







π?(s) = argmaxa

(r(s, a) + γ · V ?(δ(s, a)))


V ?(s) = maxa

(r(s, a) + γ · V ?(δ(s, a)))

Svar att losa







π?(s) = argmaxa

(r(s, a) + γ · V ?(δ(s, a)))


V ?(s) = maxa

(r(s, a) + γ · V ?(δ(s, a)))

Svar att losa







π?(s) = argmaxa

(r(s, a) + γ · V ?(δ(s, a)))


V ?(s) = maxa

(r(s, a) + γ · V ?(δ(s, a)))

Svar att losa





Monte-Carlo metodenTemporal-DifferenceQ-LearningSarsa-Learning









Vanligen ar r(s, a) och δ(s, a) inte kanda av agenten

V π maste skattas genom erfarenhet

Monte-Carlo tekniken

Starta fran slumpmassig s

Folj π, lagra beloningar och st

Nar man natt malet, uppdatera V π(s)-skattningen for allabesokta tillstand med den framtida beloning man verkligenfick

Mycket langsam konvergens







































































Temporal Difference

Iden bakom Temporal Difference:Utnyttja att finns tva skattningar for vardet av ett tillstand:

fore och efter

Vad man tror innan man handlat

V π(st)

Vad man tror efter man handlat

rt+1 + γ · V π(st+1)





Temporal Difference


fore och efter


V π(st)


rt+1 + γ · V π(st+1)





Temporal Difference


fore och efter


V π(st)


rt+1 + γ · V π(st+1)





Temporal Difference


fore och efter


V π(st)


rt+1 + γ · V π(st+1)





Viktig observation:Den andra skattningen ar battre!

Uppdatera skattningen av vardet i riktning mot den battre

V π(st)← V π(st) + η [rt+1 + γ · V π(st+1)− V π(st)]

Matt pa overraskningen / besvikelsen

Lar sig betydligt snabbare an Monte-Carlo tekniken









































Problem:Aven om man har skattat V bra kan man inte rakna ut πeftersom agenten inte kanner δ och r!

Trick:Skatta Q(s, a) istaller for V (s)

Q(s, a): Forvantad total beloning nar man gor a fran s.

π(s) = argmaxa

Q(s, a)

V ?(s) = maxa

Q?(s, a)








π(s) = argmaxa

Q(s, a)

V ?(s) = maxa

Q?(s, a)








π(s) = argmaxa

Q(s, a)

V ?(s) = maxa

Q?(s, a)








π(s) = argmaxa

Q(s, a)

V ?(s) = maxa

Q?(s, a)





Hur kan vi lara oss Q?

Aven Q-funktionen kan laras med Temporal-Difference

Q(s, a)← Q(s, a) + η

[r + γ max

a′Q(s′, a′)−Q(s, a)

]s′ ar nasta tillstand.

Litet problem: max-operationen kraver att man soker igenomalla tankbara handlingar i nasta steg.







Q(s, a)← Q(s, a) + η

[r + γ max

a′Q(s′, a′)−Q(s, a)









Q(s, a)← Q(s, a) + η

[r + γ max

a′Q(s′, a′)−Q(s, a)









Q(s, a)← Q(s, a) + η

[r + γ max

a′Q(s′, a′)−Q(s, a)







SARSA-learning

Nastan samma som Q-learning, men man later aktuell policybestamma a′:

Q(s, a)← Q(s, a) + η[r + γQ(s′, a′)−Q(s, a)

]Har fatt sitt namn av att ”erfarenhets-tuplerna” har formen

< s, a, r, s′, a′ >





SARSA-learning



]

Har fatt sitt namn av att ”erfarenhets-tuplerna” har formen

< s, a, r, s′, a′ >





SARSA-learning



]Har fatt sitt namn av att ”erfarenhets-tuplerna” har formen

< s, a, r, s′, a′ >




Nyttan av att gora felEligibility Trace









Vad gor man nar...

Omgivningen ar inte fullt observerbarTillstanden ar alltfor mangaTillstanden ar inte diskretaAgenten handlar i kontinuerlig tid





Vad gor man nar...

Omgivningen ar inte fullt observerbar

Tillstanden ar alltfor mangaTillstanden ar inte diskretaAgenten handlar i kontinuerlig tid





Vad gor man nar...

Omgivningen ar inte fullt observerbarTillstanden ar alltfor manga

Tillstanden ar inte diskretaAgenten handlar i kontinuerlig tid





Vad gor man nar...

Omgivningen ar inte fullt observerbarTillstanden ar alltfor mangaTillstanden ar inte diskreta

Agenten handlar i kontinuerlig tid





Vad gor man nar...

Omgivningen ar inte fullt observerbarTillstanden ar alltfor mangaTillstanden ar inte diskretaAgenten handlar i kontinuerlig tid





Exploration–Exploitation dilemmatOm man foljer en policy baserad pa aktuell skattning av Qkonvergerar Q inte sakert mot Q?

Enkel losning:Anvand en policy som har viss sannolikhet att ”gora fel”

ε-greedyGor ibland (med sannolikheten ε) en slumpmassig handlingistallet for den som verkar bast (giriga)SoftmaxVikta sannolikheten att gora olika handlingar med hur brade verkar














ε-greedyGor ibland (med sannolikheten ε) en slumpmassig handlingistallet for den som verkar bast (giriga)

SoftmaxVikta sannolikheten att gora olika handlingar med hur brade verkar












Ytterligare uppsnabbning

Ide: TD-uppdateringarna kan utnyttjas till att forbattraskattningen aven av tillstand dar vi varit tidigare.

∀s, a : Q(s, a)← Q(s, a) + η [rt+1 + γQ(st+1, at+1)−Q(st, at)] · e

e ar ett kvardrojande spar (eligibility trace) som beskriver hurlange sedan man var i s och gjorde a.

Kallas ofta TD(lambda) dar λ ar tidskonstanten foravklingningen av sparet





























Belöningsbaserad Inl ärning Reinforcement Learning Orjan ... · 2 Känd omgivning Bellmans ekvation Lösningsmetoder 3 Okänd omgivning Monte-Carlo metoden Temporal-Difference

Documents