Top Banner
Definition av problemet and omgivning Ok¨ and omgivning orb¨ attringar Bel¨ oningsbaserad Inl¨ arning Reinforcement Learning ¨ Orjan Ekeberg Maskininl¨ arning
99

Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Sep 15, 2019

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Beloningsbaserad Inlarning

Reinforcement Learning

Orjan Ekeberg Maskininlarning

Page 2: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

1 Definition av problemetInlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

2 Kand omgivningBellmans ekvationLosningsmetoder

3 Okand omgivningMonte-Carlo metodenTemporal-DifferenceQ-LearningSarsa-Learning

4 ForbattringarNyttan av att gora felEligibility Trace

Orjan Ekeberg Maskininlarning

Page 3: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

1 Definition av problemetInlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

2 Kand omgivningBellmans ekvationLosningsmetoder

3 Okand omgivningMonte-Carlo metodenTemporal-DifferenceQ-LearningSarsa-Learning

4 ForbattringarNyttan av att gora felEligibility Trace

Orjan Ekeberg Maskininlarning

Page 4: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Beloningsbaserad inlarning

Reinforcement LearningInlarning av ett beteende utan tillgang till facit.

En beloning ger information om hur bra det garBeloningen kommer inte samtidigt som man gor nagot braTemporal credit assignmentBeloningen anger inte vad som var braStructural credit assignment

Orjan Ekeberg Maskininlarning

Page 5: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Beloningsbaserad inlarning

Reinforcement LearningInlarning av ett beteende utan tillgang till facit.

En beloning ger information om hur bra det gar

Beloningen kommer inte samtidigt som man gor nagot braTemporal credit assignmentBeloningen anger inte vad som var braStructural credit assignment

Orjan Ekeberg Maskininlarning

Page 6: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Beloningsbaserad inlarning

Reinforcement LearningInlarning av ett beteende utan tillgang till facit.

En beloning ger information om hur bra det garBeloningen kommer inte samtidigt som man gor nagot braTemporal credit assignment

Beloningen anger inte vad som var braStructural credit assignment

Orjan Ekeberg Maskininlarning

Page 7: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Beloningsbaserad inlarning

Reinforcement LearningInlarning av ett beteende utan tillgang till facit.

En beloning ger information om hur bra det garBeloningen kommer inte samtidigt som man gor nagot braTemporal credit assignmentBeloningen anger inte vad som var braStructural credit assignment

Orjan Ekeberg Maskininlarning

Page 8: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Modell for inlarningssituationen

En agent interagerar med sin omgivningAgenten utfor handlingarHandlingarna paverkar omgivningens tillstandAgenten observerar omgivningens tillstandAgenten far aven en beloning fran omgivningen

Agent

Handling

a

sTillstånd

Omgivning

Belöning r

Orjan Ekeberg Maskininlarning

Page 9: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Modell for inlarningssituationen

En agent interagerar med sin omgivning

Agenten utfor handlingarHandlingarna paverkar omgivningens tillstandAgenten observerar omgivningens tillstandAgenten far aven en beloning fran omgivningen

Agent

Handling

a

sTillstånd

Omgivning

Belöning r

Orjan Ekeberg Maskininlarning

Page 10: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Modell for inlarningssituationen

En agent interagerar med sin omgivningAgenten utfor handlingar

Handlingarna paverkar omgivningens tillstandAgenten observerar omgivningens tillstandAgenten far aven en beloning fran omgivningen

Agent

Handling

a

sTillstånd

Omgivning

Belöning r

Orjan Ekeberg Maskininlarning

Page 11: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Modell for inlarningssituationen

En agent interagerar med sin omgivningAgenten utfor handlingarHandlingarna paverkar omgivningens tillstand

Agenten observerar omgivningens tillstandAgenten far aven en beloning fran omgivningen

Agent

Handling

a

sTillstånd

Omgivning

Belöning r

Orjan Ekeberg Maskininlarning

Page 12: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Modell for inlarningssituationen

En agent interagerar med sin omgivningAgenten utfor handlingarHandlingarna paverkar omgivningens tillstandAgenten observerar omgivningens tillstand

Agenten far aven en beloning fran omgivningen

Agent

Handling

a

sTillstånd

Omgivning

Belöning r

Orjan Ekeberg Maskininlarning

Page 13: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Modell for inlarningssituationen

En agent interagerar med sin omgivningAgenten utfor handlingarHandlingarna paverkar omgivningens tillstandAgenten observerar omgivningens tillstandAgenten far aven en beloning fran omgivningen

Agent

Handling

a

sTillstånd

Omgivning

Belöning r

Orjan Ekeberg Maskininlarning

Page 14: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Modell for inlarningssituationen

En agent interagerar med sin omgivningAgenten utfor handlingarHandlingarna paverkar omgivningens tillstandAgenten observerar omgivningens tillstandAgenten far aven en beloning fran omgivningen

Agent

Handling

a

sTillstånd

Omgivning

Belöning r

Orjan Ekeberg Maskininlarning

Page 15: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Uppgiften for agentenHitta ett beteende som maximerar den totala beloningen.

Hur lang framtid ska vi ta hansyn till?

Begransad tidshorisont

max

[h∑

t=0

rt

]Oandlig tidshorisont

max

[ ∞∑t=0

γtrt

]Kraver nedskrivning av framtida beloningar (0 < γ < 1)

Orjan Ekeberg Maskininlarning

Page 16: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Uppgiften for agentenHitta ett beteende som maximerar den totala beloningen.

Hur lang framtid ska vi ta hansyn till?

Begransad tidshorisont

max

[h∑

t=0

rt

]Oandlig tidshorisont

max

[ ∞∑t=0

γtrt

]Kraver nedskrivning av framtida beloningar (0 < γ < 1)

Orjan Ekeberg Maskininlarning

Page 17: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Uppgiften for agentenHitta ett beteende som maximerar den totala beloningen.

Hur lang framtid ska vi ta hansyn till?

Begransad tidshorisont

max

[h∑

t=0

rt

]

Oandlig tidshorisont

max

[ ∞∑t=0

γtrt

]Kraver nedskrivning av framtida beloningar (0 < γ < 1)

Orjan Ekeberg Maskininlarning

Page 18: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Uppgiften for agentenHitta ett beteende som maximerar den totala beloningen.

Hur lang framtid ska vi ta hansyn till?

Begransad tidshorisont

max

[h∑

t=0

rt

]Oandlig tidshorisont

max

[ ∞∑t=0

γtrt

]Kraver nedskrivning av framtida beloningar (0 < γ < 1)

Orjan Ekeberg Maskininlarning

Page 19: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Beloningsfunktionen

Beloningsfunktionen styr vilken uppgift som ska losas

Spel (Schack, Backgammon)

Beloning bara i slutet: +1 vid vinst, −1 vid forlust

Undvika misstag (cykla, ramla, ...)

Beloning −1 i slutet (nar man misslyckas)

Hitta kort/snabb/billig vag till malet

Beloning −1 hela tiden

Orjan Ekeberg Maskininlarning

Page 20: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Beloningsfunktionen

Beloningsfunktionen styr vilken uppgift som ska losas

Spel (Schack, Backgammon)

Beloning bara i slutet: +1 vid vinst, −1 vid forlustUndvika misstag (cykla, ramla, ...)

Beloning −1 i slutet (nar man misslyckas)

Hitta kort/snabb/billig vag till malet

Beloning −1 hela tiden

Orjan Ekeberg Maskininlarning

Page 21: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Beloningsfunktionen

Beloningsfunktionen styr vilken uppgift som ska losas

Spel (Schack, Backgammon)Beloning bara i slutet: +1 vid vinst, −1 vid forlust

Undvika misstag (cykla, ramla, ...)

Beloning −1 i slutet (nar man misslyckas)

Hitta kort/snabb/billig vag till malet

Beloning −1 hela tiden

Orjan Ekeberg Maskininlarning

Page 22: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Beloningsfunktionen

Beloningsfunktionen styr vilken uppgift som ska losas

Spel (Schack, Backgammon)Beloning bara i slutet: +1 vid vinst, −1 vid forlustUndvika misstag (cykla, ramla, ...)

Beloning −1 i slutet (nar man misslyckas)Hitta kort/snabb/billig vag till malet

Beloning −1 hela tiden

Orjan Ekeberg Maskininlarning

Page 23: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Beloningsfunktionen

Beloningsfunktionen styr vilken uppgift som ska losas

Spel (Schack, Backgammon)Beloning bara i slutet: +1 vid vinst, −1 vid forlustUndvika misstag (cykla, ramla, ...)Beloning −1 i slutet (nar man misslyckas)

Hitta kort/snabb/billig vag till malet

Beloning −1 hela tiden

Orjan Ekeberg Maskininlarning

Page 24: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Beloningsfunktionen

Beloningsfunktionen styr vilken uppgift som ska losas

Spel (Schack, Backgammon)Beloning bara i slutet: +1 vid vinst, −1 vid forlustUndvika misstag (cykla, ramla, ...)Beloning −1 i slutet (nar man misslyckas)Hitta kort/snabb/billig vag till malet

Beloning −1 hela tiden

Orjan Ekeberg Maskininlarning

Page 25: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Beloningsfunktionen

Beloningsfunktionen styr vilken uppgift som ska losas

Spel (Schack, Backgammon)Beloning bara i slutet: +1 vid vinst, −1 vid forlustUndvika misstag (cykla, ramla, ...)Beloning −1 i slutet (nar man misslyckas)Hitta kort/snabb/billig vag till maletBeloning −1 hela tiden

Orjan Ekeberg Maskininlarning

Page 26: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Forenklande antaganden

Diskret tidAndligt antal handlingar ai

ai ∈ a1, a2, a3, . . . , an

Andligt antal tillstand si

si ∈ s1, s2, s3, . . . , sm

Omgivningen ar en konstant MDP(Markov Decision Process)

Beloningen och nasta tillstandberor bara pa s, a och slumpen

Deterministisk eller icke-deterministisk omgivning

Orjan Ekeberg Maskininlarning

Page 27: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Forenklande antaganden

Diskret tid

Andligt antal handlingar ai

ai ∈ a1, a2, a3, . . . , an

Andligt antal tillstand si

si ∈ s1, s2, s3, . . . , sm

Omgivningen ar en konstant MDP(Markov Decision Process)

Beloningen och nasta tillstandberor bara pa s, a och slumpen

Deterministisk eller icke-deterministisk omgivning

Orjan Ekeberg Maskininlarning

Page 28: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Forenklande antaganden

Diskret tidAndligt antal handlingar ai

ai ∈ a1, a2, a3, . . . , an

Andligt antal tillstand si

si ∈ s1, s2, s3, . . . , sm

Omgivningen ar en konstant MDP(Markov Decision Process)

Beloningen och nasta tillstandberor bara pa s, a och slumpen

Deterministisk eller icke-deterministisk omgivning

Orjan Ekeberg Maskininlarning

Page 29: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Forenklande antaganden

Diskret tidAndligt antal handlingar ai

ai ∈ a1, a2, a3, . . . , an

Andligt antal tillstand si

si ∈ s1, s2, s3, . . . , sm

Omgivningen ar en konstant MDP(Markov Decision Process)

Beloningen och nasta tillstandberor bara pa s, a och slumpen

Deterministisk eller icke-deterministisk omgivning

Orjan Ekeberg Maskininlarning

Page 30: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Forenklande antaganden

Diskret tidAndligt antal handlingar ai

ai ∈ a1, a2, a3, . . . , an

Andligt antal tillstand si

si ∈ s1, s2, s3, . . . , sm

Omgivningen ar en konstant MDP(Markov Decision Process)

Beloningen och nasta tillstandberor bara pa s, a och slumpenDeterministisk eller icke-deterministisk omgivning

Orjan Ekeberg Maskininlarning

Page 31: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Forenklande antaganden

Diskret tidAndligt antal handlingar ai

ai ∈ a1, a2, a3, . . . , an

Andligt antal tillstand si

si ∈ s1, s2, s3, . . . , sm

Omgivningen ar en konstant MDP(Markov Decision Process) Beloningen och nasta tillstandberor bara pa s, a och slumpen

Deterministisk eller icke-deterministisk omgivning

Orjan Ekeberg Maskininlarning

Page 32: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Forenklande antaganden

Diskret tidAndligt antal handlingar ai

ai ∈ a1, a2, a3, . . . , an

Andligt antal tillstand si

si ∈ s1, s2, s3, . . . , sm

Omgivningen ar en konstant MDP(Markov Decision Process) Beloningen och nasta tillstandberor bara pa s, a och slumpenDeterministisk eller icke-deterministisk omgivning

Orjan Ekeberg Maskininlarning

Page 33: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Agentens interna representation

PolicyDen handling agenten valjer i varje tillstand

π(s) 7→ a

VardefunktionenForvantad framtida beloning fran s nar man foljer policy π

V π(s) 7→ <

Orjan Ekeberg Maskininlarning

Page 34: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Agentens interna representation

PolicyDen handling agenten valjer i varje tillstand

π(s) 7→ a

VardefunktionenForvantad framtida beloning fran s nar man foljer policy π

V π(s) 7→ <

Orjan Ekeberg Maskininlarning

Page 35: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Agentens interna representation

PolicyDen handling agenten valjer i varje tillstand

π(s) 7→ a

VardefunktionenForvantad framtida beloning fran s nar man foljer policy π

V π(s) 7→ <

Orjan Ekeberg Maskininlarning

Page 36: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Klassiskt modellproblem: Grid World

Varje tillstand representeras av en plats i ett rutnatAgenten handlar genom att ga till andra rutor

G

GTrivial labyrint

Beloning: −1 i varje stegtills man nar nagot avmaltillstanden (G)

Orjan Ekeberg Maskininlarning

Page 37: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Klassiskt modellproblem: Grid World

Varje tillstand representeras av en plats i ett rutnat

Agenten handlar genom att ga till andra rutor

G

GTrivial labyrint

Beloning: −1 i varje stegtills man nar nagot avmaltillstanden (G)

Orjan Ekeberg Maskininlarning

Page 38: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Klassiskt modellproblem: Grid World

Varje tillstand representeras av en plats i ett rutnatAgenten handlar genom att ga till andra rutor

G

GTrivial labyrint

Beloning: −1 i varje stegtills man nar nagot avmaltillstanden (G)

Orjan Ekeberg Maskininlarning

Page 39: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Klassiskt modellproblem: Grid World

Varje tillstand representeras av en plats i ett rutnatAgenten handlar genom att ga till andra rutor

G

GTrivial labyrint

Beloning: −1 i varje stegtills man nar nagot avmaltillstanden (G)

Orjan Ekeberg Maskininlarning

Page 40: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Klassiskt modellproblem: Grid World

Varje tillstand representeras av en plats i ett rutnatAgenten handlar genom att ga till andra rutor

G

GTrivial labyrint

Beloning: −1 i varje stegtills man nar nagot avmaltillstanden (G)

Orjan Ekeberg Maskininlarning

Page 41: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Vardet av ett tillstand beror av aktuell policy.

0

0

−1 −2 −3

−1 −2 −3 −2

−2 −3 −2 −1

−3 −2 −1

V vidoptimal policy

−14

−14

−14

−140 −20 −22

−18 −22 −20

0

−18−22

−22 −20

−20

V vidslumpmassig policy

Orjan Ekeberg Maskininlarning

Page 42: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Vardet av ett tillstand beror av aktuell policy.

0

0

−1 −2 −3

−1 −2 −3 −2

−2 −3 −2 −1

−3 −2 −1

V vidoptimal policy

−14

−14

−14

−140 −20 −22

−18 −22 −20

0

−18−22

−22 −20

−20

V vidslumpmassig policy

Orjan Ekeberg Maskininlarning

Page 43: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Vardet av ett tillstand beror av aktuell policy.

0

0

−1 −2 −3

−1 −2 −3 −2

−2 −3 −2 −1

−3 −2 −1

V vidoptimal policy

−14

−14

−14

−140 −20 −22

−18 −22 −20

0

−18−22

−22 −20

−20

V vidslumpmassig policy

Orjan Ekeberg Maskininlarning

Page 44: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Bellmans ekvationLosningsmetoder

1 Definition av problemetInlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

2 Kand omgivningBellmans ekvationLosningsmetoder

3 Okand omgivningMonte-Carlo metodenTemporal-DifferenceQ-LearningSarsa-Learning

4 ForbattringarNyttan av att gora felEligibility Trace

Orjan Ekeberg Maskininlarning

Page 45: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Bellmans ekvationLosningsmetoder

Modell av omgivningen

Var hamnar vi?

δ(s, a) 7→ s′

Hur mycket beloning far vi?

r(s, a) 7→ <

Vardet av olika tillstand hanger ihopBellmans ekvation:

V π(s) = r(s, π(s)) + γ · V π(δ(s, π(s)))

Orjan Ekeberg Maskininlarning

Page 46: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Bellmans ekvationLosningsmetoder

Modell av omgivningen

Var hamnar vi?

δ(s, a) 7→ s′

Hur mycket beloning far vi?

r(s, a) 7→ <

Vardet av olika tillstand hanger ihopBellmans ekvation:

V π(s) = r(s, π(s)) + γ · V π(δ(s, π(s)))

Orjan Ekeberg Maskininlarning

Page 47: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Bellmans ekvationLosningsmetoder

Modell av omgivningen

Var hamnar vi?

δ(s, a) 7→ s′

Hur mycket beloning far vi?

r(s, a) 7→ <

Vardet av olika tillstand hanger ihopBellmans ekvation:

V π(s) = r(s, π(s)) + γ · V π(δ(s, π(s)))

Orjan Ekeberg Maskininlarning

Page 48: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Bellmans ekvationLosningsmetoder

Modell av omgivningen

Var hamnar vi?

δ(s, a) 7→ s′

Hur mycket beloning far vi?

r(s, a) 7→ <

Vardet av olika tillstand hanger ihop

Bellmans ekvation:

V π(s) = r(s, π(s)) + γ · V π(δ(s, π(s)))

Orjan Ekeberg Maskininlarning

Page 49: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Bellmans ekvationLosningsmetoder

Modell av omgivningen

Var hamnar vi?

δ(s, a) 7→ s′

Hur mycket beloning far vi?

r(s, a) 7→ <

Vardet av olika tillstand hanger ihopBellmans ekvation:

V π(s) = r(s, π(s)) + γ · V π(δ(s, π(s)))

Orjan Ekeberg Maskininlarning

Page 50: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Bellmans ekvationLosningsmetoder

Kan man losa Bellmans ekvation?

V π(s) = r(s, π(s)) + γ · V π(δ(s, π(s)))

Direkt losning (linjart ekvationssystem)Iterativt (value iteration)

V πk+1(s)← r(s, π(s)) + γ · V π

k (δ(s, π(s)))

Orjan Ekeberg Maskininlarning

Page 51: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Bellmans ekvationLosningsmetoder

Kan man losa Bellmans ekvation?

V π(s) = r(s, π(s)) + γ · V π(δ(s, π(s)))

Direkt losning (linjart ekvationssystem)

Iterativt (value iteration)

V πk+1(s)← r(s, π(s)) + γ · V π

k (δ(s, π(s)))

Orjan Ekeberg Maskininlarning

Page 52: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Bellmans ekvationLosningsmetoder

Kan man losa Bellmans ekvation?

V π(s) = r(s, π(s)) + γ · V π(δ(s, π(s)))

Direkt losning (linjart ekvationssystem)Iterativt (value iteration)

V πk+1(s)← r(s, π(s)) + γ · V π

k (δ(s, π(s)))

Orjan Ekeberg Maskininlarning

Page 53: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Bellmans ekvationLosningsmetoder

Hur far man fram en optimal policy π??

Latt om man visste den optimala vardefunktionen V ?:

π?(s) = argmaxa

(r(s, a) + γ · V ?(δ(s, a)))

Optimala varianten av Bellmans ekvation

V ?(s) = maxa

(r(s, a) + γ · V ?(δ(s, a)))

Svar att losa

Policy iteration:Iterera policy och vardeberakningarna vaxelvis

Orjan Ekeberg Maskininlarning

Page 54: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Bellmans ekvationLosningsmetoder

Hur far man fram en optimal policy π??Latt om man visste den optimala vardefunktionen V ?:

π?(s) = argmaxa

(r(s, a) + γ · V ?(δ(s, a)))

Optimala varianten av Bellmans ekvation

V ?(s) = maxa

(r(s, a) + γ · V ?(δ(s, a)))

Svar att losa

Policy iteration:Iterera policy och vardeberakningarna vaxelvis

Orjan Ekeberg Maskininlarning

Page 55: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Bellmans ekvationLosningsmetoder

Hur far man fram en optimal policy π??Latt om man visste den optimala vardefunktionen V ?:

π?(s) = argmaxa

(r(s, a) + γ · V ?(δ(s, a)))

Optimala varianten av Bellmans ekvation

V ?(s) = maxa

(r(s, a) + γ · V ?(δ(s, a)))

Svar att losa

Policy iteration:Iterera policy och vardeberakningarna vaxelvis

Orjan Ekeberg Maskininlarning

Page 56: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Bellmans ekvationLosningsmetoder

Hur far man fram en optimal policy π??Latt om man visste den optimala vardefunktionen V ?:

π?(s) = argmaxa

(r(s, a) + γ · V ?(δ(s, a)))

Optimala varianten av Bellmans ekvation

V ?(s) = maxa

(r(s, a) + γ · V ?(δ(s, a)))

Svar att losa

Policy iteration:Iterera policy och vardeberakningarna vaxelvis

Orjan Ekeberg Maskininlarning

Page 57: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Bellmans ekvationLosningsmetoder

Hur far man fram en optimal policy π??Latt om man visste den optimala vardefunktionen V ?:

π?(s) = argmaxa

(r(s, a) + γ · V ?(δ(s, a)))

Optimala varianten av Bellmans ekvation

V ?(s) = maxa

(r(s, a) + γ · V ?(δ(s, a)))

Svar att losa

Policy iteration:Iterera policy och vardeberakningarna vaxelvis

Orjan Ekeberg Maskininlarning

Page 58: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Monte-Carlo metodenTemporal-DifferenceQ-LearningSarsa-Learning

1 Definition av problemetInlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

2 Kand omgivningBellmans ekvationLosningsmetoder

3 Okand omgivningMonte-Carlo metodenTemporal-DifferenceQ-LearningSarsa-Learning

4 ForbattringarNyttan av att gora felEligibility Trace

Orjan Ekeberg Maskininlarning

Page 59: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Monte-Carlo metodenTemporal-DifferenceQ-LearningSarsa-Learning

Vanligen ar r(s, a) och δ(s, a) inte kanda av agenten

V π maste skattas genom erfarenhet

Monte-Carlo tekniken

Starta fran slumpmassig s

Folj π, lagra beloningar och st

Nar man natt malet, uppdatera V π(s)-skattningen for allabesokta tillstand med den framtida beloning man verkligenfick

Mycket langsam konvergens

Orjan Ekeberg Maskininlarning

Page 60: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Monte-Carlo metodenTemporal-DifferenceQ-LearningSarsa-Learning

Vanligen ar r(s, a) och δ(s, a) inte kanda av agenten

V π maste skattas genom erfarenhet

Monte-Carlo tekniken

Starta fran slumpmassig s

Folj π, lagra beloningar och st

Nar man natt malet, uppdatera V π(s)-skattningen for allabesokta tillstand med den framtida beloning man verkligenfick

Mycket langsam konvergens

Orjan Ekeberg Maskininlarning

Page 61: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Monte-Carlo metodenTemporal-DifferenceQ-LearningSarsa-Learning

Vanligen ar r(s, a) och δ(s, a) inte kanda av agenten

V π maste skattas genom erfarenhet

Monte-Carlo tekniken

Starta fran slumpmassig s

Folj π, lagra beloningar och st

Nar man natt malet, uppdatera V π(s)-skattningen for allabesokta tillstand med den framtida beloning man verkligenfick

Mycket langsam konvergens

Orjan Ekeberg Maskininlarning

Page 62: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Monte-Carlo metodenTemporal-DifferenceQ-LearningSarsa-Learning

Vanligen ar r(s, a) och δ(s, a) inte kanda av agenten

V π maste skattas genom erfarenhet

Monte-Carlo tekniken

Starta fran slumpmassig s

Folj π, lagra beloningar och st

Nar man natt malet, uppdatera V π(s)-skattningen for allabesokta tillstand med den framtida beloning man verkligenfick

Mycket langsam konvergens

Orjan Ekeberg Maskininlarning

Page 63: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Monte-Carlo metodenTemporal-DifferenceQ-LearningSarsa-Learning

Vanligen ar r(s, a) och δ(s, a) inte kanda av agenten

V π maste skattas genom erfarenhet

Monte-Carlo tekniken

Starta fran slumpmassig s

Folj π, lagra beloningar och st

Nar man natt malet, uppdatera V π(s)-skattningen for allabesokta tillstand med den framtida beloning man verkligenfick

Mycket langsam konvergens

Orjan Ekeberg Maskininlarning

Page 64: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Monte-Carlo metodenTemporal-DifferenceQ-LearningSarsa-Learning

Vanligen ar r(s, a) och δ(s, a) inte kanda av agenten

V π maste skattas genom erfarenhet

Monte-Carlo tekniken

Starta fran slumpmassig s

Folj π, lagra beloningar och st

Nar man natt malet, uppdatera V π(s)-skattningen for allabesokta tillstand med den framtida beloning man verkligenfick

Mycket langsam konvergens

Orjan Ekeberg Maskininlarning

Page 65: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Monte-Carlo metodenTemporal-DifferenceQ-LearningSarsa-Learning

Vanligen ar r(s, a) och δ(s, a) inte kanda av agenten

V π maste skattas genom erfarenhet

Monte-Carlo tekniken

Starta fran slumpmassig s

Folj π, lagra beloningar och st

Nar man natt malet, uppdatera V π(s)-skattningen for allabesokta tillstand med den framtida beloning man verkligenfick

Mycket langsam konvergens

Orjan Ekeberg Maskininlarning

Page 66: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Monte-Carlo metodenTemporal-DifferenceQ-LearningSarsa-Learning

Temporal Difference

Iden bakom Temporal Difference:Utnyttja att finns tva skattningar for vardet av ett tillstand:

fore och efter

Vad man tror innan man handlat

V π(st)

Vad man tror efter man handlat

rt+1 + γ · V π(st+1)

Orjan Ekeberg Maskininlarning

Page 67: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Monte-Carlo metodenTemporal-DifferenceQ-LearningSarsa-Learning

Temporal Difference

Iden bakom Temporal Difference:Utnyttja att finns tva skattningar for vardet av ett tillstand:

fore och efter

Vad man tror innan man handlat

V π(st)

Vad man tror efter man handlat

rt+1 + γ · V π(st+1)

Orjan Ekeberg Maskininlarning

Page 68: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Monte-Carlo metodenTemporal-DifferenceQ-LearningSarsa-Learning

Temporal Difference

Iden bakom Temporal Difference:Utnyttja att finns tva skattningar for vardet av ett tillstand:

fore och efter

Vad man tror innan man handlat

V π(st)

Vad man tror efter man handlat

rt+1 + γ · V π(st+1)

Orjan Ekeberg Maskininlarning

Page 69: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Monte-Carlo metodenTemporal-DifferenceQ-LearningSarsa-Learning

Temporal Difference

Iden bakom Temporal Difference:Utnyttja att finns tva skattningar for vardet av ett tillstand:

fore och efter

Vad man tror innan man handlat

V π(st)

Vad man tror efter man handlat

rt+1 + γ · V π(st+1)

Orjan Ekeberg Maskininlarning

Page 70: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Monte-Carlo metodenTemporal-DifferenceQ-LearningSarsa-Learning

Viktig observation:Den andra skattningen ar battre!

Uppdatera skattningen av vardet i riktning mot den battre

V π(st)← V π(st) + η [rt+1 + γ · V π(st+1)− V π(st)]

Matt pa overraskningen / besvikelsen

Lar sig betydligt snabbare an Monte-Carlo tekniken

Orjan Ekeberg Maskininlarning

Page 71: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Monte-Carlo metodenTemporal-DifferenceQ-LearningSarsa-Learning

Viktig observation:Den andra skattningen ar battre!

Uppdatera skattningen av vardet i riktning mot den battre

V π(st)← V π(st) + η [rt+1 + γ · V π(st+1)− V π(st)]

Matt pa overraskningen / besvikelsen

Lar sig betydligt snabbare an Monte-Carlo tekniken

Orjan Ekeberg Maskininlarning

Page 72: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Monte-Carlo metodenTemporal-DifferenceQ-LearningSarsa-Learning

Viktig observation:Den andra skattningen ar battre!

Uppdatera skattningen av vardet i riktning mot den battre

V π(st)← V π(st) + η [rt+1 + γ · V π(st+1)− V π(st)]

Matt pa overraskningen / besvikelsen

Lar sig betydligt snabbare an Monte-Carlo tekniken

Orjan Ekeberg Maskininlarning

Page 73: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Monte-Carlo metodenTemporal-DifferenceQ-LearningSarsa-Learning

Viktig observation:Den andra skattningen ar battre!

Uppdatera skattningen av vardet i riktning mot den battre

V π(st)← V π(st) + η [rt+1 + γ · V π(st+1)− V π(st)]

Matt pa overraskningen / besvikelsen

Lar sig betydligt snabbare an Monte-Carlo tekniken

Orjan Ekeberg Maskininlarning

Page 74: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Monte-Carlo metodenTemporal-DifferenceQ-LearningSarsa-Learning

Viktig observation:Den andra skattningen ar battre!

Uppdatera skattningen av vardet i riktning mot den battre

V π(st)← V π(st) + η [rt+1 + γ · V π(st+1)− V π(st)]

Matt pa overraskningen / besvikelsen

Lar sig betydligt snabbare an Monte-Carlo tekniken

Orjan Ekeberg Maskininlarning

Page 75: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Monte-Carlo metodenTemporal-DifferenceQ-LearningSarsa-Learning

Problem:Aven om man har skattat V bra kan man inte rakna ut πeftersom agenten inte kanner δ och r!

Trick:Skatta Q(s, a) istaller for V (s)

Q(s, a): Forvantad total beloning nar man gor a fran s.

π(s) = argmaxa

Q(s, a)

V ?(s) = maxa

Q?(s, a)

Orjan Ekeberg Maskininlarning

Page 76: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Monte-Carlo metodenTemporal-DifferenceQ-LearningSarsa-Learning

Problem:Aven om man har skattat V bra kan man inte rakna ut πeftersom agenten inte kanner δ och r!

Trick:Skatta Q(s, a) istaller for V (s)

Q(s, a): Forvantad total beloning nar man gor a fran s.

π(s) = argmaxa

Q(s, a)

V ?(s) = maxa

Q?(s, a)

Orjan Ekeberg Maskininlarning

Page 77: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Monte-Carlo metodenTemporal-DifferenceQ-LearningSarsa-Learning

Problem:Aven om man har skattat V bra kan man inte rakna ut πeftersom agenten inte kanner δ och r!

Trick:Skatta Q(s, a) istaller for V (s)

Q(s, a): Forvantad total beloning nar man gor a fran s.

π(s) = argmaxa

Q(s, a)

V ?(s) = maxa

Q?(s, a)

Orjan Ekeberg Maskininlarning

Page 78: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Monte-Carlo metodenTemporal-DifferenceQ-LearningSarsa-Learning

Problem:Aven om man har skattat V bra kan man inte rakna ut πeftersom agenten inte kanner δ och r!

Trick:Skatta Q(s, a) istaller for V (s)

Q(s, a): Forvantad total beloning nar man gor a fran s.

π(s) = argmaxa

Q(s, a)

V ?(s) = maxa

Q?(s, a)

Orjan Ekeberg Maskininlarning

Page 79: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Monte-Carlo metodenTemporal-DifferenceQ-LearningSarsa-Learning

Hur kan vi lara oss Q?

Aven Q-funktionen kan laras med Temporal-Difference

Q(s, a)← Q(s, a) + η

[r + γ max

a′Q(s′, a′)−Q(s, a)

]s′ ar nasta tillstand.

Litet problem: max-operationen kraver att man soker igenomalla tankbara handlingar i nasta steg.

Orjan Ekeberg Maskininlarning

Page 80: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Monte-Carlo metodenTemporal-DifferenceQ-LearningSarsa-Learning

Hur kan vi lara oss Q?

Aven Q-funktionen kan laras med Temporal-Difference

Q(s, a)← Q(s, a) + η

[r + γ max

a′Q(s′, a′)−Q(s, a)

]s′ ar nasta tillstand.

Litet problem: max-operationen kraver att man soker igenomalla tankbara handlingar i nasta steg.

Orjan Ekeberg Maskininlarning

Page 81: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Monte-Carlo metodenTemporal-DifferenceQ-LearningSarsa-Learning

Hur kan vi lara oss Q?

Aven Q-funktionen kan laras med Temporal-Difference

Q(s, a)← Q(s, a) + η

[r + γ max

a′Q(s′, a′)−Q(s, a)

]s′ ar nasta tillstand.

Litet problem: max-operationen kraver att man soker igenomalla tankbara handlingar i nasta steg.

Orjan Ekeberg Maskininlarning

Page 82: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Monte-Carlo metodenTemporal-DifferenceQ-LearningSarsa-Learning

Hur kan vi lara oss Q?

Aven Q-funktionen kan laras med Temporal-Difference

Q(s, a)← Q(s, a) + η

[r + γ max

a′Q(s′, a′)−Q(s, a)

]s′ ar nasta tillstand.

Litet problem: max-operationen kraver att man soker igenomalla tankbara handlingar i nasta steg.

Orjan Ekeberg Maskininlarning

Page 83: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Monte-Carlo metodenTemporal-DifferenceQ-LearningSarsa-Learning

SARSA-learning

Nastan samma som Q-learning, men man later aktuell policybestamma a′:

Q(s, a)← Q(s, a) + η[r + γQ(s′, a′)−Q(s, a)

]Har fatt sitt namn av att ”erfarenhets-tuplerna” har formen

< s, a, r, s′, a′ >

Orjan Ekeberg Maskininlarning

Page 84: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Monte-Carlo metodenTemporal-DifferenceQ-LearningSarsa-Learning

SARSA-learning

Nastan samma som Q-learning, men man later aktuell policybestamma a′:

Q(s, a)← Q(s, a) + η[r + γQ(s′, a′)−Q(s, a)

]

Har fatt sitt namn av att ”erfarenhets-tuplerna” har formen

< s, a, r, s′, a′ >

Orjan Ekeberg Maskininlarning

Page 85: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Monte-Carlo metodenTemporal-DifferenceQ-LearningSarsa-Learning

SARSA-learning

Nastan samma som Q-learning, men man later aktuell policybestamma a′:

Q(s, a)← Q(s, a) + η[r + γQ(s′, a′)−Q(s, a)

]Har fatt sitt namn av att ”erfarenhets-tuplerna” har formen

< s, a, r, s′, a′ >

Orjan Ekeberg Maskininlarning

Page 86: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Nyttan av att gora felEligibility Trace

1 Definition av problemetInlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

2 Kand omgivningBellmans ekvationLosningsmetoder

3 Okand omgivningMonte-Carlo metodenTemporal-DifferenceQ-LearningSarsa-Learning

4 ForbattringarNyttan av att gora felEligibility Trace

Orjan Ekeberg Maskininlarning

Page 87: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Nyttan av att gora felEligibility Trace

Vad gor man nar...

Omgivningen ar inte fullt observerbarTillstanden ar alltfor mangaTillstanden ar inte diskretaAgenten handlar i kontinuerlig tid

Orjan Ekeberg Maskininlarning

Page 88: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Nyttan av att gora felEligibility Trace

Vad gor man nar...

Omgivningen ar inte fullt observerbar

Tillstanden ar alltfor mangaTillstanden ar inte diskretaAgenten handlar i kontinuerlig tid

Orjan Ekeberg Maskininlarning

Page 89: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Nyttan av att gora felEligibility Trace

Vad gor man nar...

Omgivningen ar inte fullt observerbarTillstanden ar alltfor manga

Tillstanden ar inte diskretaAgenten handlar i kontinuerlig tid

Orjan Ekeberg Maskininlarning

Page 90: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Nyttan av att gora felEligibility Trace

Vad gor man nar...

Omgivningen ar inte fullt observerbarTillstanden ar alltfor mangaTillstanden ar inte diskreta

Agenten handlar i kontinuerlig tid

Orjan Ekeberg Maskininlarning

Page 91: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Nyttan av att gora felEligibility Trace

Vad gor man nar...

Omgivningen ar inte fullt observerbarTillstanden ar alltfor mangaTillstanden ar inte diskretaAgenten handlar i kontinuerlig tid

Orjan Ekeberg Maskininlarning

Page 92: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Nyttan av att gora felEligibility Trace

Exploration–Exploitation dilemmatOm man foljer en policy baserad pa aktuell skattning av Qkonvergerar Q inte sakert mot Q?

Enkel losning:Anvand en policy som har viss sannolikhet att ”gora fel”

ε-greedyGor ibland (med sannolikheten ε) en slumpmassig handlingistallet for den som verkar bast (giriga)SoftmaxVikta sannolikheten att gora olika handlingar med hur brade verkar

Orjan Ekeberg Maskininlarning

Page 93: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Nyttan av att gora felEligibility Trace

Exploration–Exploitation dilemmatOm man foljer en policy baserad pa aktuell skattning av Qkonvergerar Q inte sakert mot Q?

Enkel losning:Anvand en policy som har viss sannolikhet att ”gora fel”

ε-greedyGor ibland (med sannolikheten ε) en slumpmassig handlingistallet for den som verkar bast (giriga)SoftmaxVikta sannolikheten att gora olika handlingar med hur brade verkar

Orjan Ekeberg Maskininlarning

Page 94: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Nyttan av att gora felEligibility Trace

Exploration–Exploitation dilemmatOm man foljer en policy baserad pa aktuell skattning av Qkonvergerar Q inte sakert mot Q?

Enkel losning:Anvand en policy som har viss sannolikhet att ”gora fel”

ε-greedyGor ibland (med sannolikheten ε) en slumpmassig handlingistallet for den som verkar bast (giriga)

SoftmaxVikta sannolikheten att gora olika handlingar med hur brade verkar

Orjan Ekeberg Maskininlarning

Page 95: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Nyttan av att gora felEligibility Trace

Exploration–Exploitation dilemmatOm man foljer en policy baserad pa aktuell skattning av Qkonvergerar Q inte sakert mot Q?

Enkel losning:Anvand en policy som har viss sannolikhet att ”gora fel”

ε-greedyGor ibland (med sannolikheten ε) en slumpmassig handlingistallet for den som verkar bast (giriga)SoftmaxVikta sannolikheten att gora olika handlingar med hur brade verkar

Orjan Ekeberg Maskininlarning

Page 96: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Nyttan av att gora felEligibility Trace

Ytterligare uppsnabbning

Ide: TD-uppdateringarna kan utnyttjas till att forbattraskattningen aven av tillstand dar vi varit tidigare.

∀s, a : Q(s, a)← Q(s, a) + η [rt+1 + γQ(st+1, at+1)−Q(st, at)] · e

e ar ett kvardrojande spar (eligibility trace) som beskriver hurlange sedan man var i s och gjorde a.

Kallas ofta TD(lambda) dar λ ar tidskonstanten foravklingningen av sparet

Orjan Ekeberg Maskininlarning

Page 97: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Nyttan av att gora felEligibility Trace

Ytterligare uppsnabbning

Ide: TD-uppdateringarna kan utnyttjas till att forbattraskattningen aven av tillstand dar vi varit tidigare.

∀s, a : Q(s, a)← Q(s, a) + η [rt+1 + γQ(st+1, at+1)−Q(st, at)] · e

e ar ett kvardrojande spar (eligibility trace) som beskriver hurlange sedan man var i s och gjorde a.

Kallas ofta TD(lambda) dar λ ar tidskonstanten foravklingningen av sparet

Orjan Ekeberg Maskininlarning

Page 98: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Nyttan av att gora felEligibility Trace

Ytterligare uppsnabbning

Ide: TD-uppdateringarna kan utnyttjas till att forbattraskattningen aven av tillstand dar vi varit tidigare.

∀s, a : Q(s, a)← Q(s, a) + η [rt+1 + γQ(st+1, at+1)−Q(st, at)] · e

e ar ett kvardrojande spar (eligibility trace) som beskriver hurlange sedan man var i s och gjorde a.

Kallas ofta TD(lambda) dar λ ar tidskonstanten foravklingningen av sparet

Orjan Ekeberg Maskininlarning

Page 99: Bel¨oningsbaserad Inl ¨arning Reinforcement Learning Orjan ... · 2 K¨and omgivning Bellmans ekvation L¨osningsmetoder 3 Ok¨and omgivning Monte-Carlo metoden Temporal-Difference

Definition av problemetKand omgivning

Okand omgivningForbattringar

Nyttan av att gora felEligibility Trace

Ytterligare uppsnabbning

Ide: TD-uppdateringarna kan utnyttjas till att forbattraskattningen aven av tillstand dar vi varit tidigare.

∀s, a : Q(s, a)← Q(s, a) + η [rt+1 + γQ(st+1, at+1)−Q(st, at)] · e

e ar ett kvardrojande spar (eligibility trace) som beskriver hurlange sedan man var i s och gjorde a.

Kallas ofta TD(lambda) dar λ ar tidskonstanten foravklingningen av sparet

Orjan Ekeberg Maskininlarning