Reinforcement Learning A.1 Introdução Reinforcement Learning é uma abordagem computacional que estuda o aprendizado a partir da interação entre agente e ambiente, que se tornou multi- disciplinar (inteligência artificial, psicologia, engenharia de controle, neurociência, redes neurais, algoritmos genéticos) nos últimos anos. É uma subdivisão do paradigma de aprendizado sem mestre (Haykin, 1998). Além disso, possibilita o aprendizado diretamente a partir da interação com o ambiente sem ter que considerar qualquer situação que não seja realmente experimentada e sem ter qualquer habilidade para predizer como o ambiente deve se comportar em resposta as suas ações. Existem grandes diferenças entre Reinforcement Learning e sistemas baseados em aprendizado supervisionado. A diferença mais importante está na ausência da apresentação de pares de entrada e saída, presentes em sistemas supervisionados. Em sistemas baseados em reforço, a avaliação do sistema acontece simultaneamente ao aprendizado e precisa explicitamente explorar seu ambiente. Reinforcement Learning é antes de tudo indicado quando se deseja obter a política ótima nos casos em que não se conhece a priori a função que modela esta política. O agente deve interagir com seu ambiente diretamente para obter informações, que serão processadas, através de um algoritmo apropriado, para produzir uma política ótima. Reinforcement Learning é o aprendizado do mapeamento de estados em ações para maximizar um recompensa ou um sinal de reforço. O aprendizado deve descobrir que ações resultam no maior retorno. O algoritmo de aprendizado é baseado na teoria da recompensa/punição, ou seja, o conhecimento é formado por tentativa e erro através da interação com o ambiente e, principalmente, sem ser necessário especificar como as tarefas devem ser executadas (Kaelbling et.al., 1996). No modelo padrão de Reinforcement Learning, um agente é conectado ao seu ambiente via sensores e motores (percepções e ações). A cada passo, a partir
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Reinforcement Learning
A.1 Introdução
Reinforcement Learning é uma abordagem computacional que estuda o
aprendizado a partir da interação entre agente e ambiente, que se tornou multi-
disciplinar (inteligência artificial, psicologia, engenharia de controle,
neurociência, redes neurais, algoritmos genéticos) nos últimos anos. É uma
subdivisão do paradigma de aprendizado sem mestre (Haykin, 1998). Além disso,
possibilita o aprendizado diretamente a partir da interação com o ambiente sem ter
que considerar qualquer situação que não seja realmente experimentada e sem ter
qualquer habilidade para predizer como o ambiente deve se comportar em
resposta as suas ações.
Existem grandes diferenças entre Reinforcement Learning e sistemas
baseados em aprendizado supervisionado. A diferença mais importante está na
ausência da apresentação de pares de entrada e saída, presentes em sistemas
supervisionados. Em sistemas baseados em reforço, a avaliação do sistema
acontece simultaneamente ao aprendizado e precisa explicitamente explorar seu
ambiente.
Reinforcement Learning é antes de tudo indicado quando se deseja obter a
política ótima nos casos em que não se conhece a priori a função que modela esta
política. O agente deve interagir com seu ambiente diretamente para obter
informações, que serão processadas, através de um algoritmo apropriado, para
produzir uma política ótima.
Reinforcement Learning é o aprendizado do mapeamento de estados em
ações para maximizar um recompensa ou um sinal de reforço. O aprendizado deve
descobrir que ações resultam no maior retorno. O algoritmo de aprendizado é
baseado na teoria da recompensa/punição, ou seja, o conhecimento é formado por
tentativa e erro através da interação com o ambiente e, principalmente, sem ser
necessário especificar como as tarefas devem ser executadas (Kaelbling et.al.,
1996).
No modelo padrão de Reinforcement Learning, um agente é conectado ao
seu ambiente via sensores e motores (percepções e ações). A cada passo, a partir
Reinforcement Learning – Curso Tópicos Avançados
ICA/DEE-PUC-Rio Karla Figueiredo
158
da interação, através dos sensores, o agente recebe a entrada i, que determina o
estado atual s do ambiente; o agente escolhe uma ação a para gerar uma saída, que
é executada pelos atuadores (figura A-1).
Figura A.1 – Agente
Com a execução de uma ou mais ações o agente teve o seu estado alterado e
o estado atual é avaliado e comunicado ao agente através de um valor escalar – o
reforço.
O módulo B, que determina o comportamento do agente, deve escolher
ações que aumentem o valor de reforço.
Dessa forma o modelo consiste em:
• Um conjunto de estados discretos S, onde s ∈ S.
• Um conjunto de ações discretas A, onde a ∈ A
• Os reforços escalares, valores tipicamente entre [0,1].
O trabalho do agente é encontrar a política π, definida como o mapeamento
de estados em ações, que maximize as medidas do reforço. O ambiente é definido
como estacionário, isto é, não é considerada a possibilidade de que uma mesma
Agente
PE R CE P Ç Õ E S
AÇÕES
Sensores Atuadores i
s Ba
Reinforcement Learning – Curso Tópicos Avançados
ICA/DEE-PUC-Rio Karla Figueiredo
159
ação aplicada a um estado em duas ocasiões diferentes resulte em dois estados
diferentes. Esta suposição vai contra uma das principais motivações para a
construção de sistemas que apresentam características de aprendizado. No entanto,
alguns algoritmos podem ser efetivos em ambiente não estacionários, cuja
variação é lenta.
A.2 Características do Reinforcement Learning
Em um sistema de Reinforcement Learning existem duas características
fundamentais: o aprendizado por interação e por retorno atrasado. A seguir, são
descritas algumas características do RL:
Aprendizado por interação
Aprendizado por interação é a característica principal que define um
problema de Reinforcement Learning. O agente RL age no ambiente e aguarda
pelo valor de reforço que o ambiente deve lhe retornar em resposta a ação tomada,
guardando este valor para tomar decisões posteriores.
Retorno atrasado
O fato de o ambiente retornar ao agente um valor de reforço máximo não
quer dizer necessariamente que a ação tomada pelo agente foi a melhor. Uma ação
é produto de uma decisão local no ambiente, sendo seu efeito imediato de
natureza local, enquanto que, em um sistema Reinforcement Learning, busca-se
alcançar objetivos globais no ambiente. Assim, as ações tomadas devem
maximizar o retorno total, isto é, a qualidade das ações tomadas é vista pelas
soluções encontradas no longo prazo. Este problema foi tratado na tese de
Watkins (1989), onde ele conclui que, como a única informação que o agente
recebe do ambiente é o reforço imediato, a partir desse valor deve ser gerado
algum outro valor que permita obter uma visão da qualidade das ações efetuadas
em longo prazo.
Reinforcement Learning – Curso Tópicos Avançados
ICA/DEE-PUC-Rio Karla Figueiredo
160
Orientado ao objetivo
Em Reinforcement Learning, o problema tratado é considerado como um
ambiente que dá respostas em função de ações efetuadas, não sendo necessário
conhecer detalhes da modelagem desse ambiente. Simplesmente, existe um agente
que atua dentro do ambiente desconhecido tentando alcançar um objetivo. O
objetivo é, geralmente, otimizar algum comportamento dentro deste ambiente.
Exploration x Exploitation Um agente RL procura sempre obter o valor máximo de retorno, escolhendo
ações que forneceram bons reforços no passado, através da exploração das boas
ações já descobertas. Todavia, para o agente ter encontrado essas boas ações, em
algum momento teve que escolher ações sem ter o conhecimento prévio da
qualidade dessas ações. Assim, para descobrir melhores ações, o agente não deve
deixar de procurar por alternativas. Este fato constitui o dilema exploration-
exploitation, bem conhecido na área de Algoritmos Genéticos (Goldberg, 1989),
que é o conflito entre tirar proveito das boas informações já descobertas
(cruzamento) e buscar novas informações (mutação) (Holland, 1975).
Existem vários métodos para abordar este problema, que são utilizados
pelos diferentes algoritmos desenvolvidos na área de Reinforcement Learning
(Kaelbling et. al., 1996) .
A.3 Fundamentos Matemáticos do RL
Existem dois conceitos que devem ser conhecidos para facilitar a
modelagem de um sistema baseado em Reinforcement Learning. A seguir,
apresentamos uma breve descrição destes conceitos.
Propriedade de Markov
Reinforcement Learning – Curso Tópicos Avançados
ICA/DEE-PUC-Rio Karla Figueiredo
161
Quando a probabilidade de transição de um estado s para um estado s’
depende apenas do estado s e da ação a adotada em s, isso significa que o estado
corrente fornece informação suficiente para o sistema de aprendizado decidir que
ação deve ser tomada. Quando o sistema possui esta característica, diz-se que ele
satisfaz a propriedade de Markov (Bellman, 1957).
No caso mais geral, se a resposta em 1+t (estado seguinte) para uma ação
efetuada em t depende de todo o histórico de ações até o momento atual, a
dinâmica do ambiente é definida pela especificação completa da distribuição de
O algoritmo Q-learning utiliza uma tabela para mapear estados/ações.
Quando o espaço de estados é muito grande e/ou contínuo, o método torna-se
inviável. Este problema é denominado na literatura como curse of dimensionality.
Método AHC (Adaptive Heuristic Critic)
O método AHC (Adaptive Heuristic Critic) é um método baseado em
Diferença Temporal (Temporal Difference- TD) e possui dois componentes, o
crítico (Adaptive Critic Element) e o ator (Associative Search Element). Este
método usa uma estrutura separada para representar explicitamente a política,
independentemente da função de valor. O módulo da política é o ator, porque ele
seleciona as ações; o módulo do crítico é responsável pela estimação da função
do valor, e a sua função é criticar as ações realizadas pelo ator. O aprendizado é
do tipo on-policy, onde o crítico deve aprender a política e criticar se ela está ou
não sendo seguida pelo ator. A crítica é um sinal escalar conhecido na saída do
módulo do crítico (Sutton & Barto, 1998).
A figura A-6, mostra o diagrama da arquitetura AHC. Nela, o crítico,
representa uma função de avaliação mais elaborada do que a função de retorno (r)
dada pelo ambiente. O módulo do ator visa maximizar o valor heurístico v, que é
computado pelo módulo crítico. O crítico usa o sinal de reforço externo para
aprender a mapear estados em valores esperados dados pela política que está
sendo executada no componente ator (Kaelbling et. al., 1996). Sob a ótica da
teoria de Programação Dinâmica, esta função de valor tem a intenção de ser uma
função de valor ótima, ou seja, deseja-se que a função de valor do estado seja
associada a uma política ótima.
Reinforcement Learning – Curso Tópicos Avançados
ICA/DEE-PUC-Rio Karla Figueiredo
181
Figura A.6 - Algoritmo Q-Learning
Com o objetivo de reduzir os efeitos do temporal credit-asssignment
problem (Sutton, 1994), o sinal de reforço usado pelo ator não é o reforço dado
pelo ambiente e sim um sinal de reforço interno gerado pelo módulo crítico,
reduzindo as incertezas no aprendizado do ator. O aprendizado no módulo ator
visa a seleção de ações que levem a avaliações ótimas do módulo crítico, e que,
assim, uma política ótima seja encontrada (Jouffe, 1998). Durante o aprendizado,
ambos os módulos, da função de valor (crítico) e da política (ator), são ajustados
(Ribeiro, 1999).
O módulo da função de valor pode atualizar seus valores segundo o
algoritmo TD(0) usando a eq. A-18 (Kaelbling et. al., 1996) ou usar a eq. A-16
seguindo o algoritmo SARSA:
))'(()()1( sVrsV ππ γαα ++− A.18
Quando o estado s é visitado pelo agente, seu valor estimado é atualizado
para tornar-se o mais próximo de )'(sVr πγ+ , onde r é o retorno instantâneo
recebido do ambiente, )'(sVπ é o valor estimado para a função de valor do
próximo estado, α é a taxa de aprendizado, variando entre (0 ≤ α ≤ 1) e o fator de
desconto γ define a influência do valor associado ao estado s´ no valor atual
Ambiente
Função de valor
Política
estado
ator
crítico
TD-erro
recompens
ação
Reinforcement Learning – Curso Tópicos Avançados
ICA/DEE-PUC-Rio Karla Figueiredo
182
estimado. Se o valor do parâmetro α decrescer lentamente durante o aprendizado,
TD(0) irá convergir Vπ para o valor ótimo associado a cada estado, quando uma
política π for aplicada e cada estado for amostrado um número suficiente de
vezes.
As ações a que causam a transição do estado s para o estado s’ não são
determinadas a partir da comparação dos resultados com os valores obtidos
através da execução de outras ações off-line, e sim computadas on-line como saída
do módulo da política. Os parâmetros do módulo da política são atualizados de
acordo com um método que encoraja ou não a ação atual.
O módulo da política é atualizado por um método que recompensará ou
punirá a ação tomada, se o valor V´(s) atualizado é menor ou maior que V(s).
O sucesso do método AHC está fortemente atrelado à escolha de boas
funções de avaliação usadas no módulo crítico.
Métodos que incluem eligibility traces
Eligibility traces (Singh & Sutton, 1996) é um dos mecanismos básicos no
Reinforcement Learning, podendo ser abordado de duas formas.
A partir de uma visão mais teórica, eligibility traces podem ser definidos
como intermediários entre os métodos de Diferenças Temporais e o método de
Monte Carlo, isto é, este método exige mais do que estados imediatos (para o caso
de TD) e exige menos quando não prescinde que o sistema alcance o estado final
(caso Monte Carlo). Assim, quando são inseridos em um método TD qualquer, é
produzida uma família de métodos que varrem um espectro no qual um dos
extremos é o método de Monte Carlo, e o outro, os métodos de Diferenças
Temporais one-step.
Os métodos intermediários resultantes entre aqueles dois, com visões
intermediárias dos estados, são quase sempre mais eficientes do que os métodos
extremos. Neste sentido, a utilização de eligibility traces unifica os métodos de
Monte Carlo e Diferenças Temporais, de uma forma valiosa e interessante
(Sutton, 1998).
Reinforcement Learning – Curso Tópicos Avançados
ICA/DEE-PUC-Rio Karla Figueiredo
183
Numa visão mais prática, eligibility traces são registros temporários da
ocorrência de algum evento, como a visita de um estado ou a seleção de uma ação.
Assim, este parâmetro gera um valor de memória associado com os eventos
elegíveis para as mudanças posteriores do aprendizado.
TD(λ)
Em princípio TD(λ) resulta da combinação do método de diferenças
temporais TD, que por conveniência será representado como TD(0), com
eligibility traces, obtendo características intermediárias entre o método TD e o
método de Monte Carlo. Como já foi explicado, o método de Monte Carlo faz
suas atualizações a partir do reforço real obtido quando, em um episódio, se
alcança o estado final. No entanto, TD faz a atualização apenas com o reforço
obtido com o estado seguinte. Então em um dado tipo de método intermediário, a
atualização é dada por um número intermediário de reforços.
Tudo isto é precisamente a função do TD(λ), para 10 << λ . Diferentemente
dos métodos single step, como o TD(0) ou Q-Learning, o TD(λ) obtém a
atualização das funções de valor a partir de uma ponderação exponencial dos
valores nos estados futuros. O parâmetro λ, que é o grau de uso de eligibility
traces, corresponde à taxa de ponderação exponencial. Assim, se 0=λ , o
algoritmo resultante, TD(0), é exatamente o algoritmo incremental one-step TD.
Se 1=λ , o algoritmo resultante TD(1) obtém a atualização do valor de um estado
somente a partir dos valores do estado final, como no método de Monte Carlo.
Para entender melhor como valores de estados sucessivos influem na
atualização das funções de valor, existem duas visões do processo: uma visão para
frente e uma visão para trás.
Visão para Frente
Na visão para frente, sendo a mais teórica, o retorno pode ser obtido como
uma média ponderada de retornos de n-passos futuros chamada λtR (Watkins,
1989), que contém todos os retornos )(ntR de um passo, dois passos, até n-passos,
sendo seus pesos proporcionais ao fator 1−nλ , onde 10 ≤≤ λ . A inserção do fator
Reinforcement Learning – Curso Tópicos Avançados
ICA/DEE-PUC-Rio Karla Figueiredo
184
)1( λ− permite normalizar o resultado para que o somatório dos pesos seja 1.
Assim, o retorno λtR pode ser expresso da seguinte forma:
∑∞
=
−−=1
)(1)1(n
nt
nt RR λλλ A.19
e, considerando o estado final, se este é alcançado, o retorno λtR tem a seguinte
expressão:
∑−−
=
−−− +−=1
1
1)(1)1(tT
nt
tTnt
nt RRR λλλλ A.20
Se 0=λ , a equação reduz-se ao reforço do estado seguinte, como TD(0),
mas se 1=λ , o retorno resultante é apenas o retorno normal de estado final,
utilizado no método de Monte Carlo.
Então, a partir da equação A.16 de retorno, pode aplicar-se uma equação de
atualização com o formato da função de valor A.13 para o novo valor de retorno
mostrado na equação A.17,
[ ])()()( tttttt sVRsVsV −+= λα A.21
que é semelhante à equação de atualização de Monte Carlo, sendo a única
diferença o retorno utilizado.
A visão à frente é fácil de entender, uma vez que a base matemática
associada é fornecida pelos métodos de Monte Carlo e Diferenças Temporais sem
maiores variações, mas existe o problema de determinar o valor do retorno λtR
que depende de reforços futuros.
Visão para Trás
Na visão para trás, é aplicado um fator de memorização de estados passados,
que são eligibility traces, representados por )(set (que é um tipo escalar, como
Reinforcement Learning – Curso Tópicos Avançados
ICA/DEE-PUC-Rio Karla Figueiredo
185
explicado no inicio desta seção). Em cada passo, os estados )(set decaem com a
taxa λγ e, para o estado visitado, o valor de )(set é incrementado em 1, ou pode
também fazer-se 1)( =set , como na expressão a seguir,
⎩⎨⎧
=+≠=
−
−
tt
ttt ssifse
ssifsese 1)()()(
1
1γλγλ A.22
Figura A.7 - Eligibility traces acumulados
a qual é aplicável para todos os estados não terminais, onde γ é a taxa de
desconto e λ é o mesmo parâmetro na visão à frente. A cada momento, eligibility
traces armazenam os estados que foram visitados recentemente, onde o grau de
tempo é expresso pelo fator γλ . Assim, eligibility traces permitem indicar o grau
de influência de cada estado nas mudanças associadas quando é recebido um
reforço.
Nesta visão, o erro da diferença temporal mantém a atualização
proporcional com os estados mais recentes da seguinte forma:
)()( sesV ttt αδ=∆ A.23
onde tδ é a própria diferença temporal expressa na Equação A.24 a seguir,
)()( 11 tttttt sVsVr −+= ++ γδ A.24
eligibility traces acumulados número de visitas a um estado
Reinforcement Learning – Curso Tópicos Avançados
ICA/DEE-PUC-Rio Karla Figueiredo
186
onde os incrementos são feitos a cada passo do algoritmo podendo ser de tipo
incremental para algoritmos on-line, ou de tipo episódico para algoritmos off-line.
A figura A.8, a seguir, mostra o algoritmo do TD(λ).
Inicializar )(sV aleatório, 0)( =se , para todo S∈s
Repetir (por episódio):
Inicializar s
Repetir (por episódio):
←a ação tomada sob π para s
Tomar a ação a , observar o reforço r e o estado seguinte, 's
1)()()()'(
+←−+←
sesesVsVr γδ
Para todo s :
)()()()()(
sesesesVsV
γλαδ
←+←
'ss ←
até s ser o estado terminal
Figura A.8 - Algoritmo TD(λ) on-line para a estimação de πV
Na segunda abordagem o TD(λ) está orientado a checar em cada passo o
erro TD do passo anterior, e atribuir este erro a cada estado prévio segundo o
valor do eligibility trace associado ao estado nesse momento.
SARSA (λ)
A idéia em geral é aplicar a predição do TD(λ) para pares estado-ação ao
invés de estados apenas. Supondo ),( aset como o e-trace para o par ( as, ), então,
a inserção de eligibility traces na equação de atualização do SARSA (eq. A.16),
é feita como indicado na eq. A.25 a seguir e, o algoritmo é exibido na figura A-9.
Reinforcement Learning – Curso Tópicos Avançados
ICA/DEE-PUC-Rio Karla Figueiredo
187
),(),(),(),(),(
casos outros),( e Se1),(
),(
1
111
1
1
aseasQasQasQasQr
aseaassase
ase
tttt
tttttttt
t
tttt
αδγδ
γλγλ
+=−+=
⎩⎨⎧ ==+
=
+
+++
−
−
A.25
Q(λ)
Figura A.9 - Algoritmo SARSA(λ)
Pode-se ver no algoritmo SARSA(λ) que a atualização é similar à do
algoritmo TD, com a diferença que são usadas as funções de valor ),( asQ para o
par (estado, ação) ao invés da função de valor )(sV para o estado apenas.
Q(λ)
Para combinar eligibility traces com o algoritmo Q-Learning foram
propostos três métodos: o Watkins Q(λ), proposto pelo próprio Watkins (1989),
que desenvolveu o algoritmo Q-Learning; e o Peng Q(λ) desenvolvido por Peng
final estado o seja que Até ;
a)e(s, λ γ),( a)e(s, δ α),(),(
: todoPara 1
),(),( greedy)-(e de derivada política a usando em Escolha
, observe , ação a Execute :episódio) do passo cada (para Repita
, Inicialize :episódio) cada (para Repita
, todopara ,0, e mentearbitraria , Inicialize
saass
aseasQasQ
s,ae(s,a)e(s,a)
asQasQrQsa
sra
as
asa)e(sa)Q(s
′←′←←
+←
+←−′′+←
′′′
=
γδ
Reinforcement Learning – Curso Tópicos Avançados
ICA/DEE-PUC-Rio Karla Figueiredo
188
& Williams (1994) e Naïve Q(λ). A idéia em geral, também como no método
SARSA, é inserir eligibility traces equação de atualização do Q-Learning (eq.
A.15). No entanto, este algoritmo é off-policy, ou seja, a política aprendida não é
necessariamente a mesma que é usada para selecionar as ações. O Q-Learning
aprende através de uma política greedy, enquanto segue uma política que envolve
exploração de ações. Devido a isto, um cuidado especial deve ser tomado quando
o eligibility traces é introduzido.
O método de Watkins torna zero o valor do e-trace depois de ações non-
greedy são escolhidas, de forma a não usar infomações non-greedy no
aprendizado de ações envolvidas com políticas greedy. A equação A-26 é
utilizada para atualização das funções de valores das ações e a figura A. mostra o
algoritmo Q-Watkins(λ).
A.26
),(),(max),(),(),(
casos outros),(max),( if
),(max),(,, if
),(0
),(1),(
11
1
11
11
1
1
tttttatt
tttt
ttattt
ttattttt
t
t
t
asQasQraseasQasQ
asQasQasQasQaass
ase
asease
−′+=
+=
⎪⎩
⎪⎨
⎧≠
===+=
+′+
+
−−
−−
−
−
γδαδ
γλ
γλ
final estado o seja que Até ;
0),( contrário Caso ),(),( Então , Se
),(),(),( : todoPara
1 ),(),(
) then max, ' (se ),(maxarg
greedy)-(e de derivada política usando em Escolha , observe , ação a Execute
:episódio) do passo cada (para Repita , Inicialize
:episódio) cada (para Repita, todopara ,0, e mentearbitraria , Inicialize
*
**
saass
aseaseaseaa
aseasQasQs,a
e(s,a)e(s,a)asQasQr
aaéabsQa
Qsasra
as
asa)e(sa)Q(s
b
′←′←←
←=′
+←
+←−′′+←
′←′←
′′′
=
γλ
αδ
γδ
Reinforcement Learning – Curso Tópicos Avançados
ICA/DEE-PUC-Rio Karla Figueiredo
189
Figura A.9 – Algoritmo Q-Watkins(λ)
O método de Peng apresenta alternativas para as desvantagens do método de
Watkins: no início do aprendizado, freqüentemente e(s,a)=0. Peng sugere um
método híbrido entre o usado por Watkins e o método SARSA de forma a nunca
interromper o trace. No entanto apresenta uma implementação bastante complexa
para uma descrição mais detalhada ver (Peng & Williams, 1994 e 1996).
NAÏVE(λ)
O método naïve é semelhante ao Q-Watkins(λ) exceto porque os e-traces
não são inicializados quando ações exploratórias são escolhidas. Este método tem
algumas vantagens do método de Peng, porém sem a complexidade da sua
implementação. Existem dúvidas se este método é realmente naïve.
Para nenhum desses métodos que utilizam eligibility traces existe prova de
convergência.
Eligibility Traces para AHC
O módulo crítico usa TD(λ) como o SARSA(λ) e o ator agrega o valor do
eligibility traces para cada par estado-ação para atualizar a política.
A equação de atualização da política passa a ser:
Replacing Traces
A.27),(),(),(1 aseaspasp tttt αδ+=+
Reinforcement Learning – Curso Tópicos Avançados
ICA/DEE-PUC-Rio Karla Figueiredo
190
Estados que são freqüentemente visitados podem ter e-traces maiores que 1,
o que eventualmente pode ser problema para o processo de convergência.
Replacing traces: torna e-trace=1 toda vez que o estado é visitado. A figura A.10
mostra um gráfico do valor e-trace associado a um estado ao longo de um
determinado período de tempo.
Figura A.10 – Algoritmo Q-Watkins(λ)
Conclusões para o uso de eligibility traces:
• Forma incremental de combinar TD e MC • Inclui as vantagens de MC (pouca propriedade Markov) • Inclui as vantagens de TD (usando erro TD, bootstrapping) • Pode acelerar o aprendizado • Aumenta custo computacional
Curse of Dimensionality
Como em MDP, os métodos baseados em DP Adaptativa lidam com
espaços de entrada discretos e a representação dos estados freqüentemente usa
tabelas (lookup table).
Quando os agentes são introduzidos em problemas do mundo real, um
grande conjunto de estados e ações são encontrados. Este problema de dimensão
torna o uso de tabelas (lookup table) inviável. Baseando-se na premissa de que
estados vizinhos apresentam funções de valor similares, um processo denominado
Número de vezes que o estado é visitado Accumulating traces Replacing traces
Reinforcement Learning – Curso Tópicos Avançados
ICA/DEE-PUC-Rio Karla Figueiredo
191
de generalização permite a modificação não apenas dos estados diretamente
relacionados a cada iteração, como também de outros estados afins. As
aproximações de funções representam a compactação dos estados para os quais a
generalização é uma propriedade emergente (Ribeiro, 1999).
Baseado nesta premissa, várias aproximações de funções têm sido usadas
em conjunto com Programação Dinâmica. As aproximações de funções
freqüentemente encontradas são CMAC (Watkins, 1989; Sutton, 1996; Singh &