Top Banner
 Otimiza¸c˜ao do Funcionamento de Elevador es Atr av´ es d e Re inforcement L earning   ML Otimiza¸ ao do Funcionamento de Ele vadores Atrav´ es de Reinforcement Learning Andr´ e Peric T avare s E-mail:  [email protected] 25 de maio de 2014 Andr ´ e Peri c Tavares  Aprendi zado de M´ aquina
44

Elevadores and Reinforcement Learning

Feb 04, 2018

Download

Documents

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 1/44

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Otimizacao do Funcionamento de Elevadores

Atraves de Reinforcement Learning

Andre Peric Tavares

E-mail:   [email protected]

25 de maio de 2014

Andre Peric Tavares   Aprendizado de Maquina

Page 2: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 2/44

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Introducao

A natureza do aprendizado esta intimamente ligada com a   interacao  como ambiente.

Andre Peric Tavares   Aprendizado de Maquina

Page 3: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 3/44

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Introducao

A natureza do aprendizado esta intimamente ligada com a   interacao  como ambiente.

Exemplos:(a)   Crianca evita repetir acoes que resultaram em dor.

Andre Peric Tavares   Aprendizado de Maquina

Page 4: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 4/44

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning   ML

Introducao

A natureza do aprendizado esta intimamente ligada com a   interacao  como ambiente.

Exemplos:(a)   Crianca evita repetir acoes que resultaram em dor. o do jogo, decide

 jogada e aprende com os resultados futuros.

(b)  Jogador de xadrez verifica estado atual do jogo, toma acao e aprendecom suas consequencias.

Andre Peric Tavares   Aprendizado de Maquina

Page 5: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 5/44

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning   ML

Behaviorismo

Behaviorismo

Enfase na interacao com o ambiente e conceito de   reforco .

Andre Peric Tavares   Aprendizado de Maquina

O i i ˜ d F i d El d A ´ d R i f L i

ML

Page 6: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 6/44

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning   ML

Behaviorismo

Behaviorismo

ˆEnfase na interacao com o ambiente e conceito de   reforco .

Reforco e uma consequencia que ira estimular o comportamento futuro.

Andre Peric Tavares   Aprendizado de Maquina

Oti i acao do F cio a e to de Ele ado es At a es de Rei fo ce e t Lea i g

ML

Page 7: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 7/44

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning   ML

Behaviorismo

Behaviorismo

ˆEnfase na interacao com o ambiente e conceito de   reforco .

Reforco e uma consequencia que ira estimular o comportamento futuro.

https://www.youtube.com/watch?v=tV7Zp2B_mt8

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

ML

Page 8: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 8/44

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning   ML

Motivacao

Abordagem computacional ao aprendizado por interacao.

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

ML

Page 9: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 9/44

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning   ML

Motivacao

Abordagem computacional ao aprendizado por interacao.

Objetivo: Modelar um sistema de controle de elevadores atraves do RL.

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

ML

Page 10: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 10/44

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning   ML

MDP

Um Markov decision processes e uma tupla (S ,  A,  {P sa},  γ ,  R ) em que:

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Page 11: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 11/44

¸ g

MDP

Um Markov decision processes e uma tupla (S ,  A,  {P sa},  γ ,  R ) em que:

(a)   S   e o conjunto de  estados. Cada elemento de  S  representa umacaracterıstica do estado.

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Page 12: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 12/44

MDP

Um Markov decision processes e uma tupla (S ,  A,  {P sa},  γ ,  R ) em que:

(a)   S   e o conjunto de  estados. Cada elemento de  S  representa umacaracterıstica do estado.

(b)   A  e o conjunto de  acoes.

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Page 13: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 13/44

MDP

Um Markov decision processes e uma tupla (S ,  A,  {P sa},  γ ,  R ) em que:

(a)   S   e o conjunto de  estados. Cada elemento de  S  representa umacaracterıstica do estado.

(b)   A  e o conjunto de  acoes.

(c)   {P sa}  sao as   probabilidades de estado de transicao, isto e, adistribuicao de probabilidades para cada mudanca de estado atravesde uma acao.

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Page 14: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 14/44

MDP

Um Markov decision processes e uma tupla (S ,  A,  {P sa},  γ ,  R ) em que:

(a)   S   e o conjunto de  estados. Cada elemento de  S  representa umacaracterıstica do estado.

(b)   A  e o conjunto de  acoes.

(c)   {P sa}  sao as   probabilidades de estado de transicao, isto e, adistribuicao de probabilidades para cada mudanca de estado atravesde uma acao.

(d)   γ   e o   fator de desconto  e pertence a [0, 1).

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Page 15: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 15/44

MDP

Um Markov decision processes e uma tupla (S ,  A,  {P sa},  γ ,  R ) em que:

(a)   S   e o conjunto de  estados. Cada elemento de  S  representa umacaracterıstica do estado.

(b)   A  e o conjunto de  acoes.

(c)   {P sa}  sao as   probabilidades de estado de transicao, isto e, adistribuicao de probabilidades para cada mudanca de estado atravesde uma acao.

(d)   γ   e o   fator de desconto  e pertence a [0, 1).

(e)   R   e a funcao  recompensa, que leva os elementos de  S  × A a R

, cujodomınio tambem pode ser descrito como apenas  S .

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Page 16: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 16/44

MPD

Mecanica do MPD:

s 0

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Page 17: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 17/44

MPD

Mecanica do MPD:

s 0  →a0

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Page 18: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 18/44

MPD

Mecanica do MPD:

s 0  →a0   s 1

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Page 19: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 19/44

MPD

Mecanica do MPD:

s 0  →a0   s 1 →a1

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Page 20: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 20/44

MPD

Mecanica do MPD:

s 0  →a0   s 1 →a1   s 2

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Page 21: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 21/44

MPD

Mecanica do MPD:

s 0  →a0   s 1 →a1   s 2  → . . .

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Page 22: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 22/44

Recompensa

Recompensa total torna-se

R (s 0) + γ R (s 1) + γ 2R (s 2) + ...

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

R

Page 23: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 23/44

Recompensa

Recompensa total torna-se

R (s 0) + γ R (s 1) + γ 2R (s 2) + ...

Explicacao: O presente e mais importante do que o futuro.

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

V l f ˜

Page 24: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 24/44

Valor e funcao recompensa

Uma polıtica  π  mapeia cada elemento do onjunto de estados  S  a umaacao  a ∈  AValor  do estado  s  sob a polıtica  π, denotado por  V π, que e a esperancada soma das recompensas:

V π(s ) = E [R (s 0) + γ R (s 1) + γ 2R (s 2) + ...]

E possıvel provar que a funcao acima satisfaz as Equacoes de Bellman:

V π(s ) = R (s ) + γ 

P (s |s , π(s ))V π(s ).

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

C di ˜

Page 25: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 25/44

Condicoes

•   Restricoes (descer estando no terreo, subir estando no ultimo, etc.)

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

C di ˜

Page 26: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 26/44

Condicoes

•   Restricoes (descer estando no terreo, subir estando no ultimo, etc.)

•   No maximo um passageiro aguarda por andar.

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

C di ˜

Page 27: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 27/44

Condicoes

•   Restricoes (descer estando no terreo, subir estando no ultimo, etc.)

•   No maximo um passageiro aguarda por andar.•   Todos os passageiros saem do elevador apenas no andar terreo.

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Implementacao

Page 28: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 28/44

Implementacao

Cada estado e computado como um vetor de 7 elementos

x  = [c 1, c 2, c 3, c 4, p , v , o ]T 

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Implementacao

Page 29: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 29/44

Implementacao

Cada estado e computado como um vetor de 7 elementos

x  = [c 1, c 2, c 3, c 4, p , v , o ]T 

Em que

•   c i   representa o numero de pessoas que aguardam no andar   i .

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Implementacao

Page 30: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 30/44

Implementacao

Cada estado e computado como um vetor de 7 elementos

x  = [c 1, c 2, c 3, c 4, p , v , o ]T 

Em que

•   c i   representa o numero de pessoas que aguardam no andar   i .

•   p   e a posicao do elevador, pertencente a  {0, 1, 2, 3, 4}.

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Implementacao

Page 31: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 31/44

Implementacao

Cada estado e computado como um vetor de 7 elementos

x  = [c 1, c 2, c 3, c 4, p , v , o ]T 

Em que

•   c i   representa o numero de pessoas que aguardam no andar   i .

•   p   e a posicao do elevador, pertencente a  {0, 1, 2, 3, 4}.

•   v   e a velocidade do elevador, pertencente a  {−3, 0, 3}.

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Implementacao

Page 32: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 32/44

Implementacao

Cada estado e computado como um vetor de 7 elementos

x  = [c 1, c 2, c 3, c 4, p , v , o ]T 

Em que

•   c i   representa o numero de pessoas que aguardam no andar   i .

•   p   e a posicao do elevador, pertencente a  {0, 1, 2, 3, 4}.

•   v   e a velocidade do elevador, pertencente a  {−3, 0, 3}.

•   o   e o numero de pessoas que ocupam o elevador, tomando valoresentre  {0, 1, 2, 3, 4}.

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Implementacao

Page 33: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 33/44

Implementacao

Cada estado e computado como um vetor de 7 elementos

x  = [c 1, c 2, c 3, c 4, p , v , o ]T 

Em que

•   c i   representa o numero de pessoas que aguardam no andar   i .

•   p   e a posicao do elevador, pertencente a  {0, 1, 2, 3, 4}.

•   v   e a velocidade do elevador, pertencente a  {−3, 0, 3}.

•   o   e o numero de pessoas que ocupam o elevador, tomando valoresentre  {0, 1, 2, 3, 4}.

Assim, existem no total

24 × 5 × 3 × 5 = 1200

estados diferentes.

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Recompensa

Page 34: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 34/44

Recompensa

Formula:

p (x ) = −4

i =1

c i  − o 

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Recompensa

Page 35: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 35/44

Recompensa

Formula:

p (x ) = −4

i =1

c i  − o 

Interpretacao: Negativo do numero de passageiros aguardantes eocupantes.

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Execucao

Page 36: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 36/44

Execucao

Passo 1: Calcular  π  e construir o conjunto de acoes otimas.

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Execucao

Page 37: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 37/44

Execucao

Passo 1: Calcular  π  e construir o conjunto de acoes otimas.

function  Algoritmo q-value(P sa, p , θ)Inicialize  V π = 0 para todo  x  ∈ X , u  ∈ U   (arbitrario)k  = 0repeat

for cada  x  ∈ X , u  ∈ U   doQ k +1(x , u ) =

x ∈X 

 P sa(x , u , x )[p (x , u , u ) + γ  maxu ∈U  Q k (x , u )]

end for

k  ← k  + 1until  max x ,u |Q k (x , u ) −Q k −1(x , u )| < θ

return  π∗

(x ) = arg maxu ∈U  Q k (x , u )∀x  ∈ X end function

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Resultados

Page 38: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 38/44

Resultados obtidos:

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Resultados

Page 39: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 39/44

Resultados obtidos:

Figura:   :(

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Artigo original

Page 40: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 40/44

g g

Resultado no artigo  Reinforcement Learning for Elevator Control , porYuan, X., Busoniu, L., Babuska, R:

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Artigo original

Page 41: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 41/44

g g

Resultado no artigo  Reinforcement Learning for Elevator Control , porYuan, X., Busoniu, L., Babuska, R:

Heurıstica: Selecione   aleatoriamente  um passageiro aguardante, va ate o

seu andar e o leve diretamente ao terreo. Repita.

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Artigo original

Page 42: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 42/44

Resultado no artigo  Reinforcement Learning for Elevator Control , porYuan, X., Busoniu, L., Babuska, R:

Heurıstica: Selecione   aleatoriamente  um passageiro aguardante, va ate o

seu andar e o leve diretamente ao terreo. Repita.Tempo medio (media da soma dos tempos de espera de todos a cadasegundo): aprox. 70s.

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Artigo original

Page 43: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 43/44

Resultado no artigo  Reinforcement Learning for Elevator Control , porYuan, X., Busoniu, L., Babuska, R:

Heurıstica: Selecione   aleatoriamente  um passageiro aguardante, va ate o

seu andar e o leve diretamente ao terreo. Repita.Tempo medio (media da soma dos tempos de espera de todos a cadasegundo): aprox. 70s.

Heurıstica: RL e algoritmo q-learning. Tempo medio: aprox. 5s.

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Duvidas

Page 44: Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 44/44

Andre Peric Tavares   Aprendizado de Maquina