4 | Cadeias de Markov homogêneasprofessor.ufabc.edu.br/~jair.donadelli/algprob/cap4.pdf · 158 Cadeias de Markov homogêneas Uma sequência = ( i)i∈S com i 0, de modo que i∈S

4 | Cadeias de Markov homogêneasConteúdo

4.1 Cadeias de Markov homogêneas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157

4.1.1 2-SAT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164

4.1.2 Transiência, recorrência e periodicidade . . . . . . . . . . . . . . . . . . . 165

4.1.3 Classificação das cadeias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170

4.1.4 Distribuição invariante e convergência . . . . . . . . . . . . . . . . . . . . 174

4.2 Passeios aleatórios em grafos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184

4.2.1 s − t conexidade em grafos . . . . . . . . . . . . . . . . . . . . . . . . . . . 186

4.2.2 Passeio aleatório em grafos regulares . . . . . . . . . . . . . . . . . . . . 188

4.2.3 Passeio aleatório em grafos expansores . . . . . . . . . . . . . . . . . . . 190

4.2.4 Passeio aleatório naWEB : o Google PageRank . . . . . . . . . . . . . . . 194

4.3 Algoritmo Metropolis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199

Exercícios complementares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203

4.1 Cadeias de Markov homogêneas

Começamos estabelecendo a notação�[X1 � k1, X2 � k2, . . . , Xj � kj ] que significa P�[X1 �

k1] ∩ [X2 � k2] ∩ · · · ∩ [Xj � kj ]�daqui em diante neste capítulo.

Uma coleção {Xt : t ∈ T } de variáveis aleatórias que assumem valor num conjunto de estados

S é um processo estocástico. O índice t é interpretado como tempo e o valor de Xi é o estado

do processo no instante t. O processo é dito de tempo-discreto ou tempo-contínuo dependendo

de T ser enumerável ou não, respectivamente. Cadeias de Markov são um caso particular de

processo estocástico e, no nosso caso, consideraremos somente cadeias de Markov em tempo

discreto, as variáveis aleatórias serão discretas e quase sempre S finito. No que segue, fixamos

T = � e S ⊂ � a menos que seja dito o contrário. Um processo estocástico é uma cadeia de

Markov se vale a condição de Markov de que o estado futuro depende somente do estado atual

e é independente dos estados passados

� [Xn+1 = j | Xn = i, Xn−1 = sn−1, · · · , X0 = s0] = � [Xn+1 = j | Xn = i] (4.1)

e ela é dita homogênea se essa probabilidade não depende do tempo n. Como todas as cadeias

desse capítulo são homogêneas nós omitiremos esse adjetivo daqui em diante.

157

158 Cadeias de Markov homogêneas

Uma sequência � = (�i )i∈S com �i � 0, de modo que�

i∈S �i = 1 é chamada vetor de proba-

bilidades ou distribuição de X no caso em que �i = �(X = i). Chamamos X0 de estado inicial

e sua distribuição de distribuição inicial.

Uma cadeia de Markov é caracterizada por

1. conjunto de estados S ,

2. distribuição inicial (�i )i∈S ,

3. probabilidades de transição do estado i para o estado j

p(i, j) � 0 com�

j∈Sp(i, j) = 1

para todo (i, j) ∈ S2,

de modo que o processo estocástico {Xt}t∈� com valores em S é uma cadeia de Markov homogênea

com distribuição inicial ρ e probabilidade transição p se a distribuição conjunta de X0, . . . , Xn, para

todo n ∈ �, é

� [X0 = s0, X1 = s1, · · · , Xn = sn] = �s0

n−1�

i=0

p(si , si+1) (4.2)

para toda escolha de s0, s1, . . . , sn ∈ S .Dessa distribuição conjunta derivamos

�

Xn+1 = sn+1 |

n�

�=0

[X� = s�]

=

�

��n+1�=0[X� = s�]

�

�

��n�=0[X� = s�]

� =�s0

n+1�

i=0

p(si , si+1)

�s0

n�

i=0

p(si , si+1)

= p(sn, sn+1)

e também derivamos

� [Xn+1 = sn+1 | Xn = sn] =� [Xn+1 = sn+1, Xn = sn]

�[Xn = sn]=

�

s0,...,sn−1�s0

n�

i=0

p(si , si+1)

�

s0,...,sn−1�s0

n−1�

i=0

p(si , si+1)

= p(sn, sn+1)

portanto, o lado esquerdo das duas equações coincidem, ou seja, que resultam na condição de

Markov dada na equação (4.1) acima. Ademais, fixado um natural n, temos a partir dos itens 2

Cadeias de Markov homogêneas 159

e 3 acima que

�

s0∈S

�

s1∈S· · ·�

sn−1∈S

�

sn∈S�s0

n−1�

i=0

p(si , si+1) =

�

s0∈S

�

s1∈S· · ·�

sn−1∈S�s0

n−2�

i=0

p(si , si+1)�

sn∈Sp(sn−1, sn) =

�

s0∈S

�

s1∈S· · ·�

sn−1∈S�s0

n−2�

i=0

p(si , si+1) = · · · =�

s0∈S

�

s1∈S�s0p(s0, s1) =

�

s0∈S�s0 = 1

portanto (4.2) é uma atribuição de probabilidades válida no espaço das realizações das n va-

riáveis aleatórias. A mesma dedução vale para qualquer valor de n portanto a definição da

distribuição é consistente. O célebre Teorema de Kolmogorov garante a existência do espaço de

probabilidade e das variáveis satisfazendo as condições acima.

Exercício 156 (Propriedade deMarkov). Prove que se {Xt}t∈� é uma cadeia de Markov com res-

peito a distribuição inicial (�i )i∈S e probabilidades de transição {p(i, j)}i,j∈S então condicionado

ao evento [Xm = i] o processo {Xt+m}t∈� é uma cadeia de Markov com respeito a distribuição

inicial�δi,j�i∈S e probabilidades de transição {p(i, j)}i,j∈S , independente de X0, . . . , Xm. Acima,

δi,j = 1 se e só se i = j .

Convencionamos que quando é dada uma definição de uma cadeia de Markov, isto é, dado

as variáveis aleatórias, o conjunto de estados, a distribuição inicial e as probabilidades de tran-

sição, as probabilidades de transição que não são dadas explicitamente são iguais a zero. Ade-

mais, em muitos casos não damos a distribuição inicial porque ou esse parâmetro não é rele-

vante no momento ou é trivial (�[X0 = s] = 1 para algum s).

Exemplo 157 (Ross, 2002). Suponha que a ocorrência de chuva num dia é determinada pela

condição do clima nos dois dias anteriores do seguinte modo: amanhã chove com probabilidade

0,7 se chove nos dois dias anteriores; amanhã chove com probabilidade 0,5 se chove hoje mas

não choveu ontem; amanhã chove com probabilidade 0,4 se não chove hoje mas choveu ontem;

amanhã chove com probabilidade 0,2 se não chove nos dois dias anteriores.

Identificamos cada uma das quatro situações acima com seguintes estados: 1 se choveu hoje

e ontem; 2 se choveu hoje mas não choveu ontem; 3 se não choveu hoje mas choveu ontem; e 4

se não choveu nem hoje e nem ontem.

O estado Xn+1 depende da condição nos dias anteriores; assim a transição de Xn = 1 para

Xn+1 = 3, por exemplo, ocorre quando não chove amanhã mas choveu hoje, dado que choveu

hoje e ontem, nessa configuração a probabilidade de não-chuva amanhã se choveu hoje e ontem

é 1 − 0,7 = 0,3. O seguinte diagrama ilustra as transições de estados com suas probabilidades


1

2 3

4

0,30,5

0,60,20,5

0,7

0,4

0,8

em que, por exemplo, a transição do estado 2 para o estado 1 tem porbabilidade 0,5 e do estado

1 pra ele mesmo 0,7, e assim por diante. ♦

Exemplo 158 (Embaralhamento). Numa pilha com n cartas de baralho distintas numeradas de 1

a n, definimos uma cadeia de Markov tomando um estado para cada permutação π, em que π(i)

é a posição da i-ésima carta; X0 é a permutação identidade com probabilidade 1. Uma transição

entre estados é obtida retirando a carta de uma posição arbitrária escolhida uniformemente

entre as cartas na pilha e colocando-a no topo, logo p(π, σ) = 1/n para todo instante t ∈ � e

com a permutação σ obtida a partir da permutação π pelo processo descrito acima (nos casos

em que σ não pode ser obtida pelo processo descrito vale p(π, σ) = 0, como convencionamos).

Um problema interessante é estimar o valor n, caso exista, para o qual a distribuição de Xn seja

aproximadamente uniforme, segundo alguma métrica. ♦

Exemplo 159. Sejam Yt ∼ Be(p) variáveis aleatórias independentes, X0 = 0 e Xtdef== Yt + Yt−1

para t > 0. Então para todo t > 1

� [Xt+1 = 2 | Xt = 1, Xt−1 = 2] = 0,

enquanto que

� [Xt+1 = 2 | Xt = 1, Xt−1 = 0] = p,

logo esse processo não é uma cadeia de Markov. ♦

Exemplo 160. Definimos uma cadeia de Markov se tomamos o conjunto de estados como sendo

os inteiros positivos, S = � \ {0}, o estado inicial X0 = 1 com probabilidade 1 e as transições

probabilidades

p(i, 1) =1

i + 1e p(i, i + 1) =

ii + 1

para todo inteiro i � 1. ♦

Exemplo 161 (Passeio aleatório nos inteiros). Tomemos o conjunto de estados como os inteiros,

S = �, o estado inicial X0 = 0 com probabilidade 1 e as transições de estados têm as probabili-

dades

p(i, i − 1) = 1 − p e p(i, i + 1) = p


para todo inteiro i e algum p ∈ (0, 1). Essa cadeia é um passeio aleatório em �. ♦

Exemplo 162 (Passeio aleatório num grafo). Seja G um grafo finito. Definimos uma cadeia de

Markov tomando S como o conjunto de vértices do grafo e as transições são definidas de modo

que se Xt = v então Xt+1 é qualquer vértice adjacente a v com probabilidade uniforme. Esse

tipo de cadeia de Markov é conhecida como passeio aleatório em G. ♦

Exemplo 163 (Cadeia de Markov não-homogênea). Suponha Y1, Y3, . . . , Y2t+1, . . . variáveis aleató-

rias independentes e identicamente distribuídas com

�[Y2t+1 = 1] = �[Y2t+1 = −1] = 12

para todo t � 0. Agora, tomemos Y2tdef== Y2t+1Y2t−1 para todo t > 0. A sequência {Yt}t�1 não

define uma cadeia de Markov pois

� [Y2t+1 = 1 | Y2t = −1] = 12

enquanto que

� [Y2t+1 = 1 | Y2t = −1, Y2t−1 = −1] = 0.

No entanto, {Zt}t�1

Ztdef== (Yt, Yt+1)

é uma cadeia de Markov não homogênea pois, por exemplo

� [Zt+1 = (1, 1) | Zt = (1, 1)] =

1/2 se t par

1 se t ímpar

ou seja, a probabilidade de transição depende do instante t. ♦

Exemplo 164 (Cadeia de Markov não-homogênea). Consideremos uma caixa com v bolas verme-

lhas e a bolas azuis e o processo de retirar aleatoriamente uma bola da caixa sem reposição. Seja

Xt o número de bolas vermelhas na caixa na t-ésima rodada. A probabilidade de transição não

depende só do número de bolas vermelhas (estado), mas também depende do momento t. ♦

Exemplo 165 (Ruína do jogador). Em um jogo, o jogador ganha 1 real com probabilidade p ou

perde 1 real com probabilidade 1 − p de modo independente a cada rodada de até que sua

fortuna seja 0 ou n, nesse momento ele pára de jogar. Denotamos a quantia do jogador no

instante t pela variável Xt e temos que p(0, 0) = p(n, n) = 1 e para 1 � i � n

p(i, i + 1) = p e p(i, i − 1) = 1 − p,

são as transições de estado da fortuna do jogador. Um problema interessante para o jogador

é conhecer a probabilidade de terminar o jogo no estado n, esse é um problema clássico da

probabilidade conhecido como o problema da ruína do jogador.


Seja Pi a probabilidade de o jogador chegar antes ao estado n dado que X0 = i. Para facilitar

usaremos q = 1 − p. Então vale que

Pi = pPi+1 + qPi−1

para todo i ∈ {1, . . . , n}, que equivale a

pPi + qPi = pPi+1 + qPi−1

para todo i ∈ {1, . . . , n}.Segue da igualdade acima que

Pi+1 − Pi =q

p(Pi − Pi−1)

=�q

p

�2(Pi−1 − Pi−2)

= · · ·=�q

p

�i(P1 − P0).

donde concluímos, usando que P0 = 0, que

Pi+1 = Pi +�q

p

�iP1 (4.3)

para todo i ∈ {1, . . . , n}. Iterando novamente

Pi+1 = Pi +�q

p

�iP1

= Pi−1 +�q

p

�i−1+�q

p

�i P1

= Pi−2 +�q

p

�i−2+�q

p

�i−1+�q

p

�i P1= · · ·=

1 +

q

p+ · · · +

�q

p

�i−2+�q

p

�i−1+�q

p

�i P1

e de Pn = 1 temos

1 =

1 +

q

p+ · · · +

�q

p

�n−2+�q

p

�n−1 P1.

Se p = q, temos P1 = 1/n. Se p � q então a soma acima é de uma progressão geométrica cuja

valor é1 − (q/p)1 − (q/p)n


logo

P1 =

1n se p = q

1−(q/p)1−(q/p)n se p � q.

e substituindo em (4.3)

Pi =

in se p = q

1−(q/p)i1−(q/p)n se p � q.

Notemos que a probabilidade do jogador ficar “infinitamente rico” é nula se p � 1/2 poisin e 1−(q/p)i

1−(q/p)n tendem a 0 quando n → ∞. Por outro lado, se p > 1/2 então (q/p)n → 0 quando

n→∞ logo Pi → 1 − (q/p)i > 0. ♦

Exemplo 166. Consideremos a cadeia deMarkov sobre S = {0, 1, . . . , n} com estado inicial X0 = 0

e as transições de estados têm as probabilidades

p(0, 1) = 1 = p(n, n)

p(j, j + 1) = 1/2

p(j, j − 1) = 1/2

para todo inteiro j � 1. Vamos estimar o número esperado de passos até a cadeia chegar ao

estado n. Seja Yj o número de passos para atingir n a partir de j . Se o estado atual é j > 0 e o

próximo j − 1 então Yj = 1 + Yj−1, senão Yj = 1 + Yj+1, portanto, por (2.16)

�

�Yj�= ��Yj−1 + 1

� 12+ ��Yj+1 + 1

� 12=

12

��

�Yj−1�+ ��Yj+1��

+ 1

e temos

2��Yj�= ��Yj−1�+ ��Yj+1�+ 2, se 0 < j < n

� (Y0) = � (Y1) + 1,

� (Yn) = 0.

cuja solução é ��Yj�= n2 − j2 (verifique). Finalmente, � (Y0) = n2. Pela desigualdade de

Markov, equação (2.39), a probabilidade da cadeia não chegar no estado n em 2n2 passos é

�[Y0 � 2n2] � � (Y0)2n2

=12

(4.4)

e, analogamente, tende a zero a probabilidade da cadeia não chegar no estado n em n2ω(n)

passos qualquer que seja ω(n) que tenda ao infinito com n, por exemplo, ω(n) = log log n. ♦

Uma cadeia deMarkov é ditafinita se |S | é finito; no que segue consideraremos apenas o caso

finito e homogêneo, eventualmente alguns exemplos consideram o caso de conjunto e estados

infinito e enumerável para ilustrar conceitos, mas os principais resultados referem-se somento ao

caso de cadeia finita.


4.1.1 2-SAT

O 2-SAT é o problema de decidir satisfatibilidade de uma fórmula booleana 2-CNF, digamos

Φ = C1 ∧ C2 ∧ · · · ∧ Ck

sobre um conjunto de variáveis V . Determinar se existe uma valoração de V que satisfaça Φ

tem solução de tempo polinomial (Aspvall et al., 1979). A seguir, daremos um algoritmo aleato-

rizado bem simples, de tempo polinomial e que responde corretamente com alta probabilidade.

Quando existe uma valoração válida o algoritmo não a encontra com probabilidade menor que

(1/2)t , para qualquer t dado.

Instância: as cláusulas C = {C1, . . . , Ck} e as variáveis V = {x1, . . . , xn} de uma fórmula em

2-CNF e o número de tentativas t.

Resposta : uma valoração que satisfaz Φ, caso contrário devolve 0 com probabilidade de

erro menor que 1/2t .

1 repita

2 para i de 1 até n faça xi ←R {0, 1}3

4 repita

5 escolha um literal � de uma cláusula não satisfeita

6 � ← � + 1 mod 2

7 se Φ = 1 então responda x1, . . . , xn

8 até que complete 2n2 rodadas

9 até que complete t rodadas

10 responda 0.

Algoritmo 16: 2-SAT.

Quando não existe valoração que satisfaça todas as cláusulas o algoritmo termina após 2tn2

rodadas, caso contrário, seja ν uma valoração que satisfaz Φ e νi a valoração construída pelo

algoritmo após a i-ésima rodada do laço interno, linha 4. Denotemos por Xi o número de valores

em comum que tomam as valorações ν e νi , isto é, a quantidade de variáveis da fórmula que

têm o mesmo valor binário nas duas valorações. O algoritmo termina com Xi = n ou quando

encontra alguma valoração diferente que ν que satisfaça Φ.

Notemos que valem � [Xi+1 = 1 | Xi = 0] = 1 e

� [Xi+1 = j + 1 | Xi = j] � 1/2

pois�[Xi+1 = j +1 | Xi = j] = 1 quando os dois literais da cláusula escolhida envolvem variáveis

que discordam de ν, analogamente

� [Xi+1 = j − 1 | Xi = j] � 1/2.


A sequência {Xi }i∈� não define uma cadeia de Markov, entretanto, a cadeia do exemplo 166 é

um cenário de pior caso, isto é, ��Xj

��

�Yj�, em que Yj é a variável aleatória do exemplo,

por isso, usando (4.4) temos que

�

�X0 � 2n2

��

�Y0 � 2n2

�� 1

2

portanto em cada rodada do laço interno a probabilidade de não encontrar uma valoração que

satisfaz Φ é nomáximo 1/2. A probabilidade de não ser encontrada uma valoração nas t rodadas

do laço externo, linha 1, é no máximo (1/2)t . Se a fórmula é satisfatível então o laço interno

encontrará a valoração certa com alta probabilidade se for repetido n2 log n vezes.

Exercício 167. Por que {Xi }i∈� acima não define uma cadeia de Markov?

Exercício 168. Prove a afirmação ��Xj

��

�Yj�feita no exemplo acima.

4.1.2 Transiência, recorrência e periodicidade

A matriz P = (pi,j ) definida pelas probabilidades de transição pi,j = p(i, j) é dita matriz de

transição da cadeia de Markov. Ainda, para k ∈ �, se

p(k)i,j

def== � [Xt+k = j | Xt = i]

é a transição do estado i para o estado j em k passos então

p(k)i,j =�

s∈Spi,sp

(k−1)s,j

para todo inteiro k > 1, com p(1)i,j = pi,j e a convenção de que

p(0)i,j

def==

1, se i = j

0, se i � j.

Logo a k-ésima potência da matriz P é a matriz de transição em k passos

Pk = (p(k)i,j ). (4.5)

Notemos que�

j p(k)i,j = 1, para qualquer k ∈ �. Umamatriz cujas entradas são não-negativas

e as linhas somam 1 é uma matriz estocástica.

Lema 169 (Identidade de Chapman–Kolmogorov): Se P = (pi,j ) é uma matriz de transição,

p(k+t)i,j =

�

s∈Sp(k)i,s p

(t)s,j (4.6)

para quaisquer i, j ∈ S , ou ainda, Pk+t = PkPt .


Demonstração: Deixamos para o leitor verificar que vale a identidade

� [Xk+t = j | X0 = i] =�

s∈S� [Xk+t = j, Xk = s | X0 = i]

donde segue que

p(k+t)i,j = � [Xk+t = j | X0 = i] =

�

s∈S� [Xk+t = j, Xk = s | X0 = i]

e, a partir da equação (1.9), página 30, podemos deduzir

p(k+t)i,j =

�

s∈S� [Xk+t = j | Xk = s, X0 = i]� [Xk = s | X0 = i]

=�

s∈Sp(t)s,j p

(k)i,s

portanto, vale a equação (4.6).

A evolução da cadeia é determinada pela matriz P e boa parte dos estudos das cadeias de

Markov são reduzidas ao estudo das suas propriedades algébricas.

Exemplo 170. No caso do exemplo 157, página 159, dado que choveu na segunda-feira e na

terça-feira, qual é a probabilidade de chover na quinta? A matriz de transição e de transição em

2 passos são, respectivamente

P =

0, 7 0 0, 3 0

0, 5 0 0, 5 0

0 0, 4 0 0, 6

0 0, 2 0 0, 8

P2 =

0, 49 0, 12 0, 21 0, 18

0, 35 0, 20 0, 15 0, 30

0, 20 0, 12 0, 20 0, 48

0, 10 0, 16 0, 10 0, 64

Chover na quinta equivale ao processo estar no estado 0 ou no estado 1, logo a probabilidade é

p(2)0,0 + p

(2)0,1 = 0, 61. ♦

Exercício 171. Verifique que se P é uma matriz estocástica então para todo natural n a matriz

Pn também é estocástica.

Exercício 172. Mostre que a sequência {Yt}t�1 do exemplo 163, página 161, é de variáveis inde-

pendentes 2-a-2, conclua que p(n)i,j = 1/2 e que vale a identidade de Chapman–Kolmogorov (4.6)

mesmo não sendo uma cadeia de Markov.

Exercício 173. Seja {Xt}t∈� uma cadeia de Markov com matriz de transição P e distribuição

inicial �. Verifique que a a distribuição de Xt , para todo t, é dada pelo vetor �Pt .

Classificação de estados. Os estados de uma cadeia deMarkov são classificados em dois tipos

fundamentais. Um estado é recorrente (ou, persistente) se, uma vez tendo estado nele, é certo

que a cadeia eventualmente volta a ele, caso contrário o estado é dito transiente (ou, transitório).


Quando o estado é recorrente a cadeia visita-o infinitas vezes e no caso transiente o estado é

visitado um número finito de vezes. Notemos que isso leva a conclusão abaixo cuja prova é

deixada para o leitor verificar após a apresentação da definição formal desses novos termos.

Proposição 174: Se |S | é finito então pelo menos um estado é recorrente.

Vamos definir formalmente essa classificação de estados. O tempo da primeira visita ao

estado i é a variável aleatória

Tidef== min{n � 1: Xn = i} (4.7)

e, para n ∈ �, sejaf(n)i,j

def== ��Tj = n | X0 = i

�(4.8)

com f(0)i,j

def== 0, a probabilidade do evento “primeira visita ao estado j a partir do estado i em n

passos”, ou seja, a probabilidade do evento

X1 � j, X2 � j, · · · , Xn−1 � j, Xn = j

dado que X0 = i. Assim f(n)i,i é a probabilidade do primeiro retorno a i em n passos e

fi,idef==�

n>0

f(n)i,i (4.9)

que é a probabilidade da cadeia eventualmente retornar ao estado i. Com essa definição, um

estado i é recorrente caso fi,i = 1, caso contrário fi,i < 1 e chamamos i de transiente.

Notemos que, caso fi,i = 1, temos uma distribuição de probabilidade {f (n)i,i }n>0 para o tempo

de retorno ao estado i cuja média é chamada de tempo médio de recorrência (ou, tempo médio

de retorno) para o estado i

µidef==�

n>0

nf(n)i,i = � (Ti | X0 = i) . (4.10)

No caso de i transiente convencionamos µidef== ∞.

O número de visitas ao estado i é

Videf==�

n�0

�[Xn=i]

em que �[Xn=i] é a variável aleatória indicadora do evento [Xn = i], que afirmamos acima ser

finito se e só se n é transiente. De fato, pelo exercício 66, página 69,

� (Vi | X0 = i) =�

k�1

� [Vi � k | X0 = i]

e, saindo de i, visitar j pelo menos k vezes equivale a visitar j e em seguida visitar j pelo menos

k−1 vezes, o que ocorre com probabilidade fi,j (fj,j )k−1 logo, fazendo j = i nessa dedução ficamos


com

� (Vi | X0 = i) =�

k�1

(fi,i )k =

fi,i1−fi,i se fi,i < 1, ou seja, se i é transiente

∞ se fi,i = 1, ou seja, se i é recorrente.

Ainda, pela linearidade da esperança,

� (Vi | X0 = i) =�

n�0

�

��[Xn=i] | X0 = i

�=�

n�0

� [Xn = i | X0 = i] =�

n�0

p(n)i,i

e a classificação de estados pode ser caracterizada pelas probabilidades de transição da maneira

descrita a seguir.

Lema 175: O estado i é

• transiente se e só se�

n�0

p(n)i,i < ∞.

• recorrente se e só se�

n�0

p(n)i,i = ∞.

Exercício 176. Prove que

p(n)j,k =

n�

t=1

f(t)j,k p

(n−t)k,k . (4.11)

Dica: deduza da propriedade de Markov que

�

�X0 = j, X1 � k, X2 � k, · · · , Xt−1 � k, Xt = k, Xn = k

�=

� [X0 = j, X1 � k, X2 � k, · · · , Xn−1 � k, Xt = k | X0 = j]� [Xn = k | Xt = k] .

Conclua de (4.11) e do lema acima que se o estado i é transiente então

�

n�0

p(n)j,i < ∞ para todo j

e que se o estado i é recorrente então

�

n�0

p(n)j,i = ∞ para todo j tal que fj,i > 0.

Observação 177. Dado que o retorno ao estado inicial i é certo, é natural perguntar se o tempo

médio de retorno é finito. No caso µi = ∞ o estado i é dito recorrente nulo, no caso de média

finita, µi < ∞, o estado i é dito recorrente positivo. No caso de |S | finito, todo estado recorrente

é positivo.


No exemplo 160, página 160, S = � \ {0}, X0 = 1, p(i, 1) = 1i+1 e p(i, i + 1) = i

i+1 para todo

inteiro i � 1. A probabilidade de não retornar ao estado 1 nos n − 1 primeiros passos é

n−1�

j=1

j

j + 1=

1n

portanto a probabilidade de nunca voltar ao estado 1 é zero e a probabilidade de voltar ao 1 no

n-ésimo passo é

f(n)1,1 =

1n

1n + 1

e, a partir disso, o tempo médio de recorrência do estado 1 é

µ1 =�

n>0

nf(n)1,1 =�

n>0

1n + 1

= ∞.

Em resumo, o estado 1 é recorrente nulo.

No caso da cadeia com S = {1, 2, 3, 4, 5, 6} e matriz de transições

P =

1/2 1/2 0 0 0 0

1/4 3/4 0 0 0 0

1/4 1/4 1/4 1/4 0 0

1/4 0 1/4 1/4 0 1/4

0 0 0 0 1/2 1/2

0 0 0 0 1/2 1/2

1 2 3 4 5 6

1/2

1/2

1/4

3/4

1/4

1/4

1/4

1/4

1/4

1/4

1/4

1/4 1/2

1/2

1/21/2

Os estados 1, 2, 5, 6 são recorrentes enquanto que 3, 4 são transientes. Ainda, a probabilidade

de retorno ao estado 1 é

f(1)1,1 =

12

e f(n)1,1 =

12

�34

�n−2 14

(n � 2)

portanto, o tempo médio de recorrência é

µ1 =12+18

�

n�2

n�34

�n−2=

12+16

�

n�2

n�34

�n−1=

13+16

�

n�2

n�34

�n−1=

13+1612 =

73

para o estado 1.

Os estados 0 e n do exemplo ruína do jogador, exemplo 165 na página 161, quando são

atingidos a cadeia não mudamais de estado; nesses casos chamamos tais estados de absorvente,

que é um estado recorrente positivo. Por exemplo, na cadeia representada pelo esquema abaixo


4 3 0 1 2p1 p2 p4p3

p5

p6

o estado 4 é absorvente, os estados 0 e 3 são transiente e os estados 1 e 2 são recorrentes.

Periodicidade. No caso da cadeia de Markov que pode ser representada como

0 1 2 3

p1

p2

p3

p4

p5

p6

se X0 = 0 então p(n)0,0 > 0 só pode ocorrer na cadeia em instantes n da forma n = 2k, n = 4k,

n = 6k. Para o estado 1, as probabilidades de retorno positivas só ocorrem para n = 2k, n = 4k.

Para o estado 2 ocorre o mesmo fenômeno que no estado 1 e o caso do estado 3 é semelhante ao

caso do estado 0.

O período de um estado i numa cadeia de Markov é

τ(i) def== mdc�n : p(n)i,i > 0

�

Caso τ(i) > 1 dizemos que i é periódico e nesse caso p(n)i,i = 0 a menos que n seja múltiplo de τi ,

caso τ(i) = 1 dizemos que i é aperiódico. No exemplo acima todos os estados são periódicos de

período t = 2.

Observação 178. Suponha que, como no exemplo acima, numa cadeia de Markov todos os esta-

dos tenham o mesmo período t > 1 e que para cada par de estados (i, j) existe um instante n

para o qual p(n)i,j > 0. Para todo estado k da cadeia devem existir instantes m e n tais que

p(n)0,k , p

(m)k,0 > 0 (4.12)

e como p(n+m)0,0 � p

(n)0,kp

(m)k,0 > 0 devemos ter que t divide n +m. Fixando m concluímos que todo n

para o qual p(n)0,k > 0 é da forma a + vt para 0 � a < t inteiro. Assim, podemos particionar S em

S0, S1, . . . , St−1 (no exemplo acima S0 = {0, 2} e S1 = {1, 3}) para os valores de a acima de modo

que se k ∈ Sa então p(n)0,k = 0 a menos que n = a + vt. Agora consideramos os estados na ordem

S0, . . . , St−1, S0 ciclicamente e um passo da cadeia sai de um estado para um estado na classe a

direita, e a cada t passos a cadeia está de volta à mesma parte.

4.1.3 Classificação das cadeias

A condição p(n)i,j > 0 para algum n equivale a fi,j > 0 e significa que a partir do estado i

a cadeia eventualmente atinge o estado j ; nesse caso dizemos que j é acessível a partir de i e

escrevemos i → j . Quando j não é acessível a partir de i a probabilidade da cadeia chegar em j

saindo de i é nula

�

�

n�0

[Xn = j] | X0 = i

��

n�0

� [Xn = j | X0 = i] = 0.


Escrevemos i ↔ j se i → j e j → i e dizemos que os estados i e j se comunicam. Deixamos

para o leitor a verificação de que ↔ define uma relação de equivalência sobre S , portanto,

particiona S em classes de equivalência, que chamaremos classe de comunicação. A importância

dessa partição é pelo fato enunciado no resultado a seguir.

Lema 179: Recorrência e transiência são propriedades de classe de comunicação, isto é, dois estados

que se comunicam tem a mesma classificação. Ademais, estados que se comunicam têm o mesmo

período.

Demonstração: Sejam i e j estados que se comunicam e sejam n e m inteiros positivos tais que

p(n)i,j > 0 e p(m)

j,i > 0. Para todo t

p(t+n+m)i,i � p

(n)i,j p

(t)j,j p

(m)j,i (4.13)

portanto, p(t+n+m)i,i > 0 sempre que p(t)j,j > 0.

Se fizermos t = 0 na equação (4.13), resulta que p(n+m)i,i > 0 portanto τ(i) divide n+m. O lado

esquerdo da equação (4.13) é nulo a menos nos períodos múltiplos de τ(i), portanto p(t)j,j > 0 só

quando t é múltiplo de τ(i), portanto τ(j) divide τ(i). Trocando os papéis de i e j concluiremos

que τ(i) divide τ(j). Portanto, os períodos são iguais.

Se somamos os dois lados (4.13) sobre todo natural t temos que se�

t p(t)j,j não converge,

então também não converge o lado esquerdo, portanto se j é recorrente então também será o

estado i. Trocando os papéis de i e j concluiremos que se i é recorrente então j é recorrente.

Ademais, se j é transiente então também será i e vice-versa.

Um conjunto de estados C ⊂ S é irredutível se i ↔ j para todos i, j ∈ C. Quando um

conjunto não é irredutível, dizemos redutível. Quando há uma única classe de comunicação

dizemos que a cadeia é uma cadeia de Markov irredutível. Num conjunto irredutível de esta-

dos todos os estados são do mesmo tipo, logo podemos classificar um conjunto de estados, ou

mesmo uma cadeia de Markov irredutível, como

• aperiódica se todos os seus estados o forem;

• periódica se todos os seus estados o forem;

• transiente se todos os seus estados o forem;

• recorrente se todos os seus estados o forem.

Por exemplo, uma cadeia de Markov com estados {1, 2} e matriz de transições

P =

1 0

1/2 1/2


não corresponde a uma cadeia irredutível pois para todo inteiro k > 0

Pk =

1 02k−12k

12k

portanto 1 �→ 2. A cadeia do exemplo 165, página 161, claramente, não é irredutível por causa

dos estados absorventes 0 e n. Toda cadeia com pelo menos dois estados e com pelo menos

um deles absorvente é uma cadeia redutível. No caso da cadeia de Markov representada no

diagrama a seguir

4 3 0 1 2p1 p2 p4p3

p5

p6

a cadeia é redutível, a classe {1, 2} é periódica de período 2, o estado 4 é absorvente. No exemplo

0 1 2 3p1

p2

p3 p4

p5

p6

a cadeia é aperiódica e irredutível. No exemplo

0 1 2 3p2

p3p4

p5p6

p7

p1

p8

é uma cadeia irredutível, recorrente e periódica.

Exemplo 180. Considere uma cadeia de Markov com S = {0, 1, 2, 3} e matriz de transição

P =

1/2 1/2 0 0

1/4 3/4 0 0

1/4 1/4 1/4 1/4

0 0 0 1

cujas classes de comunicação são {0, 1} que é recorrente, {3} que é absorvente e {2} que é tran-

siente. Se o inicio é no estado 2, então a probabilidade p com que a cadeia entra na classe

recorrente {0, 1} é, condicionando em X1, dada por

p =141 +

141 +

14p +

140 =

12+14p

logo p = 23 ; e com probabilidade 1

3 a cadeia é absorvida em 3.


No caso da cadeia de Markov com S = {0, 1, 2, 3, 4, 5} e matriz de transição

Q =

1/2 1/2 0 0 0 0

1/3 2/3 0 0 0 0

1/3 0 0 1/3 1/6 1/6

1/6 1/6 1/6 0 1/3 1/6

0 0 0 0 0 1

0 0 0 0 1 0

as classes de comunicação são {0, 1}, {2, 3} e {4, 5}, respectivamente, recorrente aperiódica, tran-

siente e recorrente periódica. Se pi é a probabilidade de entrar na primeira classe descrita acima

a partir do estado i, i = 2, 3, então, condicionando em X1,

p2 =121 + 0 · 1 + 0p2 +

13p3 +

160 +

160

p3 =161 +

161 +

16p2 + 0p3 +

130 +

160

cuja solução é p2 = 817 e p3 = 7

17 . ♦

Observação 181. Notemos que a Observação 178 se aplica a uma classe de comunicação, ou a

uma cadeia periódica, pois todos os estados dela têm o mesmo período.

Essa classificação, num certo sentido, diz-nos que basta estudarmos as cadeias irredutíveis.

Se X0 está em alguma classe de equivalência de comunicação recorrente C�, então a evolução

da cadeia se restringe a essa classe pois, assumindo por hipótese que i ∈ C� e j � C� de modo

que i → j , por conseguinte j �→ i, e temos de [X1 = j] ⊂ �n�1[Xn � i]

�

�

n�1

[Xn � i] | X0 = i

� pi,j > 0

contrariando o fato de i ser recorrente. Uma classe de comunicação é dita fechada se j ∈ C

sempre que i → j e i ∈ C. Acima verificamos que toda classe recorrente é fechada. Se, por

outro lado, X0 é um estado transiente então ou a cadeia fica no conjunto dos estados transientes

para sempre ou se move para algum C� e não sai mais dessa classe. No caso de uma cadeia de

Markov finita, o primeiro fato não ocorre.

Exercício 182 (Passeio aleatório em �). Consideremos o caso do passeio aleatório do exemplo 161,

página 160, onde pi,i+1 = p = 1−pi,i−1. Claramente, a cadeia é irredutível (justifique) logo todos

os estados são ou recorrentes ou transientes.

(i) Prove que p(2n−1)0,0 = 0, para n � 1. Prove que p(2n)0,0 =�2nn

�pn(1 − p)n.

(i i) Use a aproximação de Stirling n! ∼ nn+1/2e−n√2π e conclua que

p(2n)0,0 ∼

(4p(1 − p))n√πn

.


Verifique que 4p(1 − p) � 1, e vale a igualdade se e somente se p = 1/2.

(i i i) Conclua que a cadeia é recorrente caso p = 1/2 e, se p � 1/2, a cadeia é transiente.

4.1.4 Distribuição invariante e convergência

Recordemos a matriz de transição e transição em dois passos do exemplo 170, página 166

P =

0, 7 0 0, 3 0

0, 5 0 0, 5 0

0 0, 4 0 0, 6

0 0, 2 0 0, 8

e P2 =

0, 49 0, 21 0, 21 0, 18

0, 35 0, 20 0, 15 0, 30

0, 20 0, 12 0, 20 0, 48

0, 10 0, 16 0, 10 0, 64

.

Se formos um pouco mais adiante obtemos

P10 =

0.2553440 0.1491648 0.1519040 0.4435872

0.2531733 0.1495093 0.1511255 0.4461919

0.2486079 0.1502124 0.1495093 0.4516704

0.2464373 0.1505568 0.1487306 0.4542752

,

P20 =

0.2500461 0.1499928 0.1500164 0.4499447

0.2500274 0.1499957 0.1500098 0.4499671

0.2499880 0.1500019 0.1499957 0.4500144

0.2499693 0.1500048 0.1499890 0.4500369

,

P30 =

0.2500004 0.1499999 0.1500001 0.4499995

0.2500002 0.1500000 0.1500001 0.4499997

0.2499999 0.1500000 0.1500000 0.4500001

0.2499997 0.1500000 0.1499999 0.4500003

,

P34 =

0.2500001 0.15 0.15 0.4499999

0.2500000 0.15 0.15 0.4500000

0.2500000 0.15 0.15 0.4500000

0.2500000 0.15 0.15 0.4500000

,

P35 = P36 = · · · P40 = · · · =

0.25 0.15 0.15 0.45

0.25 0.15 0.15 0.45

0.25 0.15 0.15 0.45

0.25 0.15 0.15 0.45

.

Além disso, para uma distribuição inicial �, se fizermos π(0) def== � e π(1) a distribuição de X1

então

π(1) = π(0)P.


Por exemplo, se a distribuição inicial é a uniforme

π(0) =�1/4 1/4 1/4 1/4

�

então temos

π(1) =�0, 285 0, 15 0, 165 0, 4

�

de modo que π(1)i = �(X1 = i). Analogamente, π(2) = π(1)P é a distribuição de X2 e, em geral se

π(n) é a distribuição de Xn

π(n) = π(n−1)P

para todo natural n � 1. Notemos que

π(n+1) = π(n)P = (π(n−1)P)P = · · · = π(0)Pn

portanto, para n � 36 o vetor π(n) não muda e é igual a

π =�0.25 0.15 0.15 0.45

�.

Ainda mais, π(0)Pn na coluna j vale

(π(0)Pn)j = π(0)1 p

(n)1,j + π

(0)2 p

(n)2,j + π

(0)3 p

(n)3,j + π

(0)4 p

(n)4,j

=�π(0)1 + π

(0)2 + π

(0)3 + π

(0)4

�πj

= πj

para n � 35 pois p(n)i,j = πj para todo i. Na última igualdade usamos que π(0)1 +π

(0)2 +π

(0)3 +π

(0)4 =

1, portanto a conclusão é que π não depende da distribuição inicial π(0), isto é, independente-

mente do estado inicial, se n for suficientemente grande então a probabilidade da cadeia de

Markov estar em um dos quatro estados é dada pelo vetor

π =�0.25 0.15 0.15 0.45

�.

Para π e P acima valem

πP = π e πj = limn→∞ p

(n)i,j . (4.14)

Um vetor de probabilidades π = (πj )j∈S que satisfaz π = πP é chamado de distribuição

invariante ou ou distribuição estacionária da cadeia de Markov commatriz de transições P. O

limite em (4.14) é o que chamamos de convergência ao equilíbrio.

No exemplo 158, página 160, qualquer estado tem n estados vizinhos e a distribuição deve

satisfazer πi = (1/n)�

j πj , onde a soma é sobre os estados vizinhos. A distribuição uniforme

satisfaz essa igualdade.

Exercício 183. Uma matriz quadrada com entradas não-negativas é duplamente estocástica se é

estocástica e a soma das entradas de cada coluna é 1. Mostre que se M é quadrada de ordem n

e duplamente estocástica então o vetor uniforme (1/n, 1/n, . . . , 1/n) é estacionário para M .


Quando S é finito não é difícil ver que a convergência e a invariância estão relacionadas pois

se p(n)i,j → πj para todo j quando n→∞, então temos uma distribuição invariante pois (usando

Chapman–Kolmogorov, equação (4.6) na página 165)

πj = limn→∞ p

(n+1)i,j = lim

n→∞�

k∈Sp(n)i,k pk,j =

�

k∈Slimn→∞ p

(n)i,k pk,j =

�

k∈Sπkpk,j

para todo j ∈ S , logo π = πP e π é distribuição

�

i∈Sπi =�

i∈Slimn→∞ p

(n)i,j = lim

n→∞�

i∈Sp(n)i,j = 1.

Quando S não é finito isso não vale necessariamente, por exemplo, no caso assimétrico (p � 1/2)

do passeio aleatório em �, exercício 182, temos p(n)i,j → 0 pois a cadeia é transiente.

O resultado mais importante desse capítulo até aqui é a seguinte afirmação que também vale

no caso enumerável infinito com a hipótese adicional de os estados serem recorrentes positivos

(no caso finito pelo menos um estado é recorrente e se a cadeia é irredutível então todo estado é

recorrente).

Teorema 184: Uma cadeia de Markov irredutível tem uma distribuição invariante π = (πj )j posi-

tiva, única e satisfaz

πj =1µj

(4.15)

para todo estado j . Ainda, se a cadeia for aperiódica então

πj = limn→∞ p

(n)i,j . (4.16)

Uma cadeia de Markov é dita ergódica se existe um momento t ∈ � para o qual p(t)i,j > 0

quaisquer que sejam os estados i, j ∈ S . No caso finito, ergódica equivale a irredutível e aperió-

dica. Na proposição 189 abaixo, página 182, provamos uma das direções, a outra implicação é

deixada como exercício.

A prova desse teorema será dada mais a frente. Por ora, faremos algumas considerações e

deixamos a verificação a cargo do leitor.

Observação 185 (Existência da distribuição invariante). No caso finito

toda matriz estocástica tem distribuição invariante.

Esse fato decorre do conhecido Teorema de Perron–Frobenius e também decorre do Teorema do

Ponto Fixo de Brower: Para toda função contínua f : T → T , onde T ⊂ �n é compacto e convexo,

existe x ∈ T tal que f (x) = x. Consideremos o conjunto (compacto e convexo)

T =

v ∈ �n : v � 0 e

n�

i=1

|vi | = 1


a função linear de T em T dada por x �→ xP. Por ser linear a função é contínua, portanto, pelo

Teorema da Ponto Fixo de Brower deduzimos a existência de um vetor invariante. Numa cadeia

redutível a distribuição invariante pode não ser única. Por exemplo, uma cadeia redutível com

matriz de transição

P =

1 0

0 1

tem distribuição estacionária π =�p 1 − p

�para qualquer p ∈ (0, 1) e, por exemplo, para

p = 1/2 temos que p(n)1,1 �→ 1/2 quando n→∞. O mesmo acontece com a matriz de transição

Q =

0 1

1 0

(4.17)

e o vetor estacionário π =�1/2 1/2

�, não há convergência ao equilíbrio porque a cadeia é

periódica. Numa cadeia de Markov com quatro estado e matriz de transições

0 0 1 0

0 0 0 1

1 0 0 0

0 1 0 0

(1, 0, 1, 0) e (0, 1, 0, 1) são vetores estacionários.

Observação 186 (Convergência em cadeias periódicas). No caso da cadeia irredutível com matriz

de transição P ser periódica de período t temos uma partição S0, S1, . . . , St−1 de S , como foi

feito na observação 178, página 170, cada parte fechada e irredutível com respeito a matriz de

transição Pt . Lembremos que se k ∈ Sa então p(n)0,k = 0 a menos que n ≡ a (mod t), para todo

a ∈ {0, 1, . . . , t − 1}. A partir desse fato temos que para um estado k ∈ S recorrente vale que o

tempo de recorrência médio com respeito a Pt é µk/t, e (com respeito a essa matriz) cada parte

é irredutível e recorrente, assim para cada j ∈ Salimn→∞ p

(nt)j,k =

tµk

(4.18)

(e tal limite é zero quando k � Sa ou k é transiente). Ademais, (1/µk)k∈S é uma distribuição

invariante (veja Feller, 1968, seção XV.9).

Observação 187 (Teorema ergódico). Se uma sequência converge limn→∞ an = a, então a sequên-

cia das médias parciais também converge

limn→∞

1n

n−1�

i=0

ai = a

portanto de (4.16) temos

limn→∞

1n

n−1�

t=0

p(t)i,j =

1µj


no caso de uma cadeia ergódica. Agora

1n

n−1�

t=0

p(t)i,j =

1n

n−1�

t=0

�

��[Xt=j] | X0 = i

�

ou seja, se Vj (n) é o número de visitas a j no intervalo de tempo 0, . . . , n − 1n−1�

t=0

p(t)i,j = �

�Vj (n) | X0 = i

�

logo

limn→∞

1n�

�Vj (n) | X0 = i

�=

1µj

.

Em palavras, πj é a fração média de visitas ao estado j por unidade de tempo. Aqui, não

provaremos o seguinte resultado, conhecido como Teorema ergódico para cadeias de Markov

finitas: Para qualquer cadeia de Markov irredutível

�

limn→∞

Vj (n)

n=

1µ j

= 1.

Observação 188 (Classes recorrentes). Os resultados anteriores aplicam-se às classes de comuni-

cação recorrentes. Se C� é classe de comunicação recorrente e aperiódica de um processo, então

a submatriz formada pelos i, j ∈ C� é estocástica logo p(n)i,j → 1/µj quando n→∞. Por exemplo,

P =

1/2 1/2 0 0

1/4 3/4 0 0

0 0 1/3 2/3

0 0 2/3 1/3

tem as classes recorrentes {0, 1} com a submatriz estocástica irredutível

P1 =

1/2 1/2

1/4 3/4

e {2, 3} com a submatriz estocástica irredutível

P2 =

1/3 2/3

2/3 1/3

.

A matriz P1 admite o vetor estacionário π(1) =�1/3 2/3

�e a matriz P2, o vetor estacionário

π(2) =�1/2 1/2

�e, além disso

limn→∞ Pn =

π(1)0 π

(1)1 0 0

π(1)0 π

(1)1 0 0

0 0 π(2)0 π

(2)1

0 0 π(2)0 π

(2)1

=

1/3 2/3 0 0

1/3 2/3 0 0

0 0 1/2 1/2

0 0 1/2 1/2

.


Ainda, se i, j ∈ C�, com C� classe de comunicação recorrente e periódica, então

limn→∞

1n

n−1�

m=0

p(m)i,j =

1µ j

.

Por outro lado, se j é um estado transiente então p(n)i,j → 0 quando n → ∞ para qualquer

estado inicial i. De volta ao exemplo 180, a classe recorrente {0, 1} com respeito a matriz P

tem distribuição estacionária π =�1/3 2/3

�. Ademais essa classe é atingida a partir do estado

2 com probabilidade p = 2/3, portanto p(n)2,0 → 2

3 · 13 = 29 e p(n)2,1 → 2

3 · 23 = 49 logo

limn→∞ Pn =

1/3 2/3 0 0

1/4 3/4 0 0

2/9 4/9 0 1/3

0 0 0 1

.

No que diz respeito a matriz Q, temos {0, 1} recorrente aperiódico com π =�2/4 3/5

�, {2, 3}

transiente com probabilidade de sair de 2 (respec., 3) e ir ser absorvido por {0, 1} sendo p2 =

8/17 (respec., 7/17), e {4, 5} recorrente periódico

limn→∞Qn =

2/5 3/5 0 0 0 0

2/5 3/5 0 0 0 0817 · 25 8

17 · 35 0 0717 · 25 7

17 · 35 0 0

0 0 0 0

0 0 0 0

em que os espaços vazios indicam que o limite não existe. Entretanto,

limn→∞

1n

n−1�

m=0

Qm =

2/5 3/5 0 0 0 0

2/5 3/5 0 0 0 0817 · 25 8

17 · 35 0 0 917 · 12 9

17 · 12717 · 25 7

17 · 35 0 0 1017 · 12 10

17 · 120 0 0 0 1/2 1/2

0 0 0 0 1/2 1/2

.

Demonstração do Teorema 184. Consideremos uma cadeia de Markov irredutível {Xt}t∈�com distribuição inicial � ematriz de transição P e vamos construir uma distribuição invariante.

Lembremos que Tk é o menor n � 1 para o qual Xn = k. Como a cadeia é finita e irredutível

�

n>0

f(n)i,j =�

n>0

� [Tk = n | X0 = i] = 1


logo �[Tk < ∞] = 1. Também, quando X0 = k a somas

Tk−1�

t=1

�[Xt=i] =Tk�

t=0

�[Xt=i]

contam o número de visitas ao estado i entre duas visitas a k, cujo valor esperado é

γi (k)def==�

t�1

� [Xt = i, t � Tk | X0 = k] .

Vamos mostrar que

γ(k) = (γi (k))i∈S

é um vetor invariante. Primeiro, notemos que pela propriedade de Markov, condicionado ao

evento [Xt−1 = j], Xt−1, Xt, . . . é uma cadeia de Markov com respeito ao estado inicial j e matriz

de transição P independente das variáveis aleatórias X0, X1, X2, . . . , Xt−1, também o evento [t �Tk] depende somente de X0, X1, X2, . . . , Xt−1 portanto,

� (Xt−1 = j, Xt = i, t � Tk | X0 = k) =

� (Xt−1 = j, t � Tk | X0 = k)� (Xt = i | Xt−1 = j) (4.19)

e segue da definição de γi (k) que

γi (k) =�

j∈S

�

t�1

� (Xt−1 = j, Xt = i, t � Tk | X0 = k)

logo

γi (k) =�

j∈S

�

t�1

� (Xt−1 = j, t � Tk | X0 = k) pj,i

=�

j∈Spj,i�

t�1

� (Xt−1 = j, t � Tk | X0 = k)

=�

j∈Spj,i�

u�0

� (Xu = i, u + 1 � Tk | X0 = k)

=�

j∈Spj,iγj (k)

o que dá a invariância do vetor γ(k), ou seja, para todo n � 1 vale que γ(k) = γ(k)Pn. Ademais,

pela irredutibilidade da cadeia para todo estado j devem existir n, m > 0 tais que p(n)j,k > 0 e

p(m)k,j > 0. Logo

1 = γk(k) =�

i∈Sp(n)i,k γi (k)

�p(n)j,kγj (k)


portanto γj (k) é finito. Ademais,

γj (k) =�

i∈Sp(m)i,j γi (k)

�p(m)k,j γk(k)

portanto γj (k) > 0. Para termos uma distribuição invariante podemos normalizar o vetor, para

todo estado j

πjdef==

γj (k)�i∈S γi (k)

define uma distribuição invariante para a cadeia de Markov. Recordemos que

µk = � (Tk | X0 = k)

que é o número esperados de visitas a outros estados, que não o estado k, quando o estado

inicial é k e a próxima visita ao estado k é no instante Tk , logo

µk =�

i∈Sγi (k) e πk =

γk(k)µk

=1µk

para qualquer estado k ∈ S .Para provar a unicidade de π = (πk)k∈S , suponhamos ν um vetor qualquer com ν = νP e

todas as entradas positivas. Vamos mostrar que νj µj = 1. Primeiro, notemos que

νj µj = νj�

n�1

�

�Tj � n | X0 = 0

�

=�

n�1

�

�Tj � n | X0 = 0

�� [X0 = j]

=�

n�1

�

�Tj � n, X0 = j

�

=�

n�1

� [Xn−1 � j, · · · , X1 � j] − � [Xn−1 � j, · · · , X1 � j, X0 � j]

=�

n�1

� [Xn−2 � j, · · · , X0 � j] − � [Xn−1 � j, · · · , X1 � j, X0 � j]

= � [X0 = j] + � [X0 � j] − limn→∞� [Xn � j, · · · , X0 � j]

como o limite é 0, por causa da recorrência de j , o resultado é que νj µj = 1.

Até aqui estabelecemos que uma cadeia de Markov (finita) e irredutível tem uma distribuição

estacionária π = (πj )j único que satisfaz πj = 1/µj para todo estado j .

Para finalizar a demonstração, provaremos que se a cadeia for aperiódica então

πj = limn→∞ p

(n)i,j .

usando uma técnica conhecida como acoplamento. Usaremos o seguinte resultado nessa parte

da prova.


Proposição 189: Se uma cadeia Markov é irredutível e aperiódica então existe K0 ∈ � tal que para

todos i, j ∈ S , se k � K0 então p(k)i,j > 0.

Demonstração: Da cadeia ser irredutível temos que para cada i, j ∈ S existe k(i, j) tal que

p(k(i,j))i,j > 0. Da cadeia ser aperiódica temos que para cada i ∈ S existe k0(i) tal que p

(k)i,i > 0 para

todo k � k0(i). Com essas constantes, se t � 0 então

p(k0(i)+t)i,i > 0 e p

(k(i,j))i,j > 0

portanto, por Chapman–Kolmogorov, equação (4.6) na página 165, para todo t ∈ �

p(k(i,j)+k0(i)+t)i,j =

�

�∈Sp((k0(i)+t))i,� p

(k(i,j))�,j � p

((k0(i)+t))i,i p

(k(i,j))i,j > 0.

Tomamos

K0 = max{k(i, j) + k0(i) : i, j ∈ S}

o que prova a proposição.

Agora, consideremos as cadeias ergódicas {Xt}t∈� e {Yt}t∈� com distribuições iniciais � e π

(invariante), respectivamente, e matriz de transição P. Esse são processos estocásticos indepen-

dentes e vamos olhar para a cadeia de Markov com estados {(i, j) : i, j ∈ S}, distribuição inicial

λ(i,j) = �i · πj e matriz de transição Q dada por

q(i,j),(�,k)def== pi,� · pj,k .

Notemos que da proposição acima temos que q(n)(i,j),(�,k) > 0 para todos os pares {(i, j), (�, k)} se

n é suficientemente grande portanto a cadeia de Markov (Xt, Yt) com matriz de transição Q e

distribuição inicial λ é ergódica.

Definamos

Tdef== min{n > 0: Xn = Yn}

e, certamente, �[T < ∞] = 1 (justifique). Como as cadeias estão no mesmo estado no instante T

vale que

� [Xn = j | n � T ] = � [Yn = j | n � T ]

logo

� [Xn = j, n � T ] = � [Yn = j, n � T ]

pois � [n � T ] > 0. Entretanto, P tem distribuição π invariante,

πj = � [Yn = j] = � [Yn = j, n � T ] + � [Yn = j, n < T ] .

Quando n→∞ temos que � [n < T ]→ 0, portanto

πj = limn→∞� [Yn = j] = lim

n→∞� [Yn = j, n � T ]


e, também, pela igualdade acima,

limn→∞� [Xn = j, n � T ] = πj

portanto

limn→∞� [Xn = j] = πj

usando dedução análoga à feita para Yn.

Em resumo, se X0 = i, qualquer que seja i ∈ S , então p(n)i,j converge para πj , e o teorema está

provado.

Observação 190. Veja a matriz de transição Q dada em (4.17), página 177, periódica e com

distribuição invariante (1/2 1/2). Se X0 = 0 e Y0 = 1 então essa cadeias nunca se encontrarão,

T = ∞.

Exercício 191. Prove o seguinte limitante para a velocidade de convergência

12

�

j∈S

�� [Xn = j] − πj

�� < � [T > n] .

Reversibilidade Numa cadeia de Markov, dado o estado presente, o futuro e o passado são

independentes. Seja {Xi }i�0 uma cadeia deMarkov irredutível com respeito a matriz estocástica

P e a distribuição inicial invariante π. Tomemos a matriz Q = qi,j dada por

qi,j =πj

πipj,i .

Essa matriz é estocástica pois, pela invariância de π

�

j∈Sqi,j =

1πi

�

j∈Sπj pj,i = 1.

Ainda, �

j∈Sπi qi,j =

�

j∈Sπj pj,i = πi

ou seja, π é invariante com relação a Q.

Se tomarmos Yn = XN−n para 0 � n � N então

�

�Y0 = i0, Y1 = i1, . . . , YN = iN

�= ��X0 = iN , X1 = iN−1, . . . , XN = i0

�=

πiN piN ,iN−1 · · · pi1,i0 = πi0qi0,i1 · · · qiN−1,iNlogo {Yn}0�n�N é uma cadeia de Markov com relação a Q e π. Ademais,

qiN ,iN−1 · · · qi1,i0 =1πi0

πiN pi0,i1 · · · piN−1,iN > 0

portanto, a cadeia é irredutível, chamada tempo-reverso da cadeia {Xi }0�i�N .


Exercício 192. Mostre que se P é uma matriz estocástica e λ um vetor não-negativo tal que para

todos i, j

λi pi,j = λj pj,i (4.20)

então λP = λ.

Exercício 193. Prove que uma cadeia de Markov {Xn}n�0 irredutível, com matriz de transições

P e distribuição inicial λ é reversível se e só se vale (4.20).

4.2 Passeios aleatórios em grafos

Seja G = (V , E) um grafo conexo. Um passeio aleatório em G é uma sequência v0, v1, v2, . . .

de movimentos em V de modo que vi+1 é escolhido uniformemente na vizinhança de vi

N (vi ) = {u ∈ V : {u, vi } ∈ E}

para todo i ∈ �. Dizendo de outro modo, é uma cadeia de Markov finita e homogênea com V

como conjunto de estados e

pv,u = � [Xt+1 = u | Xt = v] =1

d(v)

para todo u ∈ N (v) e todo t ∈ �, onde d(v) = |N (v)| é o grau do vértice v. Se A = A(G) é a matriz

de adjacências de G e D = (du,v) é a matriz diagonal dv,v = 1/d(v) então a matriz de transições

é

P = AD.

Exemplo 194 (Passeio aleatório no grafo completo). Seja G o grafo sobre o conjunto de vértice

{1, 2, . . . , n} com todas as�n2�arestas, chamado de grafo completo e consideremos um passeio

aleatório em G, assim

pv,u =1

n − 1e a matriz de transição é P = 1

n−1A. O número esperado de passos para atingir v a partir de u

é n − 1; de fato, a probabilidade de atingir v em 1 passo é 1/(n − 1), a probabilidade de atingir

v em 2 passos é (n − 2)/(n − 1)2, em 3 passos (n − 2)2/(n − 1)3, e assim por diante. O número

esperado de passos é

�

k�1

k1

n − 1�n − 2n − 1�k−1

=1

n − 11

�1 − n−2

n−1�2 = n − 1.

O número esperado de passos para visitar todos os vértices do grafo pode ser estimado da se-

guinte forma. Seja ti o instante em que pela primeira vez temos exatamente i vértices visitados,

portanto, ti+1 − ti é uma variável aleatória geométrica que conta o número de passos enquanto

Passeios aleatórios em grafos 185

espera-se para conhecer um novo vértice, evento que ocorre com probabilidade (n − i)/(n − 1),logo � (ti+1 − ti ) = (n − 1)/(n − i) e tn é o número de passos até visitar todos os vértices

� (tn) =n−1�

i=1

� (ti+1 − ti ) =n−1�

i=1

n − 1n − i = (n − 1)

n−1�

i=1

1i= (n − 1)Hn−1

em que Hn denota o n-ésimo número harmônico, Hn =�n

i=1 1/ i = ln n + γ + Θ(n−1), paraγ ≈ 0, 577 a constante de Euler–Mascheroni (Graham et al., 1994). ♦

Um passeio aleatório num grafo conexo é uma cadeia de Markov irredutível, e em certos

casos aperiódica. O resultado abaixo caracteriza os passeios aleatórios aperiódicos.

Teorema 195: Se G é conexo com pelo menos dois vértices então um passeio aleatório em G define

uma cadeia de Markov irredutível. Ainda, tal cadeia de Markov é periódica se e só se G é bipartido.

Demonstração: Se G é conexo então para dois vértices u e v quaisquer que estão a distância k

vale p(k)u,v > 0, portanto a cadeia de Markov definida pelo passeio aleatório é irredutível.

Seja G um grafo conexo. Suponhamos que G é bipartido com bipartição {A, B}. Então, todosos passeios de u para v têm a mesma paridade no número de arestas, que é par caso u, v ∈ A ou

u, v ∈ B e ímpar caso u ∈ A e v ∈ B ou v ∈ A e u ∈ B. Logo• se u, v ∈ A ou u, v ∈ B então p

(k)u,v = 0 quando k é ímpar,

• se u ∈ A e v ∈ B, ou v ∈ A e u ∈ B, então p(k)u,v = 0 quando k é par.

Agora, se G não é bipartido, então contém um circuito ímpar C. Tomemos u e v vértices

que distam k em G. Um passeio de u para v com k + 2r aresta existe para todo r ∈ �, bastarepetir alguma aresta r vezes no passeio de comprimento k. Como G é conexo existe um passeio

de u até algum vértice de C e de todo C até v, portanto podemos usar as arestas de C para

obter passeios de u para v que têm a paridade oposta a de k + 2r. Logo, p(t)u,v > 0 para todo t

suficientemente grande, ou seja, a cadeia é aperiódica.

Corolário 196: Se G = (V , E) é conexo, não-bipartido e com pelo menos dois vértices então a cadeia

de Markov dada por um passeio aleatório em G admite um vetor estacionário. Ademais, a distribuição

estacionária é única e dada por

π = (πv)v∈V , com πv =d(v)2|E| . (4.21)

Demonstração: A cadeia é irredutível e aperiódica, portanto admite um único vetor estacioná-

rio pelo teorema 184. Agora, basta verificar que (4.21) é estacionário.

A soma dos graus dos vértices de um grafo é 2|E|, logo �v∈V πv = 1. Resta verificar que

π = πP, onde P é a matriz de transição, mas

(πP)v =�

u∈Vπupu,v =

�

u∈N (v)

d(u)2|E|

1d(u)

=�

u∈N (v)

12|E| =

d(v)2|E| = πv


portanto, o vetor dado em (4.21) é o vetor estacionário.

Se G = (V , E) é bipartido então podemos contornar a periodicidade do passeio aleatório

acrescentando laços aos vértices do grafo com probabilidade de transição 1/2 (ou seja, pv,v =

1/2) e dividir por 2 a probabilidade das outras arestas, ou seja, se P é a matriz de transição da

cadeia no grafo original, a nova matriz de transição é

Q =P + Id

2

onde Id é a matriz identidade |V | × |V |. Essa transformação apenas “reduz a velocidade” do

passeio. Por exemplo, de volta ao grafo completo G do exemplo 194, vamos usar a estratégia

de acrescentar laço e o número esperado de passos até um passeio aleatório passar por todos os

vértices de G. Seja P a matriz de transição do passeio em G e consideremos a modificação acima,

acrescentando um laço em cada vértice ficamos com a matriz de transição do novo passeio

Q =P + Id

2.

Seja tn o número de passos para o passeio definido por Q visitar todos os vértice e qi = (n− i)/n a

probabilidade de visitar um vértice novo se outros i vértices já foram visitados, então o número

esperado de passos até o passeio visitar o i + 1-ésimo vértice é 1/qi . Assim,

� (tn) =n�

i=1

ni= nHn.

4.2.1 s − t conexidade em grafos

O problema da s − t conexidade em grafos é: dado um grafo G = (V , E) e dois vértices s, t em

G decidir se há um passeio entre esses dois vértices. Esse problena é conhecido pela sigla ust-

con. Esse problema pode ser resolvido em tempo linear no tamanho do grafo, |V |+ |E|, e usandoespaço Ω(|V |). A pergunta que interessa nesse caso é se o problema pode ser resolvido usando

espaço logarítmico. Essa pergunta foi respondida afirmativamente por Reingold (2008) (veja o

segundo parágrafo da seção 5.2.2). Até então, o único progresso significativo foi o algoritmo


aleatorizado que apresentaremos a seguir devido a Aleliunas et al. (1979).

Instância: grafo G com n � 2 vértices e dois vértices s e t.

Resposta : sim, se achou s-a-t passeio em G, caso contrário não com probabilidade de erro

4/n.

v ← s

repita

se v = t então responda sim

v ←R N (v)

até que complete n4 rodadas

responda não.Algoritmo 17: s − t-conexidade.

Notemos que o espaço extra gasto pelo algoritmo é para manter o vértice atual e o contador

de rodadas para o laço, portanto, o espaço utilizado é O(log n) para um grafo com n vértices.

Se o algoritmo devolve sim então o grafo contém um passeio entre os vértices s e t. Agora, se

o algoritmo responde não, então ou não há passeio, ou o algoritmo não foi capaz de encontrá-lo

em tempo. Portanto, se não existe passeio a resposta está correta, caso contrário a resposta pode

estar errada e vamos limitar a probabilidade de erro.

Seja Tv o tempo para um passeio aleatório no grafo G visitar o vértice v de G. Seja T o tempo

para um passeio aleatório no grafo G visitar todos os vértices de G. O tempo de cobertura de G

(cover time) é

maxv∈V (G)

� (T | X0 = v) .

Lema 197: O tempo de cobertura de um grafo G = (V , E) conexo é no máximo 4|V ||E|.

Demonstração: Tomemos um subgrafo acíclico maximal de G = (V , E) (ou, uma árvore gera-

dora) e consideremos um passeio W = v0, v1, . . . , v2|V |−2 = v0 nas |V | − 1 arestas dessa árvore

de modo que cada aresta seja percorrida exatamente duas vezes, uma vez em cada direção.

O tempo de cobertura de G é limitado superiormente pelo tempo esperado para um passeio

percorrer a sequência W que é

2|V |−3�

i=0

�

�Tvi+1 | X0 = vi

�< (2|V | − 2)(2|E|) < 4|V ||E|

pois

�

�Tvi+1 | X0 = vi

�< 2|E| (4.22)

para toda aresta {vi , vi+1} em G. De fato, calculando o tempo médio de retorno para v, o parâ-

metro µv , de dois modos distintos temos

2|E|d(v)

= µv


pelo teorema 184, por um lado, e por outro lado

µv = 1 +�

u∈N (v)

� (Tv | X0 = u)1

d(v)

portanto,2|E|d(v)

=�

u∈N (v)

�1 + � (Tv | X0 = u)

� 1d(v)

portanto, 2|E| = �u∈N (v)

�1 + � (Tv | X0 = u)

�donde segue (4.22).

Com esse resultado conseguimos estimar a probabilidade de erro da seguinte maneira. Se-

jam G um grafo conexo, s e t dois vértices de G que são ligados por um passeio. O algoritmo

erra se em n4 rodadas não consegue achar um s − t passeio em G. Denotemos por C(G) o tempo

de cobertura de G

�[erro] =�

k>n4

f(k)s,t � � (Tt | Xo = s)

n4

pela desigualdade de Markov, logo

�[erro] � C(G)n4

� 4n|E|n4

<4n.

4.2.2 Passeio aleatório em grafos regulares

Um grafo G = (V , E) é d-regular, para d ∈ �, se todos os vértice de V têm grau d, e a

matriz de transição de um passeio em G é P = A/d, em que A = A(G) é a matriz de adjacências

do grafo. Nesse caso temos um bom tanto de informação que podemos retirar da matriz de

transição de um passeio aleatório que é duplamente estocástica (veja o exercício 183). Um passeio

aleatório num grafo regular converge para a distribuição uniforme (exercício 183) e nesta seção

mostraremos que a velocidade dessa convergência é ditada pelo segundo maior autovalor da

matriz de transição. Ademais, segue facilmente de (4.20) que um passeio aleatório num grafo

regular é reversível.

No que segue, vamos assumir que todo grafo é sobre V = {1, 2, . . . , n}, é conexo e d-regular.

A matriz P é simétrica, portanto, seus autovalores são reais e podemos escrever

λ1 � λ2 � · · · � λn (4.23)

os autovalores de P. Do Teorema de Perron–Frobenius temos que se G é conexo então

• λ1 > λ2 e |λi | � λ1 para todo i ∈ [n];

• λ1 = −λn se e somente se G é bipartido.

O vetor-coluna π com todas as coordenadas iguais a 1/ |V | é um autovetor de P associado ao

autovalor 1, logo π = Pπ ou

πT = πT PT


que, em outras palavras, diz que a distribuição uniforme sobre V é a distribuição estacionária

do passeio aleatório em G. Ainda, se k é tal que |πk | = maxv |πv | então

|λ1πk | =��

n�

v=1

πvpv,k

��

n�

v=1

|πv ||pv,k | � |πk |n�

v=1

|pv,k | = |πk |

ou seja, λ1 � 1, portanto λ1 = 1.

Seja G um grafo conexo, não-bipartido, d-regular e com n vértices. Fixemos

λdef== max

�|λi | : i ∈ {2, 3, . . . , n}

�(4.24)

e � = �(0) uma distribuição inicial sobre V , seja �(t) a distribuição de probabilidade sobre os

vértices de G no instante t ∈ �, isto é, a distribuição de Xt . Vamos mostrar que �(t) converge

para π com velocidade controlada por λ.

Seja ξi , 1 � i � n, uma base ortonormal de autovetores de P, cuja existência é garantida

pelo Teorema Espectral, de modo que ξi é autovetor associado ao autovalor λi . Notemos que

ξ1 =√nπ.

Se � = a1ξ1 + · · · + anξn então

�(t) = �Pt = a1ξ1Pt + · · · + anξnP

t = a1λt1ξ1 + · · · + anλ

tnξn (4.25)

e

��(t) − a1ξ1�2 =�a1λ1

t − a1�2

+�

i>1

(aiλit)2 =�

i>1

(aiλit)2

� λ2t�

i>1

a2i � λ2t��(0)�2

donde segue que

��(t) − a1ξ1� � λt

e como λ < 1 temos �(t) converge para a1ξ1 quando t → ∞, e como a1ξ1 deve ser distribuição

temos a1ξ1 = π. Com isso, provamos

Lema 198: Sejam G um grafo com n vértices, conexo, d-regular e não-bipartido, P = A(G)/d a

matriz de transição de um passeio aleatório em G e

λ = max�|α| : α é autovalor de P e α < 1

�.

Então para todo vetor de probabilidades � e todo t ∈ �

��(t) − π� � λt

onde π é o vetor estacionário do passeio aleatório.


Exercício 199. Seja ρ = (p1, . . . , pn) ∈ �n um vetor, então �ρ�∞ é uma norma dada por

�ρ�∞ = max�|pi | : 1 � i � n

�.

Prove que �ρ�∞ � �ρ� para todo ρ ∈ �n.

Teorema 200: Seja {Xt}t∈� um passeio aleatório num grafo G com n vértices, conexo, d-regular e

não-bipartido e com segundo maior autovalor λ. Então, para todo δ > 0 existe k0 = k0(λ, δ) tal que��(Xk = v) − 1

n

�� < δ

para todo vértice v e todo k > k0.

Demonstração: Sejam G como no enunciado e � = �(0) uma distribuição inicial qualquer, então

a distribuição de Xk é dada pelo vetor �Pk . Vamos mostrar que

��Ak − π�∞ =��(Xk = v) − 1

n

�� < δ.

Pelo lema 198 e exercício acima

��Ak − π�∞ � ��Ak − π� � λk+1

portanto, se k > logλ(δ/λ) então ��Ak − π�∞ < δ.

Exercício 201. Sejam G um grafo com n vértices, conexo, d-regular e µ1 � µ2 � · · · � µn os

autovalores da matriz de adjacências de G. Consideremos as matrizes estocásticas P = A(G)/d e

Q = (P + Id)/2 cujos autovalores são, respectivamente, λ1 � λ2 � · · · , λn e ν1 � ν2 � · · · � νn.

Prove que

λi =µid

= 2νi − 1para todo inteiro 1 � i � n.

Exercício 202. A hipótese que pede que o grafo seja não-bipartido nos resultados acima é neces-

sária porque, de outro modo, λ = 1 e não há convergência. Determine se valem os resultados

anteriores para G bipartido, conexo e d-regular com o passeio aleatório dado por Q = (P +Id)/2,

onde P = A(G)/d.

4.2.3 Passeio aleatório em grafos expansores

Da discussão anterior podemos concluir que quanto menor for o segundo autovalor de um

grafo, mais rápido um passeio aleatório converge para a distribuição uniforme, entretanto o

autovalor não pode ser arbitrariamente pequeno. É possível provar que a soma dos quadrados

dos autovalores é duas vezes o número de arestas1 logo

(n − 1)λ2 + λ21 � 2m

1De fato, A é diagonalizável e 2|E| e�i λ2i são duas maneiras diferentes de obtermos o traço de A2.


donde temos, por exemplo, que no caso de grafos d-regular temos λ = Ω(√d). Um grafo d-

regular com λ < 2√d − 1 é conhecido como grafo de Ramanujan.

No que segue, Gn é um grafo com n vértices, conexo e d-regular para d fixo. Dizemos que Gn

é um grafo ε-expansor se λ � d − ε. Essa definição é motivada pelo seguinte fato combinatório

equivalente: sejaW um subconjunto de vértices de Gn. Denotamos porN (W ) o subconjunto dos

vértices de V \W que são adjacente a algum vértice de W . Dizemos que G é c-vértice expansor

separa todo W com |W | � n/2 vale que |N (W )| � c|W |. Essas definições são equivalentes no

seguinte sentido (Alon and Spencer, 1992): se Gn é ε-expansor então é ε/(2d)-vértice-expansor.

Por outro lado, se Gn é c-vértice-expansor então é c2/(4 + 2c2)-expansor. Logo, grafos expansores

são caracterizados combinatorialmente por possuir alta conexidade, que é equivalente a dizer

que a distância espectral (d−λ) é grande. Grafos expansores e esparsos são objetos aparentemente

contraditórios, mas a existência desses grafos segue de métodos probabilísticos usuais. Pinsker

em 1973 mostrou que quase todo grafo d-regular, d � 3, é expansor. Embora abundantes, a

construção explícita desses grafos não é simples; de fato, em geral a construção e a prova da

expansão usa ferramentas profundas e complexas da matemática. Sortear um grafo e testar se

é expansor é inviável, o sorteio usa muitos bits aleatórios (uma das principais aplicações desses

grafos que veremos aqui é o uso para economizar bits aleatórios em algoritmos aleatorizados) e

o problema de decisão está em coNP.

Para as construções de grafos expansores o leitor pode consultar Margulis (1973), Ajtai

(1994), Margulis (1988), Jimbo and Maruoka (1987), Morgenstern (1994) e as notáveis cons-

truções de grafos de Ramanujan devidas a Lubotzky, Phillips e Sarnak (Lubotzky et al., 1988) e

a de Reingold, Vadhan e Wigderson (Reingold et al., 2002). Uma ótima referência sobre grafos

expansores e aplicações é Hoory et al. (2006) (a publicação está disponível na web).

Grafos expansores tem várias aplicações em computação, uma delas é reduzir o número

de bits aleatórios usados em algoritmos probabilísticos que segue a estratégia que passamos a

descrever.

Vamos assumir a possibilidade de construir explicitamente grafos expansores Gn no sentido

de que dados um vértice x e i ∈ {1, 2, . . . , d} o i-ésimo vizinho de x pode ser determinado em

tempo polinomial em log(n). Suponha que temos um algoritmo que decide pertinência L com

probabilidade de erro menor que α < 1/100 usando n bits aleatórios para entradas de tamanho

fixo. Já vimos que se o algoritmo erra apenas na resposta sim ou apenas na rsposta não podemos

construir um algoritmo que decide a mesma linguagem com probabilidade exponencialmente

pequena de erro, menor que αk , usando kn bits executando k rodadas independentes do algo-

ritmo. Quando o algoritmo erra nas duas respostas podemos executá-lo k vezes e devolver como

resposta a resposta que ocorreu mais vezes, se dentre as execuções ocorreremmais respostas sim

que resposta não, a resposta definitiva será sim, do outor modo será não.

Exercício 203. Use a desiguladade de Chernoff, corolário 103 na página 94, para mostrar que a

probabilidade de erro na resposta por maioria no esquema descrito no parágrafo acima é menor


que exp(−αk), para algum α > 0.

Agora, suponha que temos um grafo expansor 3-regular sobre 2n vértices. Um gerador pseu-

doaleatório consiste em determinar k vértices desse grafo aleatoriamente demodo que com cada

vértice temos os n bits aleatórios necessários para uma rodada do algoritmo (usando a repre-

sentação binária do vértice). Para determinar esses vértices usamos o lema 198 com t = O(1) e a

cada t passos tomamos um vértice de modo aproximadamente uniforme, cada passo do passeio

aleatório precisa de 2 bits genuinamente aleatórios e como o algoritmo é executado k vezes, o

número de bits aleatórios usados é n + O(k) pois o primeiro vértice é escolhido aleatoriamente.

Seja F o conjunto de seqüências binárias de {0, 1}n nas quais o algoritmo com uma entrada

fixa falha, |F | < α2n. Por abuso, denotamos também por F a matriz diagonal (bi,j ) dada por

bi,i = 1 se a representação binária de i está em F e bi,i = 0 caso contrário. Seja {Xt}t∈� o passeio

aleatório emno grafo expansor Gn com vértice inicial X0 e distribuição inicial π uniforme e com

as transições dadas pela matriz P = 1/(2d)(A + Id) (o grafo expansor Gn pode ser bipartido).

Consideremos k sequências de n bits cada R1, R2, . . . , Rk com Ri sendo a representação biná-

ria do vértices X(i−1)t e R1 ∈R V .

Observemos que se � é uma distribuição sobre V (Gn) então a probabilidade de ocorrer F de

acordo com � é

��F�1 def==n�

j=1

|(�F)j | =n�

j=1

�j�(j ∈ F) =�

j∈F�j .

A probabilidade de sair de i e ir parar em F em t passos é

n�

j=1

(Pt(Id − F))i,j =n�

j=1

p(t)i,j�(j � F) =

�

j�F

p(t)i,j

e a probabilidade de ocorrer F em t passos depois de estar em F de acordo com a distribuição

inical � é dada por

��FPt(Id − F)�1 def==n�

j=1

|((Id − F)PtF�)j |

=n�

j=1

n�

i=1

�i�(i ∈ F)p(t)i,j�(j � F)

=�

i∈F

�

j�F

�i p(t)i,j .

Com essa notação, se R1, R2, R3 são sequências binárias usadas pelo algoritmo como bits

aleatórios para computação com uma entrada fixa, então a probabilidade com que R1, R3 ∈ F

(as duas sequências fazem o algoritmo acertar) e R2 ∈ F se π é a distribuição uniforme é

�πFPt(Id − F)PtF�1a qual estimaremos a partir do seguinte resultado.


Lema 204: De acordo com a notação acima, se λ é o segundo maior autovalor da matriz de transição

P, então para qualquer distribuição � ∈ �n

��PtF� � (√α + λt)�� e ��Pt(Id − F)� � ��

Demonstração: Na segunda desigualdade deixamos para o leitor verificar que

��Pt(Id − F)� � ��Pt�.

Ademais, os autovalores de Pt são no máximo 1 e usando (4.25), página 189,

��Pt� = �a1λ1ξ1 + · · · + anλnξn� =�a21λ

21 + · · · + a2nλ

2n ��a21 + · · · + a2n

portanto ��Pt� � ��. Se π é a distribuição uniforme em V (G)

�(�Pt − π)F� � �Pt� − π� � λt��.

Pela desigualdade triangular e de �πF� = √α/n

��PtF� � ��1�πF� + λt�� = ��1�

αn+ λt��

e usando Cauchy-Schwarz ��1 �√n��, logo ��PtF� � (

√α + λt)��.

Com esse resultado

�πFPt(Id − F)PtF�1 �√n�πFPt(Id − F)PtF� � √n(√α + λt)�πF�

portanto �πFPt(Id − F)PtF�1 � α +√αλt .

Para uma seqüência de matrizes S1, S2, . . . , Sk , com Si ∈ {F, Id − F} e Si = F se e só se Ri ∈ F,queremos determinar

�πS1PtS2Pt · · · Sk−1PtSk�1

para uma seqüência S1, S2, . . . , Sk com maioria incorreta, que é a probabilidade do algoritmo

responder errado usando R1, . . . , Rk . Por Cauchy-Schwarz

�πS1PtS2Pt · · · Sk−1PtSk�1 �

√n�πS1PtS2P

t · · · Sk−1PtSk�2.

Pelo lema anterior R1, . . . , Rk é uma determinada sequência com pelo menos k/2 ocorrências de

F com probabilidade no máximo (√α + λt)k/2, assim a probabilidade da escolha por maioria

estar incorreta é 2k(√α + λt)k/2. Temos

√α < 1/10 e podemos escolher t tal que λt < 1/10

2k(√α + λt)k/2 <

�2√5

�k.

Teorema 205: Um algoritmo probabilistico que erra com probabilidade menor que 1/100 e usa no

máximo m = m(n) bits aleatórios por rodada com entrada de tamanho n pode ter a probabilidade de

erro reduzida para (1/2)k usando m + O(k) bits aleatórios e O(k) rodadas.


Expander mixing lemma. É sabido que se X, Y ⊆ V (Gn) então a distribuição de arestas entre X

e Y em Gn satisfaz ��|E(X, Y )| − dn|X ||Y |�� λd

�|X ||Y | (4.26)

Esboço de prova de (4.26). Sejam vi , 1 � i � n, uma base ortonormal de autovetores de A com os

respectivos autovalores µi (veja exercício 201 acima). Sejam x e y os vetores (linha) característi-

cos de X e Y , respectivamente. Então |E(X, Y )| = xAyT, onde T denota o transposto. Escrevendo

na base de autovetores |E(X, Y )| = �i µiαiβi , onde αi e βi são os produtos escalares �x, vi� e�y, vi�, respectivamente. O resultado segue de

�i µiαiβi = d |X ||Y |/n +

�i�1 µiαiβi .

Portanto, λ pequeno garante um distribuição de arestas como num grafo aleatório com den-

sidade de arestas d/n. Grafos com λ pequeno são ditos pseudoaleatórios (Alon and Spencer,

1992, Krivelevich and Sudakov, 2006). Linial e Bilu provaram uma recíproca desse resultado,

se 4.26 vale para algum µ = λd > 0 então segundo maior autovalor de A(G) é O(µ log(d/µ)).

De (4.26) temos ��|E(X, Y )|

nd− |X ||Y |

n2

�� λ (4.27)

ou seja, a probabilidade de sortear um par de vértices e cair em X ×Y é próxima a probabilidade

de sortear uma aresta e cair em E(X, Y ). Escrevendo de outro modo, consideremos a vizinhança

de cada vértice de G indexada por {1, 2, . . . , d} e denotemos por vi (x) o i-ésimo vizinho do vértice

x de acordo com essa indexação. Assim, a equação (4.26) pode ser interpretada como�� (x,i)∈×[d]

[x ∈ X, vi (x) ∈ Y ] − �(x,y)∈X×Y

[x ∈ X, y ∈ Y ]�� λ.

4.2.4 Passeio aleatório naWEB : o Google PageRank

“To test the utility of PageRank for search, we built a web search engine called Google”

(Page et al., 1998).

O grafo web é um grafo dirigido definido pelas páginas web e as ligações (links ou hyperlinks)

entre as páginas. Conhecer a estrutura desse grafo é importante para, por exemplo, o desenvol-

vimento de algoritmos eficientes para a web. Um marco no projeto e desenvolvimento desses

algoritmos é o algoritmo PageRank (Page et al., 1998) desenvolvido como parte da ferramenta

de busca na web batizada Google pelos fundadores da empresa com mesmo nome.

O PageRank é um algoritmo para classificação de páginas na web. A ideia que o motivou

é modelar a importância relativa de uma página de modo que uma busca devolva primeiro

resultados com maior relevância. A própria empresa explica a ideia da seguinte maneira:

“O coração do nosso software é o PageRank(TM), um sistema para dar notas para

páginas na web, desenvolvido pelos nossos fundadores Larry Page e Sergey Brin na

Universidade de Stanford. E enquanto nós temos dúzias de engenheiros trabalhando


para melhorar todos os aspectos do Google no dia a dia, PageRank continua a ser a

base para todas nossas ferramentas de busca na web.

Explicações sobre o PageRank

A classificação das páginas (PageRank) confia na natureza excepcionalmente demo-

crática da Web, usando sua vasta estrutura de links como um indicador do valor de

uma página individual. Essencialmente, o Google interpreta um link da página A

para a página B como um voto da página A para a página B. Mas o Google olha além

do volume de votos, ou links, que uma página recebe; analisa também a página que

dá o voto. Os votos dados por páginas “importantes” pesam mais e ajudam a tornar

outras páginas “importantes”.”

(http://www.google.com.br/why_use.html)

Assim, uma página tem uma classificação alta se é referenciada por páginas com classifica-

ção alta. Cabe ressaltar, mas não entraremos em detalhes, que parece ser possível influenciar

desonestamente essa classificação tanto que levou ao surgimento de termos como Google bomb,

Googlewashing e Google spamming.2 O que nos interessa no momento é que o modelo adotado

no PageRank pode ser interpretado como um passeio aleatório no grafo web: um internauta

absorto, começa a navegar na web a partir de uma página qualquer, e segue a navegação por

um dos links da página atual escolhido uniformemente; depois de muito tempo nessa tarefa as

páginas começam a repetir e o internauta entediado pára o processo e recomeça-o a partir de

alguma outra página.

O modelo simplificado do PageRank é descrito da seguinte maneira. Seja G = (V , E) o grafo

da web, ou seja, V é o conjuntos formado pelas páginas web, as quais serão consideradas sem

perda de generalidade {1, 2, . . . , n} = V , e (a, b) ∈ E se na página a há um link que leva para a

página b. Denotamos por N+(a) o conjunto dos vértices b tais que (a, b) é uma aresta de G, ou

seja, é o conjunto das páginas web que que têm um link na página a, e denotamos por N−(a) oconjunto dos vértices b tais que (b, a) é uma aresta de G, ou seja, é o conjunto das páginas web

que têm um link apontando para a página a. Por exemplo, no grafo web da figura 4.1 |N+(3)| = 2

e |N−(3)| = 3.

A classificação é dada por um vetor r = (ra)a∈V onde ra é a classificação da página a e satisfaz

ra =�

b∈N−(a)

rb|N+(b)| (4.28)

ou seja, se b aponta para a então b contribui com 1/ |N+(b)| de sua relevância para a relevância

2Para mais detalhes sobre esses fatos o leitor pode consultar http://www.google.com.br/search?hl=pt-BR&q=

google+bomb+washing+spamming.


de a. Seja P a matriz dada pelos elementos

pa,bdef==

1|N+(a)| se (a, b) é aresta

0 caso contrário,

então de (4.28)

r = rP

ou seja, r é um vetor invariante de P.

Se P for uma matriz estocástica então o vetor r é um vetor estacionário e dessa forma, r pode

ser calculado escolhendo uma distribuição inicial �(0) e fazendo �(k+1) = �(k)P pois como vimos,

sob certas hipóteses �(k) converge para r. Esse método, conhecido como método das potências,

é usado há muito tempo para calcular autovetores associado ao maior autovalor. Entretanto,

na atual situação não sabemos se o vetor converge pois não temos garantia que a matriz P seja

irredutível (garante λ1 > λ2, portanto convergência) ou estocástica (garante o autovalor λ1 = 1,

portanto o método converge para o vetor estacionário).

Exemplo 206. Por exemplo, para

P =

0 0

1 0

e �(0) = (0, 1) temos �(2) = r = (0, 0), No caso de um circuito dirigido, um vetor inicial pode não

convergir. ♦No exemplo da figura 4.1 abaixo a matriz P não é estocástica. Os vértices sem arestas que

14

35

26

1/2

1/2

1/2

1/2

1/2

1/2

1/3

1/3

1/3

1/3

1/3

1/3

P =

0 1/2 1/2 0 0 0

1/2 0 1/2 0 0 0

1/2 1/2 0 0 0 0

1/3 0 0 0 1/3 1/3

0 0 1/3 1/3 0 1/3

0 0 0 0 0 0

Figura 4.1: Exemplo de grafo web.

saem, ou seja os vértices v tais que |N+(v)| = 0 são chamados de pendentes (dangling) e por

causa deles a matriz não é estocástica. No exemplo da figura 4.1 o vértice 6 é pendente. Na

web de fato há vários vértices pendentes, por exemplo, os documentos em pdf disponíveis em

páginas web são vértices pendentes do grafo.

Seja n o número de vértices em G. Definimos uma matriz auxiliar A pondo para cada vértice

pendente a, o que corresponde a uma página sem links, a linha a com entradas 1/n e tomamos

Q = P + A


isso significa que um passeio aleatório que chega numa página sem saída continua em qualquer

outra página com igual probabilidade.

A matriz Q é estocástica. A matriz Q referente a matriz P da figura 4.1 é dada a seguir na

figura 4.2 ao lado do grafoweb que corresponde àmodificação no grafo que reflete amodificação

na matriz P. No grafo da figura 4.2 as arestas tracejadas são as arestas incluídas e correspondem

à possibilidade de navegação do internauta que chega a uma página sem saída e recomeça a

navegação de qualquer lugar uniformemente. No exemplo dado na figura 4.2, o maior autovalor

14

35

261/61/6 1/6

1/6

1/6

1/6Q =

0 1/2 1/2 0 0 0

1/2 0 1/2 0 0 0

1/2 1/2 0 0 0 0

1/3 0 0 0 1/3 1/3

0 0 1/3 1/3 0 1/3

1/6 1/6 1/6 1/6 1/6 1/6

Figura 4.2: Modelo de grafo web modificado, sem vértices pendentes. As arestas tracejadas são

as arestas incluídas artificialmente.

da matriz Q é 1 com multiplicidade 1 e autovetor associado (1, 1, 1, 0, 0, 0). Notemos que os

vértices 4, 5, 6 tem classificação 0. Isso decorre do fato de não haver aresta que sai de {1, 2, 3}e chega em qualquer outro vértice diferente desses. Esse conjunto é chamado de sorvedouro

(rank sink).

Para lidar com esses sorvedouros basta garantir que a matriz seja irredutível pois se p(k)a,b > 0

para algum k, para todo a, b ∈ V então não há sorvedouros no grafo. Para garantir uma matriz

irredutível3 tomamos p ∈ (0, 1) e consideramos um passeio aleatório que segue as transições

de Q com probabilidade p ou que com probabilidade 1 − p vai pra qualquer outra página web

(como o comportamento do internauta absorto que ficou entediado), ou seja,

R = pQ + (1 − p) 1n1 (4.29)

onde 1 é a matriz com todas as entradas iguais a 1. A matriz obtida de Q do exemplo da

3Em linguagem de Teoria dos Grafos, o grafo dirigido tem que ser fortemente conexo, caso contrário o vetor estaci-

onário pode ter todas as coordenadas nulas fora de uma componente fortemente conexa do grafo.


figura 4.2

R =

1−p6

p2 + 1−p

6p2 + 1−p

61−p6

1−p6

1−p6

p2 + 1−p

61−p6

p2 + 1−p

61−p6

1−p6

1−p6

p2 + 1−p

6p2 + 1−p

61−p6

1−p6

1−p6

1−p6

1−p6

1−p6

p3 + 1−p

61−p6

p3 + 1−p

6p3 + 1−p

61−p6

p3 + 1−p

61−p6

p3 + 1−p

61−p6

p3 + 1−p

6p6 + 1−p

6p6 + 1−p

6p6 + 1−p

6p6 + 1−p

6p6 + 1−p

6p6 + 1−p

6

É sabido que o método iterativo para computar o vetor estacionário descrito, o método das

potências, converge com velocidade |λ2/λ1| (Golub and Van Loan, 1989), onde λ1 > λ2 são os

dois maiores autovalores da matriz R. Ainda, é sabido que λ1 = 1 e que |λ2| � p (Haveliwala

and Kamvar, 2003).

O parâmetro p é conhecido como fator de amortecimento (damping factor). No trabalho

que originou o algoritmo os autores do PageRank estabeleceram o valor p = 0, 85 (Page et al.,

1998) após testes. Atualmente, a Google não divulga o valor desse fator. No mesmo trabalho

(Page et al., 1998), os autores reportam de 50 a 100 iterações do método das potências até

a condição de parada do método das potências. O critério tradicional de parada é da forma

��(t+1) − �(t)� < ε para uma tolerância ε > 0 pequena; notemos que não é necessário conhecer

as grandezas do vetor estacionário, só é preciso determinar a ordem das coordenadas, o que

pode ser usado para diminuir o número de iterações. Para p = 0, 85 foi reportado que com 29

iterações ��(t+1) − �(t)� < 10−2, e no caso de 50 a 100 iterações a tolerância é de 10−3 a 10−7.Para concluirmos esta seção vão mostrar uma alternativa para escrever essa matriz, uma vez

que atordoantes 1 trilhão de páginas indexadas foi reportado pela Google em julho de 2008

(The official Google blog, 2008). A matriz P é esparsa pela natureza da web: páginas com

poucos links, 52 em média (Wills, 2006), e muitos vértices pendentes, a matriz Q é mais densa

e a matriz R é positiva. A matriz A pode ser escrita como uTa onde u é o vetor com todas as

entradas iguais a 1/n. De fato, pode ser qualquer vetor de probabilidades, o vetor uniforme foi a

escolha original, mas atualmente sabe-se que favorece link spamming e esse parâmetro também

não é divulgado pela Google. O vetor aT é o transposto do vetor característico dos vértices

pendentes. Com essas definições e e def== (1, 1, . . . , 1),

�(t) = �(t−1)R = p�(t−1)Q + (1 − p) 1n�(t−1)1 = p�(t−1)Q + (1 − p)u (4.30)

pois �(t−1)1 é um vetor com todas as entradas iguais a 1, logo

�(t) = p�(t−1)P + p�(t−1)uTa + (1 − p)u

portanto só precisamos armazenar a matriz P e os vetores a e u.

Exercício 207. Mostre que a matriz R é irredutível.

Algoritmo Metropolis 199

Exercício 208. O grafo dirigido com vértices {0, 1, . . . , n − 1} e arestas (i, i + 1 mod n) é um

circuito dirigido com n vértices. Analise o comportamento de �(k) para k ∈ � com �(0) =

(1, 0, . . . , 0).

4.3 Algoritmo Metropolis

A estratégia para gerar uma sequência de bits aleatórios usada acima sugere uma pergunta:

dado S finito e uma distribuição de probabilidade π é possível gerar um objeto s ∈R S com

probabilidade aproximadamente π(s)? Um abordagem ao problema é conhecida como Método

Monte Carlo via Cadeias de Markov (MCMC), da qual veremos uma pequena introdução nesta

seção. Para mais detalhes o leitor pode começar por Randall (2006) e suas referências.

A ideia para a amostragem é definir uma cadeia de Markov ergódica com estados S e dis-

tribuição invariante π. A partir de um estado inicial X0 qualquer a distribuição de Xn con-

verge para π e logo após um número n0 suficientemente grande de passos a distribuição de Xn0

está próxima de π, o estado Xn0 é usado como uma amostra. Da mesma forma, podemos usar

X2n0 , X3n0 , X4n0 , . . . como amostras com distribuição aproximadamente π. Esse método é prá-

tico desde que n0 não seja muito grande e as transições possíveis a partir de cada estado sejam

em pequeno número, o que faz a computação de cada passo da cadeia praticável.

Por exemplo, seja S o conjunto de todos os conjuntos independentes de um grafo fixo G. Um

conjunto I ⊂ V (G) é independente se não há aresta de G com ambos os extremos em I . Defi-

nimos a cadeia sobre S com as transições entre conjuntos independentes que são diferentes em

no máximo um vértice dadas da seguinte forma: no instante t, se It é o conjunto independente

e escolhemos v ∈R V (G), então

It+1 =

It \ {v} caso v ∈ It ,It ∪ {v} caso v � It e It ∪ {v} independente,It , caso contrário.

Denotamos por N (I ) o conjunto dos vizinhos de I nessa cadeia, ou seja, os conjuntos indepen-

dentes J que podem ser obtidos a partir de I por uma transição. A matriz de transição dessa

cadeia é

pI,J =

1/n se I � J e I ∈ N (J)

0 se I � J e I � N (J)

1 −�L�I pI,L se I = J .

Notemos que o caso It+1 = It torna a cadeia aperiódica. Ainda, removendo vértice por vértice

de I temos I → ∅ e, do mesmo modo, J → ∅, logo I ↔ J , ou seja, a cadeia é irredutível. Sendo

assim, a cadeia é ergódica e a partir de qualquer distribuição inicial haverá convergência para a

distribuição invariante. Ademais, pI,J = pJ,I logo a cadeia é reversível e a distribuição invariante

é a uniforme (veja exercícios 192 e 193, página 184).


No caso da amostragem com distribuição uniforme, de modo geral podemos fazer do se-

guinte modo. Sejam S um conjunto finito, N (i) denota o conjunto de estados j alcançáveis a

partir de i em 1 passo e

Δdef== max

i|N (i)|.

Definimos a matriz de transição

pi,jdef==

1/D se i � j e i ∈ N (j)

0 se i � j e i � N (j)

1 − |N (i)|/D se i = j.

para algum D � Δ, se tal cadeia é ergódica então a distribuição invariante é a uniforme.

No caso não-uniforme há um esquema genérico que transforma uma cadeia de Markov ir-

redutível sobre S finito e matriz de transição Q numa cadeia reversível com distribuição con-

vergente a uma distribuição de probabilidades positivas sobre S , digamos π. Esse esquema

generaliza a estratégia acima é e conhecido como algoritmo Metropolis: a partir de um estado

i, escolha um vizinho j de i com probabilidade 1/D, em que D é como definido acima; vá para

j com probabilidade ρ = min{1,πj /πi }, e com probabilidade 1 − ρ permaneça em i. Dito isso, a

matriz de transição é dada por

pi,jdef==

1D min{1,πj /πi } se i � j e i ∈ N (j)

0 se i � j e i � N (j)

1 −�j�i pi,j se i = j.

para algum D � Δ, se tal cadeia é ergódica então a distribuição invariante é π.

De volta ao exemplo dos conjuntos independentes, definimos o vetor de probabilidades π

sobre o conjunto de conjuntos independentes de G por

πIdef==

λ|I |�I � λ|I � |

para λ > 0 fixo,4 It é o conjunto independente no instante t; escolhemos v ∈R V (G) (aqui

D = |V (G)|);

It+1 =

It \ {v} caso v ∈ It , com probabilidade min{1, 1/λ}It ∪ {v} caso v � It e It ∪ {v} independente, com probabilidade min{1, λ}It , caso contrário.

4Com λ = 1 a distribuição é uniforme, com λ > 1 conjuntos independentes maiores tem probabilidade maior e com

λ < 1 conjuntos independentes maiores tem probabilidade menor.


A ideia é que uma proposta de movimento é feita quando v ∈R V (G) e essa proposta é aceita

com probabilidade

min�1,

πJ

πI

�=

min{1, 1/λ} caso remova o vértice

min{1, λ} caso acrescenta o vértice

de modo que

pI,J =1

|V (G)| min�1,

πJ

πI

�

e a partir de de qualquer distribuição inicial teremos convergência para π. Esse fato será pro-

vado de modo mais genérico a seguir.

Observação 209. Notemos que o fator de normalização na definição de π nunca é usado, logo

não precisa ser calculado, o que é determinante para a efetividade do método.

Teorema 210 (Algoritmo de Metropolis–Hastings): Sejam Q uma matriz |S | × |S | estocástica talque qi,j > 0 se e só se qj,i > 0, π uma distribuição positiva sobre S ,

ai,jdef==

πj qj,iπi qi,j

(4.31)

e a matriz estocástica P

pi,jdef==

qi,j se ai,j � 1 e i � j,

qi,j ai,j se ai,j < 1 e i � j,

qi,j +�

k : ai,k<1 qi,k(1 − ai,k) se i = j.

(4.32)

Uma cadeia de Markov sobre S com matriz de transição P é ergódica e reversível com distribuição

invariante π.

Em (4.31) temos a fração de aceite e (4.32) é interpretada da seguinte maneira: a partir do

estado i escolha j com probabilidade qi,j , se ai,j � 1 então a cadeia vai para o estado j , senão é

lançada uma moeda com probabilidade de cara ai,j e se resultar cara então a cadeia vai para o

estado j , senão continua no estado i.

Demonstração do Teorema 210. Se ai,j > 1 então aj,i < 1 e πi pi,j = πi qi,j , logo πj qj,i aj,i = πi pi,j ,

ou seja,

πj pj,i = πi pi,j

se ai,j = 1 é imediato que vale a igualdade acima e se ai,j < 1 a dedução é análoga. Pelo exercício

193, página 184, a cadeia é reversível. Mais que isso (exercício 192) π é a distribuição invariante.


A não ser pelo fato de não conhecermos a velocidade de convergência ao equilíbrio o que

temos acima é um algoritmo que determina uma elemento de s ∈R S com probabilidade π(s). O

fato da cadeia ser reversível permite-nos uma abordagem parecida com a abordagem feita para

passeios aleatórios em grafos regulares no sentido de estima a velocidade de convergência em

função dos autovalores de P. Há outros métodos para determinar a velocidade de convergência

os quais não são abordados aqui (veja Levin et al., 2009).

Seja {Xn}n∈� uma cadeia de Markov irredutível, aperiódica e reversível com matriz de tran-

sição P e distribuição invariante π > 0. Consideremos o conjunto de estados S e o conjunto de

todos o vetores (ξs)s∈S com o produto interno

�ξ , �� =�

s∈S

ξs�sπs

que satisfaz

�ξP, �� =�

s,x∈S

ξxpx,s�sπs

=�

s,x∈S

ξxps,x�sπs

= �ξ , �P�

ou seja, P é uma matriz auto-adjunta, portanto pelo teorema espectral, tem uma base ortonor-

mal de autovetores e π é autovetor cujo autovalor associado é 1. Ademais, todos os autovalores

estão no intervalo [−1, 1]1 = λ1 � λ2 � · · · � λ|S | � −1

e é possível provar que se a cadeia é aperiódica então −1 não é autovalor. Agora, se �(t) é a

distribuição de Xt escrevemos

�(t) = π + a2λt2ξ2 + · · · + a|S |λt

|S |ξ|S |

como na prova do lema 198, e como os autovalores na soma são menores que 1, tendem a 0 com

t →∞, e �(t) → π com velocidade que depende de

max{|λi | : i � 1}.

Exercício 211. Sejam G = (V , E) um grafo e k um inteiro positivo. Uma k-coloração própria de V

é uma função c : V → {1, 2, . . . , k} tal que para toda aresta {a, b} ∈ E vale c(a) � c(b). É sabido que

todo grado admite um Δ + 1-coloração própria, em que Δ denota o grau máximo de um vértice

de G. Defina Ω = {1, 2, . . . , k}V , o conjunto de todas as k-colorações de V , e a seguinte cadeia

de Markov sobre Ω: dado Xt ∈ Ω, tomemos v ∈R V e c ∈R {1, 2, . . . , k}; para todo vértice u � v

faça Xt+1(u) = Xt(u); se c não ocorre na vizinhança de v faça Xt+1(v) = c, senão Xt+1(v) = Xt(v).

Prove que se k > Δ então a cadeia é ergódica.

Outra técnica pra limitar a velocidade de convergência, mais usada por ser mais prática, é

baseada em acoplamento. Vamos ilustrar essa técnica na cadeia do exemplo 158, página 160.

Sejam {Xt}t∈� a cadeia com X0 = a com distribuição � e {Yt}t∈� a cadeia com Y0 = b com


distribuição uniforme π, lembrando que a distribuição uniforme é invariante nesse caso; uma

as n cartas é escolhida uniformemente em cada cadeia a carta escolhida é colocada no topo.

Notemos que depois que uma determinada carta foi colocada no topo, nos dois processos essa

carta ocupa a mesma posição na permutação das cartas do baralho. Depois que todas as cartas

foram colocadas no topo pelo menos uma vez, os dois processos evoluem da mesma maneira.

Em Tdef== n ln(n) + cn (para c > 0) passos a probabilidade de que uma carta específica ainda não

tenha sido escolhida é �1 − 1

n

�n ln(n)+cn� e−(ln(n)+c) =

e−c

nportanto a probabilidade de que alguma das n cartas ainda não tenha sido escolhida é no má-

ximo e−c. Fazendo c = ln(1/ε) a probabilidade é no máximo ε. Assim,

� [XT � YT | X0 = a, Y0 = b] � ε.

Para qualquer A ⊂ S

� [XT ∈ A] � � [XT = YT , YT ∈ A]= 1 − � [[XT � YT ] ∪ [YT � A]]

� (1 − � [YT � A]) − � [XT � YT ]

� � [YT ∈ A] − ε= π(A) − ε.

Da mesma forma, também vale que � [XT � A] � π(A) − ε, donde temos

� [XT ∈ A] � π(A) + ε

portanto

maxA

��[XT ∈ A] − π(A)�� ε.

Exercício 212. Mostre que

12

�

i∈S

��[Xn = i] − πi

�� = maxA⊂S��[XT ∈ A] − π(A)

��.

Do exercício deduzimos que 12�

i∈S��[XT = i] − πi

�� ε, ou seja, para ficar a distância ε de

π, de acordo com a métrica acima, bastam n ln(n/ε) passos.

Exercícios complementares

1. Seja {Xn}n∈� as variáveis aleatórias de uma cadeia de Markov. Prove que o evento

Xi1 = si1 , Xi2 = si2 , . . . , Xir = sir

ocorre com mesma probabilidade em todas realizações das variáveis com pelo menos r

variáveis.


2. Um dado é lançado repetidamente. Quais das seguintes sequências de variáveis aleatórias

formam um cadeia de Markov?

(a) Xn é o maior resultado até a n-ésima rodada;

(b) Yn é a quantidade de 6 em n rodadas;

(c) no instante r, Zr é o tempo desde o 6 mais recente;

(d) no instante r, Wr é o tempo até o próximo 6.

3. Se {Xn}n∈� é sequências de variáveis aleatórias de uma cadeia de Markov, quais das se-

guintes sequências é uma cadeia de Markov?

(a) {Xm+r }r�0, para m fixo;

(b) {X2m}m�0;

(c) {(Xn, Xn+1)}n�0.

4. Sejam {Zi }i�1 variáveis aleatórias independentes, identicamente distribuídas e com espe-

rança � (Z) finita. Chamamos a variável aleatória N de tempo de parada para a sequência

{Zi }i�1 se o evento [N = n] é independente de Zt para t > n, para todo n. Prove que se N

tem esperança finita, então

�

N�

i=1

Zi

= � (N )� (Z) . (4.33)

No exemplo 165, seja i o estado inicial e Di o tempo de duração do jogo, ou seja, o tempo

esperado até a cadeia atingir o estado 0 ou o estado n. Assuma que as esperanças sejam

finitas e use a equação (4.33) para determinar Di .

5. Numa cidade com n+1 habitantes, uma pessoa conta um boato para uma segunda pessoa,

que por sua vez conta o boato para uma terceira pessoa e assim por diante. Em cada

passo o ouvinte do boato é escolhido aleatoriamente de maneira uniforme dentre as n

pessoas restante na cidade. Qual a probabilidade do boato ser contado r vezes sem repetir

nenhuma pessoa?

6. Considere a generalização natural do algoritmo 16, seção 4.1.1, para 3-SAT. Prove que tal

algoritmo é exponencial, O(2n) em que n é o número de variáveis.

7. Se {Xn}n∈� com matriz de transições

P =

0 1/2 1/2

1/2 1/2 0

1 0 0

é uma cadeia de Markov e f é dada por f (0) = 0 e f (1) = f (2) = 1, então Yn = f (Xn) é

uma cadeia de Markov?


8. Seja s um estado absorvente numa cadeia de Markov tal que para todo estado i da cadeia

p(n)i,s > 0, para algum n = n(i). Mostre que todos os estados, a não ser s, são transientes.

9. Prove que o estado i é transiente se e só se� [Ti = ∞ | X0 = i] > 0 e, nesse caso, � (Ti | X0 = j) =

∞.

10. Considere a variável aleatória Vj definida na página 167 e defina

ηi,jdef== ��Vj = ∞ | X0 = j

�.

Prove que

ηi,i =

1, se i recorrente,

0, se i transiente.

e que

ηi,j =

�

�Tj < ∞ | X0 = j

�, se i recorrente,

0, se i transiente.

11. Seja A um subconjunto de estados e defina

TAdef== min{n � 1: Xn ∈ A}

ηjdef== � [TA < ∞ | X0 = j] .

Mostre que ηj = 1 se j ∈ A e

ηj =�

s∈Spj,sηs

se j � A. Agora defina

ζjdef== � (TA | X0 = j)

e mostre que ζj = 0 se j ∈ A e que

ζj = 1 +�

s∈Spj,sζs

se j � A.

12. Seja P umamatriz de transições. Defina amatriz P � = (P+Id)/2. Prove que P � é aperiódica.

13. Considere a cadeia de Markov com estados � e transições p0,j = aj para todo j ∈ �, epi,i = p, e pi,i−1 = 1 − p para todo i � 0. Classifique os estados e determine os tempos

médios de recorrência.

14. Sejam Gn um grafo d-regular e λ-expansor, e B ⊂ V com |B| = βn. Considere X1 ∈R V e

X1, . . . , Xk passos de um passeio aleatório em Gn. Prove que para todo δ > 0

�

��

�ki=1 �[Xi∈B]

k− β��

< 2e−

(1−λ)δ2k4 .


15. Seja n um número natural. O n-cubo é o grafo cujo conjunto de vértices são as 2n sequên-

cias binárias de n bits e dois vértices são adjacentes se e somente se as n-tuplas correspon-

dentes diferem exatamente em uma posição. Prove que o k-cubo é bipartido.

Use a técnica de acoplamento da seção 4.3 para mostrar que um passeia aleatório no cubo

acrescido de laço nos vértices converge em n ln(n/ε) passos. Sejam {Xt}t∈� a cadeia com

X0 = a com distribuição � e {Yt}t∈� a cadeia com Y0 = b com distribuição uniforme π,

lembrando que a distribuição uniforme. Prove que π é invariante nesse caso. Uma das n

posições das sequências é escolhida uniformemente e um bit é escolhido uniformemente

e nas duas cópias o bit sorteado é atribuído à posição previamente escolhida. Prove que a

cadeia é ergódica. Prove que bastam n ln(n/ε) passos para a distribuição estar próxima da

uniforme por ε.

4 | Cadeias de Markov homogêneasprofessor.ufabc.edu.br/~jair.donadelli/algprob/cap4.pdf · 158 Cadeias de Markov homogêneas Uma sequência = ( i)i∈S com i 0, de modo que i∈S

Documents