0 EEL630 – Modelos Probabilísticos em Engenharia Objetivos gerais: Capacitar o aluno para o entendimento dos fundamentos básicos do cálculo de probabilidades e de processos estocásticos com ênfase em aplicações de transmissão e processamento de sinais e na comunicação e desempenho de redes. Ementa: Experiência aleatória: espaço amostral, axiomas de probabilidade. Probabilidades condicionais. Variáveis aleatórias. Função de distribuição. Variáveis aleatórias discretas e contínuas. Função densidade de probabilidade. Função de v. a. Distribuições conjuntas. Valores esperados. Funções características e geradoras de momentos. Seqüência de variáveis aleatórias. Processos estocásticos: definições. Processos estacionários e ergóticos. O processo de Poisson. Densidade espectral de potencia. Resposta de sistemas lineares a sinais aleatórios. Cadeias de Markov.
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
0
EEL630 – Modelos Probabilísticos em Engenharia Objetivos gerais: Capacitar o aluno para o entendimento dos fundamentos básicos do cálculo de probabilidades e de processos estocásticos com ênfase em aplicações de transmissão e processamento de sinais e na comunicação e desempenho de redes. Ementa: Experiência aleatória: espaço amostral, axiomas de probabilidade. Probabilidades condicionais. Variáveis aleatórias. Função de distribuição. Variáveis aleatórias discretas e contínuas. Função densidade de probabilidade. Função de v. a. Distribuições conjuntas. Valores esperados. Funções características e geradoras de momentos. Seqüência de variáveis aleatórias. Processos estocásticos: definições. Processos estacionários e ergóticos. O processo de Poisson. Densidade espectral de potencia. Resposta de sistemas lineares a sinais aleatórios. Cadeias de Markov.
1
1. Cálculo de Probabilidades
1. Fenômenos - Modelos utilizados
Quando estudamos um fenômeno qualquer procuramos
associá-lo a um modelo matemático para que de alguma
forma possamos prever o comportamento desse fenômeno
em alguma época futura.
Podemos dividir os modelos matemáticos em dois
grandes tipos:
• Determinísticos
Os modelos determinísticos são aqueles que dados os
parâmetros necessários, podemos obter o valor desejado
através de uma equação. Essa equação representará
adequadamente bem o valor desejado tanto quanto o modelo
for mais bem ajustado, incluindo todos os fatores que
possam influenciar no cálculo da variável desejada.
Exemplo: dada a distância inicial e0 (metros), uma
velocidade constante v0 (m/seg), uma aceleração constante
igual a α (m/seg2), podemos obter a distância final em
2
metros de um corpo em movimento como função do tempo
percorrido pela equação seguinte :
20 0
1e = e + v t + α t2
É claro que esse modelo não leva em consideração o atrito
do corpo em movimento com o meio, resistência do ar, etc.
• Probabilísticos ou Aleatórios ou Estocásticos
Nos modelos probabilísticos, não temos a priori o
resultado da experiência, nem equações de cálculo. Temos
algumas possibilidades de resultados e atribui-se a
possibilidade um número que representa a chance dele
acontecer antes da realização da experiência em questão.
Exemplo: vários carros apostando uma corrida, não
sabemos a priori quem será o vencedor.
1.1 Definições:
1.1.1 – Experiência aleatória Є
É uma experiência tal que não se sabe o resultado a
priori antes da sua realização. Para se modelar o fenômeno
3
de uma experiência aleatória qualquer segundo um modelo
probabilístico conhecido, temos que saber todos os possíveis
resultados dessa experiência.
1.1.2 – Espaço Amostra S
É o conjunto de todos os resultados possíveis de uma
experiência aleatória. Os elementos que formam o conjunto
de resultados possíveis são chamados de eventos
elementares
Exemplos:
1- Espaço amostra discreto: S = {s0, s1, ...}. Lança-se um
dado e observa-se a face voltada para cima. Nesse caso o
espaço amostra será: S = {1, 2, 3, 4, 5, 6}
2- Espaço amostra contínuo: S = {x / x ∈ R e x ∈ (a, b)},
onde a e b são dois reais quaisquer e b > a. Escolhe-se um
número real no intervalo de 0 a 10. Nesse caso o espaço
amostral é dado por:
4
S = {x / x ∈ R e x ∈ (0, 10)}
1.1.3 – Evento A
Qualquer conjunto formado do espaço amostra S:
A ⊂ S
1.1.4 – Eventos elementares do espaço amostral S:
São os elementos formadores do conjunto S, desde que
S seja um conjunto formado por elementos discretos, ou
seja, o conjunto é dito discreto. Nesse caso podemos fazer
uma associação biunívoca de cada elemento de S com os
elementos do conjunto dos inteiros.
Exemplo 3:
5
S = {1, 2, 3, 4, 5, 6} Temos seis conjuntos formados por
cada número de 1 a 6 que são chamados de eventos
elementares: {1}, {2}, {3}, {4}, {5} e {6}.
Num espaço amostra discreto e finito, com N eventos
elementares, o número total de eventos distintos que
podemos formar é 0 1 2 N NN N N NC C C ... C 2+ + + + =
0NC 1= - número total de conjuntos não agrupados -
conjunto vazio;
1NC N= - número total de conjuntos agrupados um a um –
são os eventos elementares;
2NC - número total de conjuntos agrupados dois a dois, etc.
No caso do lançamento de um dado, teríamos:
S2 = {(1,2) (1,3) ... (1,6) (2,1) ... (6,6)}
Quando o conjunto S é contínuo, ou seja, o espaço
amostral é infinito não numerável, a noção de eventos
elementares não faz sentido; o que podemos ter é uma união
de conjuntos, não sobrepostos, que reproduz o espaço
amostra S (conjuntos chamados de partição de S).
6
Exemplo 4:
Sendo S dado por S = {x / x ∈ R e 0 ≤ x ≤ 1}
podemos definir, por exemplo, uma seqüência de 4
conjuntos da seguinte forma:
A = { x / 0 ≤ x < 0,25} B = { x / 0,25 ≤ x < 0,5}
C = { x / 0,5 ≤ x < 0,75} D = { x / 0,75 ≤ x ≤ 1}
Nesse caso é como se A, B, C e D fossem os eventos
elementares de S, mas na verdade eles formam uma partição
de S, ou seja, S = A U B U C U D
1.2 Utilização da teoria dos conjuntos:
Notações: S - espaço amostral
A e B - eventos quaisquer pertencentes a S (A e B ∈ S)
φ - conjunto vazio A U B – A união B – evento definido pelo acontecimento somente do evento A ou somente do acontecimento do
7
evento B ou do acontecimento de A e B simultaneamente (concomitantemente). A ∩ B = A B – A interseção B – evento definido pelo acontecimento de A e B simultaneamente (concomitantemente). Não pode acontecer A sozinho ou B sozinho. Ā – evento definido pelo não acontecimento de A
1=ΑU
n
ii
– evento definido pela generalização da união de
vários conjuntos.
n
n 1 i= ΑI – evento definido pela generalização da
interseção de vários conjuntos. A e B são ditos mutuamente exclusivos quando: A ∩ B = φ Nesse caso A ∪ B significa que: ou acontece o evento
A ou acontece o evento B e não pode acontecer A e B simultaneamente (concomitantemente), pois os dois eventos não permitem que isso ocorra já que a interseção dos dois é nula.
8
Relações de Morgan: A B = A B∪ ∩ e A B = A B∩ ∪ 1.3 Freqüência relativa de eventos
Notação: frA frB – frequência relativa de A e de B;
frA U B – frequência relativa da União de A com B ; frA∩ B – frequência relativa da interseção de A com B; fr Ā ∩ B – frequência relativa da interseção de não A com B; etc Deseja-se arrumar um modelo matemático que nos diga a chance de um determinado evento ocorrer. Este modelo é representado pela probabilidade do evento em questão. O modelo matemático é baseado na frequência relativa do evento. Como exemplo no caso anteriormente colocado do
S A U B
A ∩ B
A∩ B Ā ∩ B
Diagrama de Venn
9
Exemplo 1, se quizésemos arranjar números que medissem a chance de cada um dos seis possíveis números das faces do dado, poderíamos jogar este dado 1000 vezes (por exemplo) e calcularmos a frequência relativa de cada um dos seis números. Essas frequências relativas poderiam ser os números do nosso modelo, para esse dado. Poderíamos repetir essa experiência (mais 1000 vezes) e calcularmos novamente a frequência relativa dos seis números. Obviamente os dois resultados seriam diferentes (dificilmente seriam iguais). O fato é que, se repetirmos esse processo com um número cada vez maior vezes, veremos que as frequências relativas encontradas oscilam em torno de números, as quais serão tomados como as probabilidades de cada um dos seis números que aparecem na face do dado. Dessa forma, haverá uma convergência estocástica (estatística) para um determinado valor de frequência relativa (regularidade estatística). Caso não houvesse essa convergência estatística seria impossível atribuir probabilidades aos números, a menos que essas probabilidades variassem regularmente com a jogada (com o tempo) ou variassem de forma regular com a pessoa que lança o dado. Nesses dois últimos casos mencionados acima, a forma de atribuir probabilidades aos números tem que ser tratada de maneira diferente, caso isso seja possível, como por exemplo um processo estocástico ou outra forma diferente. Seja nA o número de vezes (frequência) que o evento A ocorreu em n totais vezes que a experiência aleatória foi repetida. A frequência relativa do evento A é calculada
10
como AA
nfr n= . De forma similar, podemos definir
frequência relativa para outros eventos do espaço amostral. Exemplos de obtenção das frequências relativas: Exemplo 4: Lança-se um dado 1000 vezes e obtém-se a freqüência de aparecimento de cada número do dado (número que aparece na face voltada para cima) e calcula-se a sua freqüência relativa. A seguir mostra-se o histograma obtido.
Exemplo 5: Tem-se um sinal aleatório variando entre –1 e 1 Volt e de duração de 100 milisegundos. O gráfico do sinal aparece na figura abaixo. Fez-se também uma amostragem do sinal, obtendo-se 150 pontos no espaço de tempo (obedecendo-se à taxa de Nyquist). O histograma foi obtido dividindo-se a amplitude (2 Volts) em 20 classes é visto a seguir.
-1.5 -1 -0.5 0 0.5 10
5
10
15
20
25
0 10 20 30 40 50 60 70 80 90 100 -1.5
-1
-0.5
0
0.5
1
12
Sobre o mesmo histograma acima é colocado a curva Normal (Gaussiana), que é uma curva de medida de probabilidade.
-1.5 -1 -0.5 0 0.5 10
5
10
15
20
25
13
1.3.1 Propriedades da freqüência relativa de um evento: Sendo A e B dois eventos quaisquer de um espaço amostral S, temos:
1. 0 ≤ frA ≤ 1 2. frA = 0 se o evento não ocorre em momento algum. 3. frA = 1 se o evento ocorre todas as vezes, ou seja, somente este evento ocorre durante toda a experiência aleatória.
Na verdade, nesse caso não existe experiência aleatória, ou seja, temos um fenômeno determinístico pois, A é um evento certo (100% de certeza do acontecimento de A, desde que a experiência seja realizada).
4. Se A e B são mutuamente exclusivos, isto é, a
ocorrência de A não ocasionar a ocorrência de B e vice versa, então:
frA U B = frA + frB
14
Exemplo 6: Uma caixa contém 2 bolas brancas, 3 bolas azuis e 5 bolas vermelhas. As bolas são aproximadamente do mesmo tamanho e peso, diferindo somente pela cor. Estas bolas foram devidamente misturadas de modo que a pessoa que retirasse uma bola, não pudesse distinguir a sua cor antes da sua retirada.
A experiência consiste em misturar as bolas, retirar uma bola, observar sua cor e repô-la à caixa. Essa experiência foi repetida um grande número de vezes e abaixo vê-se a tabela de retiradas e as frequências de saida das bolas (Tabela 1.1). Tabela 1.1 Frequência de retirada das bolas
Número de repetições da experiência Cor da bola 50 100 200 300 500
As frequências relativas mostradas na Tabela 1.2 mostram a tendência da retirada de uma determinada bola convergir para um número, ou seja, a frBr
(frequência relativa da bola branca) tende para 0,2; a frAzul (frequência relativa da bola azul) tende para 0,3 e a frVer (frequência relativa da bola vermelha) tende para 0,5. Estes números medem então, a chance do aparecimento de uma bola de determinada cor ser sorteada ao acaso.
1.4 – Definição de Probabilidade
É um número representativo da chance do
acontecimento de um dado evento e tem as mesmas
propriedades da freqüência relativa.
p(A) = probabilidade do evento A
1.4.1 – Axiomas da Probabilidade (propriedades da
probabilidade de um evento) São os mesmos da frequência
relativa de um evento:
1. 0 ≤ p(A) ≤ 1
2. p(S) = 1 [Como conseqüência p(φ) = 0]
16
3. Se A e B são mutuamente exclusivos, ou seja,
A ∩ B = φ então ⇒ p(A ∪ B) = p(A) + p(B)
1.4.2 – Teoremas relativos à probabilidade (deduzidos dos
axiomas):
1. Probabilidade do evento impossível
p(φ) = 0
Mostração:
Como se tem as relações: A ∪ φ = A e
A ∩ φ = φ – A e φ são mutuamente exclusivos
Logo utilizando-se os axiomas tem-se:
p(A ) + p(φ) = p(A) então: p(φ) = 0
2. Probabilidade do evento complementar
p(Ā) = 1 – p(A)
Mostração:
Como se tem as relações: A ∪ Ā = S A ∩ Ā = φ
A∩A=φ – A e Ā são mutuamente exclusivos
Logo, p(A) + p(Ā) = p(S) = 1
então: p (Ā) = 1 - p(A)
onde Ā é chamado de complemento de A
17
3. Se A e B são dois conjuntos quaisquer, então:
p(A ∪ B) = p(A) + p(B) - p(A ∩ B)
Mostração:
Como se tem as relações:
A ∪ B = A ∪ (B ∩ Ā)
B = B ∩ S = B ∩ ( A ∪ Ā ) = (B ∩ A) ∪ (B ∩ Ā)
A e (B ∩ Ā) – são mutuamente exclusivos
(B ∩ A) e (B ∩ Ā) – são mutuamente exclusivos
Logo,
p(A ∪ B ) = p(A) + p(B ∩ Ā) e
p(B) = p(B∩A) + p(B∩Ā) ⇒ p(B) = p(AB) + p(ĀB)
ou p(ĀB) = p(B) - p(AB)
então: p(A ∪ B ) = p(A) + p(B) - p(AB)
A B S
A∩B
18
4. Generalizando-se, tem-se para três ou mais eventos: p(A U B U C ) = p(A) + p(B) + p(C) - p(AB) - p(AC) - p(BC) + p(ABC) sendo A B e C eventos quaisquer
( )n n
i i i j i j ki 1 i j i j ki 1
i j i j k
nn-1
ii 1
p A p A - p A A p A A A -
... (-1) p A
==≠ ≠ ≠
=
= +
+
∑ ∑∑ ∑∑∑1442443 1442443
U
I
Demonstração feita a partir da demonstração anterior.
5. A ⊂ B então p(A) ≤ p(B) Mostração: A ⊂ B ⇒ p(A) ≤ p(B) A ⊂ B ⇒ A ∩ B = A B = A ∪ (Ā ∩ B) Porém: A ∩ (Ā ∩ B) = (A∩Ā) ∩ (A∩B) = φ ∩ A = φ, logo são mutuamente exclusivos. Então: p(B) ≥ p(A)
6. p(Ā U B )= p (A B∩ ) = 1 - p(A ∩ B)
7. p(Ā ∩ B ) = p(A B∪ ) = 1 - p(A U B) = 1 - p(A) - p(B) + p(AB) Estas duas últimas relações são obtidas a partir das relações de Morgan
B A
19
Observações:
1- Quando um evento é impossível de acontecer, ele é dito um conjunto vazio φ. Então a probabilidade do evento impossível é zero. Exemplo 6: No lançamento de um dado não tendencioso, qual a probabilidade de sair um número 8? Essa probabilidade é zero.
2- Nem sempre que a probabilidade é zero, significa que
o evento é impossível. Exemplo 7: Na cidade do Rio de Janeiro observou-se que ao longo dos últimos 500 anos, que a temperatura atmosférica da cidade sempre esteve no intervalo (-10, 50) graus centígrados, logo se considera que a Prob[temperatura da cidade do RJ estar entre –10 e 50] = 1. Qual a probabilidade dessa temperatura estar entre –15 e –10 graus centígrados? Segundo os dados dos últimos 500 anos, fica estabelecido que essa probabilidade é zero. Isso não quer dizer que o evento “temperatura entre –15 e –10 graus centígrados” seja um evento impossível. Na verdade o que podemos afirmar é que nunca foi registrada temperatura fora do intervalo (-10,50) oC na cidade do Rio de Janeiro.
3- Viu-se que p(Ā) = 1- p(A). Esta expressão é
importante porque algumas vezes é muito mais trabalhoso se calcular a probabilidade de um evento do que a probabilidade do evento complementar (evento contrário).
20
1.5 – Métodos de Contagem – Análise Combinatória
Nem sempre o espaço amostra pose ser obtido através
da listagem de todos os elementos, dado o grande número
deles ou mesmo pela incoveniência dessa listagem quando se
está interessado num evento em particular. Dessa forma
valemo-nos da análise combinatória para contar, tanto os
elementos do evento A quanto os elementos do espaço
amostra (números de casos favoráveis ao acontecimento de
A e número de casos possíveis).
1.5.1 Método da Multiplicação
Suponha que o procedimento I pode ocorrer de m
maneiras diferentes e um outro procedimento (II) pode
ocorrer de n outras maneiras diferentes. Além disso,
se qualquer uma das m maneiras de chegar a I possa
ser seguida de qualquer uma das n maneiras de se
chegar a II. Então o número de vezes de se
realizar I, seguido de II é igual a m . n maneiras
diferentes.
21
Exemplo:
Suponha que para se ir de Petrópolis para o Rio de
Janeiro se possa de ir de ônibus (empresa) ou de carro
(particular). Para se ir do Rio para São Paulo pode-se ir
de trem, avião, ônibus (empresa) ou de carro
(particular). De quantas maneiras pode-se ir de
Petrópolis para São Paulo, passando-se pelo Rio?
Total: 2 maneiras vezes 4 maneiras = 8 formas
diferentes.
Petrópolis Rio São Paulo
22
1.5.2 Método da Adição
Suponha que o procedimento I pode ocorrer de m
maneiras diferentes e um outro procedimento (II) pode
ocorrer de n outras maneiras diferentes. Além disso,
não se pode realizar os dois procedimentos em
conjunto, isto é, um após o outro. Então o número
de vezes de se realizar I ou de se realizar II é igual a
m + n maneiras diferentes.
Exemplo:
Suponha a seguinte experiência: Lança-se uma moeda.
Se sair cara joga-se um dado e verifica-se o número que
saiu. Se sair coroa, escolhe-se um número inteiro no
conjunto {7, 8, 9}. De quantas maneiras pode-se
escolher um número nessa experiência?
Cara ⇒ lance do dado ⇒ 6 maneiras
Coroa ⇒ escolha de um número ⇒ 3 maneiras no conjunto {7, 8, 9}
Número total de maneiras = 9
23
1.5.3 – Agrupamentos importantes
Baseado nos dois métodos anteriormente descritos,
surgem os agrupamentos mais importantes e suas fórmulas
de contagem.
1.5.3.1 – Permutação de n elementos - Pn
Neste tipo de agrupamento todos os elementos
participam do mesmo, sendo que cada agrupamento
diferirá um do outro somente pela ordem com que os
elementos aparecem.
Exemplo: permutações de três elementos A, B e C
ABC ≠ ACB
Número total de permutações: Pn = 1.2.3. … . n = n !
Restrição: p inteirospositivo
Mostração: Suponha que tenhamos n-1 elementos
no agrupamento e o número de permutações distintas
seja Pn-1. Vamos introduzir o n-ésimo elemento.
24
Este elemento poderá ocupar n posições em cada um
dos agrupamentos de n-1 elementos. Sendo o
agrupamento de n-1 elementos A B C D ... M, ao
introduzir o n-ésimo elemento temos ter n posições
aonde este elemento poderá ocupar (figura abaixo),
com as setas indicando as n possíveis posições
aonde o n-ésimo elemento poderá ser introduzido.
A B C D ... M↓ ↓ ↓ ↓ ↓ ↓ ↓
Pelo método da multiplicação, como cada
agrupamento de n-1 elementos formará n
agrupamentos de n elementos, os Pn-1 agrupamentos
formarão um total de (n . Pn-1) permutações de n
elementos, ou seja,
Pn = n Pn-1
Cálculo de Pn:
P2 = 2 P1
P3 = 3 P2
.
.
Pn = n Pn-1.
Multiplicando-se membro a membro, tem-se:
25
Pn = 2 . 3. 4 . . . . n . P1
Mas P1 = 1, isto é, todos os agrupamentos com 1
elemento. Logo se tem Pn = n !
1.5.3.2 – Arranjos de n elementos tomados p a p = pnA
Este tipo de agrupamento é formado com p
elementos de um conjunto de n elementos.
Os agrupamentos vão diferir pela natureza dos
elementos e pela ordem com que os elementos estão
situados no agrupamento.
Exemplo: Tem-se 5 elementos A, B, C, D e F.
Formemos arranjos de 3 elementos. Temos alguns
arranjos diferentes: ABC ≠ ACB ≠ ADB
Número total de agrupamentos:
pn
n!A n(n 1)(n 2)...(n p 1)
(n p)!= = − − − +
−
Restrições: n, p inteiros positivos e p ≤ n
26
Mostração:
Continuando com o exemplo acima, contemos o
número de arranjos possíveis. Para isso façamos 3
células e preenchamos com os elementos disponíveis.
Na 1a célula podemos colocar qualquer dos 5
elementos disponíveis. Ficamos com 4 elementos
disponíveis. Podemos colocar na 2a célula qualquer
um dos 4 elementos. Para a última célula, a 3a, temos
3 elementos disponíveis e podemos colocar qualquer
um dos três. Pelo método de contagem da
multiplicação teremos um total de 5 x 4 x 3 arranjos
possíveis.
Generalizando, para se calcular os arranjos de n
elementos tomados p a p temos:
1ª célula 2ª célula 3ª célula
1ª célula 2ª célula p-ésima célula
. . . . .
27
Na 1a célula podemos colocar n elementos; na 2a
podemos colocar n-1; e assim sucessivamente até a
p-ésima, onde podemos colocar um dos últimos (n-
p+1) elementos. Dessa forma podemos ter, pela regra
da multiplicação,
n(n 1)(n 2)...(n p 1)− − − +
arranjos distintos.
1.5.3.3 – Combinação de n elementos formados p a p = pnC
Este tipo de agrupamento é formado com p
elemntos de um grupo de n elementos, porém os
agrupamentos vão diferir uns dos outros pela natureza
dos elementos no grupo e não pela sua posição.
28
Exemplo: Tem-se 5 elementos A, B, C, D e F.
Formemos combinações de 3 elementos. Temos
algumas combinações: ABC = ACB ≠ ADB
Número total de combinações:
( )( )( ) ( )p
p nn
p
n n-1 n-2 ... n-p 1A n !C P 1. 2. ... . pn-p ! p !
+= = =
Restrições: n,p inteiros positivos e p ≤ n
Mostração:
O cálculo do número de combinações possíveis se
torna fácil, se notarmos que a única diferença para o
No exemplo anterior sabendo-se que foi retirada uma
bola, verificou-se ser azul. Qual a probabilidade de ter vindo
da urna 1 ? ( ) ? ABP 1 =
1 1
1
P B P A B 20/65 .(4/20) 4P B A 12P(A) 12/65
= = =
Nesse caso particular, outra maneira de se calcular a
probabilidade sem usar o teorema de Bayes, seria:
Número de bolas azuis de cada urna
1a. Urna 2a. urna 3a. urna
4 5 3
A Tabela mostra as bolas azuis de cada urna, já que a
probabilidade de ter saido bola de outra cor é zero (saiu uma
azul e não se sabe de qual urna). Então a probabilidade
pedida é 14 4P B A
4 5 3 12
= =+ +
53
O problema é que nem sempre é fácil calcular P(Bi |A)
da última forma acima. Então é mais fácil se usar o teorema
de Bayes.
1.8.3 – Eventos Independentes.
Dois eventos A e B de uma experiência aleatória são
ditos estatisticamente independentes quando a ocorrência de
um não afeta a ocorrência do outro e isso leva à seguinte
relação: p(AB) = p(A∩B) = p(A) p(B).
Isto também implica que: p(A|B) = p(A) e p(B|A) = p(B)
Por outro lado sabe-se que se dois eventos são mutuamente
exclusivos, isto é, A∩B = φ, então p(AB) = p(A∩B) = 0.
Logo, numa experiência aleatória simples se A e B são
mutuamente exclusivos, eles não podem ser independentes e
vice-versa.
Não se deve confundir eventos mutuamente exclusivos com
eventos independentes em experiências aleatórias
compostas.
54
Exemplo 19: Lança-se um dado não tendencioso duas vezes
(duas realizações da mesma experiência aleatória).
Dados os eventos:
A = {sair número menor que 3 no 1o lance}
B = {sair um número maior que 4 no 2o lance}.
Calcule p(AB)
É claro que se pensarmos nos conjuntos A e B
desassociados dos lances do dado, vemos que A∩B = φ.
Dessa forma poderíamos pensar que p(AB) = 0. Isso seria
verdade se fosse no mesmo lance. Como são em lances
diferentes, os conjuntos são independentes e p(AB) ≠ 0.
Podemos generalizar a independência para diversos
eventos:
Se A, B, C, ... são independentes, então:
p(ABC...) = p(A) p(B) p(C) ...
ou ainda: p(A|BCD...) = p(A) p(B|ACD...) = p(B), etc.
55
2. Variável Aleatória (v.a.)
2.1 Definição
Nem sempre o espaço amostra S é numérico. Então
associam-se números aos elementos de S por uma relação X
qualquer biunívoca. Logo, tem-se a seguinte definição para
variável aleatória:
É a transformação do espaço amostral não numérico ou
mesmo numérico em um espaço amostral numérico através
de uma transformação qualquer que leva um evento
elementar de S a somente um evento elementar do novo
espaço amostral X. Os eventos de S e os correspondentes
de X (variável aleatória) obtidos pela função biunívoca são
chamados de eventos equivalentes. Eventos equivalentes têm
iguais probabilidades. O espaço amostra da variável
aleatória tem como notação RX. Obtém-se então através
dos eventos equivalentes a probabilidade de cada evento de X
56
e cuja notação é p(X=x) ou P(X=x) ou Prob(X=x),
significando a probabilidade da variável aleatória X ser igual
e um valor numérico específico x.
Exemplo:
Lançamento de uma moeda não tendenciosa:
S = (Cara, Coroa)
S
RX
A
B
Figura 2.1 Transformação do espaço amostra S em um novo espaço amostra da variável X, chamada de variável aleatória. O evento A de S é equivalente ao evento B de X. Nesse caso, Prob(B) = Prob(A).
57
Faz-se, por exemplo, x = 0 para Cara e
x = 1 para Coroa
Logo, temos os seguintes eventos equivalentes:
{sair cara} ≈ {x = 0} {sair coroa} ≈ {x = 1}
e dessa forma, temos:
p(sair cara) = p(X = 0) p(sair coroa) = p(X = 1)
{ }0,1 R x = ( )2
1 0 x p == ( )
2
1 1 x p ==
Quando o espaço S é numérico, a v.a. vem da própria
experiência aleatória original.
Exemplo: Experiência aleatória = lançamento de um
dado não tendencioso. Logo, S = {1, 2, 3, 4, 5, 6}
Fazendo-se os eventos elementares de X equivalentes aos
eventos elementares de S, tem-se:
Rx = {1, 2, 3, 4, 5, 6}
1p(X i) i 1 , 2, , 66
= = = L
No exemplo acima do lançamento de um dado,
poderíamos definir outro relacionamento entre os eventos
elementares de S e os de X como por exemplo, definir os
58
eventos elementares de X como sendo obtidos pela
exponencial dos valores de S. Porém nesse caso,
descaracterizaríamos a experiência aleatória do lançamento
de um dado como sendo a variável aleatória. Ou seja,
teríamos outra v.a.
Neste ponto para ser matematicamente mais preciso
seria necessário definir o espaço de Borel. Essa necessidade
vem do fato que: tendo-se um espaço amostra pertencente aos
reais e a esse conjunto atribuiu-se uma medida de
probabilidade então, todas as operações com conjuntos de
eventos também terão uma medida de probabilidade? O
conjunto de Borel e a medida de Borel (medida associada aos
elementos do conjunto de Borel) mostram que a medida de
probabilidade que satisfaz aos axiomas da probabilidade
definidos anteriormente, garantem a atribuição de
probabilidades aos eventos obtidos por quaisquer operações
com conjuntos.
59
2.2 Variáveis aleatórias discretas:
Tem-se um espaço amostra X discreto, podendo ter um
número finito ou infinito de eventos elementares e com uma
função de probabilidade p(x)
pX(x) = Prob(X=x) = p(x) ( ) i 1, xp i
i ∀=∑
Seguem-se as definições de algumas variáveis aleatórias
discretas com seus espaços amostras e suas respectivas
funções de probabilidade.
p(x0) δ(x- x0)
x0
p(x)
p(x1) δ(x- x1)
p(xk) δ(x-xk)
0 x1 xk
. . .
x
60
2.2.1 Distribuição Uniforme Discreta de parâmetro N
A variável aleatória que após a realização da experiência
aleatória pode assumir um entre N valores é dita uniforme
quando todos os valores são equiprováveis. Nesse caso sua
função de probabilidade é dada por:
1p(X k) k 1,2,...N
N= = = X={1, 2, 3, ... N}
Exemplo: X uniforme para o espaço amostra X={-2, -1,
0, 1, 2}
2.2.2 Distribuição de Bernoulli
Seja um evento A qualquer de uma experiência
aleatória. A variável aleatória assume o valor 1 caso o evento
P{X > s+t e X > s} P{X > s+t }P{X > s+t / X > s} =
P{X > s} P{X > s}=
s+tk-1
tk=s+t+1s
k-1
k=s+1
qp q
1-q = = q
qp q
1-q
∞
∞=∑
∑
Porém t
k-1 t
k=t+1
qp q p = q = p{X > t}
1-q
∞
=∑
Logo P{X > s+t / X > s} = P{X > t}
2.2.7 Distribuição de Pascal com parâmetros p, r e k
Seja uma experiência aleatória com espaço amostra S e um
evento A de S. Considere repetições dessa experiência
78
onde p(A) = p permanece constante durante essas repetições.
Define-se a v.a. X como o “número k de repetições
necessárias até que o evento A ocorra r vezes”. Diz-se que
X tem distribuição de Pascal com parâmetros p, r, e k
sendo sua função de probabilidade dada por:
r-kr1-r1-k p)-(1 p C k)P(X == k ≥ r
Essa distribuição é uma de generalização da distribuição
geométrica. Exemplos de possibilidade de acontecer o
evento A ocorrer em r vezes:
Espaço amostra: X = {r, r+1, r+2,…∞}
++...+ , -++...+, +-++...+, ... ++-++...+, ... etc r vezes r vezes r-1 vezes r-2 vezes k = r k = r + 1 k = r + 1 k = r + 2
79
Exemplos de gráficos da distribuição de Pascal: p = 0,2 ; 0,5
e com r = 10.
80
2.2.8 Distribuição Hipergeométrica com parâmetros r, N e
n.
Tem-se um espaço amostra com N elementos e um
conjunto A desse espaço amostra com r elementos sendo
então, N-r elementos de característica A . A variável
aleatória tem distribuição hipergeométrica quando
escolhemos k elementos do conjunto A e n-k elementos
do conjunto A , perfazendo um total de n elementos
retirados. Desejamos obter a probabilidade desse evento. A
distribuição hipergeométrica tem como função de
probabilidade a seguinte expressão:
nN
k-nr-N
kr
C
C.C k)P(X ==
Espaço amostra: X = {0,1,2,…t}
81
t = r se n ronde
t = n se n r
≥ ≤
Exemplo de aplicação da distribuição hipergeométrica:
Um grupo de pessoas é formado por 6 mulheres e 4
homens. Deseja-se formar comissões de 5 pessoas. Qual a
probabilidade de que estas comissões sejam formadas por 3
mulheres e dois homens ? (Independentemente de quem
sejam as pessoas e que ordem elas sejam escolhidas, ou seja,
está se supondo que as comissões só dependam de quem
foram os escolhidos).
Neste exemplo vamos supor que todas as comissões
possíveis de serem formadas são equiprováveis. Temos que:
82
r = 6 N = 10 n = 5 Dessa forma, k pode variar de k =
0 até k = 5. No caso queremos k = 3, logo calculamos a
probabilidade por:
3 26 4
510
C CProb =
C
2.2.9 Distribuição Binomial como limite da
Hipergeométrica:
quando N→∞ e r → ∞
Da hipergeométrica temos: k n-k
r N-rnkN
C C p(X k) p =
C= =
Dividindo-se dois termos consecutivos, obtemos:
83
k
k-1
p = = p
k n-kr N-r
n k n-krN N-r
k-1 n-k+1 k-1 n-k+1r rN-r N-r
nN
C C C C C
C C C C
C
=
(N r)!r!
k! r k ! (n k)! N r n k !
(N r)!r! (k 1)! r k 1 ! (n k 1)! N r n k 1 !
−− − − − +
−− − + − + − − + −
=
ou seja k
k-1
p r-k+1 n-k+1 p k (N-r-n+k) =
Façamos p = r / N, onde N→∞ e r → ∞ de modo que a
indeterminação r / N leva a um valor de p finito. Então,
k
k-1N
p N p - k + 1 n - k + 1
p k (N - N p - n + k)lim →∞
=
Obtemos então a seguinte expressão após o cálculo do limite:
84
k
k-1
p p n-k+1
p (1-p)k =
ou seja, k k-1
p n-k+1p p
(1-p) k =
Coloquemos os termos pk em função dos pk-1 desde k = 1
até k = k, e a seguir multipliquemos membro a membro as k
equações obtidas.
Logo, 1 0
n pp = p
1 q
2 1
n-1 pp = p
2 q multiplicando-se
3 2
n-2 pp = p
3 q membro a membro
. obtém-se:
85
. k
k 0k
n(n-1)...(n-k+1) pp = p
k! q
k k-1
n-k+1 pp = p
k q
Cálculo de p0 : O valor de p0 ocorre quando escolhemos
todos os n elementos com característica Ā . Como r → ∞ e
N→∞, N-r também tende para infinito tornando o espaço
amostra N-r infinito e contável, pois estamos retirando
valores discretos. Dessa forma, para um valor n finito, o
valor de p praticamente não se altera à medida que vamos
retirando n eventos do tipo Ā. Dessa forma, com p
constante, a probabilidade de não se obter nenhum evento do
tipo A, ou seja, todos eventos do tipo Ā, em n realizações
será :
86
p0 = (1-p)n = qn
Então finalmente obtemos:
kn
k k
n(n-1)...(n-k+1) pp = (1-p)
k! q ou ainda
kn k k n-k
k nk
n! pp = (1-p) = C p (1-p)
(n-k)! k! q
que é a expressão da distribuição Binomial.
Exemplo: Cálculo da Hipergeométrica com
r = 5000, N = 10050 e n=100:
O cálculo direto usando a função HYGEPDF do Matlab
resulta no seguinte gráfico:
87
O cálculo usando a função BINOPDF do Matlab resulta no
seguinte gráfico:
2.2.9 Distribuição Multinomial
Seja uma experiência onde o espaço amostra X é constituído
dos eventos X1, X2, X3, ... , Xk. Todos esses eventos são
disjuntos e formam uma partição do espaço amostra.
Suponha que a experiência aleatória é repetida N vezes.
A distribuição da variável aleatória “número de vezes que X1
ocorreu nas N repetições conjuntamente com o número de
88
vezes que X2 ocorreu nas N repetições e o número de vezes
que X3 ocorreu nas N repetições e etc, até o número de vezes
que Xk ocorreu nas N repetições” tem distribuição
multinomial.
A variável aleatória X multinomial tem função de
probabilidade dada por:
1 2 kn n n1 1 2 2 k k 1 2 k
1 2 k
N!p(X n , X n ,...X n ) p p ...p
n !n !...n != = = =
Um possível agrupamento seria como mostrado na figura
abaixo:
onde k k
i ii 1 i 1
n N e p 1= =
= =∑ ∑
pi = Prob{X = xi} = constante nas N repetições da
experiência aleatória. Essa variável aleatória pode ser vista
como uma v.a. k - dimensional.
X1 X1 ... X1 X2 X2 ... X2 . . . Xk Xk ...Xk n1 vezes n2 vezes nk vezes
89
2.2.10 Distribuição Binomial Negativa de parâmetros
k, r e p
Seja uma experiência aleatória com espaço amostra S
e um evento A de S. Considere N repetições dessa
experiência onde p(A) = p permanece constante durante as
N repetições. Define-se a v.a. X como o “número de vezes k
que A ocorre (número de sucessos de A) nas N repetições,
antes de ocorrer r falhas de A”. Diz-se que X tem
distribuição Binomial Negativa com parâmetros k, r e
p (onde N = k + r) e com função de probabilidade
dada por: k k rk+r-1p(X k) C p (1-p)= =
para k = 1, 2, ... N-r r = 1, 2, 3, ... e com N = k+r >
0
Espaço amostra: X = {1, 2, 3, … }
Cálculo da probabilidade p(X=k):
90
Tem-se uma experiência aleatória e um evento A dessa
experiência, com probabilidade p(A) = p. Repete-se N vezes
a experiência e p(A) permanece constante nas N repetições.
Qual a probabilidade de ocorrerem k sucessos de A, antes
da ocorrerência r falhas de A ?
O evento A pode ocorrer nas k primeiras vezes e não
ocorrer nas r demais vezes . Também pode ocorrer na 1a
vez, não ocorrer na 2a vez e ocorrer nas k-1 vezes posteriores
seguido de r-1 falhas e enfim, por diversas outras
possibilidades, desde que o total de vezes seja igual a k + r.
Temos então algumas maneiras de ocorrência:
1
A...A...A A...A...A A...A...A AAA...A...A
A...A...AAAA...A...AAA
−
+
1424314243 142431442443
14444244443
k vezes r vezes k vezes r vezes A
k r vezes
ou ou
91
Pode ocorrer qualquer agrupamento contendo o
aparecimento de A em k posições e A aparecendo r vezes,
sendo necessariamente que na última posição de qualquer
agrupamento tem que aparecer A , pois seria a última falha
após os k sucessos de A.
A probabilidade de qualquer desses agrupamentos é dada
por: pk (1-p)r
As ocorrências são permutações de qualquer
agrupamento acima, sendo que o último não pode ser
permutado, ou seja, tem que permanecer A . Logo o número
total de vezes em que isso ocorre é dado por: k, r-1k+r-1PR , que
nesse caso particular é dado por: k k r-1 r-1k+r-1 N-1 k+r-1 N-1C C C C= = = .
Então a probabilidade de A ocorrer k vezes, A ocorrer r-1
vezes e de A ocorrer na última posição, é dada por:
k k rk+r-1P(X k) C p (1-p) onde p P(A)= = =
ou pode ser escrita semelhante a distribuição binomial:
k k N-kN-1P(X k) C p (1-p) onde N k r= = = +
92
Exemplo: Façamos k variar de 0 a 100, com r = 3 e p = 0.9
Usando o Matlab podemos fazer os gráficos da função densidade de probabilidade e da função acumulada dessa distribuição. Para tal usamos o seguinte programa:
x=(0:100); y=nbinpdf(x,3,0.1); figure; stem(x,y); figure; z=nbincdf(x,3,0.1); stem(x,z) Note que no matlab usamos como parâmetro, o valor de q = 0,1 = 1 – p
93
2.3 Variáveis aleatórias contínuas:
Neste caso não tem sentido em se falar em probabilidade
de um único valor, pois,
número de casos favoráveis 1P(X um valor qualquer ) 0
número de casos possíveis= = = →
∞
Existe então uma função fX(x) chamada de função
densidade de probabilidade tal que:
b
Xa
P(a X b) f (x) dx< ≤ = ∫
Restrição sobre fX(x):
fX(x) negativa em (a,b)
94
fX(x) não pode ter valores negativos, pois senão aconteceria
XP(a X b) f (x)dx
b
a< ≤ = ∫ < 0 o que não faz sentido.
Além disso, essa função deve satisfazer a seguinte relação:
Xf (x) dx 1 100%∞
−∞= =∫
A função densidade de probabilidade dá a medida de
chance de um determinado evento por unidade do que se está
avaliando. Como exemplo, suponhamos que temos um sinal
de tensão elétrica, o qual não podemos expressar a sua forma
de onda através de uma fórmula fechada. Por exemplo, no
f(x)
0 x
f(x) ≥ 0 x ε IR
95
gráfico a seguir temos uma forma de onda que não tem uma
expressão fechada de sua variação ao londo do tempo, é um
sinal aleatório.
Podemos expressar a sua função “chance de eventos por
unidade de Volts”, ou seja, a probabilidade da tensão em
qualquer instante de tempo estar entre dois níveis quaisquer
de voltagem especificados. A sua função densidade de
96
probabilidade, a qual está desenhada sobre o histograma do
sinal, é mostrada a seguir.
Seguem-se as definições de algumas variáveis aleatórias
contínuas com seus espaços amostras e as respectivas
funções densidade de probabilidade:
97
2.3.1 Distribuição Uniforme com parâmetros a, b
A v.a. tem distribuição de Uniforme quando sua função
densidade de probabilidade é constante no intervalo onde é
definida essa variável aleatória e é dada por
fX(x) = c onde c = 1 / (b-a) b > a e
c é a constante que vale o inverso do “tamanho” do
intervalo.
Diz-se que X é uniformemente distribuída no intervalo (a,b).
X
1 X (a,b)
(b-a)f (x) =
0 X (a,b)
∈ ∉
f(x) c x 0 a b
98
É uma distribuição similar a: No. casos favoraveisNo. casos possíveis
pois a Prob(c < X < d) =
d
c
(d-c)1 Tamanho do intervalo de c até d dx =(b-a)b-a Tamanho total do intervalo = b-a
=∫
Aplicações da distribuição uniforme:
• Seja a experiência que consiste na escolha aleatória de
um número num dado intervalo (a,b). A distribuição de
probabilidade da variável aleatória X = {número
escolhido no intervalo dado} tem distribuição uniforme
nesse intervalo.
• Constantemente processamos sinais que são analógicos,
como sinais digitais. Para isso necessitamos converter o
sinal analógico em digital passando-o através de um
conversor analógico digital (conversor A/D). O período
de amostragem deve satisfazer à taxa de Nyquist do
99
sinal. Caso o número de níveis significativos (número
de níveis quantizados da amplitude) em que esse sinal é
transformado for maior que um dado valor
(normalmente 64 níveis, ou seja, 6 bits), então a
variação do sinal analógico entre dois níveis de
quantização consecutivos obedece a uma distribuição
uniforme, conforme mostrado na figura a seguir.
Volts
n∆ (n+1)∆
Prob./ Volts
1/∆
Figura da Prob da variação da tensão entre dois intervalos consecutivos; n=0, 1, 2, etc.
100
2.3.2 Distribuição Gaussiana ou Normal
com parâmetros m e σ2
A v.a. tem distribuição de Gaussiana ou Normal quando sua
função densidade de probabilidade é dada por:
22
(x-m)-2σ
X1f (x) = e
σ 2π x ε IR onde 2σ= σ
A distribuição Normal tem uma importância fundamental em diversas áreas da ciência, ou seja, muitos fenômenos físicos são modelados como distribuição Normal. Isso se deve na maioria dos casos à propriedade da normalidade da soma de um número grande de variáveis aleatórias independentes, conforme será visto mais adiante através do teorema do limite central.
101
Exemplos a) m = 50 σ2 = 9
b) m = 50 σ2 = 100
c) m = 50 σ2 = 225
102
Observações:
1. A distribuição Normal é comumente utilizada entre os
limites da variável X de m - 3σ a m + 3σ onde a
probabilidade entre esses dois limites é de 99,74%.
2. Em alguns casos a variação de X pode exceder esses
limites como é o caso do cálculo da probabilidade de
êrro na transmissão digital de símbolos. No caso
transmissão digital, como a probabilidade de êrro
assume valores da ordem de 10-3 ou inferior, usa-se uma
função específica para se obter a probabilidade desses
valores que é a função erro (erf ) ou então usa-se a
função erro complementar (erfc).
Exercícios de cálculo de probabilidade usando a distribuição
Normal:
A v.a. X1 é normal de média 0 e variância 1, isto é,
Prob(-15,81≤X2≤-0,909155) ≈ Prob(X2≤-0,909155) = 0,1816 (valor obtido pela interpolação entre 0,1841 e 0,1816
Erro encontrado usando a Normal = 0.0004 ou seja, de 0.22%
107
A seguir são mostrados os gráficos das distribuições
Binomial e Normal do exemplo.
108
109
A seguir o programa em Matlab para fazer estes cálculos
assim como o gráfico da Binomial.
clear all;
close all;
% Cálculo usando a distribuição de probabilidade do Matlab
x=0.0:1.0:188;
y=BINOPDF(x,1000,0.2);
soma=0.0;
for i=1:189
soma=soma+y(i);
end;
figure
plot(x,y);
figure
stem(x,y);
soma
% Cálculo da prob. usando fatoriais
somadireta=0.0;
110
fatorial=1.
for k=1:188
fatorial=fatorial*(1000-k+1)/k;
termo=(fatorial*0.2^k)*0.8^(1000-k);
somadireta=somadireta+termo;
end;
somadireta
Resultado: soma = somadireta = 0,1820
0 20 40 60 80 100 120 140 160 180 2000
0.005
0.01
0.015
0.02
0.025
111
2.3.4 Distribuição Exponencial com parâmetro a
A v.a. tem distribuição de Exponencial quando sua
função densidade de probabilidade é dada por
X-axf (x)=a com x >0 e a >0e
ou como aparece em alguns livros:
xb
Xef (x) com x 0 e b 0b
−= > >
A distribuição Exponencial é chamada distribuição contínua
sem memória, pois
Prob(X> s+t | X> s) = Prob(X> t)
onde s e t são reais quaisquer
112
2.3.5 Distribuição Gama com parâmetros a, p
Função Gama:
A integral p p 1 a.x p 1 x
0 0(p) a x e dx x e dx
∞ ∞− − − −Γ = =∫ ∫
é conhecida como função Gama. O gráfico de Γ(p) é mostrado a seguir:
Propriedades de Γ(p): 1. Γ(p) converge para p > 0. 2. Γ(1) =1 3. Γ(p+1) = p Γ(p) 4. Se p é inteiro, então: Γ(p) = (p-1)!
-5 -4 -3 -2 -1 0 1 2 3 4 5 -15
-10
-5
0
5
10
15
20
25
Γ(p)
p
113
5. Da relação Γ(p) = Γ(p+1) / p , extende-se o conceito para p < 0 e obtém-se o gráfico acima para p < 0.
6. 1
( )2
Γ = π
7. Se n é inteiro: n1.3.5...(2n 1)1(n )
2 2−Γ + = π
8. Se n é inteiro e par: n / 2
1.3.5...(n 1)n 1( )2 2
−+Γ = π
A variável aleatória X tem distribuição Gama (a,p) se sua função densidade de probabilidade é dada por:
pp 1 a.x
Xaf (x) x e x > 0(p)
− −=Γ
onde a e p são parâmetros da distribuição e Γ(p) é a função Gama.
114
2.3.6 Distribuição Qui-quadrado - χ2 com parâmetro n
É um caso particular da distribuição Gama quando a = 1 / 2 e p = n/2, sendo n um inteiro. A função densidade é dada por
n x12 2
X n2
1f (x) x e x > 0n2 ( )2
− −=
Γ
O índice n da χ2 é conhecido como grau de liberdade.
Gráfico da χ2:
0 1 2 3 4 5 6 7 8 9 100
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
0 1 2 3 4 5 6 7 8 9 10 0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
n=2
n=3
n=4
n=5 n=10
n ? ? : Normal n →∞ χ2 →Normal
115
Mais geral ainda, a distribuição χ2 tem a seguinte
função densidade de probabilidade:
2xn 1
22X n
n2
1f (x) x e x 0 e 0n2 ( )2
−− σ= > σ >Γ σ
onde n é inteiro. Observações:
1. Quando σ = 1, obtém-se a distribuição anterior que é conhecida realmente como distribuição χ2.
2. Se Y tem distribuição Normal (m=0; σ2 ) e, sendo X = Y2 então, a variável aleatória X terá distribuição χ2 com 1 grau de liberdade, isto é, n = 1.
3. A distribuição χ2 é usada em estatística quando se deseja obter intervalos de confiança para a razão entre a variância verdadeira amostral S2 de tamanho n e a variância da população σ2, ou seja,
2
2(n 1)S 2
n 1− →σ −χ (qui-quadrado com n-1 graus de
liberdade)
116
2.3.7 Distribuição Qui - χ com parâmetros σ, n Se uma variável aleatória X tem distribuição χ2 e se
fizermos X
Yn
= então a variável aleatória Y terá
distribuição χ A função densidade de probabilidade da distribuição χ é dada por:
2
2
n
2n y
n 1 2Y
n
n2
2f (y) y e y 0 e 0
n( )2
−− σ
= > σ >Γ σ
onde n é inteiro. 2.3.8 Distribuição de Student com parâmetro n (n graus de liberdade)
A variável aleatória X tem distribuição T de Student com n graus de liberdade, quando sua função densidade de probabilidade é dada por:
117
n 12 2
X
n 11 x2
f (x) 1 xn 2n2
+ −
+ Γ = + ∈ π Γ
�
Quando n → ∞ a distribuição de Student tende para a Normal(0;1). O gráfico da distribuição de Student é: Observações:
1. Essa distribuição de probabilidade foi descoberta por William Sealey Gosset usando o pseudônimo de “ Student of Statistics”.
-4 -3 -2 -1 0 1 2 3 4 0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
n = 1
n = 2
n = 100 Normal(0;1)
118
2. A distribuição T de Student é usada em estatística quando se deseja obter intervalos de confiança para a razão entre a média amostral de uma variável aleatória e sua variância verdadeira amostral.
2.3.9 Distribuição F de Snedecor com parâmetros m, n
A variável aleatória X tem distribuição F de Snedecor com m graus de liberdade no numerador e n graus de liberdade no denominador, quando sua função densidade de probabilidade é dada por:
mm 1
22
X m n
2
m nm x2
f (x) x 0m n n
m2 2 1 xn
−
+
+ Γ = > Γ Γ +
Obs.: A distribuição F de Snedecor é muito usada em estatística quando se deseja obter intervalos de confiança para a razão entre as variâncias amostrais de duas amostras independentes de uma mesma variável aleatória.
119
2.3.10 Distribuição de Cauchy ou distribuição de
Lorentzian com parâmetros α, β
A variável aleatória X tem distribuição de Cauchy com parâmetros α, β se sua função densidade de probabilidade é dada por:
120
X 2
1f (x) x 0 x1
= ∈ β > α∈−απ β +β
� �
A distribuição T de Student coincide com a distribuição de Cauchy, quando se coloca n = 1 na de Student e se coloca α = 0 com β = 1, na distribuição de Cauchy. 2.3.11 Distribuição de Rayleigh com parâmetro α
A variável aleatória X tem distribuição de Rayleigh se sua função densidade de probabilidade é dada por:
2
2
x
2X 2
xf (x) e x 0 e 0
−α= > α >
α
Na distribuição χ quando n = 2 e σ = α 2 , temos a distribuição de Rayleigh. A figura a seguir mostra o gráfico da distribuição de Rayleigh com α = 0,5
121
A distribuição de Rayleigh é muito aplicada em propagação de sinais eletromagnéticos.
Quando um sinal se propaga ele pode produzir um sinal principal, que normalmente é o que se deseja obter, e pode também produzir outros diversos sinais atrasados devido ao fenômeno de multipercurso. Dessa forma, tem-se a soma de um sinal principal e de componentes de multipercurso. A relação entre a potência do sinal principal e a potência devido a multipercursos é chamada de fator de Rician K.
A função densidade de probabilidade da envoltória da combinação dos sinais é conhecida como distribuição de Nakagami-Rice ou por distribuição de Rician e é dada por:
2(1 K)x KX 0f (x) 2 (1 K) x e J 2 x K(K 1) x 0
− + − = + + >
onde cos(u)0
1J ( ) e du
2
+πβ
−π
β =π ∫ é função de Bessel de 1a
espécie de ordem zero.
0 0.5 1 1.5 2 2.5 0
0.2
0.4
0.6
0.8
1
1.2
1.4
122
Quando a componente principal é zero, temos a distribuição de Rayleigh. 2.3.12 Distribuição Beta com parâmetros m, n Função Beta:
A integral 1 m 1 n 10
(m,n) x (1 x) dx− −β = −∫ é conhecida
como função Beta. • É simétrica em relação aos argumentos m e n:
ß(m,n) = ß(n,m) • Fazendo-se a transformação 2x sen ( )= θ tem-se a
integral /2 2m 1 2n 1
0(m,n) 2 (sen ) (cos ) d
π − −β = θ θ θ∫
que é outra definição da função beta • Fazendo-se a transformação 1
1 yx
+= tem-se a integral
n 1
m n0y
(1 y)(m,n) dy
−+
∞
+β = ∫ que é outra definição da
função beta
• Pode-se mostrar que (m) (n)(m,n)(m n)
Γ Γβ =Γ +
onde Γ(r) é
a função gama no ponto r.
123
A variável aleatória X tem distribuição Beta com parâmetros m e n se sua função densidade de probabilidade é dada por:
a 1 b 11f (x) x (1 x) 0 x 1(a,b)
− −= − < <β
a e b são
inteiros positivos Seguem-se alguns gráficos da distribuição beta com: a = 10 e b = 10; a = 10 e b = 5; a = 5 e b = 10.
124
125
2.3.13 Distribuição Log-Normal com parâmetros m, σ2
Se a variável aleatória X tem distribuição N(m,σ2) então a v.a. Y = eX tem distribuição log-normal, ou seja, Ln(Y) tem distribuição N(m,σ2). A função densidade de probabilidade de Y será:
2
2(Ln(y) m)
2 01f (y) e y (0, ) m
y 2+
−−σ σ >= ∈ ∞ ∈
π σ�
A distribuiçaõ lognormal tem aplicabilidade onde existe um fenômeno aleatório o qual é resultante da multiplicação de um grande número de variáveis aleatórias independentes. Nesse caso, conforme será visto mais adiante através do teorema do limite central, a soma dos logaritmos das variáveis tendem a se tornar uma variável aleatória normal. 2.3.14 Distribuição Dupla Exponencial ou Laplace com parâmetros α, β
A variável aleatória X tem distribuição de Laplace com parâmetros α, β se sua função densidade de probabilidade é dada por:
x1f (x) e 0
2
−α−
β= α∈ β>β
�
126
2.3.15 Distribuição Logística com parâmetros α, β
A variável aleatória X tem distribuição de Logística com parâmetros α, β se sua função densidade de probabilidade é dada por:
1f(x) x 0x1 exp
= ∈ α∈ β>−α+ −β
� �
Obs.: A distribuição logistica foi descoberta por Pierre Verhulst para caracterizar o aumento de populações (humanas ou não humanas). 2.3.16 Distribuição de Pareto com parâmetros θ, x0
A variável aleatória X tem distribuição de Pareto com parâmetros θ, x0 se sua função densidade de probabilidade é dada por:
10
0 00
xf (x) x (x , ) 0 x 0x x
θ+θ= ∈ ∞ θ> >
127
2.3.17 Distribuição de Erlang com parâmetros λ e n. A variável aleatória X tem distribuição de Erlang com
parâmetros λ e n se sua função densidade de probabilidade é dada por:
n 1
x 0 e n Nx( x)f (x)(n 1)!
e−≥ ∈−λλ λ=
−
onde N é o conjunto dos números naturais 1, 2, 3 ... Obs.: A distribuição de Erlang é usada em telefonia e define o tempo de espera de n eventos com distribuição de Poisson de parâmetro λ. A distribuição de Erlang é um caso particular da distribuição Gama quando se faz p igual a n, inteiro. 2.3.18 Distribuição de Weibull
A variável aleatória X tem distribuição de Weibull com parâmetros a e b se sua função densidade de probabilidade é dada por:
bb-1 - a x f(x) = a b x e x > 0 a,b > 0
Obs.: A distribuição de Weibull foi estabelecida por Waloddi Weibull, para modelar o tempo de duração de
128
componentes ou máquinas. Com b = 1, essa distribuição se torna a distribuição exponencial. 2.4 Variáveis aleatórias mistas: São aquelas que têm parte discreta e parte contínua como mostrado na figura a seguir. Exemplo de variável aleatória mista: Um sinal aleatório X tem como distribuição de probabilidade da sua excursão de tensão, uma Normal de parâmetros m = 0 e σ = 30 mVolt. Esse sinal passa por um limitador de tensão tal que a saida é
dada por: 1 x 1
y x 1 x 1
1 x 1
− < −= − < < >
f(x)
0 x
x0 x1
p(x0) δ(x-x0) p(x1) δ(x-x1)
a b
1 dx f(x) )p(x )p(x 10 ∫ =++b
a
x y
129
Qual a distribuição da variável aleatória Y ?
2
2
y32
Y1
f (y) e y ( 1 ,1) e onde 30.102
−−σ= ∈ − σ =
π σ
p(Y= - 1) = p(Y= 1) = 0,0039
2.5 Distribuição truncada
A distribuição de uma variável aleatória é dita truncada quando a variável tem uma distribuição de probabilidade expressa por uma dada função densidade de probabilidade, de forma geral, uma distribuição conhecida, porém a variável aleatória só assume a dada distribuição num intervalo. Fora desse intervalo, a variável aleatória é, por exemplo, nula. Exemplo: Para uma disciplina lecionada por um professor ao longo de anos, verificou-se que as notas dos alunos seguem uma distribuição Normal de parâmetros m e σ2
y
-1 0 1
fY(y)
p(Y=1) δ(y-1) p(Y=-1) δ(y+1)
130
iguais respectivamente a 5,0 e 3,0. Escreva a expressão da função densidade de probabilidade dessas notas. Resposta: Obviamente neste caso, a variável aleatória “nota na disciplina” não pode ser maior que 10 e nem menor que zero. Então, seja X a variável aleatória cuja função de distribuição é Normal (m=5; σ2 =3), então da tabela da Normal vemos que a P( 0 ≤ X ≤ 10) ≈ 0,996135 Logo a função densidade da variável aleatória Y Normal (m=5; σ2
=3) válida somente para y ∈ [0 , 10] é igual a de X, normalizada nesse intervalo e é dada por:
2
2
(y 5)
2
Y1 e
f (y) y [0 , 10]0,9961352
−−
σ= ∈
π σ
Gráfico resultante:
0 1 2 3 4 5 6 7 8 9 1 0 0 .02
0 .04
0 .06
0 .08
0 .1
0 .12
0 .14
131
2.6 Variável aleatória de duas ou mais dimensões
2.6.1 Definição:
Seja uma experiência aleatória e S seu espaço amostra.
Sejam as funções X=X(s) e Y=Y(s), cada uma associando
um número real ao resultado s (s ε S). Denomina-se ao
par (X,Y) de uma v.a. bidimensional. Caso tenhamos várias
funções de s, X1(s), X2(s), ... Xn(s), teremos uma v.a. n-
dimensional (X1, X2,...,Xn)
2.6.2 Definição de função de probabilidade bidimensional
discreta (v.a. 2-D discreta):
Sendo (X,Y) uma v.a. discreta, associa-se a cada resultado
(xi,yj) i=1,... j=1,... um número p(xi,yj) para representar a
Prob{X=xi,Y=yj} e satisfazendo a:
1) p(xi, yj) ≥ 0 ∀ (xi,yj)
2)
i j
i j i j
x y
p(x , y ) 1 (x , y )= ∀∑∑
Esta função p(xi,yj) é chamada de função de probabilidade
conjunta de X e Y.
132
Obs.: É comum usar-se pXY(x,y) para se fazer a distinção
entre as respectivas distribuições marginais pX(x) e pY(y).
conjunta de X e Y, obter a densidade de X e a de Y.
142
(2x 3y)XY
f (x,y) 6e x 0 y 0− += > >
Logo, temos:
(2x 3y)X 0
2xf (x) 6e dy 2 e−∞ − += =∫
(2x 3y) 3yY 0
f (y) 6e dx 3e∞ − + −= =∫
2.8.3 Distribuições marginais da variável aleatória de três
dimensões
Nesse caso podemos ter as funções densidades
marginais de X, de Y, de Z, de XY, de XZ e de YZ:
Exemplo: marginal de X
j k
X i i j ky z
,p (x ) p(x y ,z )=∑∑
marginal de XY
k
XY i j i j kz
p (x ,y ) p(x ,y ,z )=∑
143
2.9 Variáveis aleatórias independentes
Duas ou mais variáveis aleatórias são chamadas de
independentes quando a distribuição conjunta é igual ao
produto das distribuições marginais das variáveis aleatórias.
2.9.1 Sendo (X,Y) uma variável aleatória bidimensional
discreta com função de probabilidade conjunta igual a
p(x,y), então teremos:
pXY(x,y) = p(x) p(y)
onde pX(x) e pY(y) são respectivamente as distribuições
marginais de X e de Y.
2.9.2 Sendo (X,Y) uma variável aleatória bidimensional
contínua com função densidade de probabilidade conjunta
igual a f(x,y), então teremos:
fXY(x,y) = fX(x) fY(y)
onde fX(x) e fY(y) são respectivamente as distribuições
marginais de X e de Y.
144
2.9.3 Esses conceitos são extensivos às variáveis de três ou
mais dimensões. Por exemplo, sendo (X,Y,Z,W) é uma
variável aleatória contínua de quatro dimensões, se (X,Y) for
independente de (Z,W), teremos fXYZW(x,y,z,w) = fXY(x,y)
fZW(z,w); caso a variável X seja independente de (Y,Z,W)
teremos que a fXYZW(x,y,z,w) = fX(x) fYZW(y,z,w) e assim
para quaisquer outro agrupamento das variáveis. No
exemplo acima, se (X,Y) for independente de (Z,W) não
implica que X seja independente de (Y,Z,W) ou vice-versa.
2.10 Distribuição Condicionada
Tendo-se uma distribuição conjunta (X,Y) podemos
obter a distribuição condicionada a uma região do plano XY
ou a um intervalo de uma das variáveis ou a um ponto
específico do plano XY.
145
2.10.1 Condicionamento a uma região do plano XY
No caso de variável aleatória discreta tem-se:
XYXY
XYx y
(x,y) Região R
p (x,y) p (x,y / (x,y) Região R) = (x,y) R
p (x,y)
∈
∈ ∈∑∑1442443
2.10.2 Condicionamento a um intervalo de X ou de Y
No caso de variável aleatória discreta tem-se:
XYx Q
YXY
x Q y
p (x,y)
p (y / X Q) = p (x,y)
∈
∈
∈∑∑∑
onde Q = (x1,x2)
2.10.3 Condicionamento a ponto de X ou de Y
No caso de variável aleatória discreta tem-se:
XY 0Y 0
XY 0
f (x ,y) f (y / X = x ) =
f (x ,y) dy∫
desde que XY 0f (x ,y) dy > 0∫ caso contrário, não faz
sentido o condicionamento.
146
3. Função de Distribuição ou Função Acumulada
A função de distribuição de uma variável aleatória de uma dimensão é definida como: F(x) = Pr( X ≤ x ) Da definição temos:
i
ix x
x
X
quando X é umap(x )
variável aleatória discreta
F(x)quando X é uma
f (u) duvariável aleatória contínua
≤
−∞
=
∑
∫
A função de distribuição de uma variável aleatória tem duas assíntotas: uma quando x → -∞ e nesse caso, F(x) = 0 e outra quando x → +∞ e nesse caso, F(x) = 1. 3.1 Função de distribuição (acumulada) de variáveis
discretas
3.1.1 Função de distribuição da variável aleatória discreta equiprovável, assumindo valores do conjunto X = {1, 2, 3, 4, 5, 6} Nesse caso, p(xi) = 1/6 i=1,...,6
147
A função de distribuição é mostrada na figura a seguir. Nota-se que a função é constante para valores diferentes dos eventos elementares; a função tem uma discontinuidade (salto) para os valores dos eventos elementares. Então, a funçao acumulada dá saltos toda vez que tivermos um valor de probabilidade positivo, não nulo e essa probabilidade é igual ao valor da descontinuidade da função. 3.1.2 Função de distribuição da variável aleatória discreta Binomial (N;p)
k k N kN
k x
F(x) C p (1 p) −
≤
= −∑
1 2 3 4 5 6
6/6 5/6 4/6 3/6 2/6 1/6
x
F(x) F(x) = 1
F(x) = 0
148
Gráfico resultante da função acumulada da Binomial (20; 0,2):
Gráfico da distribuição de probabilidade da Binomial (20;0,2):
149
3.2 Função de distribuição (acumulada) de variável aleatória contínua 3.2.1 Seja X uma v.a. uniformemente distribuída em (2 , 10):
Então a função acumulada é dada por:
x
X
2
0 para x 2
1 x 2F (x) du para 2 x 10
8 8
1 para x 10
≤ −= = < ≤
>
∫
Gráfico resultante da função de distribuição da variável aleatória uniforme em (2 , 10):
2 10
x F(x) = 0
F(x) F(x) = 1,0
2 10
c
x
fX(x)
c = 1/ 8
150
3.2.2 Seja X um variável aleatória Normal (0;1) Sendo X Normal, sua função densidade de probabilidade é dada por:
2x
2X
1f (x) e x
2
−= ∈
π�
A função acumulada é obtida por: x
X-F(x) = f (u) du
∞∫ e
tem o formato mostrado na figura a seguir.
-4 -3 -2 -1 0 1 2 3 4 0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Gráfico da função de distribuição da Normal (0;1)
151
3.3 Propriedades de F(x):
1) F(x) é definida à direita do ponto x.
2) 0
lim∈→
F(x-e) = Pr( X < x) = Pr(X ≤ x) - Pr(X=x)
3) F(x) é uma função não decrescente em x.
4) Se X é v.a. contínua em (a,b)
então F(x) dx
d f(x) = para x ε (a,b)
5) A função F(x) é limitada: 0 ≤ F(x) ≤ 1 x ε IR
6) Assíntota inferior: F(-∞) = 0. assíntota em y=0, sendo y = F(x)
7) Assíntota superior: F(+∞) = 1. assíntota em y=1, sendo y = F(x)
152
3.4 Função de distribuição (acumulada) da variável
aleatória bidimensional
F(x,y) = P{X≤x, Y≤y}
Propriedades:
1) F(x,y) ε [0,1]
2) F(x,y) é uma função não decrescente em x e
não decrescente em y.
3) F(+∞ , +∞ ) = 1,0
4) F(- ∞ , - ∞ ) = F(-∞ , y) = F(x, - ∞ ) = 0
5) F( x, + ∞ ) = F(x)
6) F(+ ∞ , y) = F(y)
y
x
x1
y1
F(x1,y1) = P{X≤x1, Y≤y1}
153
Exemplo 3.1
1) Dada a função de probabilidade bidimensional (X,Y)