7/23/2019 Minicurso R SBPO 2010 http://slidepdf.com/reader/full/minicurso-r-sbpo-2010 1/61 O software R como instrumento de ensino em Estatística Básica Gastão Coelho Gomes, [email protected]João Ismael Damasceno Pinheiro [email protected]Sonia Baptista da Cunha, [email protected]Santiago Ramírez Carvajal [email protected]http://www.r-project.org “Estatística Básica: A Arte de Trabalhar com Dados”, Ed. Campus-Elsevier. Rio de Janeiro, (2008). Pinheiro J. I. D.; Cunha, S.; Ramirez, S. C.; e Gomes, C. G.
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
O software R como instrumentode ensino em Estatiacutestica Baacutesica
Gastatildeo Coelho Gomes gastaoimufrjbr
Joatildeo Ismael Damasceno Pinheiro jismaelimufrjbr Sonia Baptista da Cunha soniaimufrjbr
Santiago Ramiacuterez Carvajal sramirezoicombr
httpwwwr-projectorg
ldquoEstatiacutestica Baacutesica A Arte de Trabalhar com DadosrdquoEd Campus-Elsevier Rio de Janeiro (2008)Pinheiro J I D Cunha S Ramirez S C e Gomes C G
bull A Estatiacutestica eacute uma ferramenta importante para se obterinformaccedilatildeo de uma massa de dados
bull O R eacute um pacote que oferece vaacuterias funccedilotildees jaacuteimplementadas dos mais variados meacutetodos estatiacutesticos
Aleacutem disso eacute tambeacutem um ambiente de programaccedilatildeoonde se ode usar o ue de bom ele aacute contem ara sedesenvolver novas implementaccedilotildees
bull Ambos a Pesquisa Operacional e o processo dedesenvolvimento de novos aplicativos em Estatiacutesticapodem se beneficiar dessa interaccedilatildeo
bull O que propomos eacute discutir as aplicaccedilotildees no R dosmeacutetodos baacutesicos de anaacutelise estatiacutestica
1) Cap 1 Anaacutelise Exploratoacuteria de DadosNo que se refere a medidas univariadas examinaremos estatiacutesticas de tendecircncia central localidade edispersatildeo (no R mean median var fivenum summary e quantile) graacuteficos de distribuiccedilotildees (no R barplot
pie hist stem e boxplot) Quanto agraves medidas bivariadas examinaremos a interdependecircncia atraveacutes dacovariacircncia correlaccedilatildeo graacutefico de dispersatildeo e tabelas de contigecircncias ( no R var cor plot table) Seraacutetambeacutem feita uma introduccedilatildeo agrave regressatildeo linear e ao meacutetodo de miacutenimos quadrados (no R lsfit e lsprint)
2) Cap 2-a Simulaccedilatildeo do conceito frequumlentista de probabilidadeMeacutetodo de Monte Carlo Atraveacutes de exemplos de jogos ldquocalcularemosrdquo probabilidades via simulaccedilatildeoexaminando a estabilidade da aproximaccedilatildeo
3) Cap 2-b Variaacuteveis Aleatoacuterias
Examinaremos no R os modelos probabiliacutesticos mais comuns de variaacuteveis aleatoacuterias discretas BinomialHipergeomeacutetrica Poisson e variaacuteveis aleatoacuterias contiacutenuas exponencial uniforme Normal e suasderivadas t-Student Qui-quadrada e F No R veremos o efeito da primeira letra a ser usada nos comandos
Assuntos abordados no minicurso
relativos aos modelos probabiliacutesticos ( p-probability d-density q-quantile e r-random)
4) Cap 2-c Simulaccedilatildeo e o Teorema Central do LimiteAtraveacutes de simulaccedilatildeo seraacute estudado o Teorema Central do Limite O efeito do tamanho amostral e dapopulaccedilatildeo de onde a amostra eacute extraiacuteda na aproximaccedilatildeo da distribuiccedilatildeo da meacutedia amostral de x peladistribuiccedilatildeo Normal
5) Cap 3-a Intervalo de confianccedilaSeratildeo feitas simulaccedilotildees para o entendimento do conceito de intervalo de confianccedila atraveacutes da geraccedilatildeopor simulaccedilatildeo de vaacuterias amostras e o posterior exame dos intervalos de confianccedila construiacutedos a partir decada uma dessas amostras
6) Cap 3-b Testes de HipoacutetesesSeratildeo recordados os principais componentes dos testes de hipoacuteteses erros tipos I e II com ascorrespondentes probabilidades p-valor Estudaremos o teste t de Student tanto pareado com natildeopareado para comparaccedilatildeo de duas populaccedilotildees teste quiquadrado para independecircncia e anaacutelise de
Trabalhando no RUsaremos aqui trecircs tipos de variaacuteveis
constantes ou vetoresSatildeo os tipos de armazenamento mais baacutesico de uma variaacutevel Se desejarmos que numavariaacutevel x esteja a altura (em cm) de 10 indiviacuteduos faremosgt x = c(172167189157163 156201186179152)Observe que o sinal ldquogtrdquo eacute um prompt do R o comando ldquoc()rdquo combina uma sequumlecircncia devalores numa variaacutevel que aqui foi chamada de ldquoxrdquo o comando ldquo=rdquo eacute de atribuiccedilatildeo
Experimente os comandos gt y= 110 gt x2 gt x+2 gtx+y gtxy gtz=x+y gt c
matr zesSatildeo geralmente bancos de dados com n linhas (as observaccedilotildees) e p colunas (as variaacuteveis)Todas devem ser da mesma caracteriacutestica geralmente numeacutericas Se desejarmos que numavariaacutevel ldquoaprdquo esteja na primeira coluna a altura (em cm) e na segunda o peso (em kg) de10 indiviacuteduos
gt ap = matrix(c(172167189157163 1562011861791526863899075 63951208060) 102) peso e alturaObserve que o comando ldquomatrixrdquo arruma os dados de um vetor numa matriz o default eacuteentrar com o vetor por colunas os paracircmetros ldquo10 2rdquo indicam respectivamente onuacutemero de linhas e colunas o comando indica que o que vem depois na mesma linhaeacute interpretado como uma observaccedilatildeo e natildeo eacute considerado
Experimente os comandos gtmatrix gt pa[12] gt pa[1] gt pa[1]
Trabalhando no Rdata frameSatildeo usados para armazenamento de bancos de dados com n linhas (as observaccedilotildees) e
p colunas (as variaacuteveis) Podem natildeo ser da mesma caracteriacutestica misturandoalfanumeacutericos com numeacutericos e fatores Este comando seria uacutetil por exemplo para lerum banco de dados gerado no ExcelNo R um data frame seria lido pelo comando readtable Vamos ler a tabela 12 pag 7 dolivro [1] para tanto foi gerado um arquivo no Excel de nome tab1_2tex
Apresentamos aqui a 3 linhas iniciais dos dados de um total de 45 a primeira
linha (apresentada aqui em duas) corresponde aos nomes das variaacuteveisID CATEG IDADE PESO ALTURA IMC Classe_IMC CINTURA ID1A615821540245normal87109080MRID2S696301520273sobrepeso89104086GRID3S617011580281sobrepeso106123086GR
Para armazenarmos os dados no objeto tab12 usaremos o comando
tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )Observe que header = T serve para indicar que existe uma linha com os nomes dasvariaacuteveis (T significa True) e sep indica o separador no caso viacutergula
Experimente os comandosgtreadtable tab12[2]gt attach(tab12) CATEGgt tab12[3] IDADE
Cap 1 Analise Exploratoacuteria de Dados (AED)Anaacutelise Exploratoacuteria eacute um conjunto de teacutecnicas de tratamento de dados que semimplicar em uma fundamentaccedilatildeo matemaacutetica mais rigorosa nos ajuda a tomar um
primeiro contato com a informaccedilatildeo disponiacutevel
Em um levantamento de dados a respeito de um determinado assunto eles costumamser representados em uma tabela de dados Em uma tabela de dados cada linhacorresponde a uma observaccedilatildeo e cada coluna corresponde a uma variaacutevel
As variaacuteveis podem ser
Qualitativa nominal ou categoacuterica - seus valores possiacuteveis satildeo diferentes categoriasnatildeo ordenadas
- Quantitativa discreta - seus valores possiacuteveis satildeo resultados de um processo de
contagemQuantitativa contiacutenua - seus valores possiacuteveis podem ser expressos atraveacutes de
nuacutemeros reaisPara descrever o comportamento de uma variaacutevel eacute comum apresentar os valores que
ela assume organizados sob a forma de tabelas de frequecircncia e graacuteficos Os graacuteficosmais comuns para representarem variaacuteveis qualitativas satildeo os graacuteficos de barras e osgraacuteficos de setores
Usar para uma variaacutevel x que deve ser agrupada os comandos barplot(table(x))
pie(table(x)) Os principais argumentos desses comandos satildeo
x um vetor de quantidades positivas Os valores em x representam a proporccedilatildeoobrigatoacuterio
beside se as barras seratildeo de lado ou empilhadas essa eacute uma variaacutevel do tiposucesso(Ttrue) ou fracasso (F false) o default eacute F Como exemplo olhar oapecircndice Figura 22
xlab corresponde ao tiacutetulo da variaacutevel x (natildeo obrigatoacuterio) o mesmo para ylab
xlim dois valores que correspondem aos limites no graacutefico da variaacutevel x (ylim)
space - quantidade de espaccedilo agrave esquerda antes de cada barra Se matrix podem ser 2valores o rimeiro barras do mesmo ru o e o se undo entre ru os
Cap1ndashAED barplot pie
col vetor informando as cores das barras Ver apecircndice
pie(x labels = names(x) edges = 200 col=NULL)Onde
x um vetor de quantidades positivas Os valores em x representam as proporccedilotildeeslabels um vetor de caracteres fornecendo nomes para os setores (natildeo obrigatoacuterio)
edges um inteiro A linha do ciacuterculo eacute aproximada por um poliacutegono com este
Para as variaacuteveis quantitativas os mais usados satildeo os Histogramas e os Diagramas Ramo-folhascujos comandos satildeo gthist(x) gt stem(x) Existe tambeacutem um comando chamado gtcut
que classifica uma variaacutevel numeacuterica Os principais argumentos do comando hist satildeo
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)
breaks vetor com os limites das classes
freq variaacutevel loacutegica se T (True) corresponde agrave contagem de cada classe se F (False) equivale adensidade de probabilidade a aacuterea total sob a curva (retacircngulos) teria soma 1
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F satildeo fechadas agrave esquerda
Cap1ndashAED stem cut table
main tiacutetulo principal
xlab e ylab roacutetulos dos eixos x e y respectivamente
xlim e ylim Dois valores limites para o graacutefico de cada uma das variaacuteveis
cut(x breaks right = T ) Onde
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)breaks vetor com os limites das classes
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F agrave esquerda
Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo
gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um
vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos
o comando quantile(xc(02505075))
Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))
Cap1-AED Medidas (estatiacutesticas)
O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser
um vetor Por exemplo
gt quantile(nt c(20 50 95))
20 50 95
1306 1930 3582
Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento
dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais
conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro
gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92
Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado
Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)
Min 1st Qu Median Mean 3rd Qu Max
860 1410 1930 2002 2330 4570
Cap1-AED IEQ fivenum boxplot
O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)
Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt
Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis
cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)
gt table(CATEG Classe_IMC)Classe_IMC
CATEG normal sobrepesoA 18 4
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas
Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46
gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28
Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de
dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)
Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees
matemaacuteticas (equivalentes) a seguir
O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa
bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y
pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x
bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo
yxn
n
i
n
i sumsum
O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo
O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
bull A Estatiacutestica eacute uma ferramenta importante para se obterinformaccedilatildeo de uma massa de dados
bull O R eacute um pacote que oferece vaacuterias funccedilotildees jaacuteimplementadas dos mais variados meacutetodos estatiacutesticos
Aleacutem disso eacute tambeacutem um ambiente de programaccedilatildeoonde se ode usar o ue de bom ele aacute contem ara sedesenvolver novas implementaccedilotildees
bull Ambos a Pesquisa Operacional e o processo dedesenvolvimento de novos aplicativos em Estatiacutesticapodem se beneficiar dessa interaccedilatildeo
bull O que propomos eacute discutir as aplicaccedilotildees no R dosmeacutetodos baacutesicos de anaacutelise estatiacutestica
1) Cap 1 Anaacutelise Exploratoacuteria de DadosNo que se refere a medidas univariadas examinaremos estatiacutesticas de tendecircncia central localidade edispersatildeo (no R mean median var fivenum summary e quantile) graacuteficos de distribuiccedilotildees (no R barplot
pie hist stem e boxplot) Quanto agraves medidas bivariadas examinaremos a interdependecircncia atraveacutes dacovariacircncia correlaccedilatildeo graacutefico de dispersatildeo e tabelas de contigecircncias ( no R var cor plot table) Seraacutetambeacutem feita uma introduccedilatildeo agrave regressatildeo linear e ao meacutetodo de miacutenimos quadrados (no R lsfit e lsprint)
2) Cap 2-a Simulaccedilatildeo do conceito frequumlentista de probabilidadeMeacutetodo de Monte Carlo Atraveacutes de exemplos de jogos ldquocalcularemosrdquo probabilidades via simulaccedilatildeoexaminando a estabilidade da aproximaccedilatildeo
3) Cap 2-b Variaacuteveis Aleatoacuterias
Examinaremos no R os modelos probabiliacutesticos mais comuns de variaacuteveis aleatoacuterias discretas BinomialHipergeomeacutetrica Poisson e variaacuteveis aleatoacuterias contiacutenuas exponencial uniforme Normal e suasderivadas t-Student Qui-quadrada e F No R veremos o efeito da primeira letra a ser usada nos comandos
Assuntos abordados no minicurso
relativos aos modelos probabiliacutesticos ( p-probability d-density q-quantile e r-random)
4) Cap 2-c Simulaccedilatildeo e o Teorema Central do LimiteAtraveacutes de simulaccedilatildeo seraacute estudado o Teorema Central do Limite O efeito do tamanho amostral e dapopulaccedilatildeo de onde a amostra eacute extraiacuteda na aproximaccedilatildeo da distribuiccedilatildeo da meacutedia amostral de x peladistribuiccedilatildeo Normal
5) Cap 3-a Intervalo de confianccedilaSeratildeo feitas simulaccedilotildees para o entendimento do conceito de intervalo de confianccedila atraveacutes da geraccedilatildeopor simulaccedilatildeo de vaacuterias amostras e o posterior exame dos intervalos de confianccedila construiacutedos a partir decada uma dessas amostras
6) Cap 3-b Testes de HipoacutetesesSeratildeo recordados os principais componentes dos testes de hipoacuteteses erros tipos I e II com ascorrespondentes probabilidades p-valor Estudaremos o teste t de Student tanto pareado com natildeopareado para comparaccedilatildeo de duas populaccedilotildees teste quiquadrado para independecircncia e anaacutelise de
Trabalhando no RUsaremos aqui trecircs tipos de variaacuteveis
constantes ou vetoresSatildeo os tipos de armazenamento mais baacutesico de uma variaacutevel Se desejarmos que numavariaacutevel x esteja a altura (em cm) de 10 indiviacuteduos faremosgt x = c(172167189157163 156201186179152)Observe que o sinal ldquogtrdquo eacute um prompt do R o comando ldquoc()rdquo combina uma sequumlecircncia devalores numa variaacutevel que aqui foi chamada de ldquoxrdquo o comando ldquo=rdquo eacute de atribuiccedilatildeo
Experimente os comandos gt y= 110 gt x2 gt x+2 gtx+y gtxy gtz=x+y gt c
matr zesSatildeo geralmente bancos de dados com n linhas (as observaccedilotildees) e p colunas (as variaacuteveis)Todas devem ser da mesma caracteriacutestica geralmente numeacutericas Se desejarmos que numavariaacutevel ldquoaprdquo esteja na primeira coluna a altura (em cm) e na segunda o peso (em kg) de10 indiviacuteduos
gt ap = matrix(c(172167189157163 1562011861791526863899075 63951208060) 102) peso e alturaObserve que o comando ldquomatrixrdquo arruma os dados de um vetor numa matriz o default eacuteentrar com o vetor por colunas os paracircmetros ldquo10 2rdquo indicam respectivamente onuacutemero de linhas e colunas o comando indica que o que vem depois na mesma linhaeacute interpretado como uma observaccedilatildeo e natildeo eacute considerado
Experimente os comandos gtmatrix gt pa[12] gt pa[1] gt pa[1]
Trabalhando no Rdata frameSatildeo usados para armazenamento de bancos de dados com n linhas (as observaccedilotildees) e
p colunas (as variaacuteveis) Podem natildeo ser da mesma caracteriacutestica misturandoalfanumeacutericos com numeacutericos e fatores Este comando seria uacutetil por exemplo para lerum banco de dados gerado no ExcelNo R um data frame seria lido pelo comando readtable Vamos ler a tabela 12 pag 7 dolivro [1] para tanto foi gerado um arquivo no Excel de nome tab1_2tex
Apresentamos aqui a 3 linhas iniciais dos dados de um total de 45 a primeira
linha (apresentada aqui em duas) corresponde aos nomes das variaacuteveisID CATEG IDADE PESO ALTURA IMC Classe_IMC CINTURA ID1A615821540245normal87109080MRID2S696301520273sobrepeso89104086GRID3S617011580281sobrepeso106123086GR
Para armazenarmos os dados no objeto tab12 usaremos o comando
tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )Observe que header = T serve para indicar que existe uma linha com os nomes dasvariaacuteveis (T significa True) e sep indica o separador no caso viacutergula
Experimente os comandosgtreadtable tab12[2]gt attach(tab12) CATEGgt tab12[3] IDADE
Cap 1 Analise Exploratoacuteria de Dados (AED)Anaacutelise Exploratoacuteria eacute um conjunto de teacutecnicas de tratamento de dados que semimplicar em uma fundamentaccedilatildeo matemaacutetica mais rigorosa nos ajuda a tomar um
primeiro contato com a informaccedilatildeo disponiacutevel
Em um levantamento de dados a respeito de um determinado assunto eles costumamser representados em uma tabela de dados Em uma tabela de dados cada linhacorresponde a uma observaccedilatildeo e cada coluna corresponde a uma variaacutevel
As variaacuteveis podem ser
Qualitativa nominal ou categoacuterica - seus valores possiacuteveis satildeo diferentes categoriasnatildeo ordenadas
- Quantitativa discreta - seus valores possiacuteveis satildeo resultados de um processo de
contagemQuantitativa contiacutenua - seus valores possiacuteveis podem ser expressos atraveacutes de
nuacutemeros reaisPara descrever o comportamento de uma variaacutevel eacute comum apresentar os valores que
ela assume organizados sob a forma de tabelas de frequecircncia e graacuteficos Os graacuteficosmais comuns para representarem variaacuteveis qualitativas satildeo os graacuteficos de barras e osgraacuteficos de setores
Usar para uma variaacutevel x que deve ser agrupada os comandos barplot(table(x))
pie(table(x)) Os principais argumentos desses comandos satildeo
x um vetor de quantidades positivas Os valores em x representam a proporccedilatildeoobrigatoacuterio
beside se as barras seratildeo de lado ou empilhadas essa eacute uma variaacutevel do tiposucesso(Ttrue) ou fracasso (F false) o default eacute F Como exemplo olhar oapecircndice Figura 22
xlab corresponde ao tiacutetulo da variaacutevel x (natildeo obrigatoacuterio) o mesmo para ylab
xlim dois valores que correspondem aos limites no graacutefico da variaacutevel x (ylim)
space - quantidade de espaccedilo agrave esquerda antes de cada barra Se matrix podem ser 2valores o rimeiro barras do mesmo ru o e o se undo entre ru os
Cap1ndashAED barplot pie
col vetor informando as cores das barras Ver apecircndice
pie(x labels = names(x) edges = 200 col=NULL)Onde
x um vetor de quantidades positivas Os valores em x representam as proporccedilotildeeslabels um vetor de caracteres fornecendo nomes para os setores (natildeo obrigatoacuterio)
edges um inteiro A linha do ciacuterculo eacute aproximada por um poliacutegono com este
Para as variaacuteveis quantitativas os mais usados satildeo os Histogramas e os Diagramas Ramo-folhascujos comandos satildeo gthist(x) gt stem(x) Existe tambeacutem um comando chamado gtcut
que classifica uma variaacutevel numeacuterica Os principais argumentos do comando hist satildeo
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)
breaks vetor com os limites das classes
freq variaacutevel loacutegica se T (True) corresponde agrave contagem de cada classe se F (False) equivale adensidade de probabilidade a aacuterea total sob a curva (retacircngulos) teria soma 1
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F satildeo fechadas agrave esquerda
Cap1ndashAED stem cut table
main tiacutetulo principal
xlab e ylab roacutetulos dos eixos x e y respectivamente
xlim e ylim Dois valores limites para o graacutefico de cada uma das variaacuteveis
cut(x breaks right = T ) Onde
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)breaks vetor com os limites das classes
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F agrave esquerda
Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo
gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um
vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos
o comando quantile(xc(02505075))
Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))
Cap1-AED Medidas (estatiacutesticas)
O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser
um vetor Por exemplo
gt quantile(nt c(20 50 95))
20 50 95
1306 1930 3582
Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento
dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais
conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro
gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92
Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado
Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)
Min 1st Qu Median Mean 3rd Qu Max
860 1410 1930 2002 2330 4570
Cap1-AED IEQ fivenum boxplot
O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)
Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt
Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis
cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)
gt table(CATEG Classe_IMC)Classe_IMC
CATEG normal sobrepesoA 18 4
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas
Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46
gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28
Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de
dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)
Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees
matemaacuteticas (equivalentes) a seguir
O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa
bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y
pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x
bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo
yxn
n
i
n
i sumsum
O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo
O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
1) Cap 1 Anaacutelise Exploratoacuteria de DadosNo que se refere a medidas univariadas examinaremos estatiacutesticas de tendecircncia central localidade edispersatildeo (no R mean median var fivenum summary e quantile) graacuteficos de distribuiccedilotildees (no R barplot
pie hist stem e boxplot) Quanto agraves medidas bivariadas examinaremos a interdependecircncia atraveacutes dacovariacircncia correlaccedilatildeo graacutefico de dispersatildeo e tabelas de contigecircncias ( no R var cor plot table) Seraacutetambeacutem feita uma introduccedilatildeo agrave regressatildeo linear e ao meacutetodo de miacutenimos quadrados (no R lsfit e lsprint)
2) Cap 2-a Simulaccedilatildeo do conceito frequumlentista de probabilidadeMeacutetodo de Monte Carlo Atraveacutes de exemplos de jogos ldquocalcularemosrdquo probabilidades via simulaccedilatildeoexaminando a estabilidade da aproximaccedilatildeo
3) Cap 2-b Variaacuteveis Aleatoacuterias
Examinaremos no R os modelos probabiliacutesticos mais comuns de variaacuteveis aleatoacuterias discretas BinomialHipergeomeacutetrica Poisson e variaacuteveis aleatoacuterias contiacutenuas exponencial uniforme Normal e suasderivadas t-Student Qui-quadrada e F No R veremos o efeito da primeira letra a ser usada nos comandos
Assuntos abordados no minicurso
relativos aos modelos probabiliacutesticos ( p-probability d-density q-quantile e r-random)
4) Cap 2-c Simulaccedilatildeo e o Teorema Central do LimiteAtraveacutes de simulaccedilatildeo seraacute estudado o Teorema Central do Limite O efeito do tamanho amostral e dapopulaccedilatildeo de onde a amostra eacute extraiacuteda na aproximaccedilatildeo da distribuiccedilatildeo da meacutedia amostral de x peladistribuiccedilatildeo Normal
5) Cap 3-a Intervalo de confianccedilaSeratildeo feitas simulaccedilotildees para o entendimento do conceito de intervalo de confianccedila atraveacutes da geraccedilatildeopor simulaccedilatildeo de vaacuterias amostras e o posterior exame dos intervalos de confianccedila construiacutedos a partir decada uma dessas amostras
6) Cap 3-b Testes de HipoacutetesesSeratildeo recordados os principais componentes dos testes de hipoacuteteses erros tipos I e II com ascorrespondentes probabilidades p-valor Estudaremos o teste t de Student tanto pareado com natildeopareado para comparaccedilatildeo de duas populaccedilotildees teste quiquadrado para independecircncia e anaacutelise de
Trabalhando no RUsaremos aqui trecircs tipos de variaacuteveis
constantes ou vetoresSatildeo os tipos de armazenamento mais baacutesico de uma variaacutevel Se desejarmos que numavariaacutevel x esteja a altura (em cm) de 10 indiviacuteduos faremosgt x = c(172167189157163 156201186179152)Observe que o sinal ldquogtrdquo eacute um prompt do R o comando ldquoc()rdquo combina uma sequumlecircncia devalores numa variaacutevel que aqui foi chamada de ldquoxrdquo o comando ldquo=rdquo eacute de atribuiccedilatildeo
Experimente os comandos gt y= 110 gt x2 gt x+2 gtx+y gtxy gtz=x+y gt c
matr zesSatildeo geralmente bancos de dados com n linhas (as observaccedilotildees) e p colunas (as variaacuteveis)Todas devem ser da mesma caracteriacutestica geralmente numeacutericas Se desejarmos que numavariaacutevel ldquoaprdquo esteja na primeira coluna a altura (em cm) e na segunda o peso (em kg) de10 indiviacuteduos
gt ap = matrix(c(172167189157163 1562011861791526863899075 63951208060) 102) peso e alturaObserve que o comando ldquomatrixrdquo arruma os dados de um vetor numa matriz o default eacuteentrar com o vetor por colunas os paracircmetros ldquo10 2rdquo indicam respectivamente onuacutemero de linhas e colunas o comando indica que o que vem depois na mesma linhaeacute interpretado como uma observaccedilatildeo e natildeo eacute considerado
Experimente os comandos gtmatrix gt pa[12] gt pa[1] gt pa[1]
Trabalhando no Rdata frameSatildeo usados para armazenamento de bancos de dados com n linhas (as observaccedilotildees) e
p colunas (as variaacuteveis) Podem natildeo ser da mesma caracteriacutestica misturandoalfanumeacutericos com numeacutericos e fatores Este comando seria uacutetil por exemplo para lerum banco de dados gerado no ExcelNo R um data frame seria lido pelo comando readtable Vamos ler a tabela 12 pag 7 dolivro [1] para tanto foi gerado um arquivo no Excel de nome tab1_2tex
Apresentamos aqui a 3 linhas iniciais dos dados de um total de 45 a primeira
linha (apresentada aqui em duas) corresponde aos nomes das variaacuteveisID CATEG IDADE PESO ALTURA IMC Classe_IMC CINTURA ID1A615821540245normal87109080MRID2S696301520273sobrepeso89104086GRID3S617011580281sobrepeso106123086GR
Para armazenarmos os dados no objeto tab12 usaremos o comando
tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )Observe que header = T serve para indicar que existe uma linha com os nomes dasvariaacuteveis (T significa True) e sep indica o separador no caso viacutergula
Experimente os comandosgtreadtable tab12[2]gt attach(tab12) CATEGgt tab12[3] IDADE
Cap 1 Analise Exploratoacuteria de Dados (AED)Anaacutelise Exploratoacuteria eacute um conjunto de teacutecnicas de tratamento de dados que semimplicar em uma fundamentaccedilatildeo matemaacutetica mais rigorosa nos ajuda a tomar um
primeiro contato com a informaccedilatildeo disponiacutevel
Em um levantamento de dados a respeito de um determinado assunto eles costumamser representados em uma tabela de dados Em uma tabela de dados cada linhacorresponde a uma observaccedilatildeo e cada coluna corresponde a uma variaacutevel
As variaacuteveis podem ser
Qualitativa nominal ou categoacuterica - seus valores possiacuteveis satildeo diferentes categoriasnatildeo ordenadas
- Quantitativa discreta - seus valores possiacuteveis satildeo resultados de um processo de
contagemQuantitativa contiacutenua - seus valores possiacuteveis podem ser expressos atraveacutes de
nuacutemeros reaisPara descrever o comportamento de uma variaacutevel eacute comum apresentar os valores que
ela assume organizados sob a forma de tabelas de frequecircncia e graacuteficos Os graacuteficosmais comuns para representarem variaacuteveis qualitativas satildeo os graacuteficos de barras e osgraacuteficos de setores
Usar para uma variaacutevel x que deve ser agrupada os comandos barplot(table(x))
pie(table(x)) Os principais argumentos desses comandos satildeo
x um vetor de quantidades positivas Os valores em x representam a proporccedilatildeoobrigatoacuterio
beside se as barras seratildeo de lado ou empilhadas essa eacute uma variaacutevel do tiposucesso(Ttrue) ou fracasso (F false) o default eacute F Como exemplo olhar oapecircndice Figura 22
xlab corresponde ao tiacutetulo da variaacutevel x (natildeo obrigatoacuterio) o mesmo para ylab
xlim dois valores que correspondem aos limites no graacutefico da variaacutevel x (ylim)
space - quantidade de espaccedilo agrave esquerda antes de cada barra Se matrix podem ser 2valores o rimeiro barras do mesmo ru o e o se undo entre ru os
Cap1ndashAED barplot pie
col vetor informando as cores das barras Ver apecircndice
pie(x labels = names(x) edges = 200 col=NULL)Onde
x um vetor de quantidades positivas Os valores em x representam as proporccedilotildeeslabels um vetor de caracteres fornecendo nomes para os setores (natildeo obrigatoacuterio)
edges um inteiro A linha do ciacuterculo eacute aproximada por um poliacutegono com este
Para as variaacuteveis quantitativas os mais usados satildeo os Histogramas e os Diagramas Ramo-folhascujos comandos satildeo gthist(x) gt stem(x) Existe tambeacutem um comando chamado gtcut
que classifica uma variaacutevel numeacuterica Os principais argumentos do comando hist satildeo
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)
breaks vetor com os limites das classes
freq variaacutevel loacutegica se T (True) corresponde agrave contagem de cada classe se F (False) equivale adensidade de probabilidade a aacuterea total sob a curva (retacircngulos) teria soma 1
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F satildeo fechadas agrave esquerda
Cap1ndashAED stem cut table
main tiacutetulo principal
xlab e ylab roacutetulos dos eixos x e y respectivamente
xlim e ylim Dois valores limites para o graacutefico de cada uma das variaacuteveis
cut(x breaks right = T ) Onde
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)breaks vetor com os limites das classes
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F agrave esquerda
Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo
gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um
vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos
o comando quantile(xc(02505075))
Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))
Cap1-AED Medidas (estatiacutesticas)
O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser
um vetor Por exemplo
gt quantile(nt c(20 50 95))
20 50 95
1306 1930 3582
Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento
dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais
conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro
gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92
Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado
Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)
Min 1st Qu Median Mean 3rd Qu Max
860 1410 1930 2002 2330 4570
Cap1-AED IEQ fivenum boxplot
O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)
Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt
Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis
cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)
gt table(CATEG Classe_IMC)Classe_IMC
CATEG normal sobrepesoA 18 4
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas
Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46
gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28
Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de
dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)
Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees
matemaacuteticas (equivalentes) a seguir
O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa
bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y
pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x
bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo
yxn
n
i
n
i sumsum
O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo
O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
Trabalhando no RUsaremos aqui trecircs tipos de variaacuteveis
constantes ou vetoresSatildeo os tipos de armazenamento mais baacutesico de uma variaacutevel Se desejarmos que numavariaacutevel x esteja a altura (em cm) de 10 indiviacuteduos faremosgt x = c(172167189157163 156201186179152)Observe que o sinal ldquogtrdquo eacute um prompt do R o comando ldquoc()rdquo combina uma sequumlecircncia devalores numa variaacutevel que aqui foi chamada de ldquoxrdquo o comando ldquo=rdquo eacute de atribuiccedilatildeo
Experimente os comandos gt y= 110 gt x2 gt x+2 gtx+y gtxy gtz=x+y gt c
matr zesSatildeo geralmente bancos de dados com n linhas (as observaccedilotildees) e p colunas (as variaacuteveis)Todas devem ser da mesma caracteriacutestica geralmente numeacutericas Se desejarmos que numavariaacutevel ldquoaprdquo esteja na primeira coluna a altura (em cm) e na segunda o peso (em kg) de10 indiviacuteduos
gt ap = matrix(c(172167189157163 1562011861791526863899075 63951208060) 102) peso e alturaObserve que o comando ldquomatrixrdquo arruma os dados de um vetor numa matriz o default eacuteentrar com o vetor por colunas os paracircmetros ldquo10 2rdquo indicam respectivamente onuacutemero de linhas e colunas o comando indica que o que vem depois na mesma linhaeacute interpretado como uma observaccedilatildeo e natildeo eacute considerado
Experimente os comandos gtmatrix gt pa[12] gt pa[1] gt pa[1]
Trabalhando no Rdata frameSatildeo usados para armazenamento de bancos de dados com n linhas (as observaccedilotildees) e
p colunas (as variaacuteveis) Podem natildeo ser da mesma caracteriacutestica misturandoalfanumeacutericos com numeacutericos e fatores Este comando seria uacutetil por exemplo para lerum banco de dados gerado no ExcelNo R um data frame seria lido pelo comando readtable Vamos ler a tabela 12 pag 7 dolivro [1] para tanto foi gerado um arquivo no Excel de nome tab1_2tex
Apresentamos aqui a 3 linhas iniciais dos dados de um total de 45 a primeira
linha (apresentada aqui em duas) corresponde aos nomes das variaacuteveisID CATEG IDADE PESO ALTURA IMC Classe_IMC CINTURA ID1A615821540245normal87109080MRID2S696301520273sobrepeso89104086GRID3S617011580281sobrepeso106123086GR
Para armazenarmos os dados no objeto tab12 usaremos o comando
tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )Observe que header = T serve para indicar que existe uma linha com os nomes dasvariaacuteveis (T significa True) e sep indica o separador no caso viacutergula
Experimente os comandosgtreadtable tab12[2]gt attach(tab12) CATEGgt tab12[3] IDADE
Cap 1 Analise Exploratoacuteria de Dados (AED)Anaacutelise Exploratoacuteria eacute um conjunto de teacutecnicas de tratamento de dados que semimplicar em uma fundamentaccedilatildeo matemaacutetica mais rigorosa nos ajuda a tomar um
primeiro contato com a informaccedilatildeo disponiacutevel
Em um levantamento de dados a respeito de um determinado assunto eles costumamser representados em uma tabela de dados Em uma tabela de dados cada linhacorresponde a uma observaccedilatildeo e cada coluna corresponde a uma variaacutevel
As variaacuteveis podem ser
Qualitativa nominal ou categoacuterica - seus valores possiacuteveis satildeo diferentes categoriasnatildeo ordenadas
- Quantitativa discreta - seus valores possiacuteveis satildeo resultados de um processo de
contagemQuantitativa contiacutenua - seus valores possiacuteveis podem ser expressos atraveacutes de
nuacutemeros reaisPara descrever o comportamento de uma variaacutevel eacute comum apresentar os valores que
ela assume organizados sob a forma de tabelas de frequecircncia e graacuteficos Os graacuteficosmais comuns para representarem variaacuteveis qualitativas satildeo os graacuteficos de barras e osgraacuteficos de setores
Usar para uma variaacutevel x que deve ser agrupada os comandos barplot(table(x))
pie(table(x)) Os principais argumentos desses comandos satildeo
x um vetor de quantidades positivas Os valores em x representam a proporccedilatildeoobrigatoacuterio
beside se as barras seratildeo de lado ou empilhadas essa eacute uma variaacutevel do tiposucesso(Ttrue) ou fracasso (F false) o default eacute F Como exemplo olhar oapecircndice Figura 22
xlab corresponde ao tiacutetulo da variaacutevel x (natildeo obrigatoacuterio) o mesmo para ylab
xlim dois valores que correspondem aos limites no graacutefico da variaacutevel x (ylim)
space - quantidade de espaccedilo agrave esquerda antes de cada barra Se matrix podem ser 2valores o rimeiro barras do mesmo ru o e o se undo entre ru os
Cap1ndashAED barplot pie
col vetor informando as cores das barras Ver apecircndice
pie(x labels = names(x) edges = 200 col=NULL)Onde
x um vetor de quantidades positivas Os valores em x representam as proporccedilotildeeslabels um vetor de caracteres fornecendo nomes para os setores (natildeo obrigatoacuterio)
edges um inteiro A linha do ciacuterculo eacute aproximada por um poliacutegono com este
Para as variaacuteveis quantitativas os mais usados satildeo os Histogramas e os Diagramas Ramo-folhascujos comandos satildeo gthist(x) gt stem(x) Existe tambeacutem um comando chamado gtcut
que classifica uma variaacutevel numeacuterica Os principais argumentos do comando hist satildeo
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)
breaks vetor com os limites das classes
freq variaacutevel loacutegica se T (True) corresponde agrave contagem de cada classe se F (False) equivale adensidade de probabilidade a aacuterea total sob a curva (retacircngulos) teria soma 1
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F satildeo fechadas agrave esquerda
Cap1ndashAED stem cut table
main tiacutetulo principal
xlab e ylab roacutetulos dos eixos x e y respectivamente
xlim e ylim Dois valores limites para o graacutefico de cada uma das variaacuteveis
cut(x breaks right = T ) Onde
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)breaks vetor com os limites das classes
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F agrave esquerda
Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo
gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um
vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos
o comando quantile(xc(02505075))
Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))
Cap1-AED Medidas (estatiacutesticas)
O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser
um vetor Por exemplo
gt quantile(nt c(20 50 95))
20 50 95
1306 1930 3582
Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento
dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais
conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro
gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92
Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado
Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)
Min 1st Qu Median Mean 3rd Qu Max
860 1410 1930 2002 2330 4570
Cap1-AED IEQ fivenum boxplot
O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)
Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt
Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis
cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)
gt table(CATEG Classe_IMC)Classe_IMC
CATEG normal sobrepesoA 18 4
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas
Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46
gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28
Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de
dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)
Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees
matemaacuteticas (equivalentes) a seguir
O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa
bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y
pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x
bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo
yxn
n
i
n
i sumsum
O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo
O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
Trabalhando no Rdata frameSatildeo usados para armazenamento de bancos de dados com n linhas (as observaccedilotildees) e
p colunas (as variaacuteveis) Podem natildeo ser da mesma caracteriacutestica misturandoalfanumeacutericos com numeacutericos e fatores Este comando seria uacutetil por exemplo para lerum banco de dados gerado no ExcelNo R um data frame seria lido pelo comando readtable Vamos ler a tabela 12 pag 7 dolivro [1] para tanto foi gerado um arquivo no Excel de nome tab1_2tex
Apresentamos aqui a 3 linhas iniciais dos dados de um total de 45 a primeira
linha (apresentada aqui em duas) corresponde aos nomes das variaacuteveisID CATEG IDADE PESO ALTURA IMC Classe_IMC CINTURA ID1A615821540245normal87109080MRID2S696301520273sobrepeso89104086GRID3S617011580281sobrepeso106123086GR
Para armazenarmos os dados no objeto tab12 usaremos o comando
tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )Observe que header = T serve para indicar que existe uma linha com os nomes dasvariaacuteveis (T significa True) e sep indica o separador no caso viacutergula
Experimente os comandosgtreadtable tab12[2]gt attach(tab12) CATEGgt tab12[3] IDADE
Cap 1 Analise Exploratoacuteria de Dados (AED)Anaacutelise Exploratoacuteria eacute um conjunto de teacutecnicas de tratamento de dados que semimplicar em uma fundamentaccedilatildeo matemaacutetica mais rigorosa nos ajuda a tomar um
primeiro contato com a informaccedilatildeo disponiacutevel
Em um levantamento de dados a respeito de um determinado assunto eles costumamser representados em uma tabela de dados Em uma tabela de dados cada linhacorresponde a uma observaccedilatildeo e cada coluna corresponde a uma variaacutevel
As variaacuteveis podem ser
Qualitativa nominal ou categoacuterica - seus valores possiacuteveis satildeo diferentes categoriasnatildeo ordenadas
- Quantitativa discreta - seus valores possiacuteveis satildeo resultados de um processo de
contagemQuantitativa contiacutenua - seus valores possiacuteveis podem ser expressos atraveacutes de
nuacutemeros reaisPara descrever o comportamento de uma variaacutevel eacute comum apresentar os valores que
ela assume organizados sob a forma de tabelas de frequecircncia e graacuteficos Os graacuteficosmais comuns para representarem variaacuteveis qualitativas satildeo os graacuteficos de barras e osgraacuteficos de setores
Usar para uma variaacutevel x que deve ser agrupada os comandos barplot(table(x))
pie(table(x)) Os principais argumentos desses comandos satildeo
x um vetor de quantidades positivas Os valores em x representam a proporccedilatildeoobrigatoacuterio
beside se as barras seratildeo de lado ou empilhadas essa eacute uma variaacutevel do tiposucesso(Ttrue) ou fracasso (F false) o default eacute F Como exemplo olhar oapecircndice Figura 22
xlab corresponde ao tiacutetulo da variaacutevel x (natildeo obrigatoacuterio) o mesmo para ylab
xlim dois valores que correspondem aos limites no graacutefico da variaacutevel x (ylim)
space - quantidade de espaccedilo agrave esquerda antes de cada barra Se matrix podem ser 2valores o rimeiro barras do mesmo ru o e o se undo entre ru os
Cap1ndashAED barplot pie
col vetor informando as cores das barras Ver apecircndice
pie(x labels = names(x) edges = 200 col=NULL)Onde
x um vetor de quantidades positivas Os valores em x representam as proporccedilotildeeslabels um vetor de caracteres fornecendo nomes para os setores (natildeo obrigatoacuterio)
edges um inteiro A linha do ciacuterculo eacute aproximada por um poliacutegono com este
Para as variaacuteveis quantitativas os mais usados satildeo os Histogramas e os Diagramas Ramo-folhascujos comandos satildeo gthist(x) gt stem(x) Existe tambeacutem um comando chamado gtcut
que classifica uma variaacutevel numeacuterica Os principais argumentos do comando hist satildeo
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)
breaks vetor com os limites das classes
freq variaacutevel loacutegica se T (True) corresponde agrave contagem de cada classe se F (False) equivale adensidade de probabilidade a aacuterea total sob a curva (retacircngulos) teria soma 1
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F satildeo fechadas agrave esquerda
Cap1ndashAED stem cut table
main tiacutetulo principal
xlab e ylab roacutetulos dos eixos x e y respectivamente
xlim e ylim Dois valores limites para o graacutefico de cada uma das variaacuteveis
cut(x breaks right = T ) Onde
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)breaks vetor com os limites das classes
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F agrave esquerda
Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo
gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um
vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos
o comando quantile(xc(02505075))
Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))
Cap1-AED Medidas (estatiacutesticas)
O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser
um vetor Por exemplo
gt quantile(nt c(20 50 95))
20 50 95
1306 1930 3582
Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento
dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais
conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro
gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92
Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado
Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)
Min 1st Qu Median Mean 3rd Qu Max
860 1410 1930 2002 2330 4570
Cap1-AED IEQ fivenum boxplot
O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)
Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt
Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis
cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)
gt table(CATEG Classe_IMC)Classe_IMC
CATEG normal sobrepesoA 18 4
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas
Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46
gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28
Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de
dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)
Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees
matemaacuteticas (equivalentes) a seguir
O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa
bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y
pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x
bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo
yxn
n
i
n
i sumsum
O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo
O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
Cap 1 Analise Exploratoacuteria de Dados (AED)Anaacutelise Exploratoacuteria eacute um conjunto de teacutecnicas de tratamento de dados que semimplicar em uma fundamentaccedilatildeo matemaacutetica mais rigorosa nos ajuda a tomar um
primeiro contato com a informaccedilatildeo disponiacutevel
Em um levantamento de dados a respeito de um determinado assunto eles costumamser representados em uma tabela de dados Em uma tabela de dados cada linhacorresponde a uma observaccedilatildeo e cada coluna corresponde a uma variaacutevel
As variaacuteveis podem ser
Qualitativa nominal ou categoacuterica - seus valores possiacuteveis satildeo diferentes categoriasnatildeo ordenadas
- Quantitativa discreta - seus valores possiacuteveis satildeo resultados de um processo de
contagemQuantitativa contiacutenua - seus valores possiacuteveis podem ser expressos atraveacutes de
nuacutemeros reaisPara descrever o comportamento de uma variaacutevel eacute comum apresentar os valores que
ela assume organizados sob a forma de tabelas de frequecircncia e graacuteficos Os graacuteficosmais comuns para representarem variaacuteveis qualitativas satildeo os graacuteficos de barras e osgraacuteficos de setores
Usar para uma variaacutevel x que deve ser agrupada os comandos barplot(table(x))
pie(table(x)) Os principais argumentos desses comandos satildeo
x um vetor de quantidades positivas Os valores em x representam a proporccedilatildeoobrigatoacuterio
beside se as barras seratildeo de lado ou empilhadas essa eacute uma variaacutevel do tiposucesso(Ttrue) ou fracasso (F false) o default eacute F Como exemplo olhar oapecircndice Figura 22
xlab corresponde ao tiacutetulo da variaacutevel x (natildeo obrigatoacuterio) o mesmo para ylab
xlim dois valores que correspondem aos limites no graacutefico da variaacutevel x (ylim)
space - quantidade de espaccedilo agrave esquerda antes de cada barra Se matrix podem ser 2valores o rimeiro barras do mesmo ru o e o se undo entre ru os
Cap1ndashAED barplot pie
col vetor informando as cores das barras Ver apecircndice
pie(x labels = names(x) edges = 200 col=NULL)Onde
x um vetor de quantidades positivas Os valores em x representam as proporccedilotildeeslabels um vetor de caracteres fornecendo nomes para os setores (natildeo obrigatoacuterio)
edges um inteiro A linha do ciacuterculo eacute aproximada por um poliacutegono com este
Para as variaacuteveis quantitativas os mais usados satildeo os Histogramas e os Diagramas Ramo-folhascujos comandos satildeo gthist(x) gt stem(x) Existe tambeacutem um comando chamado gtcut
que classifica uma variaacutevel numeacuterica Os principais argumentos do comando hist satildeo
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)
breaks vetor com os limites das classes
freq variaacutevel loacutegica se T (True) corresponde agrave contagem de cada classe se F (False) equivale adensidade de probabilidade a aacuterea total sob a curva (retacircngulos) teria soma 1
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F satildeo fechadas agrave esquerda
Cap1ndashAED stem cut table
main tiacutetulo principal
xlab e ylab roacutetulos dos eixos x e y respectivamente
xlim e ylim Dois valores limites para o graacutefico de cada uma das variaacuteveis
cut(x breaks right = T ) Onde
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)breaks vetor com os limites das classes
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F agrave esquerda
Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo
gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um
vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos
o comando quantile(xc(02505075))
Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))
Cap1-AED Medidas (estatiacutesticas)
O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser
um vetor Por exemplo
gt quantile(nt c(20 50 95))
20 50 95
1306 1930 3582
Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento
dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais
conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro
gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92
Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado
Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)
Min 1st Qu Median Mean 3rd Qu Max
860 1410 1930 2002 2330 4570
Cap1-AED IEQ fivenum boxplot
O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)
Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt
Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis
cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)
gt table(CATEG Classe_IMC)Classe_IMC
CATEG normal sobrepesoA 18 4
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas
Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46
gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28
Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de
dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)
Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees
matemaacuteticas (equivalentes) a seguir
O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa
bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y
pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x
bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo
yxn
n
i
n
i sumsum
O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo
O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
x um vetor de quantidades positivas Os valores em x representam a proporccedilatildeoobrigatoacuterio
beside se as barras seratildeo de lado ou empilhadas essa eacute uma variaacutevel do tiposucesso(Ttrue) ou fracasso (F false) o default eacute F Como exemplo olhar oapecircndice Figura 22
xlab corresponde ao tiacutetulo da variaacutevel x (natildeo obrigatoacuterio) o mesmo para ylab
xlim dois valores que correspondem aos limites no graacutefico da variaacutevel x (ylim)
space - quantidade de espaccedilo agrave esquerda antes de cada barra Se matrix podem ser 2valores o rimeiro barras do mesmo ru o e o se undo entre ru os
Cap1ndashAED barplot pie
col vetor informando as cores das barras Ver apecircndice
pie(x labels = names(x) edges = 200 col=NULL)Onde
x um vetor de quantidades positivas Os valores em x representam as proporccedilotildeeslabels um vetor de caracteres fornecendo nomes para os setores (natildeo obrigatoacuterio)
edges um inteiro A linha do ciacuterculo eacute aproximada por um poliacutegono com este
Para as variaacuteveis quantitativas os mais usados satildeo os Histogramas e os Diagramas Ramo-folhascujos comandos satildeo gthist(x) gt stem(x) Existe tambeacutem um comando chamado gtcut
que classifica uma variaacutevel numeacuterica Os principais argumentos do comando hist satildeo
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)
breaks vetor com os limites das classes
freq variaacutevel loacutegica se T (True) corresponde agrave contagem de cada classe se F (False) equivale adensidade de probabilidade a aacuterea total sob a curva (retacircngulos) teria soma 1
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F satildeo fechadas agrave esquerda
Cap1ndashAED stem cut table
main tiacutetulo principal
xlab e ylab roacutetulos dos eixos x e y respectivamente
xlim e ylim Dois valores limites para o graacutefico de cada uma das variaacuteveis
cut(x breaks right = T ) Onde
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)breaks vetor com os limites das classes
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F agrave esquerda
Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo
gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um
vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos
o comando quantile(xc(02505075))
Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))
Cap1-AED Medidas (estatiacutesticas)
O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser
um vetor Por exemplo
gt quantile(nt c(20 50 95))
20 50 95
1306 1930 3582
Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento
dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais
conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro
gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92
Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado
Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)
Min 1st Qu Median Mean 3rd Qu Max
860 1410 1930 2002 2330 4570
Cap1-AED IEQ fivenum boxplot
O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)
Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt
Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis
cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)
gt table(CATEG Classe_IMC)Classe_IMC
CATEG normal sobrepesoA 18 4
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas
Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46
gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28
Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de
dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)
Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees
matemaacuteticas (equivalentes) a seguir
O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa
bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y
pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x
bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo
yxn
n
i
n
i sumsum
O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo
O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
Para as variaacuteveis quantitativas os mais usados satildeo os Histogramas e os Diagramas Ramo-folhascujos comandos satildeo gthist(x) gt stem(x) Existe tambeacutem um comando chamado gtcut
que classifica uma variaacutevel numeacuterica Os principais argumentos do comando hist satildeo
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)
breaks vetor com os limites das classes
freq variaacutevel loacutegica se T (True) corresponde agrave contagem de cada classe se F (False) equivale adensidade de probabilidade a aacuterea total sob a curva (retacircngulos) teria soma 1
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F satildeo fechadas agrave esquerda
Cap1ndashAED stem cut table
main tiacutetulo principal
xlab e ylab roacutetulos dos eixos x e y respectivamente
xlim e ylim Dois valores limites para o graacutefico de cada uma das variaacuteveis
cut(x breaks right = T ) Onde
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)breaks vetor com os limites das classes
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F agrave esquerda
Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo
gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um
vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos
o comando quantile(xc(02505075))
Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))
Cap1-AED Medidas (estatiacutesticas)
O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser
um vetor Por exemplo
gt quantile(nt c(20 50 95))
20 50 95
1306 1930 3582
Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento
dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais
conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro
gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92
Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado
Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)
Min 1st Qu Median Mean 3rd Qu Max
860 1410 1930 2002 2330 4570
Cap1-AED IEQ fivenum boxplot
O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)
Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt
Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis
cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)
gt table(CATEG Classe_IMC)Classe_IMC
CATEG normal sobrepesoA 18 4
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas
Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46
gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28
Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de
dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)
Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees
matemaacuteticas (equivalentes) a seguir
O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa
bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y
pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x
bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo
yxn
n
i
n
i sumsum
O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo
O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
Para as variaacuteveis quantitativas os mais usados satildeo os Histogramas e os Diagramas Ramo-folhascujos comandos satildeo gthist(x) gt stem(x) Existe tambeacutem um comando chamado gtcut
que classifica uma variaacutevel numeacuterica Os principais argumentos do comando hist satildeo
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)
breaks vetor com os limites das classes
freq variaacutevel loacutegica se T (True) corresponde agrave contagem de cada classe se F (False) equivale adensidade de probabilidade a aacuterea total sob a curva (retacircngulos) teria soma 1
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F satildeo fechadas agrave esquerda
Cap1ndashAED stem cut table
main tiacutetulo principal
xlab e ylab roacutetulos dos eixos x e y respectivamente
xlim e ylim Dois valores limites para o graacutefico de cada uma das variaacuteveis
cut(x breaks right = T ) Onde
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)breaks vetor com os limites das classes
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F agrave esquerda
Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo
gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um
vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos
o comando quantile(xc(02505075))
Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))
Cap1-AED Medidas (estatiacutesticas)
O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser
um vetor Por exemplo
gt quantile(nt c(20 50 95))
20 50 95
1306 1930 3582
Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento
dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais
conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro
gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92
Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado
Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)
Min 1st Qu Median Mean 3rd Qu Max
860 1410 1930 2002 2330 4570
Cap1-AED IEQ fivenum boxplot
O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)
Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt
Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis
cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)
gt table(CATEG Classe_IMC)Classe_IMC
CATEG normal sobrepesoA 18 4
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas
Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46
gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28
Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de
dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)
Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees
matemaacuteticas (equivalentes) a seguir
O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa
bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y
pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x
bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo
yxn
n
i
n
i sumsum
O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo
O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
Para as variaacuteveis quantitativas os mais usados satildeo os Histogramas e os Diagramas Ramo-folhascujos comandos satildeo gthist(x) gt stem(x) Existe tambeacutem um comando chamado gtcut
que classifica uma variaacutevel numeacuterica Os principais argumentos do comando hist satildeo
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)
breaks vetor com os limites das classes
freq variaacutevel loacutegica se T (True) corresponde agrave contagem de cada classe se F (False) equivale adensidade de probabilidade a aacuterea total sob a curva (retacircngulos) teria soma 1
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F satildeo fechadas agrave esquerda
Cap1ndashAED stem cut table
main tiacutetulo principal
xlab e ylab roacutetulos dos eixos x e y respectivamente
xlim e ylim Dois valores limites para o graacutefico de cada uma das variaacuteveis
cut(x breaks right = T ) Onde
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)breaks vetor com os limites das classes
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F agrave esquerda
Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo
gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um
vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos
o comando quantile(xc(02505075))
Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))
Cap1-AED Medidas (estatiacutesticas)
O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser
um vetor Por exemplo
gt quantile(nt c(20 50 95))
20 50 95
1306 1930 3582
Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento
dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais
conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro
gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92
Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado
Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)
Min 1st Qu Median Mean 3rd Qu Max
860 1410 1930 2002 2330 4570
Cap1-AED IEQ fivenum boxplot
O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)
Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt
Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis
cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)
gt table(CATEG Classe_IMC)Classe_IMC
CATEG normal sobrepesoA 18 4
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas
Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46
gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28
Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de
dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)
Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees
matemaacuteticas (equivalentes) a seguir
O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa
bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y
pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x
bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo
yxn
n
i
n
i sumsum
O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo
O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
Para as variaacuteveis quantitativas os mais usados satildeo os Histogramas e os Diagramas Ramo-folhascujos comandos satildeo gthist(x) gt stem(x) Existe tambeacutem um comando chamado gtcut
que classifica uma variaacutevel numeacuterica Os principais argumentos do comando hist satildeo
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)
breaks vetor com os limites das classes
freq variaacutevel loacutegica se T (True) corresponde agrave contagem de cada classe se F (False) equivale adensidade de probabilidade a aacuterea total sob a curva (retacircngulos) teria soma 1
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F satildeo fechadas agrave esquerda
Cap1ndashAED stem cut table
main tiacutetulo principal
xlab e ylab roacutetulos dos eixos x e y respectivamente
xlim e ylim Dois valores limites para o graacutefico de cada uma das variaacuteveis
cut(x breaks right = T ) Onde
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)breaks vetor com os limites das classes
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F agrave esquerda
Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo
gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um
vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos
o comando quantile(xc(02505075))
Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))
Cap1-AED Medidas (estatiacutesticas)
O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser
um vetor Por exemplo
gt quantile(nt c(20 50 95))
20 50 95
1306 1930 3582
Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento
dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais
conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro
gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92
Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado
Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)
Min 1st Qu Median Mean 3rd Qu Max
860 1410 1930 2002 2330 4570
Cap1-AED IEQ fivenum boxplot
O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)
Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt
Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis
cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)
gt table(CATEG Classe_IMC)Classe_IMC
CATEG normal sobrepesoA 18 4
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas
Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46
gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28
Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de
dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)
Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees
matemaacuteticas (equivalentes) a seguir
O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa
bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y
pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x
bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo
yxn
n
i
n
i sumsum
O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo
O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo
gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um
vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos
o comando quantile(xc(02505075))
Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))
Cap1-AED Medidas (estatiacutesticas)
O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser
um vetor Por exemplo
gt quantile(nt c(20 50 95))
20 50 95
1306 1930 3582
Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento
dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais
conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro
gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92
Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado
Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)
Min 1st Qu Median Mean 3rd Qu Max
860 1410 1930 2002 2330 4570
Cap1-AED IEQ fivenum boxplot
O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)
Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt
Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis
cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)
gt table(CATEG Classe_IMC)Classe_IMC
CATEG normal sobrepesoA 18 4
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas
Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46
gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28
Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de
dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)
Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees
matemaacuteticas (equivalentes) a seguir
O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa
bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y
pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x
bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo
yxn
n
i
n
i sumsum
O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo
O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo
gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um
vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos
o comando quantile(xc(02505075))
Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))
Cap1-AED Medidas (estatiacutesticas)
O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser
um vetor Por exemplo
gt quantile(nt c(20 50 95))
20 50 95
1306 1930 3582
Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento
dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais
conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro
gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92
Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado
Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)
Min 1st Qu Median Mean 3rd Qu Max
860 1410 1930 2002 2330 4570
Cap1-AED IEQ fivenum boxplot
O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)
Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt
Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis
cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)
gt table(CATEG Classe_IMC)Classe_IMC
CATEG normal sobrepesoA 18 4
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas
Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46
gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28
Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de
dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)
Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees
matemaacuteticas (equivalentes) a seguir
O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa
bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y
pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x
bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo
yxn
n
i
n
i sumsum
O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo
O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo
gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um
vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos
o comando quantile(xc(02505075))
Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))
Cap1-AED Medidas (estatiacutesticas)
O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser
um vetor Por exemplo
gt quantile(nt c(20 50 95))
20 50 95
1306 1930 3582
Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento
dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais
conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro
gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92
Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado
Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)
Min 1st Qu Median Mean 3rd Qu Max
860 1410 1930 2002 2330 4570
Cap1-AED IEQ fivenum boxplot
O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)
Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt
Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis
cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)
gt table(CATEG Classe_IMC)Classe_IMC
CATEG normal sobrepesoA 18 4
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas
Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46
gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28
Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de
dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)
Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees
matemaacuteticas (equivalentes) a seguir
O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa
bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y
pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x
bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo
yxn
n
i
n
i sumsum
O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo
O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92
Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado
Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)
Min 1st Qu Median Mean 3rd Qu Max
860 1410 1930 2002 2330 4570
Cap1-AED IEQ fivenum boxplot
O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)
Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt
Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis
cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)
gt table(CATEG Classe_IMC)Classe_IMC
CATEG normal sobrepesoA 18 4
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas
Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46
gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28
Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de
dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)
Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees
matemaacuteticas (equivalentes) a seguir
O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa
bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y
pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x
bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo
yxn
n
i
n
i sumsum
O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo
O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis
cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)
gt table(CATEG Classe_IMC)Classe_IMC
CATEG normal sobrepesoA 18 4
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas
Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46
gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28
Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de
dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)
Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees
matemaacuteticas (equivalentes) a seguir
O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa
bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y
pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x
bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo
yxn
n
i
n
i sumsum
O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo
O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de
dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)
Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees
matemaacuteticas (equivalentes) a seguir
O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa
bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y
pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x
bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo
yxn
n
i
n
i sumsum
O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo
O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa
bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y
pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x
bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo
yxn
n
i
n
i sumsum
O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo
O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save