Top Banner
Análisis estadístico Biología Diploma BI Stephen Taylor Image: 'Hummingbird Checks Out Flower' http://www.flickr.com/photos/25659032@N07/7200193254 Found on flickrcc .net Traducido y adaptado con permiso por Aureliano Fernández
82

01_Analisis_estadistico.pdf

Oct 27, 2015

Download

Documents

Para el curso de Biología del Programa del Diploma del Bachillerato Internacional
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: 01_Analisis_estadistico.pdf

Análisis estadísticoBiología Diploma BI

Stephen Taylor

Image: 'Hummingbird Checks Out Flower' http://www.flickr.com/photos/25659032@N07/7200193254 Found on flickrcc .net

Traducido y adaptado con permisopor Aureliano Fernández

Page 2: 01_Analisis_estadistico.pdf

Enunciados de evaluación Obj.

1.1.1 Indique que las barras de error son una representación gráfica de la variabilidad de los datos. 1

1.1.2Calcule la media y la desviación típica o estándar de un conjunto de valores.• Con una hoja de cálculo (Excel, OpenCalc)• Con tu calculadora gráfica

2

1.1.3Indique que el término desviación típica se usa para resumir la dispersión de valores con respecto a la media y que el 68% de los valores difieren de la media ±1 vez el valor de la desviación estándar o típica.

1

1.1.4 Explique cómo la desviación típica es útil para comparar las medias y la dispersión de datos de dos o más muestras. 3

1.1.5

Deduzca la significación de la diferencia entre dos conjuntos de datos empleando valores calculados para t y las tablas apropiadas.• Lo haremos también con valores P utilizando una hoja de cálculo en

informes de prácticas.

3

1.1.6 Explique que la existencia de una correlación no supone que haya una relación causal entre dos variables . 3

Enunciados de evaluación BI de: Guía de Biología online del BI

Términos de examen: http://i-biology.net/ibdpbio/command-terms/(Traducción al español)

Page 3: 01_Analisis_estadistico.pdf

http://i-biology.net/ict-in-ib-biology/spreadsheets-graphing/statexcel/

Traducción al español

El libro de Bioestadística en Excel de Stephen Taylor constituye una excelente guía con ejemplos interactivos de tablas, gráficos y testsestadísticos.

Page 4: 01_Analisis_estadistico.pdf

Los colibrís (hummingbirds)son nectarívoros (herbívoros que se alimentan del néctar de las flores de algunas especies de plantas).

Al regresar para alimentarse, polinizan la flor. Es un ejemplo de mutualismo –beneficioso para ambos.

Como resultado de la selección natural,

El pico de los colibrís ha evolucionado.

Las aves con un pico mejor adaptado a su fuente de

alimento preferida tienen mayor oportunidad para

sobrevivir.

Photo: Archilochus colubris, from wikimedia commons, by Dick Daniels.

Page 5: 01_Analisis_estadistico.pdf

Los investigadores que estudian anatomía comparada recogen datos de la longitud del pico de dos especies de colibrís: colibrí de garganta rubí (Archilochus colubris) y colibrí de pico ancho (Cynanthuslatirostris).

Para hacer esto, necesitan recoger datos suficientes, relevantes y fiables, para poder poner a prueba la Hipótesis nula (H0) que es:

“no hay diferencia significativa en la longitud del pico entre las dos especies.”

Photo: Archilochus colubris (male), wikimedia commons, by Joe Schneid

Page 6: 01_Analisis_estadistico.pdf

El tamaño de la muestradebe ser bastante grande

para proporcionar datos suficientes y fiables que nos

permitan aplicar un test estadísticamente significativo

y relevante.

Debemos ser conscientes de la incertidumbre de nuestros

instrumentos de medida y del posible error en nuestros

resultados.

Photo: Broadbilled hummingbird (wikimedia commons).

Page 7: 01_Analisis_estadistico.pdf

Mediciones e incertidumbreIncertidumbre: es el margen de error de una medición (siempre debemos conocerlo y reflejarlo)

p.ej., este colibrí pesa

división más pequeña

para dispositivos de medida digital

Las reglas tienen incertidumbre en ambos extremos: En instrumentos analógicos se suele utilizar

como margen de error ± la mitad de la división más pequeña que se pueda medir. El último punto decimal es una estimación

Por ejemplo, esta escala lee:

(± 0.5 mm en ambos extremos)

medidoestimado

y la incertidumbre es (±0.5g)

mitad

Page 9: 01_Analisis_estadistico.pdf

La media es una medida de la tendencia central de una serie de datos.

Tabla 1: Medidas en bruto de la longitud del pico en A. colubris yC. latirostris.

Longitud del pico (±0.1mm)

n A. colubris C. latirostris

1 13.0 17.0

2 14.0 18.0

3 15.0 18.0

4 15.0 18.0

5 15.0 19.0

6 16.0 19.0

7 16.0 19.0

8 18.0 20.0

9 18.0 20.0

10 19.0 20.0

Media

s

Calcular la media utilizando: • Tu calculadora

(suma de valores / n)

• Excel o Calc

=PROMEDIO ó AVERAGE (distinguirlo de los datos en bruto)

n = tamaño de la muestra. Mientras más grande mejor. En este caso n=10 para cada grupo.

Todos los valores deben estar centrados en la celda, con decimales consistentes con la incertidumbre del instrumento de medida.

Page 10: 01_Analisis_estadistico.pdf

Tabla 1: Medidas en bruto de la longitud del pico en A. colubris yC. latirostris.

Bill length (±0.1mm)

n A. colubris C. latirostris

1 13.0 17.0

2 14.0 18.0

3 15.0 18.0

4 15.0 18.0

5 15.0 19.0

6 16.0 19.0

7 16.0 19.0

8 18.0 20.0

9 18.0 20.0

10 19.0 20.0

Media 15.9 18.8

s

Los datos brutos y la media deben tener decimales consistentes (en consonancia con la incertidumbre del instrumento de medida)

Las incertidumbres deben incluirse.

Tabla con título descriptivo y numerada.

La media es una medida de la tendencia central de una serie de datos.

Page 11: 01_Analisis_estadistico.pdf
Page 12: 01_Analisis_estadistico.pdf

DELETE

X

DELETE

X

Page 13: 01_Analisis_estadistico.pdf
Page 14: 01_Analisis_estadistico.pdf
Page 15: 01_Analisis_estadistico.pdf

A. colubris, 15.9mm

C. latirostris, 18.8mm

0,0

2,0

4,0

6,0

8,0

10,0

12,0

14,0

16,0

18,0

20,0

Long

itud

med

ia d

el p

ico

(±0.

1mm

)

Especies de colibrís

Gráfico 1: Comparación de la media de laslongitudes de los picos en dos especies de colibrís, A.

colubris y C. latirostris.

Título descriptivo, con el número de gráfica.

Puntos etiquetados

Eje-Y claramente etiquetado, con la incertidumbre.

Asegúrate que el eje-Y empiezaen cero.

Eje-x etiquetado

Page 16: 01_Analisis_estadistico.pdf

De las medias podríasconcluir únicamenteque C. latirostris tieneel pico más largo que A. colubris.

Pero la media solo cuenta una parte de la historia.

A. colubris, 15.9mm

C. latirostris, 18.8mm

0,0

2,0

4,0

6,0

8,0

10,0

12,0

14,0

16,0

18,0

20,0

Long

itud

med

ia d

el p

ico

(±0.

1mm

)

Especies de colibrís

Gráfico 1: Comparación de la media de laslongitudes de los picos en dos especies de colibrís, A.

colubris y C. latirostris.

Page 17: 01_Analisis_estadistico.pdf

media media

rango rangoEn este caso , el rango (valor máx-mín) es pequeño; la mayoría están cerca de la media. Esto se conoce como DISTRIBUCIÓN NORMAL

La media aquí sería la misma, pero hay una mayor dispersión de los datos: hay mayor variabilidad. También hay una DISTRIBUCIÓN NORMAL

C. latirostris tiene el pico más largo que A. colubris. … pero esto es solo parte de la historia.

La media es una medida de la tendencia central de los datos, pero no nos dice nada de la dispersion de los datos. Nuestros datos podrán estar agrupados alrededor de la media, o tener mayor variabilidad

Page 18: 01_Analisis_estadistico.pdf

¿Cuál es el rango de estos datos?68, 56, 65, 75, 68, 74, 21, 67, 72, 69, 71, 67Valores max – min = - =

Page 19: 01_Analisis_estadistico.pdf

¿Cuál es el rango de estos datos?68, 56, 65, 75, 68, 74, 21, 67, 72, 69, 71, 67Valores max – min = - =75 21 54

Page 20: 01_Analisis_estadistico.pdf

¿Cuál es el rango de estos datos?68, 56, 65, 75, 68, 74, 21, 67, 72, 69, 71, 67Valores max – min = - =75 21 54

Esto sugiere una gran variabilidad, pero veámoslo más detenidamente:

Este valor está lejos de los demás datos, haciendo que la media y el

rango estén sesgados

La gran mayoría de los valores se agrupan en este extremo de la distribución. La media no está en el centro de esta

agrupación ya que ha sido desviada por el valor 21

El rango es grande, pero la media no está en el centro. Esto sugiere que algunos valores están más lejos que la mayoría de los demás y ha sesgado la distribución de los datos

media

rango

Page 21: 01_Analisis_estadistico.pdf

La desviación típica o estándar (s) de una muestra es una medida de la dispersión de la mayoría de los datos. Significa exactamente que el 68% de todos los datos se encuentran en ± 1 desviación típica (± s) de la media. Esto nos proporciona una visión más fiable de la “verdadera” dispersión de los datos y no se altera por uno o dos valores anómalos.

El 95% de los valores se encuentran a 2s de la media, a uno y otro lado

-2s

+2s

El 68% de los valores se encuentran a 1s de la media, a uno y otro lado

-1s

+1s

Sólo unos pocos valores están más alejados de 2s la media

X-3s -2s -1s 1s 2s 3s

Page 22: 01_Analisis_estadistico.pdf

Cuestión práctica

Hemos realizado una serie de medidas de longitud obteniendo una media de 2,5 cmy una desviación típica de 0,5 cm. ¿Cuál de las siguientes afirmaciones es la correcta?

A. El 68% de los datos se encuentran entre 2,5 cm y 3,5 cmB. El 68% de los datos se encuentran entre 1,5 cm y 3,5 cmC. El 95% de los datos se encuentran entre 1,5 cm y 3,5 cmD. El 95% de los datos se encuentran entre 2,0 cm y 3,0 cm

Page 23: 01_Analisis_estadistico.pdf

Cuestión práctica

Hemos realizado una serie de medidas de longitud obteniendo una media de 2,5 cmy una desviación típica de 0,5 cm. ¿Cuál de las siguientes afirmaciones es la correcta?

A. El 68% de los datos se encuentran entre 2,5 cm y 3,5 cmB. El 68% de los datos se encuentran entre 1,5 cm y 3,5 cmC. El 95% de los datos se encuentran entre 1,5 cm y 3,5 cmD. El 95% de los datos se encuentran entre 2,0 cm y 3,0 cm

Desv. típica (s) = 0,5 cm

68% de los datos están en ± 1sAsí que el 68% de los datos están entre 2,0 y 3,0 cm

95% de los datos están en ± 2sAsí que el 95% de los datos están entre 1,5 y 3,5 cm

Page 24: 01_Analisis_estadistico.pdf

Cuestión práctica

Un conjunto de datos como éste: 4, 5, 5, 5, 6, 6, 6, 7, 7, 9 con una media de 6.

¿Cuál de las siguientes es la mejor estimación de la desviación típica?

A) 0 B) 1 C) 6 D) 5

4, 5, 5, 5, 6, 6, 6, 7, 7, 9

Page 25: 01_Analisis_estadistico.pdf

Cuestión práctica

Un conjunto de datos como éste: 4, 5, 5, 5, 6, 6, 6, 7, 7, 9 con una media de 6.

¿Cuál de las siguientes es la mejor estimación de la desviación típica?

A) 0 B) 1 C) 6 D) 5

La mayoría de los datos son iguales a la media ± 1La desviación típica es una medida de dónde se encuentran la

mayoría de los datos (68% ± 1s)

4, 5, 5, 5, 6, 6, 6, 7, 7, 9

Page 27: 01_Analisis_estadistico.pdf
Page 28: 01_Analisis_estadistico.pdf
Page 29: 01_Analisis_estadistico.pdf
Page 30: 01_Analisis_estadistico.pdf

Uso de Excel para calcular la desviación estándar:

DESVEST (no DESVESTA)

Señalar sólo los datos brutos

Page 31: 01_Analisis_estadistico.pdf

La desviación estándar es una medida de la dispersion de la mayoría de los datos.

Tabla 1: Medidas en bruto de la longitud del pico en A. colubris yC. latirostris.

Longitud del pico (±0.1mm)

n A. colubris C. latirostris

1 13.0 17.0

2 14.0 18.0

3 15.0 18.0

4 15.0 18.0

5 15.0 19.0

6 16.0 19.0

7 16.0 19.0

8 18.0 20.0

9 18.0 20.0

10 19.0 20.0

Media 15.9 18.8

s 1.91 1.03 La desviación estándar puede tener un decimal más. =DESVEST (escoger sólo datos

brutos).

¿Cuál de las dos series de datos tiene:

a. La media de la longitud del pico mayor?

a. La mayor variabilidad en los datos?

Page 32: 01_Analisis_estadistico.pdf

La desviación estándar es una medida de la dispersion de la mayoría de los datos.

Tabla 1: Medidas en bruto de la longitud del pico en A. colubris yC. latirostris.

Longitud del pico (±0.1mm)

n A. colubris C. latirostris

1 13.0 17.0

2 14.0 18.0

3 15.0 18.0

4 15.0 18.0

5 15.0 19.0

6 16.0 19.0

7 16.0 19.0

8 18.0 20.0

9 18.0 20.0

10 19.0 20.0

Media 15.9 18.8

s 1.91 1.03 La desviación estándar puede tener un decimal más.

¿Cuál de las dos series de datos tiene:

a. La media de la longitud del pico mayor?

a. La mayor variabilidad en los datos?

C. latirostris

A. colubris

=DESVEST (escoger sólo datos brutos).

Page 33: 01_Analisis_estadistico.pdf

La desviación estándar es una medida de la dispersión de la mayoría de los datos. Las barras de error son una representación gráfica de la variabilidad de los datos.

Cuál de las dos series de datos tiene:

a. La media más alta?

a. La mayor variabilidad en los datos?

Las barras de error pueden representar la desviación estándar, el rango o los intervalos de confianza.

Page 34: 01_Analisis_estadistico.pdf

La desviación estándar es una medida de la dispersion de la mayoría de los datos. Las barras de error son una representación gráfica de la variabilidad de los datos.

Cuál de las dos series de datos tiene:

a. La media más alta?

a. La mayor variabilidad en los datos?

A

B

Las barras de error pueden representar la desviación estándar, el rango o los intervalos de confianza.

Page 35: 01_Analisis_estadistico.pdf

Ponemos las barras de error para la desviación estándar en nuestro gráfico.

Page 36: 01_Analisis_estadistico.pdf

Put the error bars for standard deviation on our graph.

Page 37: 01_Analisis_estadistico.pdf

Put the error bars for standard deviation on our graph.

Delete the horizontal error bars

Page 38: 01_Analisis_estadistico.pdf

A. colubris, 15.9mm

C. latirostris, 18.8mm

0,0

5,0

10,0

15,0

20,0

Long

itud

med

ia d

el p

ico

(±0.

1mm

)

Especies de colibrís

Gráfico 1: Comparación de la media de las longitudes de los picos en dos especies de colibrís,

A. colubris y C. latirostris. (barras de error = desviación estándar)

El título se ha ajustado para mostrar la fuente de las barras de error. Esto es muy importante.

Puedes apreciar la diferencia clara en el tamaño de las barras de error.

La variabilidad se visualiza.

Las barras de error se solapan de alguna manera.

¿Qué significa esto?

Page 39: 01_Analisis_estadistico.pdf

El solapamiento de una serie de barras de error da una pista sobre la significancia de la diferencia entre dos series de datos.

Solapamiento grande Sin solapamiento

Muchos de los puntos de datos están compartidos entre ambas series de datos.

Los resultados probablemente no son significativamente diferentes unos de otros.

Cualquier diferencia probablemente se debe al azar.

Ninguno (o muy pocos) puntos de datos están compartidos entre ambas series de datos.

Los resultados probablemente son significativamente diferentes unos de otros.

La diferencia es más probable que sea ‘real’.

Page 40: 01_Analisis_estadistico.pdf

Muchos datos compartidos

Los resultados probablemente no son significativamente diferentes

(la diferencia entre medias se debe probablemente al azar)

Pocos datos compartidos

Los resultados probablemente sí son significativamente diferentes

(la diferencia entre medias es más probable que sea real)

Solapamiento grande Solapamiento pequeño

También podemos ver claramente el solapamiento si dibujamos los datos como curvas de frecuencia:

Page 41: 01_Analisis_estadistico.pdf

¿Qué serie de datos tiene:a. Un mayor rango (alta variabilidad)?b. Una desviación estándar mayor?c. Resultados más precisos?d. Una media más alta?e. Una mayor frecuencia alrededor de la media?

Page 42: 01_Analisis_estadistico.pdf

Serie B

Serie B

Serie A (puede sugerirse)

Serie B

Serie A

¿Qué serie de datos tiene:a. Un mayor rango (alta variabilidad)? Serie Bb. Una desviación estándar mayor? Serie Bc. Resultados más precisos? Serie A (puede sugerirse)d. Una media más alta? Serie Be. Una mayor frecuencia alrededor de la media? Serie A

Page 43: 01_Analisis_estadistico.pdf

A. colubris, 15.9mm(n=10)

C. latirostris, 18.8mm(n=10)

-3,0

2,0

7,0

12,0

17,0

22,0

Long

itud

med

ia d

el p

ico

(±0.

1mm

)

Especies de colibrís

Gráfico 1: Comparación de la media de las longitudes de los picos en dos especies de colibrís, A. colubris y C. latirostris. (barras de error = desviación estándar)

Nuestros resultados muestran un solapamiento muy pequeño entre las dos series de datos.

Así que ¿cómo podemos saber si la diferencia es significativa o no?

Necesitamos utilizar un test estadístico.

El test-t es un test estadístico que nos ayuda a determinar la significancia de la diferencia entre las medias de las dos series de datos.

Page 44: 01_Analisis_estadistico.pdf

El test-t nos permite conocer la probabilidad (p) de que las dos series de datos sean similares y, por tanto que las diferencias entre sus datos se deben al azar.

Si P = 1, las dos series de datos son exactamente igualesSi P = 0, las dos series de datos son diferentes

A mayor valor de p, mayor solapamiento de los datos:

P=1 (los datos son idénticos) P=0 (los datos no se comparten)P=0,5 (la mitad son comunes)

A menor valor de p, menor solapamiento, menor probabilidad de que se deba al azar, y más significativas son las diferencias.

Page 45: 01_Analisis_estadistico.pdf

Con el test-t comparamos dos series de datos y empezamos siempre estableciendo lo que se denomina la “Hipótesis nula” (H0)

H0 = “No hay diferencia significativa”

Si el t-test dice que hay que aceptar H0 , concluimos que las medias de las dos poblaciones no son significativamente diferentes.

Si nuestro t-test dice que hay que rechazar H0 , concluimos que las medias de las dos poblaciones sí son significativamente diferentes.

Punto de partida del test-t

Para calcular el valor de t lo hacemos con una hoja de cálculo (en Excel: PRUEBA.T), pero en el examen del BI el valor de t se da en el enunciado y únicamente tendremos que compararlo con un valor crítico que tenemos que encontrar en una tabla, que también se facilita.

Esto siempre es así.

Page 46: 01_Analisis_estadistico.pdf

Valor P = 0.1 0.05 0.02 0.01confianza 90% 95% 98% 99%

Gra

dos

de lib

ert

ad

1 6.31 12.71 31.82 63.66 2 2.92 4.30 6.96 9.92 3 2.35 3.18 4.54 5.84 4 2.13 2.78 3.75 4.60 5 2.02 2.57 3.37 4.03 6 1.94 2.45 3.14 3.71 7 1.89 2.36 3.00 3.50 8 1.86 2.31 2.90 3.36 9 1.83 2.26 2.82 3.25

10 1.81 2.23 2.76 3.17

Podemos calcular el valor de ‘t’ para una serie de datos y compararlo con una tabla de valores críticos que depende del tamaño de nuestra muestra y el nivel de confianza que necesitemos.

Ejemplo tabla-t de dos colas. “Grados de Libertad (Degrees of freedom=df)” es el tamaño toalde la muestra menos dos.

¿Qué sucede con el valor de P a medida que el nivel de confianza en los resultados aumenta?

¿Qué sucede con el valor crítico a media que el nivel de confianza aumenta?

“valores críticos”

Page 47: 01_Analisis_estadistico.pdf

“Grados de Libertad (Degrees of freedom=df)” es el tamaño toalde la muestra menos dos.

Generalmente utilizamos P<0.05 (95% confianza) en Biología, ya que nuestros datos pueden ser altamente variables.

Podemos calcular el valor de ‘t’ para una serie de datos y compararlo con una table de valores críticos que depende del tamaño de muestra muestra y el nivel de confianza que necesitemos.

Valor P = 0.1 0.05 0.02 0.01confianza 90% 95% 98% 99%

Gra

dos

de lib

ert

ad

1 6.31 12.71 31.82 63.66 2 2.92 4.30 6.96 9.92 3 2.35 3.18 4.54 5.84 4 2.13 2.78 3.75 4.60 5 2.02 2.57 3.37 4.03 6 1.94 2.45 3.14 3.71 7 1.89 2.36 3.00 3.50 8 1.86 2.31 2.90 3.36 9 1.83 2.26 2.82 3.25

10 1.81 2.23 2.76 3.17

Ejemplo tabla-t de dos colas.

“valores críticos”

Page 48: 01_Analisis_estadistico.pdf

Fuente de la tabla-t de 2 colas: http://www.medcalc.org/manual/t-distribution.php

Ejemplo resuelto: Un investigador midió la longitud de las alas de 12 Archilochus colubris y 13 Cynanthus latirostris.

H0 = “No hay diferencia significativa”

grados de libertad =

valor crítico =

P =

Page 49: 01_Analisis_estadistico.pdf

Ejemplo resuelto: Un investigador midió la longitud de las alas de 12 Archilochus colubris y 13 Cynanthus latirostris.

H0 = “No hay diferencia significativa”

grados de libertad = n-2 =

valor crítico =

(12 + 13) -2 = 23

P =

Hemos calculado la t de las series de datos con una hoja de cálculo y t = 2,15 (este valor se suministra siempre en los exámenes)

2,15 t vc

Si t < vc, aceptamos H0 (no hay diferencia significativa)Si t > vc, rechazamos H0 (sí hay diferencia significativa)

Fuente de la tabla-t de 2 colas: http://www.medcalc.org/manual/t-distribution.php

Page 50: 01_Analisis_estadistico.pdf

Ejemplo resuelto: Un investigador midió la longitud de las alas de 12 Archilochus colubris y 13 Cynanthus latirostris.

H0 = “No hay diferencia significativa”

grados de libertad = n-2 =

valor crítico = 2,069

(12 + 13) -2 = 23

P = 0,05

Hemos calculado la t de las series de datos con una hoja de cálculo y t = 2,15 (este valor se suministra siempre en los exámenes)

2,15 > 2,069 t vc

Si t < vc, aceptamos H0 (no hay diferencia significativa)Si t > vc, rechazamos H0 (sí hay diferencia significativa)

Fuente de la tabla-t de 2 colas: http://www.medcalc.org/manual/t-distribution.php

Page 51: 01_Analisis_estadistico.pdf

Conclusión: “Hay una diferencia significativa en la longitud de las alas de las dos poblaciones de aves.”

Ejemplo resuelto: Un investigador midió la longitud de las alas de 12 Archilochus colubris y 13 Cynanthus latirostris.

H0 = “No hay diferencia significativa”

grados de libertad = n-2 =

valor crítico = 2,069

(12 + 13) -2 = 23

P = 0,05

Hemos calculado la t de las series de datos con una hoja de cálculo y t = 2,15 (este valor se suministra siempre en los exámenes)

2,15 > 2,069 t vc

Si t < vc, aceptamos H0 (no hay diferencia significativa)Si t > vc, rechazamos H0 (sí hay diferencia significativa)

Fuente de la tabla-t de 2 colas: http://www.medcalc.org/manual/t-distribution.php

Page 52: 01_Analisis_estadistico.pdf

¿Por rechazamos H0 si t>vc?Si el valor calculado para t es mayor que el valor crítico, rechazamos H0 .Esto se debe a que cuando t aumenta, tenemos más confianza en que los resultados son “reales” y no se deben al azar.

Fíjate que cuando los valores de t aumentan, los valores de p disminuyen; y eso significa más confianza. Si es menor que el valor crítico, estaremos menos seguros de que la diferencia entre medias sea significativa. Se corresponde con un incremento en los valores de p.

disminuye p = más confianza para rechazar H0

aumenta t = más confianza para rechazar H0

Page 53: 01_Analisis_estadistico.pdf

Ejemplo 1: Una estudiante mide 16 conchas de caracoles del lado sur de una isla y 15 del lado norte. Calcula que t = 1,61 y elige un límite de confianza del 95% (0,05). ¿Son resultados significativamente diferentes?

H0 = “No hay diferencia significativa”

grados de libertad = n-2 =

p =

valor crítico =

En el examen del BI, te dan un valor de t y se pide determinar si las dos series de datos son significativamente diferentes.

Fuente de la tabla-t de 2 colas: http://www.medcalc.org/manual/t-distribution.php

Page 54: 01_Analisis_estadistico.pdf

Ejemplo 1: Una estudiante mide 16 conchas de caracoles del lado sur de una isla y 15 del lado norte. Calcula que t = 1,61 y elige un límite de confianza del 95% (0,05). ¿Son resultados significativamente diferentes?

H0 = “No hay diferencia significativa”

grados de libertad = n-2 =

p =

valor crítico =

(16 + 15) -2 = 29

0,05

2,045

1,61 < 2,045t vc

Aceptamos H0

Conclusión: No hay diferencia significativa en el tamaño de las conchas de las poblaciones del norte y del sur

En el examen del BI, te dan un valor de t y se pide determinar si las dos series de datos son significativamente diferentes.

Fuente de la tabla-t de 2 colas: http://www.medcalc.org/manual/t-distribution.php

Page 55: 01_Analisis_estadistico.pdf

Ejemplo 2: Un estudiante mide la frecuencia cardíaca en reposo de 10 nadadores y 12 no nadadores. Calcula que t = 3,65 y elige un límite de confianza del 95% (0,05). ¿Son resultados significativamente diferentes?

H0 = “No hay diferencia significativa”

Grados de libertad = n-2 =

p =

valor crítico =

En el examen del BI, te dan un valor de t y se pide determinar si las dos series de datos son significativamente diferentes.

Fuente de la tabla-t de 2 colas: http://www.medcalc.org/manual/t-distribution.php

Page 56: 01_Analisis_estadistico.pdf

Ejemplo 2: Un estudiante mide la frecuencia cardíaca en reposo de 10 nadadores y 12 no nadadores. Calcula que t = 3,65 y elige un límite de confianza del 95% (0,05). ¿Son resultados significativamente diferentes?

H0 = “No hay diferencia significativa”

Grados de libertad = n-2 =

p =

valor crítico =

(10 + 12) -2 = 20

0,05

2,086

3,65 > 2,086t vc

Rechazamos H0

Conclusión : Sí hay diferencia significativa en la frecuencia cardíaca de nadadores y no nadadores

En el examen del BI, te dan un valor de t y se pide determinar si las dos series de datos son significativamente diferentes.

Fuente de la tabla-t de 2 colas: http://www.medcalc.org/manual/t-distribution.php

Page 57: 01_Analisis_estadistico.pdf

Observaciones BI:

Para que se pueda aplicar el test t, los datos deben presentar una distribución normal y la muestra debe contar con al menos 10 valores. El test t puede utilizarse para comparar dos conjuntos de datos y para medir el grado de solapamiento entre ellos. No se espera que los alumnos calculen los valores de t. Sólo se requiere realizar un test t con dos colas y datos no apareados.

Objetivo general 7 (uso de las TIC): aunque no se espera que los alumnos calculen un valor para el test t, se les puede enseñar a calcular dichos valores usando un programa de hojas de cálculo o una calculadora de pantalla gráfica.

TdC: la comunidad científica define un estándar objetivo por el cual se pueden realizar afirmaciones acerca de los datos.

Page 58: 01_Analisis_estadistico.pdf

Excel o Calc pueden suministrarnos directamente un valor de P para nuestros resultados.La función de Excel (=PRUEBA.T) compara ambas series de datos.

Como calculamos P directamente (la probabilidad de que las diferencias se deban al azar), podemos determinar la significancia directamente.

En este caso, P=0.00051

Es mucho más pequeña que 0.005, por lo que tenemos confianza en decir:

Se rechaza H0.

La diferencia es improbable que se deba al azar.

Conclusión: Hay una diferencia significativa en la longitud del pico entre A. colubris and C. latirostris.

(=PRUEBA.T)

Page 59: 01_Analisis_estadistico.pdf

Los Intervalos de Confianza del 95% también pueden ser representados en barras de error.

Esto proporciona una indicación más clara de la significancia de un resultado:• Si hay solapamiento, no hay diferencia significativa.• Si no hay solapamiento, hay diferencia significativa.• Si el solapamiento (o la diferencia) es pequeño, tenemos que aplicar una test-t.

no hay solapamiento

=INTERVALO.CONFIANZA.NORM(0.05,DESVEST,tamaño)e.g =INTERVALO.CONFIANZA.NORM(0.05,C15,10)

Page 60: 01_Analisis_estadistico.pdf

Interesante estudio: ¿Con los “mejores” profesores se aprende más?

Para saber más: http://priceonomics.com/is-this-why-ted-talks-seem-so-convincing/

Unos estudiantes observaron un video de un minuto de profesor explicando un tema. En un vídeo, el profesor explicaba de forma fluida y atractiva. En el otro vídeo, el profesor era menos fluido y explicaba de forma vacilante leyendo unas notas.

Predijeron cuánto debían aprender sobre el tema(gatos calicó y genética) y lo compararon con su puntuación actual.

(Barras de error = desviación estándar).

Rend

imie

nto

med

io

Profesor fluido Profesor vacilante

Page 61: 01_Analisis_estadistico.pdf

Interesante estudio: ¿Con los “mejores” profesores se aprende más?

Para saber más: http://priceonomics.com/is-this-why-ted-talks-seem-so-convincing/

Rend

imie

nto

med

io

Profesor fluido Profesor difluente

¿Hay diferencia significativa en el aprendizaje actual?

Rend

imie

nto

med

io

Profesor fluido Profesor vacilante

Unos estudiantes observaron un video de un minuto de profesor explicando un tema. En un vídeo, el profesor explicaba de forma fluida y atractiva. En el otro vídeo, el profesor era menos fluido y explicaba de forma vacilante leyendo unas notas.

Predijeron cuánto debían aprender sobre el tema(gatos calicó y genética) y lo compararon con su puntuación actual.

(Barras de error = desviación estándar).

Page 63: 01_Analisis_estadistico.pdf

Aplicar el test-t con Excel: (Esto será útil para los trabajos prácticos)

Excel puede calcular P directamente

(=PRUEBA.T)

Page 64: 01_Analisis_estadistico.pdf

Aplicar el test-t con Excel: (Esto será útil para los trabajos prácticos)

Serie de datos A

Serie de datos B

Usa 2 colas y tipo 2 para un test básico de comparación de dos series de datos

Page 65: 01_Analisis_estadistico.pdf

Aplicar el test-t con Excel: (Esto será útil para los trabajos prácticos)Interpretando los resultados:

Recuerda: mientras más pequeño sea el valor de P, mayor será la confianza de que la diferencia entre las medias sea significativa.

Así que si calculamos directamente el valor de P, aplicaremos esta regla:

Si P<0,05, rechazamos H0(tenemos más del 95% de confianza

de que la diferencia no se debe al azar)

P es mucho más pequeño que 0,05

Page 66: 01_Analisis_estadistico.pdf

Valor P = 0.1 0.05 0.02 0.01 0.005confianza 90% 95% 98% 99% 99.50%

Gra

dos

de lib

ert

ad

1 6.31 12.71 31.82 63.66 127.34 2 2.92 4.30 6.96 9.92 14.09 3 2.35 3.18 4.54 5.84 7.45 4 2.13 2.78 3.75 4.60 5.60 5 2.02 2.57 3.37 4.03 4.77 6 1.94 2.45 3.14 3.71 4.32 7 1.89 2.36 3.00 3.50 4.03 8 1.86 2.31 2.90 3.36 3.83 9 1.83 2.26 2.82 3.25 3.69 10 1.81 2.23 2.76 3.17 3.58

Gra

dos

de lib

ert

ad

11 1.80 2.20 2.72 3.11 3.50 12 1.78 2.18 2.68 3.05 3.43 13 1.77 2.16 2.65 3.01 3.37 14 1.76 2.14 2.62 2.98 3.33 15 1.75 2.13 2.60 2.95 3.29 16 1.75 2.12 2.58 2.92 3.25 17 1.74 2.11 2.57 2.90 3.22 18 1.73 2.10 2.55 2.88 3.20 19 1.73 2.09 2.54 2.86 3.17 20 1.72 2.09 2.53 2.85 3.15

Gra

dos

de lib

ert

ad

21 1.72 2.08 2.52 2.83 3.14 22 1.72 2.07 2.51 2.82 3.12 23 1.71 2.07 2.50 2.81 3.10 24 1.71 2.06 2.49 2.80 3.09 25 1.71 2.06 2.49 2.79 3.08 26 1.71 2.06 2.48 2.78 3.07 27 1.70 2.05 2.47 2.77 3.06 28 1.70 2.05 2.47 2.76 3.05 29 1.70 2.05 2.46 2.76 3.04 30 1.70 2.04 2.46 2.75 3.03

Gra

dos

de lib

ert

ad31 1.70 2.04 2.45 2.74 3.02 32 1.69 2.04 2.45 2.74 3.02 33 1.69 2.03 2.44 2.73 3.01 34 1.69 2.03 2.44 2.73 3.00 35 1.69 2.03 2.44 2.72 3.00 36 1.69 2.03 2.43 2.72 2.99 37 1.69 2.03 2.43 2.72 2.99 38 1.69 2.02 2.43 2.71 2.98 39 1.68 2.02 2.43 2.71 2.98 40 1.68 2.02 2.42 2.70 2.97

Page 67: 01_Analisis_estadistico.pdf

Las pulgas de los perros saltan más alto que las de los gatos, ganador del Premio IgNobel de Biología, 2008.

http://ww

w.youtube.com

/watch?v=fJEZg4Q

N760

Page 68: 01_Analisis_estadistico.pdf

Correlación no implica causa, pero nos sugiere que indaguemos por si acaso.

(Fuente: XKCD-es)

Page 69: 01_Analisis_estadistico.pdf

Las investigaciones biológicas son, en su mayor parte, descriptivas. Se identifica una variable, se mide y se compara en distintas especies o sistemas biológicos.

Otras veces lo que se hace es comparar dos variables distintas entre sí y ver cómo se comportan. Ver si existe algún tipo de relación entre ambas. Este tipo de estudios se denominan correlaciones.

Correlaciones

Ejemplos:• ¿Qué relación hay entre el peso del colibrí de garganta rubí y la longitud de su

pico?• ¿Cómo afectan las distintas intensidades de luz al grosor de la hoja del haya?

http://www.flickr.com/photos/63195142@N00/3103420784 http://www.flickr.com/photos/70417829@N00/85764057

Page 70: 01_Analisis_estadistico.pdf

Veamos si hay correlación entre la longitud del pico y el peso del colibrí:

En esta serie de datos hay una fuerte correlación positiva entre la longitud

del pico y el peso del cuerpo

Los datos se ajustan estrechamente a la línea de tendencia (recta de regresión)

La correlación pueden sugerir relaciones entre series de datos:

La correlación (r) tiene un rango desde:+1 (ajuste perfecto a la línea, correlación positiva) a-1 (ajuste perfecto a la línea, correlación negativa)Mientras más cercano a cero, más débil será la tendencia

=COEF.DE.CORREL Devuelve el coeficiente de correlación (r) entre dos series de datos

Page 71: 01_Analisis_estadistico.pdf

Ejemplos de correlaciones: ¿Cómo las describirías?

Page 72: 01_Analisis_estadistico.pdf

Ejemplos de correlaciones:

Correlación positiva fuerte

Correlación negativa fuerte

Sin correlación Correlación positiva débil

El valor de la correlación puede ser calculado con Excel:

¿Cómo las describirías?

Page 73: 01_Analisis_estadistico.pdf

La correlación es un parámetro estadístico que nos informa, únicamente, de la relación existente entre dos variables, sin que influya la dispersión que pueda haber entre los valores de cada una de ellas. Su valor varía desde +1 (correlación positiva perfecta), 0 (sin correlación) y -1 (correlación negativa perfecta).La correlación se puede vislumbrar si dibujamos en un mismo gráfico los datos de dos variables. ¿En cuáles de los siguientes gráficos hay correlación?

La correlación pueden sugerir relaciones entre series de datos:

http://upload.wikimedia.org/wikipedia/commons/3/3d/Correlation_types.jpg

Page 74: 01_Analisis_estadistico.pdf

La correlación es un parámetro estadístico que nos informa, únicamente, de la relación existente entre dos variables, sin que influya la dispersión que pueda haber entre los valores de cada una de ellas. Su valor varía desde +1 (correlación positiva perfecta), 0 (sin correlación) y -1 (correlación negativa perfecta).La correlación se puede vislumbrar si dibujamos en un mismo gráfico los datos de dos variables. ¿En cuáles de los siguientes gráficos hay correlación?

La correlación pueden sugerir relaciones entre series de datos:

http://upload.wikimedia.org/wikipedia/commons/3/3d/Correlation_types.jpg

Page 75: 01_Analisis_estadistico.pdf

From MrT’s Excel Statbook.

La fuerza de una correlación se puede calcular con Excel:

=COEF.DE.CORREL

Page 76: 01_Analisis_estadistico.pdf

http://diabetes-obesity.findthedata.org/b/240/Correlations-between-diabetes-obesity-and-physical-activity

La diabetes y la obesidad son “factores de riesgo” ¿uno de otro?

Hay una fuerte correlación entre ellos, pero eso no significa que uno sea la causa del otro?

Page 77: 01_Analisis_estadistico.pdf

Correlación no implica causalidad.

Pirates vs global warming, from http://en.wikipedia.org/wiki/Flying_Spaghetti_Monster#Pirates_and_global_warming

Page 78: 01_Analisis_estadistico.pdf

Correlaciones:

http://www.ciencia-explicada.com/2013/06/correlacion-causalidad-y-grafos-lo-mas.html

Page 79: 01_Analisis_estadistico.pdf

Correlación no implica causalidad.ExperimentosCuando hay correlaciones, entonces debemos diseñar sólidos experimentos científicos para determinar la causa de la relación. A veces existe una correlación porque las variables son confusas – son condiciones que tienen en común las variables correlacionadas pero que no se afectan directamente una sobre otra.

Para ser capaces de determinar causalidad mediante la experimentación necesitamos: • Una variable independiente claramente identificada.• Medir cuidadosamente su efecto sobre la variable(s) dependiente, para que pueda ser

atribuido el cambio a la variable independiente. ¿Cuál es el efecto de X (VI) sobre Y (VD)?• Estricto control de todas las demás variables que pudieran tener un impacto medible sobre

la variable dependiente.

Necesitamos: datos suficientes, relevantes, repetibles y estadísticamente significativos.

Algunas relaciones causales conocidas: • Concentración de CO2 atmosférico y calentamiento global.• Concentración de CO2 atmosférico y velocidad de la fotosíntesis.• Temperatura y actividad enzimática.

Page 81: 01_Analisis_estadistico.pdf

Flamenco Dancer, by Steve Coreyhttp://www.flickr.com/photos/22016744@N06/7952552148