Top Banner
Estadística Parte 1 Francisco J. Carrera Troyano Instituto de Física de Cantabria Consejo Superior de Investigaciones Científicas y Universidad de Cantabria Octubre 2017
35

Estadística Parte 1venus.ifca.unican.es/~carreraf/Estadistica/Transparenci... · 2017. 10. 3. · • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana-1-,

Nov 07, 2020

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Estadística Parte 1venus.ifca.unican.es/~carreraf/Estadistica/Transparenci... · 2017. 10. 3. · • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana-1-,

Estadística Parte 1

Francisco J. Carrera Troyano

Instituto de Física de Cantabria Consejo Superior de Investigaciones Científicas

y Universidad de Cantabria

Octubre 2017

Page 2: Estadística Parte 1venus.ifca.unican.es/~carreraf/Estadistica/Transparenci... · 2017. 10. 3. · • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana-1-,

Estadística

• “There are lies, damned lies, and statistics”Benjamin Disraeli

• “If you need statistics, you ought to have done a better experiment”Ernest Rutherford

• Diálogo entre P. Scheuer y un estudiante:– How are the data?– We did a Kolmogorov-Smirnov test...– Ah! That bad.

Page 3: Estadística Parte 1venus.ifca.unican.es/~carreraf/Estadistica/Transparenci... · 2017. 10. 3. · • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana-1-,

Estadística

• La estadística es una herramienta habitual en muchas disciplinas científicas

• Puede ayudar a:– Cuantificar nuestras impresiones subjetivas sobre los datos

experimentales– Extraer información de los datos, cuantificando la incertidumbre con

un grado determinado de confianza– Especialmente importante cuando las circunstancias no permiten “hacer un experimento mejor”

– ...• Pero no puede sustituir al sentido común y al sentido crítico

• Nunca se puede probar que una teoría es cierta, sólo que es falsa, con un determinado grado de confianza

Page 4: Estadística Parte 1venus.ifca.unican.es/~carreraf/Estadistica/Transparenci... · 2017. 10. 3. · • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana-1-,

Índice1. Incertidumbres y errores

– Incertidumbres en las medidas• Errores en la medida: sistemáticos y estadísticos. Incertidumbres.

Distribuciones original y de la muestra. Momentos de una distribución. Medidas del valor central. Medidas de la dispersión. Puntos aislados.

– Análisis de errores• Propagación de errores. Barras de error asimétricas.

2. Contrastes de hipótesis paramétricos y no paramétricos– Comparación de dos distribuciones

• Comparación de las medias. Comparación de las varianzas. Test c2. Test de Kolmogorov-Smirnov. Comparación de distribuciones bidimensionales

• Análisis de varianza: ANOVA• Correlación lineal. Test no-paramétricos. Correlaciones parciales.

Variables con límites superiores e inferiores– Significancia de una detección

• Cociente señal-ruido.3. Modelado estadístico de datos

– Métodos de máxima verosimilitud• Modelos frente a datos. Verosimilitud. c2: Introducción, Estimación de

parámetros. Bondad del ajuste. Incertidumbre en los parámetros. Regresión lineal.

• Verosimilitud en régimen Poissoniano

Page 5: Estadística Parte 1venus.ifca.unican.es/~carreraf/Estadistica/Transparenci... · 2017. 10. 3. · • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana-1-,

Bibliografía• "Data reduction and error analysis for the physical sciences"

Bevington & Robinson, 1992, McGraw-Hill• "Numerical Recipes" Press et al., 1994, CUP• “Estadística básica para estudiantes de Ciencias” J. Gorgas,

N. Cardiel, J. Zamorano, 2009, http://pendientedemigracion.ucm.es/info/Astrof/users/jaz/estadistica.html

• "Probability and statistics in engineering and managementscience" Hines & Montgomery, 1990, J. Wiley & Sons (tb. version en castellano)

• "Practical Statistics for Astronomers" Wall & Jenkins, 2003, CUP

• “Modern statistical methods for Astronomy” Feigelson & Babu, 2012, CUP

• “Astronomy Methods” H. Bradt, 2004, CUP

Page 6: Estadística Parte 1venus.ifca.unican.es/~carreraf/Estadistica/Transparenci... · 2017. 10. 3. · • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana-1-,

Incertidumbres en las medidas (Bevington & Robinson’92)

• Errores de medida: – Error: diferencia entre el valor observado (o calculado) y el valor

verdadero• Problema: no sabemos el valor verdadero: necesitamos acotarlo a partir de

los datos obtenidos

• Dos conceptos importantes:– Exactitud: cercanía entre el resultado de un experimento y el valor

verdadero– Precisión: “bondad” en la determinación del resultado, reproducibilidad.

Sin referencia al valor verdadero• Generalmente: incertidumbre ~ precisión

Page 7: Estadística Parte 1venus.ifca.unican.es/~carreraf/Estadistica/Transparenci... · 2017. 10. 3. · • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana-1-,

Incertidumbres en las medidas (Bevington & Robinson’92)

• Errores de medida: – Error: diferencia entre el valor observado (o calculado) y el valor

verdadero• Problema: no sabemos el valor verdadero: necesitamos acotarlo a partir de

los datos obtenidos

• Dos conceptos importantes:– Exactitud: cercanía entre el resultado de un experimento y el valor

verdadero– Precisión: “bondad” en la determinación del resultado, reproducibilidad.

Sin referencia al valor verdadero• Generalmente: incertidumbre ~ precisión

PrecisoInexacto

ImprecisoExacto

Page 8: Estadística Parte 1venus.ifca.unican.es/~carreraf/Estadistica/Transparenci... · 2017. 10. 3. · • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana-1-,

Errores sistemáticos

• Inexactitud reproducible introducida por fallos del equipo, de su calibración, o de la técnica utilizada– Afectan a la exactitud– Difíciles de detectar y de estudiar de manera estadística

• Se evitan/detectan:– Diseñando el experimento con cuidado– Cuidando las condiciones en las que se realiza el

experimento– Midiendo las mismas cantidades con métodos distintos

Page 9: Estadística Parte 1venus.ifca.unican.es/~carreraf/Estadistica/Transparenci... · 2017. 10. 3. · • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana-1-,

Errores estadísticos

• Indefinición del resultado introducida por la precisión finita de la medida. Medida de la fluctuación al repetir el experimento– Afectan a la precisión– Debidos a fluctuaciones en las observaciones que producen

resultados distintos en experimentos distintos– Requieren observaciones repetidas para mejorar su

precisión• Dos tipos:

– Instrumentales: imperfecciones en el equipo, o en la lectura. • Se evitan con mejoras en la precisión y fiabilidad de los instrumentos

– Fluctuaciones estadísticas: inevitables, debidas a la propia naturaleza física de la medida

• Se pueden reducir con más medidas, pero no indefinidamente

Page 10: Estadística Parte 1venus.ifca.unican.es/~carreraf/Estadistica/Transparenci... · 2017. 10. 3. · • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana-1-,

Incertidumbres

• Magnitud del error que se estima que se ha cometido en la determinación de los resultados– Nivel de confianza de que otra medida caerá dentro de un intervalo con

determinada probabilidad (Ej. 1s, 68.3%, 99%...)• Dos tipos:

– Fluctuaciones en las medidas– Descripción teórica (ej. medida tamaño mesa ovalada)

• Nos interesa estimar los errores inherentes en el experimento, lo que haremos a partir de las incertidumbres en las medidas

• También nos interesa averiguar si el modelo que estamos aplicando es el que mejor caracteriza el sistema (Secciones 2 y 3 del curso)

Page 11: Estadística Parte 1venus.ifca.unican.es/~carreraf/Estadistica/Transparenci... · 2017. 10. 3. · • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana-1-,

Distribuciones original y de la muestra

• Si medimos una cantidad x obtenemos {xi}• Si hiciéramos infinitas medidas de la distribución de los {xi},

seguiría la distribución teórica de los valores esperados de {xi} (gaussiana, poissoniana...)

• En casos reales:– Distribución original≡esperada– Distribución de la muestra≡{xi}

• Cuantas más medidas se efectúen más se parecerán, pero no serán idénticas:

(parámetro original) = limN→∞(parámetro experimental)

Page 12: Estadística Parte 1venus.ifca.unican.es/~carreraf/Estadistica/Transparenci... · 2017. 10. 3. · • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana-1-,

Distribuciones original y de la muestra

• Si medimos una cantidad x obtenemos {xi}• Si hiciéramos infinitas medidas de la distribución de los {xi},

seguiría la distribución teórica de los valores esperados de {xi} (gaussiana, poissoniana...)

• En casos reales:– Distribución original≡esperada– Distribución de la muestra≡{xi}

• Cuantas más medidas se efectúen más se parecerán, pero no serán idénticas:

(parámetro original) = limN→∞(parámetro experimental)

Muestra

Modelo muestra

Original

Page 13: Estadística Parte 1venus.ifca.unican.es/~carreraf/Estadistica/Transparenci... · 2017. 10. 3. · • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana-1-,

• Idealmente queremos conocer la distribución completa• No siempre es posible/deseable, así que intentamos

“resumirla” en unos pocos parámetros:- Momentos de una distribución

• Cualitativamente:1. Valor central2. Dispersión3. Asimetría (sesgo, “skewness”)4. Curtosis

• Normalmente se usan sólo los dos primeros:- Razones históricas (Poissoniana -1-, gaussiana -1,2-...)- Más robustas- Suelen ser las más útiles

Caracterizando una muestra

mk (a) = dx P(x)(x − a)k−∞

Page 14: Estadística Parte 1venus.ifca.unican.es/~carreraf/Estadistica/Transparenci... · 2017. 10. 3. · • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana-1-,

• Idealmente queremos conocer la distribución completa• No siempre es posible/deseable, así que intentamos

“resumirla” en unos pocos parámetros:– Momentos de una distribución

• Cualitativamente:1. Valor central2. Dispersión3. Asimetría (sesgo, “skewness”)4. Curtosis

• Normalmente se usan sólo las dos primeras:- Razones históricas (Poissoniana -1-, gaussiana -1,2-...)- Más robustas - Suelen ser las más útiles

Caracterizando una muestra

Page 15: Estadística Parte 1venus.ifca.unican.es/~carreraf/Estadistica/Transparenci... · 2017. 10. 3. · • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana-1-,

Medidas del valor central

• Tienen sentido si la distribución de valores tiende a agruparse en torno a un valor particular

• Media, centroide o valor promedio: de la muestra

original– Si P(x) simétrica en torno a x0: µ=x0

– El error estándar en la media: s/√N , N nº puntos

– En general:ò¥

¥-

= )()( xfxdxPf

÷ø

öçè

æ= å

=¥®

N

iiNx

N 1

1limµ

å=

=N

iixN

x1

1

ò¥

¥-

= xxdxPx )(

Page 16: Estadística Parte 1venus.ifca.unican.es/~carreraf/Estadistica/Transparenci... · 2017. 10. 3. · • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana-1-,

Medidas del valor central

• Mediana µ1/2

• Tantos valores por encima como por debajo– Si N impar: µ1/2~xint(N/2)+1

– Si N par: µ1/2~(xN/2+xN/2+1)/2• Menos sensible a puntos aislados muy fuera de la distribución• Si P(x) simétrica respecto µÞ media=mediana• La media falla como estimador si las colas son largas, mientras

que la mediana falla sólo si el área bajo las colas es grande

2/1)()( 2/12/1 =<=³ µµ xPxP

Page 17: Estadística Parte 1venus.ifca.unican.es/~carreraf/Estadistica/Transparenci... · 2017. 10. 3. · • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana-1-,

Medidas del valor central

• Moda: Valor más probable µmax: P(µmax)≥P(x≠µmax)– El más probable de ser observado– Pico de la distribución

• Puede haber más de uno: en este caso µ, µ1/2 no muy útiles• Si sólo hay uno y la distribución es simétrica: µ=µmax=µ1/2

– Distribución asimétrica: generalmente µmax<µ1/2<µ ó µmax>µ1/2>µ

• ¿Cuál usar?– Depende de lo que se quiera y de la forma de la distribución– Importante hacer histograma

Page 18: Estadística Parte 1venus.ifca.unican.es/~carreraf/Estadistica/Transparenci... · 2017. 10. 3. · • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana-1-,

Medidas del valor central

• Moda: Valor más probable µmax: P(µmax)≥P(x≠µmax)– El más probable de ser observado– Pico de la distribución

• Puede haber más de uno: en este caso µ, µ1/2 no muy útiles• Si sólo hay uno y la distribución es simétrica: µ=µmax=µ1/2

– Distribución asimétrica: generalmente µmax<µ1/2<µ ó µmax>µ1/2>µ

• ¿Cuál usar?– Depende de lo que se quiera y de la forma de la distribución– Importante hacer histograma

Page 19: Estadística Parte 1venus.ifca.unican.es/~carreraf/Estadistica/Transparenci... · 2017. 10. 3. · • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana-1-,

Medidas de la dispersión

• Desviaciones:

• Desviación promedio: ADev ó a promedio valores absolutos de las desviaciones

– Valor absoluto complica tratamiento analítico– A veces se usa mediana en lugar de media, esto minimiza

ADev– No muy usada, pero útil en el caso de distribuciones con

muchos puntos aislados “fuera” de la distribución

0lim =-=¥®dxxd

Nii

å -= xxN i1ADev úû

ùêëé -= 奮

xxN iN

1lima

Page 20: Estadística Parte 1venus.ifca.unican.es/~carreraf/Estadistica/Transparenci... · 2017. 10. 3. · • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana-1-,

Medidas de la dispersión

• Varianza:

– Desviación estándar:

– Varianza de la muestra:

• Se usa N-1 en lugar de N porque para calcular s se utiliza la media, que se obtiene con la propia distribución

– Hay distribuciones de probabilidad para las que s no existe:• Si P(x) cae como 1/x2 o más despacio esta expresión →∞

– Por ejemplo la lorentziana

– a es un parámetro más robusto

( ) ( ) 22222 1lim1lim µµs -÷øö

çèæ=úû

ùêëé -=-= åå ¥®¥® iNN

xN

xxN

x

as >= Varianza

( )å --

= 22

11 xxN

s i

ò¥

¥-

-= 22 ))(( µs xxdxP

22 )2/()(2/1),;(G--

G=G

µpµ

xxP

Page 21: Estadística Parte 1venus.ifca.unican.es/~carreraf/Estadistica/Transparenci... · 2017. 10. 3. · • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana-1-,

Otras medidas de la dispersión

• Cuando hay muchos puntos: percentiles– Valores de {xi} que engloban una fracción determinada

de las observaciones:• Cuartiles: Q1 (25%), Q2 (50%≡µ1/2), Q3 (75%)

– Relacionados con la mediana– Útiles cuando la distribución no sigue una forma clara

(modelo teórico desconocido) o cuando hay muchos puntos aislados

– Por ejemplo: en unas simulaciones para ver si una función es una buena aproximación: se usa un estadístico (función de los datos) y se mira qué porcentaje de las simulaciones producen un valor del estadístico que cae por debajo del valor observado

Page 22: Estadística Parte 1venus.ifca.unican.es/~carreraf/Estadistica/Transparenci... · 2017. 10. 3. · • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana-1-,

Significado del valor central y de la dispersión

• Media (moda, mediana): estimación del valor del parámetro que queremos determinar

• Varianza (desviación promedio, percentiles): estimación de la incertidumbre de nuestro método en la determinación de ese parámetro

• Distribución gaussiana: media y varianza determinan distribución– Por razones históricas siguen dominando– Además, momentos mayores no siempre útiles (poco

robustos)

Page 23: Estadística Parte 1venus.ifca.unican.es/~carreraf/Estadistica/Transparenci... · 2017. 10. 3. · • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana-1-,

Histogramas I

• Muestran el número de datos en intervalos de una variable bin:– Útiles para ver la frecuencia relativa de los diversos valores– Si no son discretos: agrupación en n intervalos Δx– Para compararlos: normalizarlos a área unidad, mismos intervalos

• A la hora de decidir sobre los intervalos:– Demasiados dan lugar a muchas fluctuaciones– Pocos pierden detalle de la distribución– Deben cubrir el rango de los datos, ¡pero no más!– Si discretos deben centrarse los intervalos en los valores

• Reglas sobre n, Δx: no universal, mejor probar– n=N1/2

– Freedman-Diaconis: Δx=2 IQR/N1/3 , IQR≡Q3-Q1

– Intervalos no uniformes?

Page 24: Estadística Parte 1venus.ifca.unican.es/~carreraf/Estadistica/Transparenci... · 2017. 10. 3. · • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana-1-,

Histogramas I

• Muestran el número de datos en intervalos de una variable bin:– Útiles para ver la frecuencia relativa de los diversos valores– Si no son discretos: agrupación en n intervalos Δx– Para compararlos: normalizarlos a área unidad, mismos intervalos

• A la hora de decidir sobre los intervalos:– Demasiados dan lugar a muchas fluctuaciones– Pocos pierden detalle de la distribución– Deben cubrir el rango de los datos, ¡pero no más!– Si discretos deben centrarse los intervalos en los valores

• Reglas sobre n, Δx: no universal, mejor probar– n=N1/2

– Freedman-Diaconis: Δx=2 IQR/N1/3 , IQR≡Q3-Q1

– Intervalos no uniformes?

Page 25: Estadística Parte 1venus.ifca.unican.es/~carreraf/Estadistica/Transparenci... · 2017. 10. 3. · • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana-1-,

Histogramas II

• ¿Cómo tratar los datos si tienen barras de error σi?– Si σi<<Δx: se pueden seguir usando métodos anteriores– Si no es así:

• Si las barras de error son simétricas y datos ~gaussianos: se define P(x)=ΣiN(xi, σi)/N : normalizada a la unidad

• Si se conocen las distribuciones individuales Pi(x): se define P(x)=ΣiPi(x)/N : normalizada a la unidad

• Los valores del histograma en el bin j serían ∫ΔxjdxP(x)

Page 26: Estadística Parte 1venus.ifca.unican.es/~carreraf/Estadistica/Transparenci... · 2017. 10. 3. · • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana-1-,

Ejercicio 1

• Archivos dat1.dat,dat2.dat,dat3.dat enhttp://venus.ifca.unican.es/~carreraf/Estadistica/Ejercicios

• Calcular:– La moda– La media y la desviación estándar– La mediana– Histograma

• ¿Qué distribuciones son?¿Por qué?

Page 27: Estadística Parte 1venus.ifca.unican.es/~carreraf/Estadistica/Transparenci... · 2017. 10. 3. · • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana-1-,

Medidas del valor central II

• Media ponderada: cuando se combinan datos {xi}con errores individuales {σi}

– Relacionada con c2 (gaussiana): equivale a ajuste a constante

– No tiene en cuenta la dispersión en los valores

åå

å==

i i

x

j j

i i

ix

x2

2

2

2

11

1s

s

s

s

Page 28: Estadística Parte 1venus.ifca.unican.es/~carreraf/Estadistica/Transparenci... · 2017. 10. 3. · • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana-1-,

Medidas del valor central. Ejemplo I

Se toman medidas del número de galaxias en N=1000zonas diferentes del cielo (fichero datCounts.dat) yse desea comprobar si la densidad de fuentes escompatible con ser constante o si hay algunadispersión intrínseca• Primer paso: histograma

(línea negra continua)– Pico ~100

• Segundo paso: cálculo demedia y medidas dispersión:– 〈x〉=100.3– s=22 (línea azul puntos)

> √〈x〉~10 (línea roja trazos)– s/√1000=0.7

Page 29: Estadística Parte 1venus.ifca.unican.es/~carreraf/Estadistica/Transparenci... · 2017. 10. 3. · • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana-1-,

• Tercer paso: asignar barrasde error individuales ~√x

• Cuarto paso: dibujar lospuntos y sus barras de error:– Dispersión entre puntos >

barras de error⇒Dispersión intrínseca?

Medidas del valorcentral. Ejemplo II

Page 30: Estadística Parte 1venus.ifca.unican.es/~carreraf/Estadistica/Transparenci... · 2017. 10. 3. · • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana-1-,

Medidas del valor central III

• Media ponderada teniendo en cuenta la dispersión en los valores: cuando se combinan datos con errores y dispersión intrínseca– Supone distribución gaussiana de los valores respecto de ⟨x⟩, con dispersión intrínseca σ

– Se busca mínimo de la “verosimilitud” (log-likelihood !=-2LnP, Sección 3 del curso)

– Se puede encontrar el error en ⟨x⟩ buscando en torno al mínimo

=xi − x( )

2

σ i2 +σ 2

i∑ + Ln 2π σ i

2 +σ 2( )#$

%&

i∑

Page 31: Estadística Parte 1venus.ifca.unican.es/~carreraf/Estadistica/Transparenci... · 2017. 10. 3. · • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana-1-,

• Tercer paso: asignar barrasde error individuales ~√x

• Cuarto paso: dibujar lospuntos y sus barras de rror:– Dispersión entre puntos >

barras de error⇒Dispersión intrínseca?

• Quinto paso: Ajustamos unamedia con dispersiónintrínseca (“+” en diagramade contornos)– Media=99.34– Dispersión intrínseca=19.77– Significancia?– Incertidumbres?⇒contornos χ2 (ver Sección 3)

Medidas del valorcentral. Ejemplo III

Page 32: Estadística Parte 1venus.ifca.unican.es/~carreraf/Estadistica/Transparenci... · 2017. 10. 3. · • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana-1-,

Puntos aislados fuera de la distribución I

• Son mucho más frecuentes en la vida real que en las distribuciones teóricas

• Eliminación con juicio y sentido crítico– Sólo si se entiende el origen de las discrepancias

• Técnica: el sigma clipping1. Definición de límite n×s (n>2-3) ó en probabilidad (95%, 99%...)2. Cálculo de 〈x〉, s3. Si |xi-〈x〉| >n×s rechazamos el punto i4. Si se ha rechazado algún punto, se vuelve a 2 (a veces límite en el

número de bucles)5. Si no se ha rechazado ninguno, muestra “limpia”

Page 33: Estadística Parte 1venus.ifca.unican.es/~carreraf/Estadistica/Transparenci... · 2017. 10. 3. · • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana-1-,

Puntos aislados fuera de la

distribución II

• Método más robusto usando el rango intercuartil: IQR≡Q3-Q1

• Se definen límites: Lo que quede fuera outlier– Q1-1.5 IQR– Q3+1.5 IQR

Page 34: Estadística Parte 1venus.ifca.unican.es/~carreraf/Estadistica/Transparenci... · 2017. 10. 3. · • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana-1-,

Propagación de errores

• Función A(x,y,...), si se conocen los errores en x (sx), y (sy)... ¿Cuál es el error en A (sA)?– Si se conoce la distribución estadística de las distintas variables, se

puede calcular– Si no es así, y sx ,sy...<<:

• A partir de las propiedades de la distribución gaussiana• También hay términos de correlaciones cruzadas

– deberían anularse si las medidas de x,y... no están relacionadas– Lo que siempre hay que comprobar

– Ejemplos:

...22

22

2 +÷÷ø

öççè

涶

+÷øö

çè涶

= yxA yA

xA sss

yxyxA ss÷÷ø

öççè

涶

¶2

A = ax + by⇒σ A2 = a2σ x

2 + b2σ y2

A = axb ⇒σ A2 = abxb−1( )

2σ x

2

A = abx ⇒σ A = bLn a abxσ x

Page 35: Estadística Parte 1venus.ifca.unican.es/~carreraf/Estadistica/Transparenci... · 2017. 10. 3. · • Normalmente se usan sólo los dos primeros: - Razones históricas (Poissoniana-1-,

Barras de error asimétricas(Barlow arXiv: physics/0306138,0406120)

• Caso típico: µ +σ1-σ2

– Interpretación? Gaussiana con errores asimétricos no tiene sentido• Parametrización de la P(x) con alguna función:

– “Bien comportada”: continua y con colas controlables– Parámetros del problema:

• Máximo en µ• !=-2LnPmin±1 correspondan con σ1, σ2 (ver parte 3 del curso)

• Equivalentemente

• Dos aproximaciones:– Barlow (2003,2004): distribución de probabilidad asimétrica, mejores resultados

con gaussiana de varianza variable. Implementado enhttp://www.slac.stanford.edu/~barlow/java/statistics.html

– Buscar N(µ,σ) simétrica con σ entre σ1 y σ2 que cumpla:

= −2 lnP(x) = x −µσ −σ '(x −µ)"

#$

%

&'

2

, σ =2σ1σ 2σ1+σ 2

, σ ' = σ1−σ 2σ1+σ 2

dx N(0,1)−1

1

∫ = dx P(x)µ−σ 2

µ+σ1

dx N(0,1)−1

1

∫ = dx 1σ 2πµ−σ 2

µ+σ1

∫ exp −(x −µ)2

2σ 2

#

$%

&

'(