Top Banner
Alonso Fernández Galián Tema 9: Estadística descriptiva - 1 - TEMA 9: ESTADÍSTICA DESCRIPTIVA La Estadística tiene por objetivo estudiar cómo se distribuye cierta característica en una pobla- ción. En particular, la Estadística Descriptiva se ocupa de cómo resumir los datos recogidos. 9.1 VARIABLES ESTADÍSTICAS, POBLACIÓN Y MUESTRA Veamos cuáles son los conceptos básicos en un estudio estadístico: Ejemplo: Se desea saber a qué partido políti- co se va a votar en España en las próximas elecciones generales. Para ello, se realiza una encuesta eligiendo al azar a 1000 ciuda- danos con derecho a voto. Se tiene: -Población: Todos los ciudadanos con dere- cho a voto. -Muestra: Los 1000 ciudadanos elegidos al azar. -Variable estadística: Los distintos partidos políticos (PSOE, PP, IU,…) Ejemplo: Una compañía de telefonía móvil quiere saber cuántos SMS envían semanal- mente los estudiantes de secundaria. Para ello, se selecciona un instituto al azar y se pregunta a sus 650 alumnos. Se tiene: -Población: Todos los estudiantes de secun- daria. -Muestra: Los 650 estudiantes del IES selec- cionado. -Variable estadística: Número de mensajes enviados semanalmente. Se denomina población al conjunto de individuos que son objeto de estudio. Si la población es muy grande se selecciona al azar un grupo menos numeroso llamado muestra. Se denomina variable estadística a cualquier característica que varíe entre los distintos individuos de una población. Por ejemplo: Color de pelo, edad, profesión, estatura, número de hermanos,… Clasificación de las variables estadísticas Las variables estadísticas se clasifican en cualitativas y cuantitativas: (a) Variables cuantitativas: Son aquellas que toman valores numéricos. Las variables cuan- titativas pueden ser, a su vez, discretas o continuas: Variables cuantitativas discretas son aquellas que sólo pueden tomar unos pocos valores enteros. Por ejemplo: la talla de pie, el número de hermanos, el número de suspensos,… Variables cuantitativas continuas son aquellas que pueden tomar cualquier real valor de cierto intervalo. Por ejemplo: el peso, la estatura, la duración de una llamada telefónica... (b) Variables cualitativas: Son aquellas que toman valores no numéricos. Por ejemplo: el color de pelo, la profesión, la nacionalidad, el programa de televisión preferido,… En resumen: Discretas: número de pie, número de suspensos,… Cuantitativas Variables estadísticas Continuas: peso, estatura,… Cualitativas: profesión, nacionalidad,…
12

Alonso Fernández Galián Tema 9: Estadística descriptiva TEMA 9 ...sti… · La Estadística tiene por objetivo estudiar cómo se distribuye cierta característica en una pobla-ción.

Jul 16, 2020

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Alonso Fernández Galián Tema 9: Estadística descriptiva TEMA 9 ...sti… · La Estadística tiene por objetivo estudiar cómo se distribuye cierta característica en una pobla-ción.

Alonso Fernández Galián Tema 9: Estadística descriptiva

- 1 -

TEMA 9: ESTADÍSTICA DESCRIPTIVA La Estadística tiene por objetivo estudiar cómo se distribuye cierta característica en una pobla-ción. En particular, la Estadística Descriptiva se ocupa de cómo resumir los datos recogidos. 9.1 VARIABLES ESTADÍSTICAS, POBLACIÓN Y MUESTRA Veamos cuáles son los conceptos básicos en un estudio estadístico:

Ejemplo: Se desea saber a qué partido políti-co se va a votar en España en las próximas elecciones generales. Para ello, se realiza una encuesta eligiendo al azar a 1000 ciuda-danos con derecho a voto. Se tiene:

-Población: Todos los ciudadanos con dere-cho a voto.

-Muestra: Los 1000 ciudadanos elegidos al azar.

-Variable estadística: Los distintos partidos políticos (PSOE, PP, IU,…)

Ejemplo: Una compañía de telefonía móvil quiere saber cuántos SMS envían semanal-mente los estudiantes de secundaria. Para ello, se selecciona un instituto al azar y se pregunta a sus 650 alumnos. Se tiene:

-Población: Todos los estudiantes de secun-daria.

-Muestra: Los 650 estudiantes del IES selec-cionado.

-Variable estadística: Número de mensajes enviados semanalmente.

Se denomina población al conjunto de individuos que son objeto de estudio. Si la población es muy grande se selecciona al azar un grupo menos numeroso llamado muestra. Se denomina variable estadística a cualquier característica que varíe entre los distintos individuos de una población. Por ejemplo:

Color de pelo, edad, profesión, estatura, número de hermanos,…

Clasificación de las variables estadísticas

Las variables estadísticas se clasifican en cualitativas y cuantitativas: (a) Variables cuantitativas: Son aquellas que toman valores numéricos. Las variables cuan-titativas pueden ser, a su vez, discretas o continuas:

Variables cuantitativas discretas son aquellas que sólo pueden tomar unos pocos valores enteros. Por ejemplo: la talla de pie, el número de hermanos, el número de suspensos,…

Variables cuantitativas continuas son aquellas que pueden tomar cualquier real valor de cierto intervalo. Por ejemplo: el peso, la estatura, la duración de una llamada telefónica...

(b) Variables cualitativas: Son aquellas que toman valores no numéricos. Por ejemplo: el color de pelo, la profesión, la nacionalidad, el programa de televisión preferido,… En resumen:

Discretas: número de pie, número de suspensos,… Cuantitativas Variables estadísticas Continuas: peso, estatura,… Cualitativas: profesión, nacionalidad,…

Page 2: Alonso Fernández Galián Tema 9: Estadística descriptiva TEMA 9 ...sti… · La Estadística tiene por objetivo estudiar cómo se distribuye cierta característica en una pobla-ción.

Tema 9: Estadística descriptiva

- 2 -

Ejemplo: Clasifica las siguientes variables estadísticas: partido político al que vota, número de mensajes enviados semanalmente, distancia del hogar al lugar de trabajo, número de aproba-dos, lugar de veraneo, salario mensual,…

-Cuantitativas discretas: número de mensajes enviados y número de aprobados.

-Cuantitativas continuas: distancia al trabajo y salario mensual.

-Cualitativas: Partido político y lugar de veraneo. 9.2 FRECUENCIAS Y GRÁFICOS ESTADÍSTICOS Denotemos por x a una variable estadística cualquiera, y por ,,, 321 xxx … a los valores que puede tomar. Veamos cómo representar los datos de un estudio estadístico de una manera útil.

Ejemplo: Se ha preguntado a veinte matrimonios el número de hijos que tienen, y los resultados han sido:

1, 2, 2, 0, 1, 2, 0, 2, 3, 1, 1, 2, 1, 3, 2, 1, 0, 0, 3, 2

Agrupemos los datos en una tabla, denominada tabla de frecuencias:

%15%35%30%20

120Suma15,03335,07230,06120,040

iii frfx

Nota: Algunas variables cuantitativas se pueden considerar discretas o continuas dependien-do de la precisión con la que las expresemos. Por ejemplo, la calificación en una asignatura es continua si se expresa con decimales y discreta si se expresa redondeada.

Frecuencia absoluta y frecuencia relativa Se denomina frecuencia absoluta del valor ix al número de veces que se repite dicho valor:

if “Número de veces que se repite el valor ix ”

La frecuencia absoluta no aporta información significativa. Por ejemplo, no es lo mismo que haya 5 sobresalientes en una clase con 20 alumnos a que los haya en una clase con 30 alumnos. Por esta razón se introduce la frecuencia relativa. Se denomina frecuencia relativa del valor ix al cociente entre el número de veces que se repite dicho valor y el número total de datos de la muestra, N:

Nf

fr ii

La frecuencia relativa de ix es igual al tanto por uno de las veces que aparece ix . Al multi-plicarla por 100 obtenemos el tanto por ciento (%).

Page 3: Alonso Fernández Galián Tema 9: Estadística descriptiva TEMA 9 ...sti… · La Estadística tiene por objetivo estudiar cómo se distribuye cierta característica en una pobla-ción.

Tema 9: Estadística descriptiva

- 3 -

Ejemplo: Representar en un diagrama de barras los datos del ejemplo anterior:

120Suma15,03335,07230,06120,040

iii frfx

Nota: Otra forma de representar gráficamente datos de una variable cuantitativa discreta o de una variable cualitativa es el diagrama de sectores o “diagrama de tartas”.

Ejemplo: Se ha realizado una encuesta entre los alumnos de una clase para saber cuánto dinero, en euros, gastaron en chucherías la última semana:

1,50 2,50 4 3,20 2,75 2,50 4,10 1,25 0,50 3,20

2,80 5,25 1 1,90 2,30 3,90 5,50 2,10 5,80 2,75

Elaboramos una tabla de frecuencias agrupando los datos de euro en euro y los representamos mediante un histograma:

%15

%10%15%35%20

%5

120suma15,036,510,025,415,034,335,073,220,042,105,011,0

, 1

iiii frfxx

Representación gráfica de una variable continua

Cuando se trabaja con una variable continua, los datos suelen agruparse en intervalos, deno-minados clases:

1, ii xx

De esta forma, los datos se representan gráficamente mediante un histograma, que se cons-truye como sigue:

-Sobre el eje horizontal marcamos los extremos de las clases.

-Levantamos sobre cada clase un rectángulo cuyo área sea proporcional a la frecuencia.

Representación gráfica de una variable discreta

Para representar gráficamente los datos de una variable discreta se utiliza un diagrama de barras, que se construye de la siguiente manera:

-Sobre el eje horizontal marcamos los valores de la variable x.

-Levantamos sobre cada valor una barra cuya altura sea igual a la frecuencia de ese valor.

Page 4: Alonso Fernández Galián Tema 9: Estadística descriptiva TEMA 9 ...sti… · La Estadística tiene por objetivo estudiar cómo se distribuye cierta característica en una pobla-ción.

Tema 9: Estadística descriptiva

- 4 -

9.3 PARÁMETROS ESTADÍSTICOS

Se denominan parámetros estadísticos a ciertos números que resumen la información más signi-ficativa de los datos de un estudio estadístico. Los parámetros estadísticos más importantes son la media aritmética y la desviación típica.

Ejemplo: Se ha preguntado el número de pie a 25 varones adultos, y los resultados han sido:

45, 42, 45, 42, 43, 43, 45, 46, 41, 42, 44, 41, 42, 44, 45, 40, 41, 44, 42, 42, 43, 41, 42, 45, 46

Agrupemos los datos en una tabla y calculemos la media:

25suma246545344343642441140

ii fx

Observemos que la media es igual a la suma de los productos de las filas de la tabla dividida entre el número total de datos.

36,4125

246545344343642441140

x

La media de número de pie es de 41,36.

A partir de ahora trabajaremos sólo con variables estadísticas cuantitativas

Media

La media aritmética, o simplemente media, de un conjunto de N datos es igual a la suma de todos ellos dividida entre N. Se denota por x .

Por ejemplo, si preguntamos a 8 personas cuántos euros han gastado en teléfono durante el último mes, y los resultados son:

12, 20, 10, 15, 25, 10, 30, 18 (N = 8)

La media del gasto es:

€50,178

1830102515102012

x

En cierto modo, es como si todos ellos hubiesen gastado 17,50€. Sean nxxxx ...,,,, 321 los valores que puede tomar la variable estadística x. Si tenemos los datos agrupados por frecuencias, la media es:

Nfxfxfx

x nn

...2211

Nota: Si en la fórmula para la media dividimos término a término entre N obtenemos una expresión de x como media ponderada de los valores nxxx ...,,, 21 :

Nf

xNf

xNf

xx nn ...2

21

1 nn frxfrxfrxx ...2211

Page 5: Alonso Fernández Galián Tema 9: Estadística descriptiva TEMA 9 ...sti… · La Estadística tiene por objetivo estudiar cómo se distribuye cierta característica en una pobla-ción.

Tema 9: Estadística descriptiva

- 5 -

Ejemplo: Las notas finales en Matemáticas en una clase con 15 alumnos han sido:

5, 7, 5, 6, 3, 7, 4, 7, 4, 9, 3, 5, 4, 7, 8,

Agrupemos los datos en una tabla y calculemos los parámetros:

5188415suma81819196464818

19649284736366167525153548161234189623

22 fxxfxfx iiiiii

Si los datos están agrupados en clases, en lugar de ix se toma el valor medio de cada clase:

21

iii

xxm

Ejemplo: Se ha preguntado a 15 chicos por los minutos que dedicaron al ordenador el pasado domingo, y los resultados han sido:

25, 70, 50, 15, 75 40, 0, 30, 90, 25 75, 45, 0, 105, 15

Elaborar una tabla de frecuencias con clases de 30 min. de longitud y calcular los parámetros:

Nota: Si en la fórmula para la varianza dividimos término a término entre N obtenemos:

222

221

21 ... xfrxfrxfrxV nn

Varianza y desviación típica

Se denominan parámetros de dispersión a ciertos números que indican cómo se alejan los datos de la media. Los más importantes son la varianza y la desviación típica.

La varianza de un conjunto de N datos es igual a la suma de los cuadrados de la diferencia entre cada dato y la media dividido entre N. Se denota por V.

Nfxxfxxfxx

V nn2

22

212

1 )(...)()(

Operando y utilizando las propiedades de la media se obtiene una expresión alternativa más cómoda a la hora de hacer cálculos:

22

2221

21 ...

xN

fxfxfxV nn

La varianza no está medida en las mismas unidades que los datos, sino en su cuadrado. Por ello se introduce la desviación típica.

La desviación típica es igual a la raíz cuadrada de la varianza. Se denota por S.

VS

Media:

6,51584

x

Varianza:

17,36,515550 2 V

Desviación típica:

78,117,3 S

Page 6: Alonso Fernández Galián Tema 9: Estadística descriptiva TEMA 9 ...sti… · La Estadística tiene por objetivo estudiar cómo se distribuye cierta característica en una pobla-ción.

Tema 9: Estadística descriptiva

- 6 -

min.87,311016

.min10164715

48375

min.4715705

4837570515suma22050110252102105120,9016875562522537590,608100202518044560,3013502259061530,0

,

22

221

S

V

xfxmfmfmxx iiiiiiiii

9.4 COMPARACIÓN DE MUESTRAS

Ejemplo: Las notas en Matemáticas de dos grupos de 6 alumnos han sido:

Grupo A: 5, 6, 6, 4, 6, 6 Grupo B: 2, 9, 9, 3, 8, 2

Calculemos las medias de cada grupo:

Grupo A: 5,56

461514

Ax

Grupo B: 5,56

29181322

Bx

Ambos grupos tienen la misma nota media, pero son muy diferentes entre sí. Este hecho nos lo indica la desviación típica:

Grupo A: 58,05,56

461514 2222

AV 76,058,0 AS

Grupo B: 25,105,56

29181322 22222

BV 20,325,10 BS

La desviación típica en el grupo B es mucho mayor que en el grupo A, lo que indica que las notas del grupo B están mucho más dispersas entorno a la media que las del grupo A.

Coeficiente de variación La desviación típica mide la dispersión en torno a un número, la media, por lo que no sirve para comparar muestras con medias distintas. Para ello necesitamos un nuevo parámetro:

Se denomina coeficiente de variación a la desviación típica dividida entre la media:

xSCV

El coeficiente de variación da una medida de la dispersión de cada conjunto de datos respec-to a su propia media, por lo que permite comparar muestras de datos con medias distintas.

La desviación típica sirve para comparar dos muestras de datos con la misma media

Page 7: Alonso Fernández Galián Tema 9: Estadística descriptiva TEMA 9 ...sti… · La Estadística tiene por objetivo estudiar cómo se distribuye cierta característica en una pobla-ción.

Tema 9: Estadística descriptiva

- 7 -

Ejemplo: Comparar la dispersión de las notas en Matemáticas de dos grupos de 3º E.S.O.

Grupo A (14 alumnos): 6, 4, 2, 4, 5, 8, 4, 7, 6, 6, 7, 2, 8, 2.

Grupo B (18 alumnos): 6, 6, 4, 8, 5, 2, 3, 8, 7, 7, 4, 6, 5, 3, 7, 6, 3, 7.

Elaboramos sendas tablas de frecuencias para calcular los parámetros:

4197114suma12864162898491427

10836183625255154816123409003

124632

22

fxxfxfx

AGrupo

iiiiii

5839718suma12864162819849284714436244650251025321682427993344212

22

fxxfxfx

BGrupo

iiiiii

Parámetros del grupo A: Parámetros del grupo B:

-Media: -Media:

07,51471

Ax 39,51897

Bx

-Varianza: -Varianza:

22,407,514419 2 AV 34,339,5

18583 2 BV

-Desviación típica: -Desviación típica:

05,222,4 AS 83,134,3 BS

-Coeficiente de variación: -Coeficiente de variación:

40,007,505,2

ACV 34,039,583,1

BCV

Como el coeficiente de variación es algo mayor en el grupo A que en el grupo B, las notas del grupo A están más dispersas entorno a su media que las del grupo B, aunque la diferencia no es muy grande.

Page 8: Alonso Fernández Galián Tema 9: Estadística descriptiva TEMA 9 ...sti… · La Estadística tiene por objetivo estudiar cómo se distribuye cierta característica en una pobla-ción.

Tema 9: Estadística descriptiva

- 8 -

9.5 MEDIDAS DE POSICIÓN Las medidas de posición son parámetros que nos ofrecen información sobre la mayor o menor simetría de los datos de una muestra, así como de la existencia de “datos atípicos” (p. ej. errores de medición). Las medidas de posición más importantes son la mediana y los cuartiles.

Ejemplo: Calcula la mediana de las siguientes colecciones de datos:

a) 5, 7, 2, 4, 7, 1, 4, 3, 6, 4, 8, 1, 9, 5, 6.

En total hay 15 datos, 15N . Para calcular la mediana, debemos ordenarlos de menor a mayor:

1, 1, 2, 3, 4, 4, 4, 5, 5, 6, 6, 7, 7, 8, 9

La mediana es el octavo dato, que ocupa la posición central:

Mediana 5

b) 3, 7, 9, 6, 4, 6, 7, 8, 3, 7

En total hay diez datos, 10N . Los ordena-mos de menor a mayor:

3, 3, 4, 6, 6, 7, 7, 7, 8, 9

La mediana es la media de los datos quinto y sexto:

Mediana 5,62

76

Ejemplo: Calcular los tres cuartiles de las alturas de los jugadores de un equipo de baloncesto:

1,92; 2,01; 1,88; 1,97; 2,07; 1,90; 1,87; 2,03; 2,10; 1,85; 1,99; 2,05

Primero, ordenemos los datos de menor a menor:

1,85; 1,87; 1,88; 1,90; 1,92; 1,97; 1,99; 2,01; 2,03; 2,05; 2,07; 2,10

Hay 12 datos. El 25% de 12 es 3, el 50% es 6 y el 75% es 9. Por tanto, el primer cuartil es la media de los datos 3º y 4º, el segundo cuartil la media de los datos 6º y 7º, y el tercer cuartil la media de los datos 9º y 10º:

89,12

90,188,11

Q 98,1

299,197,1

2

medianaQ 04,22

05,203,23

Q

Nota: Se define el rango intercuartílico como 15,089,104,213 QQ .

Mediana

La mediana es el valor que separa la muestra en dos subconjuntos con el mismo número de datos. Con más precisión, si tenemos una muestra de N datos ordenados, la mediana es:

-El dato central si N es impar.

-La media de los dos datos centrales si N es par.

Cuartiles Notemos que la mediana es el valor que deja el 50% de los datos a cada lado (excluyéndose a sí misma en el caso de que N sea impar). De la misma forma se definen los cuartiles:

El primer cuartil, 1Q , es valor que deja un 25% de los datos a su izquierda y un 75% a su derecha.

El segundo cuartil, 2Q , es el valor que deja un 50% de los datos a cada lado, es decir, la mediana.

El tercer cuartil, 3Q , es el valor que deja un 75% de los datos a su izquierda y un 25% a su derecha.

Page 9: Alonso Fernández Galián Tema 9: Estadística descriptiva TEMA 9 ...sti… · La Estadística tiene por objetivo estudiar cómo se distribuye cierta característica en una pobla-ción.

Tema 9: Estadística descriptiva

- 9 -

ANEXO: ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL La estadística descriptiva bidimensional se ocupa de estudiar de manera conjunta dos variables estadísticas x e y definidas sobre la misma población. Por ejemplo:

-Notas en Filosofía y en Matemáticas en una clase.

-Altura de una planta y composición del abono.

-Dosis de un medicamento y e influencia en la curación de una enfermedad.

En particular, interesa determinar si existe algún tipo de relación entre ambas variables.

Ejemplo. Las calificaciones en Matemáticas (x) y las horas semanales de estudio (y) en una clase de 12 alum-nos han sido:

)5,7( , )5,5( , )4,3( , )2,6( , )5,9( , )1,2( , )0,4( , )3,7( , )2,4( , )6,8( , )6,9( , )3,5( .

Representemos los datos gráficamente:

Correlación

Se denomina covarianza de las variables x e y a cierta medida de la relación entre dichas variables. Se define por:

n

yyxxyxCov

n

iii

1

)()(,

Con más precisión, la covarianza determina en qué medida el aumento o disminución de una de las variables guarda relación con el aumento o disminución de la otra:

[…]

Parámetros marginales

Dada una muestra estadística bidimensional de las variables x e y se pueden calcular los parámetros de cada una de las variables por separado, denominados parámetros marginales:

-Parámetros de x: media: x varianza: xV desviación típica: xS

-Parámetros de y: media: y varianza: yV desviación típica: yS

Además, se denomina centro de masas al par formado por las medias de x e y, yx, . El centro de masas representa el “punto central” de la nube de puntos.

Representación gráfica de una muestra

Una muestra bidimensional de tamaño n consistirá en una colección de n pares de valores yx, correspondientes al registro del valor de las variables x e y en n individuos de la población:

11 , yx , 22 , yx , … , nn yx ,

Los datos se representan gráficamente mediante un diagrama de dispersión (o nube de pun-tos), en los que cada dato se identifica con un punto del plano.

Page 10: Alonso Fernández Galián Tema 9: Estadística descriptiva TEMA 9 ...sti… · La Estadística tiene por objetivo estudiar cómo se distribuye cierta característica en una pobla-ción.

Tema 9: Estadística descriptiva

- 10 -

Ejemplo: Las calificaciones en Matemáticas (x) y las horas semanales de estudio (y) en una clase de 12 alumnos han sido:

)5,7( , )5,5( , )4,3( , )2,6( , )5,9( , )1,2( , )0,4( , )3,7( , )2,4( , )6,8( , )6,9( , )3,5(

Calcular los parámetros marginales de x e y, el centro de masas, la covarianza y el coeficiente de correlación lineal:

-Parámetros marginales de x. Tenemos los datos: 7, 5, 3, 6, 9, 2, 4, 7, 4, 8, 9 y 5.

Media: 75,51269

12928726524232

x .

Varianza: 85,475,512

928726524232 222222222

xV .

Desv. típica: 20,285,4 xx VS .

-Parámetros marginales de y. Tenemos los datos: 5, 5, 4, 2, 5, 1, 0, 3, 2, 6, 6 y 3.

Media: 5,31242

1262534322210

y horas.

Varianza: 08,45,312

62534322210 22222222

yV

Desv. típica: 02,208,4 yy VS horas.

[…]

Los productos )()( yyxx ii serán casi todos positivos si los datos se ajustan más o menos a una recta creciente, serán casi todos negativos si se ajustan más o menos a una recta decreciente, y tendrán signos dispares si los datos no se ajustan bien ninguna recta:

0),( yxCov 0),( yxCov 0),( yxCov

El valor de la covarianza depende de las unidades en las que estén medidos los datos. Para evitar esto, se introduce el coeficiente de correlación lineal:

yx SSyxCovr ,

Se comprueba que 11 r . El coeficiente de correlación lineal determina el grado de bondad de ajuste a una recta de la siguiente manera:

1r Los datos se ajustan aproximadamente a una recta creciente.

0r Los datos no se ajustan bien a una recta.

1r Los datos se ajustan aproximadamente a una recta decreciente.

Page 11: Alonso Fernández Galián Tema 9: Estadística descriptiva TEMA 9 ...sti… · La Estadística tiene por objetivo estudiar cómo se distribuye cierta característica en una pobla-ción.

Tema 9: Estadística descriptiva

- 11 -

-Centro de masa: 5,3;75,5, yx

-Covarianza:

96,212

)5,33()75,55(...)5,35()75,55()5,35()75,57(,

yxCov

Correlación positiva: a más horas de estudio, mayor nota.

-Coeficiente de correlación lineal:

67,002,220,2

96,2,

yx SSyxCovr

El ajuste a una recta creciente es aceptable, aunque no especialmente bueno:

La recta de regresión lineal

Si la covarianza es distinta de 0 vamos a tratar de expresar, aproximadamente, y como función lineal de x:

00 yxxmy

Debemos determinar el punto 00 , yx y la pendiente m. Para ello, utilizamos que la recta:

-Debe pasar por el centro de masa: yxyx ,, 00 .

-Para un dato ix de la variable x la distancia entre el valor de la función, ixy , y el dato,

iy , debe ser mínima.

Vamos a introducir la siguiente función, que mide, en media, los cuadrados de las distancias entre ixy y iy :

n

iii

n

iii yyxxm

nyxy

nmD

1

2

1

2 11)(

Para que esta función tome valor mínimo, su derivada respecto al parámetro m debe ser nula:

[…]

Page 12: Alonso Fernández Galián Tema 9: Estadística descriptiva TEMA 9 ...sti… · La Estadística tiene por objetivo estudiar cómo se distribuye cierta característica en una pobla-ción.

Tema 9: Estadística descriptiva

- 12 -

Ejemplo: Se ha preguntado a seis alumnos el número de horas diarias que dedican a leer (x) y a ver la televisión (y). Los resultados han sido:

4,0 , 2,1 , 2;5,1 , 5,1;2 , 3,1 , 5,0;5,2

Calcula la recta de regresión lineal de y sobre x indicando la bondad del ajuste de los datos a dicha recta. -Parámetros marginales.

Datos de x: 0; 1; 1,5; 2; 1; 2,5. 33,1x . 64,0xV . 80,0xS .

Datos de y: 4; 2; 2; 1,5; 3; 0,5. 17,2y . 21,1yV . 10,1yS .

-Centro de masas: 17,2;33,1, yx .

-Covarianza: 85,0, yxCov .

Correlación negativa: a más horas dedicadas a leer, menos dedicadas a ver la tv.

-Coeficiente de correlación lineal: 97,0r

Los datos se ajustan muy bien a una recta decreciente.

-Recta de regresión:

yxxS

rSy

x

y 17,233,1328,1 xy

Gráficamente:

[…]

n

iiii

n

iiii yyxxmxx

nyyxxmxx

ndmdD

11

221

n

i

iin

i

in

iiii n

yyxxn

xxmyyxxxxm

n 11

2

1

2 222

yxCovmVx ,22 .

Igualamos a 0 y despejamos m:

x

y

x

yx

xx S

rS

S

rSSV

yxCovmyxCovmV 2,0,22

Por tanto, la recta de regresión lineal es:

yxxS

rSy

x

y