7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion
1/35
PDF generado usando el kit de herramientas de fuente abierta mwlib. Ver http://code.pediapress.com/ para mayor informacin.
PDF generated at: Wed, 06 Nov 2013 16:01:35 UTC
REGRESIN YCORRELACINTipos de Regresin y Correlacin
7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion
2/35
Contenidos
Artculos
Anlisis de la regresin 1
Regresin no lineal 2
Regresin segmentada 7
Contraste de hiptesis 10
Correlacin 16
Coeficiente de correlacin de Spearman 18
Anlisis de la correlacin cannica 21
Iconografa de las correlaciones 21
Referencias
Fuentes y contribuyentes del artculo 31
Fuentes de imagen, Licencias y contribuyentes 32
Licencias de artculos
Licencia 33
7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion
3/35
Anlisis de la regresin 1
Anlisis de la regresin
La regresin estadstica o regresin a la media es la tendencia de una medicin extrema a presentarse ms cercana
a la media en una segunda medicin. La regresin se utiliza para predecir una medida basndonos en el
conocimiento de otra.
Origen del concepto
El trmino regresin fue introducido por Francis Galton en su libro Natural inheritance (1889) y fue confirmada por
su amigo Karl Pearson. Su trabajo se centr en la descripcin de los rasgos fsicos de los descendientes (variable A)
a partir de los de sus padres (variable B). Estudiando la altura de padres e hijos a partir de ms de mil registros de
grupos familiares, se lleg a la conclusin de que los padres muy altos tenan una tendencia a tener hijos que
heredaban parte de esta altura, pero que revelaban tambin una tendencia a regresar a la media. Galton generaliz
esta tendencia bajo la "ley de la regresin universal": Cada peculiaridad en un hombre es compartida por sus
descendientes, pero en media, en un grado menor.
Modelos de regresin
Regresin lineal
Regresin lineal simple
Dadas dos variables (Y: variable dependiente; X: independiente) se trata de encontrar una funcin simple (lineal) de
X que nos permita aproximar Y mediante: = a + bX
a (ordenada en el origen, constante)
b (pendiente de la recta)
A la cantidad e=Y- se le denomina residuo o error residual.As, en el ejemplo de Pearson: = 85 cm + 0,5X
Donde es la altura predicha del hijo y X la altura del padre: En media, el hijo gana 0,5 cm por cada cm del
padre.
Regresin lineal mltiple
Regresin no lineal
Regresin segmentada
Enlaces externos Francis Galton. "Regression Towards Mediocrity in Hereditary Stature,"Journal of the Anthropological Institute,
15:246-263 (1886). [1]
A non-mathematical explanation of regression toward the mean. [2]
A simulation of regression toward the mean. [3]
Amanda Wachsmuth, Leland Wilkinson, Gerard E. Dallal. Galton's Bend: An Undiscovered Nonlinearity in
Galton's Family Stature Regression Data and a Likely Explanation Based on Pearson and Lee's Stature Data [4]
http://www.spss.com/research/wilkinson/Publications/galton.pdfhttp://onlinestatbook.com/stat_sim/reg_to_mean/index.htmlhttp://davidmlane.com/hyperstat/B153351.htmlhttp://www.mugu.com/galton/essays/1880-1889/galton-1886-jaigi-regression-stature.pdfhttp://es.wikipedia.org/w/index.php?title=Error_residualhttp://es.wikipedia.org/w/index.php?title=Karl_Pearsonhttp://es.wikipedia.org/w/index.php?title=Francis_Galton7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion
4/35
Anlisis de la regresin 2
Referencias
[1] http://www.mugu.com/galton/essays/1880-1889/galton-1886-jaigi-regression-stature.pdf
[2] http://davidmlane.com/hyperstat/B153351. html
[3] http://onlinestatbook.com/stat_sim/reg_to_mean/index.html
[4] http://www.spss.com/research/wilkinson/Publications/galton.pdf
Regresin no lineal
Ejemplo de regresin no lineal
En estadstica, la regresin no lineal es un problema de inferencia
para un modelo tipo:
basado en datos multidimensionales , , donde es alguna
funcin no lineal respecto a algunos parmetros desconocidos . Como
mnimo, se pretende obtener los valores de los parmetros asociados
con la mejor curva de ajuste (habitualmente, con el mtodo de losmnimos cuadrados). Con el fin de determinar si el modelo es
adecuado, puede ser necesario utilizar conceptos de inferencia
estadstica tales como intervalos de confianza para los parmetros as
como pruebas de bondad de ajuste.
El objetivo de la regresin no lineal se puede clarificar al considerar el
caso de la regresin polinomial, la cual es mejor no tratar como un
caso de regresin no lineal. Cuando la funcin toma la forma:
la funcin es no lineal en funcin de pero lineal en funcin de los parmetros desconocidos , , y . Estees el sentido del trmino "lineal" en el contexto de la regresin estadstica. Los procedimientos computacionales para
la regresin polinomial son procedimientos de regresin lineal (mltiple), en este caso con dos variables predictoras
y . Sin embargo, en ocasiones se sugiere que la regresin no lineal es necesaria para ajustar polinomios. Las
consecuencias prcticas de esta mala interpretacin conducen a que un procedimiento de optimizacin no lineal sea
usado cuando en realidad hay una solucin disponible en trminos de regresin lineal. Paquetes (software)
estadsticos consideran, por lo general, ms alternativas de regresin lineal que de regresin no lineal en sus
procedimientos.
General
Linealizacin
Algunos problemas de regresin no lineal pueden linealizarse mediante una transformacin en la formulacin del
modelo. Por ejemplo, consideremos el problema de regresin no lineal (ignorando el trmino de error):
Aplicando logaritmos a ambos lados de la ecuacin, se obtiene:
lo cual sugiere una estimacin de los parmetros desconocidos a travs de un modelo de regresin lineal de ln(y) con
respecto ax, un calculo que no requiere procedimientos de optimizacin iterativa. De todas formas, la linealizacin
debe usarse con cuidado ya que la influencia de los datos en el modelo cambia, as como la estructura del error del
modelo y la interpretacin e inferencia de los resultados. Estos pueden ser resultados no muy convenientes.
http://es.wikipedia.org/w/index.php?title=Regresi%C3%B3n_linealhttp://es.wikipedia.org/w/index.php?title=Regresi%C3%B3n_polinomialhttp://es.wikipedia.org/w/index.php?title=M%C3%ADnimos_cuadradoshttp://es.wikipedia.org/w/index.php?title=Ajuste_de_curvashttp://es.wikipedia.org/w/index.php?title=No_linealidadhttp://es.wikipedia.org/w/index.php?title=Estad%C3%ADsticahttp://es.wikipedia.org/w/index.php?title=Archivo%3ANon_linear_regression_10_x2.pnghttp://www.spss.com/research/wilkinson/Publications/galton.pdfhttp://onlinestatbook.com/stat_sim/reg_to_mean/index.htmlhttp://davidmlane.com/hyperstat/B153351.htmlhttp://www.mugu.com/galton/essays/1880-1889/galton-1886-jaigi-regression-stature.pdf7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion
5/35
Regresin no lineal 3
Hay que distinguir entre la "linealizacin" usada en los prrafos anteriores y la "linealizacin local" que se adopta
para algoritmos clsicos como el de Gauss-Newton. De igual forma, la metodologa de modelos lineales
generalizados no use linealizacin para la estimacin de parmetros.
Mnimos cuadrados ordinarios y ponderados
La mejor curva de ajuste se considera como aquella que minimiza la suma de las desviaciones (residuales) alcuadrado (SRC). Este es la aproximacin por el mtodo de mnimos cuadrados (MMC). Sin embargo, en aquellos
casos donde se tienen diferentes varianzas de error para diferentes errores, es necesario minimizar la suma de los
residuales al cuadrado ponderados (SRCP) (mtodo de mnimos cuadrados ponderados). En la prctica, la varianza
puede depender del valor promedio ajustado. As que los pesos son recalculados para cada iteracin en un algoritmo
de mnimos cuadrados ponderados iterativo.
En general, no hay una expresin de forma cerrada para los parmetros de mejor ajuste, como sucede en el caso de la
regresin lineal. Mtodos numricos de optimizacin son aplicados con el fin de determinar los parmetros de mejor
ajuste. Otra vez, en contraste con la regresin lineal, podra haber varios mximos locales de la funcin a ser
optimizada. En la prctica, se suponen algunos valores iniciales los cuales junto con el algoritmo de optimizacin
conducen a encontrar el mximo global.
Estimacin de los parmetros usando Mtodos de Montecarlo
Si el error de cada observacin es conocido, entonces la precisin y confiabilidad de los parmetros puede ser
estimada mediante simulacin de Montecarlo. Cada observacin es aleatorizada de acuerdo a su media y su
desviacin estndar. Con el nuevo conjunto de datos, una nueva curva es ajustada y las estimaciones de los
parmetros registradas. Las observaciones son entonces aleatorizadas y nuevos valores de los parmetros son
obtenidos. Al final, varios conjuntos de parmetros son generados y su media y desviacin estndar pueden ser
calculados.[1][2]
Software
Diversos lenguajes de programacin y software estadstico y matemtico contienen funciones de optimizacin. Entre
ellos, Gauss, GNU Octave, Matlab, Mathematica, R, Splus; C++ y Fortran maple.
Mtodos Numricos para Regresiones No Lineales
Regresin Exponencial
En determinados experimentos, en su mayora biolgicos, la dependencia entre las variables X e Y es de forma
exponencial, en cuyo caso interesa ajustar a la nube de puntos una funcin del tipo:
Mediante una transformacin lineal, tomando logaritmos neperianos, se convierte el problema en una cuestin de
regresin lineal. Es decir, tomando logaritmos neperianos:
Ejemplo
http://es.wikipedia.org/w/index.php?title=Fortranhttp://es.wikipedia.org/w/index.php?title=C%2B%2Bhttp://es.wikipedia.org/w/index.php?title=Splushttp://es.wikipedia.org/w/index.php?title=R-projecthttp://es.wikipedia.org/w/index.php?title=Mathematicahttp://es.wikipedia.org/w/index.php?title=Matlabhttp://es.wikipedia.org/w/index.php?title=GNU_Octavehttp://es.wikipedia.org/w/index.php?title=Gausshttp://es.wikipedia.org/w/index.php?title=Optimizaci%C3%B3nhttp://es.wikipedia.org/w/index.php?title=Softwarehttp://es.wikipedia.org/w/index.php?title=Lenguajes_de_programaci%C3%B3nhttp://es.wikipedia.org/w/index.php?title=M%C3%A9todo_de_Montecarlohttp://es.wikipedia.org/w/index.php?title=Valores_inicialeshttp://es.wikipedia.org/w/index.php?title=M%C3%A1ximo_localhttp://es.wikipedia.org/w/index.php?title=Optimizaci%C3%B3nhttp://es.wikipedia.org/w/index.php?title=Regresi%C3%B3n_linealhttp://es.wikipedia.org/w/index.php?title=M%C3%ADnimos_cuadrados_ponderadoshttp://es.wikipedia.org/w/index.php?title=M%C3%ADnimos_cuadradoshttp://es.wikipedia.org/w/index.php?title=Modelos_lineales_generalizadoshttp://es.wikipedia.org/w/index.php?title=Modelos_lineales_generalizadoshttp://es.wikipedia.org/w/index.php?title=Algoritmo_de_Gauss-Newton7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion
6/35
Regresin no lineal 4
x y ln(y)x
2 x ln(y)(ln y)
2
1 3 1,0986 1 1,0986 1,2069
1,2 3,4 1,2237 1,44 1,4684 1,4974
1,5 5 1,6094 2,25 2,4141 2,5901
2 2 0,6931 4 1,3862 0,4803
3 4,1 1,4109 9 4,2327 1,9906
3,7 5 1,6094 13,69 5,9547 2,5901
4 7 1,9459 16 7,7836 3,7865
4,5 6,5 1,8718 20,25 8,4231 3,5056
20,9 36 11,4628 67,63 32,7614 17,6455
Numero de datos = n = 8
x promedio = = = 2,6125
y promedio = = = 1,43285
Usando la forma lineal de la Regresin Exponencial:
b = =
La ecuacion final que modela el sistema es
Regresin Logartmica
La curva logartmica es tambin una recta, pero en lugar de estar referida a las variables originales
e , est referida a y a
Ejemplo
x y ln xln
2x
ln x * yy
2
1 3 0 0 0 9
1.2 3.4 0.1823 0.0332 0.6198 11.56
1.5 5 0.4054 0.1643 2.027 25
2 2 0.6931 0.4803 1.3862 4
3 4.1 1.0986 1.2069 4.5042 16.81
3.7 5 1.3083 1.7116 6.5415 25
4 7 1.3862 1.9215 9.7034 49
4.5 6.5 1.5040 2.2620 9.776 42.25
20.9 36 6.5779 7.7798 34.5581 182.62
a = = = 2.090513
7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion
7/35
Regresin no lineal 5
b = = 4.5 - (2.090513)(0.960) = 2.4931
La ecuacion final que modela el sistema es
Regresin Polinomial
Algunas veces cuando la relacin entre las variables dependientes e independientes es no lineal, es til incluirtrminos polinomiales para ayudar a explicar la variacin de nuestra variable dependiente.
Las regresiones polinomiales se pueden ajustar la variable independiente con varios trminos
Que, derivando respecto a cada uno de los coeficientes nos da el planteamiento un sistema de ecuaciones de la
siguiente forma:
Ejemplo
x y xyx
2y
2x
2y x
3x
4
1 3 3 1 9 3 1 1
1.2 3.4 4.08 1.44 11.56 4.896 1.728 2.0736
1.5 5 7.5 2.25 25 11.25 3.375 5.0625
2 2 4 4 4 8 8 16
3 4.1 12.3 9 16.81 36.9 27 81
3.7 5 18.5 13.69 25 68.45 50.653 187.4161
4 7 28 16 49 112 64 256
4.5 6.5 29.25 20.25 42.25 131.625 91.125 410.0625
20.9 36 106.63 67.63 182.62 376.121 246.881 958.6147
Usando una Matriz para calcular valores de los coeficientes
Usando el mtodo de Eliminacin de Gauss-Jordan
http://es.wikipedia.org/w/index.php?title=Eliminaci%C3%B3n_de_Gauss-Jordan7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion
8/35
Regresin no lineal 6
La ecuacin final que modela el sistema es
Referencias
[1] Motulsky, HJ & Ransnas, LA (1987)Fitting curves to data using nonlinear regression. FASEB J 1:365-374
[2] McIntosh, JEA & McIntosh, RP (1980)Mathematical modelling and computers in endocrinology. p71 Springer-Verlag, Berlin, Germany.
Bibliografa
G.A.F Seber and C.J. Wild.Nonlinear Regression. New York: John Wiley and Sons, 1989.
R.M. Bethea, B.S. Duran and T.L. Boullion. Statistical Methods for Engineers and Scientists. New York: Marcel
Dekker, Inc 1985 ISBN 0-8247-7227-X
Enlaces externos
levmar (http://www.ics.forth.gr/~lourakis/levmar/), implementacin Levenberg-Marquardt algoritmo enC/C++, con las interfaces de MATLAB, Perl y Python. Licencia: GPL
Arquimedex: Software para Regresin No Lineal (http://soft. arquimedex.com/regresion_lineal.php),
Regresin Lineal y No Lineal Online
ISAT (http://www.che.utexas.edu/~john/research/isat. htm), Nonlinear regression with explicit error control
Zunzun.com (http://zunzun.com), Online curve and surface fitting
NLREG (http://www.nlreg.com), a proprietary program
Matlab statistic (http://www.mathtools.net/MATLAB/Statistics/)
SysLinea 0.1.2 Regresin lineal y non lineal con cdigo fuente en pascal (Open Source GNU/GPL) (https://sites.
google.com/site/mgbfreeware/)
https://sites.google.com/site/mgbfreeware/https://sites.google.com/site/mgbfreeware/http://www.mathtools.net/MATLAB/Statistics/http://www.nlreg.com/http://zunzun.com/http://www.che.utexas.edu/~john/research/isat.htmhttp://soft.arquimedex.com/regresion_lineal.phphttp://es.wikipedia.org/w/index.php?title=GNU_General_Public_Licensehttp://es.wikipedia.org/w/index.php?title=Pythonhttp://es.wikipedia.org/w/index.php?title=Perlhttp://es.wikipedia.org/w/index.php?title=MATLABhttp://es.wikipedia.org/w/index.php?title=C%2B%2Bhttp://es.wikipedia.org/w/index.php?title=C_%28lenguaje_de_programaci%C3%B3n%29http://www.ics.forth.gr/~lourakis/levmar/7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion
9/35
Regresin segmentada 7
Regresin segmentada
Regresin segmentada o regresin por pedazos es un mtodo en el anlisis de regresin en que el variable
independiente es particionada en intervalos ajustando en cada intervalo una linea o curva a los datos. La regresin
segmentada se puede aplicar tambin a la regresin con mltiples variables independientes particionando todas estas.
La regresin segmentada es util cuando el variable dependiente muestra una reaccin abruptamente diferente a la
variable independiente en los varios segmentos. En este caso el lmite entre los segmentos se llama punto de quiebra.
Regresin segmentada lineal es la regresin segmentada en que la relacin entre el variable dependiente e
independiente dentro de los segmentos se obtiene por regresin lineal.
Regresin segmentada lineal, 2 segmentos
1er miembro horizontal
1er miembro inclinado hacia arriba
Regresin segmentada lineal en dos segmentos separados por un
punto de quiebra puede ser til para cuantificar un cambio abrupto
en la funcin de reaccin de un factor de inters a la variacin de
otro factor influencial. El punto de quiebra se interpreta como un
valor seguro, crtico o umbral cuando efectos (no) deseados
suceden a uno de los dos lados.
El punto de quiebra puede ser un factor importante para la toma de
decisiones de manejo.[1]
El anlisis de la regresin segmentada se basa en la presencia de
un juego de datos ( y , x ) , donde y es el variable dependiente y x
el variable independiente, es decir que el valor de x influye el
valor de y.
El mtodo de los mnimos cuadrados aplicado separadamente acada segmento, por lo cual las dos lineas de regresin se ajustan a
los datos tan cerca como posible minimizando la suma de los
cuadrados de las diferencias (SCD) entre el valor observado (y) y
valor calculado por regresin (Yr) de la variable dependiente,
resulta en las ecuaciones siguientes:
Yr =A1
. x +K1 para x< PQ (punto de quiebra)
Yr =A2
. x +K2 para x> PQ (punto de quiebra)
donde:
Yr es el valor esperado (pronosticado) de y para un ciertovalor de x
A1
yA2
son los coeficientes de regresin indicando la inclinacin de las lneas en los segmentos respectivos
K1
andK2
son los constantes de regresin en los segmentos respectivos indicando los valores de Yr cuando x =
0
Los datos pueden mostrar diferentes tipos de tendencia,[2] vase las figuras.
El metodo tambin rinde dos coeficientes de correlacin:
(R1)2 = 1 suma { (y Yr)2 } / suma { (y Ya1)2} para x< PQ (punto de quiebra)
http://es.wikipedia.org/w/index.php?title=Coeficiente_de_correlaci%C3%B3nhttp://es.wikipedia.org/w/index.php?title=M%C3%ADnimos_cuadradoshttp://es.wikipedia.org/w/index.php?title=Variable_independientehttp://es.wikipedia.org/w/index.php?title=Variable_dependientehttp://es.wikipedia.org/w/index.php?title=Archivo%3ASegReg1.gifhttp://es.wikipedia.org/w/index.php?title=Archivo%3ASegReg3.gifhttp://es.wikipedia.org/w/index.php?title=Regresi%C3%B3n_linealhttp://es.wikipedia.org/w/index.php?title=Variable_dependientehttp://es.wikipedia.org/w/index.php?title=Variable_independientehttp://es.wikipedia.org/w/index.php?title=Variable_independiente7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion
10/35
Regresin segmentada 8
1er miembro inclinado hacia abajo
(R2)2 = 1 suma { (y Yr)2 } / suma { (y Ya2)2} para x>
PQ (punto de quiebra)
donde
suma { (y Yr)2 } es la suma de cuadrados de las diferencias (SCD) minimizado por segmento
Ya1 e Ya2 son los valores promedios de y en los segmentos respectivos
Cuando no se detecta un punto de quiebra, hay que volver a una regresin sin punto de quiebra.
Ejemplo
Para la figura azul arriba, que da la relacin entre la cosecha de mostaza (colza) en t/ha y la salinidad del suelo (x =
Ss) expresada en conductividad elctrica (EC en dS/m) de la solucin del suelo,[3] se desprende que:
PQ = 4.93 ,A1
= 0 ,K1
= 1.74 ,A2
=0.129 ,K2
= 2.38 , (R1)2 = 0.0035 (no significante) , (R
2)2 = 0.395
(significante) y:
Yr= 1.74 t/ha para Ss< 4.93 (punto de quiebra)
Yr =0.129 Ss+ 2.38 t/ha para Ss> 4.93 (punto de quiebra)
indicando que una salinidad del suelo < 4.93 dS/m es segura y una salinidad del suelo > 4.93 reduce la cosecha @
0.129 tonelada/ha por unidad de aumento de salinidad de suelo.
La figura tambin muestra intervalos de confianza e inseguridad.
Procedimiento de pruebas
Ejemplo de una serie temporal de descargas de un ro, tipo 5
Las siguientes pruebas estadsticas se emplean para
determinar el tipo de tendencia:
1. Significatividad estadstica del punto de quiebra
(PQ) expresando PQ como una funcin de los
coeficientes de regresinA1
yA2, los promedios Y
1e
Y2
de los datos y, y los promediosX1
yX2
de los
datos x (al lado izquierdo y derecho de PQ
respectivamente), utilizando la leyes de propagacin
de errores en adiciones y multiplicaciones para la
computacin del error estndar (ES) de PQ, seguido
por la prueba t de Student
2. Significatividad estadstica deA1
yA2
aplicando la
prueba t de Student y el error estndar ES de A1
yA2
3. Significatividad estadstica de la diferencia deA1
yA2
aplicando la prueba t de Student y el error estndar ES de
la diferencia
http://es.wikipedia.org/w/index.php?title=Prueba_t_de_Studenthttp://es.wikipedia.org/w/index.php?title=Desviaci%C3%B3n_est%C3%A1ndarhttp://es.wikipedia.org/w/index.php?title=Propagaci%C3%B3n_de_erroreshttp://es.wikipedia.org/w/index.php?title=Propagaci%C3%B3n_de_erroreshttp://es.wikipedia.org/w/index.php?title=Significatividad_estad%C3%ADsticahttp://es.wikipedia.org/w/index.php?title=Archivo%3ACHAO.gifhttp://es.wikipedia.org/w/index.php?title=Serie_temporalhttp://es.wikipedia.org/w/index.php?title=Intervalo_de_confianzahttp://es.wikipedia.org/w/index.php?title=Siemens_%28unidad%29http://es.wikipedia.org/w/index.php?title=Brassica_napushttp://es.wikipedia.org/w/index.php?title=Archivo%3ASegReg2.gif7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion
11/35
Regresin segmentada 9
4. Significatividad estadstica de de la diferencia de Y1
e Y2
aplicando la prueba t de Student y el error estndar ES
de la diferencia
Adicionalmente se emplea de coeficiente de correlacin de todos los datos (Ra), el coeficiente de determinacin (o
coeficiente de explicacin), intervalos de confianza de las funciones (lneas) de regresin, y un anlisis de la varianza
(ANOVA).[4]
El coeficiente de determinacin de todos los datos (Cd), lo cual se debe maximizar bajo las condicionesespecificados arriba enpruebas estadsticas, se defina como:
Cd = 1 suma { (y Yr)2 } / suma { (y Ya)2 }
donde Yr es el valor esperado (pronosticado) de y de acuerdo a las ecuaciones de regresin previas, y Ya es el
promedio de todo los valores y. El coeficiente Cd puede variar entre 0 (ninguna explicacin de la regresin
segmentada) y 1 (perfecta explicacin).
En una regresin lineal pura, sin segmentacin, los valores de Cd yRa2 son iguales. En la regresin segmentada, Cd
debe ser significativamente mayor queRa2 para justificar la segmentacin.
La optimizacin del punto de quiebra PQ se alcanza probando una serie de puntos tentativos y seleccionando el
punto que tiene el coeficiente Cd mximo.
Referencias
[1] Frequency and Regression Analysis. Chapter 6 in: H.P.Ritzema (ed., 1994),Drainage Principles and Applications, Publ. 16, pp. 175-224,
International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. ISBN 90 70754 3 39 . Bajar de : (http://
www.waterlog.info/articles.htm) , bajo no. 13, o directamente como PDF : (http://www.waterlog.info/pdf/regtxt.pdf)
[2] Drainage research in farmers' fields: analysis of data. Part of project Liquid Gold of the International Institute for Land Reclamation and
Improvement (ILRI), Wageningen, The Netherlands. Bajar como PDF : (http://www.waterlog.info/pdf/analysis.pdf)
[3] R.J.Oosterbaan, D.P.Sharma, K.N.Singh and K.V.G.K.Rao, 1990, Crop production and soil salinity: evaluation of field data from India by
segmented linear regression. In: Proceedings of the Symposium on Land Drainage for Salinity Control in Arid and Semi-Arid Regions,
February 25th to March 2nd, 1990, Cairo, Egypt, Vol. 3, Session V, p. 373 - 383
[4] Statistical significance of segmented linear regression with break-point using variance analysis and F-tests. Bajar de: (http://www.
waterlog.info/faqs.htm) , bajo. no. 13, o directamente como PDF : (http://www.waterlog.info/pdf/anova.pdf)
Enlaces externos
SegReg (http://www.waterlog.info/segreg.htm), programa libre para regresin segmentada lineal con 2
variables independientes.
http://es.wikipedia.org/w/index.php?title=Software_librehttp://es.wikipedia.org/w/index.php?title=Programa_de_computadorahttp://www.waterlog.info/segreg.htmhttp://www.waterlog.info/pdf/anova.pdfhttp://www.waterlog.info/faqs.htmhttp://www.waterlog.info/faqs.htmhttp://www.waterlog.info/pdf/analysis.pdfhttp://www.waterlog.info/pdf/regtxt.pdfhttp://www.waterlog.info/articles.htmhttp://www.waterlog.info/articles.htmhttp://es.wikipedia.org/w/index.php?title=Optimizaci%C3%B3n_%28matem%C3%A1tica%29http://es.wikipedia.org/w/index.php?title=An%C3%A1lisis_de_la_varianzahttp://es.wikipedia.org/w/index.php?title=Intervalo_de_confianzahttp://es.wikipedia.org/w/index.php?title=Coeficiente_de_correlaci%C3%B3n7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion
12/35
Contraste de hiptesis 10
Contraste de hiptesis
Dentro de la inferencia estadstica, un contraste de hiptesis (tambin denominado test de hiptesis o prueba de
significacin) es un procedimiento para juzgar si una propiedad que se supone en una poblacin estadstica es
compatible con lo observado en una muestra de dicha poblacin. Fue iniciada por Ronald Fisher y fundamentada
posteriormente por Jerzy Neyman y Karl Pearson.
Mediante esta teora, se aborda el problema estadstico considerando una hiptesis determinada y una hiptesis
alternativa , y se intenta dirimir cul de las dos es la hiptesis verdadera, tras aplicar el problema estadstico a un
cierto nmero de experimentos.
Est fuertemente asociada a los considerados errores de tipo I y II en estadstica, que definen respectivamente, la
posibilidad de tomar un suceso falso como verdadero, o uno verdadero como falso.
Existen diversos mtodos para desarrollar dicho test, minimizando los errores de tipo I y II, y hallando por tanto con
una determinada potencia, la hiptesis con mayor probabilidad de ser correcta. Los tipos ms importantes son los test
centrados, de hiptesis y alternativa simple, aleatorizados, etc. Dentro de los tests no paramtricos, el ms extendido
es probablemente el test de la U de Mann-Whitney.
Introduccin
Si sospechamos que una moneda ha sido trucada para que se produzcan ms caras que cruces al lanzarla al aire,
podramos realizar 30 lanzamientos, tomando nota del nmero de caras obtenidas. Si obtenemos un valor demasiado
alto, por ejemplo 25 o ms, consideraramos que el resultado es poco compatible con la hiptesis de que la moneda
no est trucada, y concluiramos que las observaciones contradicen dicha hiptesis.
La aplicacin de clculos probabilsticos permite determinar a partir de qu valor debemos rechazar la hiptesis
garantizando que la probabilidad de cometer un error es un valor conocido a priori. Las hiptesis pueden clasificarse
en dos grupos, segn:1.1. Especifiquen un valor concreto o un intervalo para los parmetros del modelo.
2. Determinen el tipo de distribucin de probabilidad que ha generado los datos.
Un ejemplo del primer grupo es la hiptesis de que la media de una variable es 10, y del segundo que la distribucin
de probabilidad es la distribucin normal.
Aunque la metodologa para realizar el contraste de hiptesis es anloga en ambos casos, distinguir ambos tipos de
hiptesis es importante puesto que muchos problemas de contraste de hiptesis respecto a un parmetro son, en
realidad, problemas de estimacin, que tienen una respuesta complementaria dando un intervalo de confianza (o
conjunto de intervalos de confianza) para dicho parmetro. Sin embargo, las hiptesis respecto a la forma de la
distribucin se suelen utilizar para validar un modelo estadstico para un fenmeno aleatorio que se est estudiando.
Planteamiento clsico del contraste de hiptesis
Se denomina hiptesis nula a la hiptesis que se desea contrastar. El nombre de "nula" significa sin valor,
efecto o consecuencia, lo cual sugiere que debe identificarse con la hiptesis de no cambio (a partir de la
opinin actual); no diferencia, no mejora, etc. representa la hiptesis que mantendremos a no ser que los datos
indiquen su falsedad, y puede entenderse, por tanto, en el sentido de neutra. La hiptesis nunca se considera
probada, aunque puede ser rechazada por los datos. Por ejemplo, la hiptesis de que dos poblaciones tienen la misma
media puede ser rechazada fcilmente cuando ambas difieren mucho, analizando muestras suficientemente grandes
de ambas poblaciones, pero no puede ser "demostrada" mediante muestreo, puesto que siempre cabe la posibilidad
de que las medias difieran en una cantidad lo suficientemente pequea para que no pueda ser detectada, aunque la
muestra sea muy grande.
http://es.wikipedia.org/w/index.php?title=Hip%C3%B3tesis_nulahttp://es.wikipedia.org/w/index.php?title=Distribuci%C3%B3n_normalhttp://es.wikipedia.org/w/index.php?title=Distribuci%C3%B3n_de_probabilidadhttp://es.wikipedia.org/w/index.php?title=Distribuci%C3%B3n_de_probabilidadhttp://es.wikipedia.org/w/index.php?title=Distribuci%C3%B3n_de_probabilidadhttp://es.wikipedia.org/w/index.php?title=Probabilidadhttp://es.wikipedia.org/w/index.php?title=Prueba_U_de_Mann-Whitneyhttp://es.wikipedia.org/w/index.php?title=Probabilidadhttp://es.wikipedia.org/w/index.php?title=Potencia_de_una_pruebahttp://es.wikipedia.org/w/index.php?title=Estad%C3%ADsticahttp://es.wikipedia.org/w/index.php?title=Errores_de_tipo_I_y_IIhttp://es.wikipedia.org/w/index.php?title=Experimentohttp://es.wikipedia.org/w/index.php?title=Karl_Pearsonhttp://es.wikipedia.org/w/index.php?title=Jerzy_Neymanhttp://es.wikipedia.org/w/index.php?title=Ronald_Fisherhttp://es.wikipedia.org/w/index.php?title=Muestra_estad%C3%ADsticahttp://es.wikipedia.org/w/index.php?title=Poblaci%C3%B3n_estad%C3%ADsticahttp://es.wikipedia.org/w/index.php?title=Inferencia_estad%C3%ADstica7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion
13/35
Contraste de hiptesis 11
A partir de una muestra de la poblacin en estudio, se extrae un estadstico (esto es, una valor que es funcin de la
muestra) cuya distribucin de probabilidad est relacionada con la hiptesis en estudio y sea conocida. Se toma
entonces como regin de rechazo al conjunto de valores que es ms improbable bajo la hiptesis, esto es, el conjunto
de valores para el que rechazaremos la hiptesis nula si el valor del estadstico observado entra dentro de l.
La probabilidad de que se obtenga un valor del estadstico que entre en la regin de rechazo an siendo cierta la
hiptesis puede calcularse. De esta manera, se puede escoger dicha regin de tal forma que la probabilidad decometer este error sea suficientemente pequea.
Siguiendo con el anterior ejemplo de la moneda trucada, la muestra de la poblacin es el conjunto de los treinta
lanzamientos a realizar, el estadstico escogido es el nmero total de caras obtenidas, y la regin de rechazo est
constituida por los nmeros totales de caras iguales o superiores a 25. La probabilidad de cometer el error de admitir
que la moneda est trucada a pesar de que no lo est es igual a la probabilidad binomial de tener 25 "xitos" o ms en
una serie de 30 ensayos de Bernoulli con probabilidad de "xito" 0,5 en cada uno, entonces: 0,0002, pues existe la
posibilidad, aunque poco probable, que la muestra nos d ms de 25 caras sin haber sido la moneda trucada.
Procedimientos de prueba
Un procedimiento de prueba es una regla con base en datos muestrales, para determinar si se rechaza .
Ejemplo
Una prueba de : p = .10 contra : p < .10, podra estar basada en el examen de una muestra aleatoria de
n = 200 objetos. Representamos con X el nmero de objetos defectuosos de la muestra, una variable aleatoria
binomial; x representa el valor observado de X. si es verdadera, E(X) = np = 200(.10) = 20, mientras,
podemos esperar menos de 20 objetos defectuosos si es verdadera. Un valor de x ligeramente debajo de
20 no contradice de manera contundente a as que es razonable rechazar solo si x es
considerablemente menor que 20. Un procedimiento de prueba es rechazar si x15 y no rechazar de
otra forma. En este caso, la regin de rechazo est formada por x = 0, 1, 2, , y 15. no ser rechazada si
x= 16, 17,, 199 o 200.Un procedimiento de prueba se especifica por lo siguiente:
1. Un estadstico de prueba: una funcin de los datos muestrales en los cuales se basa la decisin de rechazar
o no rechazar .2. Una regin de rechazo, el conjunto de todos los valores del estadstico de prueba para los cuales ser
rechazada.
Entonces, la hiptesis nula ser rechazada si y solo si el valor observado o calculado del estadstico de prueba se
ubica en la regin de rechazo
En el mejor de los casos podran desarrollarse procedimientos de prueba para los cuales ningn tipo de error es
posible. Pero esto puede alcanzarse solo si una decisin se basa en un examen de toda la poblacin, lo que casi nuncaes prctico. La dificultad al usar un procedimiento basado en datos muestrales es que debido a la variabilidad en el
muestreo puede resultar una muestra no representativa.
Un buen procedimiento es aquel para el cual la probabilidad de cometer cualquier tipo de error es pequea. La
eleccin de un valor particular de corte de la regin de rechazo fija las probabilidades de errores tipo I y II. Estas
probabilidades de error son representadas por y , respectivamente.
http://es.wikipedia.org/w/index.php?title=Distribuci%C3%B3n_binomialhttp://es.wikipedia.org/w/index.php?title=Distribuci%C3%B3n_binomialhttp://es.wikipedia.org/w/index.php?title=Ensayo_de_Bernoullihttp://es.wikipedia.org/w/index.php?title=Probabilidad_binomialhttp://es.wikipedia.org/w/index.php?title=Estad%C3%ADsticohttp://es.wikipedia.org/w/index.php?title=Conjuntohttp://es.wikipedia.org/w/index.php?title=Funci%C3%B3n_matem%C3%A1ticahttp://es.wikipedia.org/w/index.php?title=Estad%C3%ADstico7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion
14/35
Contraste de hiptesis 12
Enfoque actual de los contrastes de hiptesis
El enfoque actual considera siempre una hiptesis alternativa a la hiptesis nula. De manera explcita o implcita, la
hiptesis nula, a la que se denota habitualmente por , se enfrenta a otra hiptesis que denominaremos hiptesis
alternativa y que se denota . En los casos en los que no se especifica de manera explcita, podemos
considerar que ha quedado definida implcitamente como es falsa.
Si por ejemplo deseamos comprobar la hiptesis de que dos distribuciones tienen la misma media, estamosimplcitamente considerando como hiptesis alternativa ambas poblaciones tienen distinta media. Podemos, sin
embargo considerar casos en los que no es la simple negacin de . Supongamos por ejemplo que
sospechamos que en un juego de azar con un dado, este est trucado para obtener 6. Nuestra hiptesis nula podra ser
el dado no est trucado que intentaremos contrastar, a partir de una muestra de lanzamientos realizados, contra la
hiptesis alternativa el dado ha sido trucado a favor del 6. Cabra realizar otras hiptesis, pero, a los efectos del
estudio que se pretende realizar, no se consideran relevantes.
Un test de hiptesis se entiende, en el enfoque moderno, como una funcin de la muestra, corrientemente basada en
un estadstico. Supongamos que se tiene una muestra de una poblacin en estudio y que
se han formulado hiptesis sobre un parmetro relacionado con la distribucin estadstica de la poblacin.Supongamos que se dispone de un estadstico cuya distribucin con respecto a , se conoce.
Supongamos, tambin, que las hiptesis nula y alternativa tienen la formulacin siguiente:
Un contraste, prueba o test para dichas hiptesis sera una funcin de la muestra de la siguiente forma:
Donde significa que debemos rechazar la hiptesis nula, (aceptar ) y , que
debemos aceptar (o que no hay evidencia estadstica contra ). A se la denomina regin de rechazo. Enesencia, para construir el test deseado, basta con escoger el estadstico del contraste y la regin de rechazo
.Se escoge de tal manera que la probabilidad de que T(X) caiga en su interior sea baja cuando se da .
Errores en el contraste
Una vez realizado el contraste de hiptesis, se habr optado por una de las dos hiptesis, o , y la decisin
escogida coincidir o no con la que en realidad es cierta. Se pueden dar los cuatro casos que se exponen en el
siguiente cuadro:
es cierta es cierta
Se escogi No hay error Error de tipo II
Se escogi Error de tipo I No hay error
Si la probabilidad de cometer un error de tipo I est unvocamente determinada, su valor se suele denotar por la letra
griega , y en las mismas condiciones, se denota por la probabilidad de cometer el error de tipo II, esto es:
En este caso, se denomina Potencia del contraste al valor 1-, esto es, a la probabilidad de escoger cuando sta
es cierta
.
http://es.wikipedia.org/w/index.php?title=Estad%C3%ADsticohttp://es.wikipedia.org/w/index.php?title=Estad%C3%ADstico7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion
15/35
Contraste de hiptesis 13
Cuando es necesario disear un contraste de hiptesis, sera deseable hacerlo de tal manera que las probabilidades de
ambos tipos de error fueran tan pequeas como fuera posible. Sin embargo, con una muestra de tamao prefijado,
disminuir la probabilidad del error de tipo I, , conduce a incrementar la probabilidad del error de tipo II, .
Usualmente, se disean los contrastes de tal manera que la probabilidad sea el 5% (0,05), aunque a veces se usan el
10% (0,1) o 1% (0,01) para adoptar condiciones ms relajadas o ms estrictas. El recurso para aumentar la potencia
del contraste, esto es, disminuir , probabilidad de error de tipo II, es aumentar el tamao muestral, lo que en laprctica conlleva un incremento de los costes del estudio que se quiere realizar.
Contraste ms potente
El concepto de potencia nos permite valorar cual entre dos contrastes con la misma probabilidad de error de tipo I, ,
es preferible. Si se trata de contrastar dos hiptesis sencillas sobre un parmetro desconocido, , del tipo:
Se trata de escoger entre todos los contrastes posibles con prefijado aquel que tiene mayor potencia, esto es, menor
probabilidad de incurrir en el error de tipo II.
En este caso el Lema de Neyman-Pearson garantiza la existencia de un contraste de mxima potencia y determina
cmo construirlo.
Contraste uniformemente ms potente
En el caso de que las hiptesis sean compuestas, esto es, que no se limiten a especificar un nico posible valor del
parmetro, sino que sean del tipo:
donde y son conjuntos de varios posibles valores, las probabilidades y ya no estn unvocamente
determinadas, sino que tomarn diferentes valores segn los distintos valores posibles de . En este caso se dice que
un contraste tiene tamao si
esto es, si la mxima probabilidad de cometer un error de tipo I cuando la hiptesis nula es cierta es . En estas
circunstancias, se puede considerar como una funcin de , puesto que para cada posible valor de en la hiptesis
alternativa se tendra una probabilidad distinta de cometer un error de tipo II. Se define entonces
y, la funcin de potencia del contraste es entonces
esto es, la probabilidad de discriminar que la hiptesis alternativa es cierta para cada valor posible de dentro de los
valores posibles de esta misma hiptesis.
Se dice que un contraste es uniformemente ms potente de tamao cuando, para todo valor es
mayor o igual que el de cualquier otro contraste del mismo tamao. En resumen, se trata de un contraste que
garantiza la mxima potencia para todos los valores de en la hiptesis alternativa.
Es claro que el caso del contraste uniformemente ms potente para hiptesis compuestas exige el cumplimiento de
condiciones ms exigentes que en el caso del contraste ms potente para hiptesis simples. Por ello, no existe un
equivalente al Lema de Neyman-Pearson para el caso general.
Sin embargo, s existen muchas condiciones en las que, cumplindose determinadas propiedades de lasdistribuciones de probabilidad implicadas y para ciertos tipos de hiptesis, se puede extender el Lema para obtener el
http://es.wikipedia.org/w/index.php?title=Lema_de_Neyman-Pearsonhttp://es.wikipedia.org/w/index.php?title=Lema_de_Neyman-Pearsonhttp://es.wikipedia.org/w/index.php?title=Muestra_estad%C3%ADsticahttp://es.wikipedia.org/w/index.php?title=Muestra_estad%C3%ADstica7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion
16/35
Contraste de hiptesis 14
contraste uniformemente ms potente del tamao que se desee.
Aplicaciones de los contrastes de hiptesis
Los contrastes de hiptesis, como la inferencia estadstica en general, son herramientas de amplio uso en la ciencia
en general. En particular, la moderna Filosofa de la ciencia desarrolla el concepto de falsabilidad de las teoras
cientficas basndose en los conceptos de la inferencia estadstica en general y de los contrastes de hiptesis. En estecontexto, cuando se desea optar entre dos posibles teoras cientficas para un mismo fenmeno (dos hiptesis) se
debe realizar un contraste estadstico a partir de los datos disponibles sobre el fenmeno que permitan optar por una
u otra.
Las tcnicas de contraste de hiptesis son tambin de amplia aplicacin en muchos otros casos, como ensayos
clnicos de nuevos medicamentos, control de calidad, encuestas, etctera.
Test estadsticos
Nombre Frmula Notas
Test-z para una muestra (Poblacin distribuida normal on> 30) y conocida.
(z es la distancia desde la media en relacin con la desviacin estndar
de la media). Para distribuciones no normales es posible calcular una
proporcin mnima de una poblacin que cae dentro de k desviaciones
estandar para cualquier k.
Test-z para dos muestras Poblacin normal y observaciones independientes con 1
y 2
conocidas
Una muestra t-test (Poblacin normal on> 30) y desconocida
t-test parejado (Poblacin normal de diferencias on> 30) y desconocida o pequea
muestra de tamao n< 30
Dos muestras
combinadas t-test,
varianzas iguales
[1]
(Poblaciones normales on1+ n
2> 40) y observaciones independientes
y 1
= 2
desconocido
Dos muestras no
combinadas t-test,
varianzas desiguales
(Poblaciones normales on1+ n
2> 40) y observaciones independientes
y 1
2ambas desconocidas
Una proporcin z-testn
.p
0> 10 andn(1 p
0) > 10 y es una muestra aleatoria simple, vase
distribucin binomial.
Dos proporciones z-test,
combinadas por n
1p
1> 5 yn
1(1 p
1) > 5 yn
2p
2> 5 yn
2(1 p
2) > 5 y observaciones
independientes, vase la aproximacin normal de la distribucin
binomial.
Dos proporciones z-test,
descombinadas por
n1p
1> 5 yn
1(1 p
1) > 5 yn
2p
2> 5 yn
2(1 p
2) > 5 y observaciones
independientes, vase la aproximacin normal de la distribucinbinomial.
http://es.wikipedia.org/w/index.php?title=Distribuci%C3%B3n_binomialhttp://es.wikipedia.org/w/index.php?title=T-testhttp://es.wikipedia.org/w/index.php?title=T-testhttp://es.wikipedia.org/w/index.php?title=Encuestahttp://es.wikipedia.org/w/index.php?title=Control_de_calidadhttp://es.wikipedia.org/w/index.php?title=Ensayo_cl%C3%ADnicohttp://es.wikipedia.org/w/index.php?title=Ensayo_cl%C3%ADnicohttp://es.wikipedia.org/w/index.php?title=Inferencia_estad%C3%ADsticahttp://es.wikipedia.org/w/index.php?title=Falsabilidadhttp://es.wikipedia.org/w/index.php?title=Filosof%C3%ADa_de_la_cienciahttp://es.wikipedia.org/w/index.php?title=Inferencia_estad%C3%ADstica7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion
17/35
Contraste de hiptesis 15
Test de la chi cuadrado
para la varianza
Poblacin normal
Test de la chi cuadrado
para la bondad de ajuste
df = k - 1 - # parmetros estimados, y uno de ellos debe tenerse.
Test de la F de Snedecor
para dos muestras para la
igualdad de varianzas
Poblaciones normales
Cumpla que y rechace H0 para[2]
Test de la regresin t-test
de*Restar 1 por variable dependiente; k es el nmero de variables
independientes.
Reject H0
for[3]
En general, el subndice 0 indica un valor dado de la hiptesis nula, H0, la cual debe ser usada tanto como sea posible en la construccin del test
estadstico. ... Definiciones de otros smbolos:
, la probabilidad del erro tipo I (rechazando
una hiptesis nula cuando es en realidad cierta)
= Varianza de la muestra =x/n = proporcin muestra/proporcin, a
menos que se especifique otra manera
= tamao de la muestra = Desviacin estndar de la
muestra 1
= proporcin de la poblacin hipottica
= tamao de la muestra 1 = Desviacin estndar de la
muestra 2
= proporcin 1
= tamao de la muestra 2 = T de student = proporcin 2
= media de la muestra = Grados de libertad = Diferencia hipottica en la proporcin
= media de la poblacin hipottica = Diferencias de las medias
de las muestras
= Mnimo de n1
y n2
= media de la poblacin 1 = Diferencia de las medias
poblacionales hipotticas
= media de la poblacin 2 = Diferencias de las
desviaciones estndares
= desviacin de la poblacin = Estadstico chi-cuadrado = Estadstico F
= varianza poblacional
= Desviacin estndar de la muestra
= Suma (de nmeros k)
Enlaces externos
Inferencia estadstica, apuntes del Departamento de Matemticas de la Universidad de La Corua [4]
HESTADIS - Clculo del contraste de hiptesis para la media con varianza poblacional conocida (gratuito) [5]
Carlos Reynoso - Atolladeros del pensamiento aleatorio: Batallas en torno de la prueba estadstica. [6]
Referencias
[1] NIST handbook: Two-Sample t-Test for Equal Means (http://www.itl.nist.gov/div898/handbook/eda/section3/eda353.htm)
[2] NIST handbook: F-Test for Equality of Two Standard Deviations (http://www.itl.nist.gov/div898/handbook/eda/section3/eda359.htm)
(Testing standard deviations the same as testing variances)
[3] Steel, R.G.D, and Torrie, J. H.,Principles and Procedures of Statistics with Special Reference to the Biological Sciences., McGraw Hill,
1960, page 288.)
[4] http://www.udc.es/dep/mate/estadistica2/sec1_3.html
[5] http://www.vaxasoftware.com/soft_edu/hestadis.html
[6] http://carlosreynoso.com. ar/atolladeros-del-pensamiento-aleatorio-batallas-en-torno-de-la-prueba-estadistica
http://carlosreynoso.com.ar/atolladeros-del-pensamiento-aleatorio-batallas-en-torno-de-la-prueba-estadisticahttp://www.vaxasoftware.com/soft_edu/hestadis.htmlhttp://www.udc.es/dep/mate/estadistica2/sec1_3.htmlhttp://es.wikipedia.org/w/index.php?title=McGraw_Hillhttp://www.itl.nist.gov/div898/handbook/eda/section3/eda359.htmhttp://www.itl.nist.gov/div898/handbook/eda/section3/eda353.htmhttp://carlosreynoso.com.ar/atolladeros-del-pensamiento-aleatorio-batallas-en-torno-de-la-prueba-estadisticahttp://www.vaxasoftware.com/soft_edu/hestadis.htmlhttp://www.udc.es/dep/mate/estadistica2/sec1_3.htmlhttp://es.wikipedia.org/w/index.php?title=Mediahttp://es.wikipedia.org/w/index.php?title=T_de_studenthttp://es.wikipedia.org/w/index.php?title=Hip%C3%B3tesis_nulahttp://es.wikipedia.org/w/index.php?title=Probabilidadhttp://es.wikipedia.org/w/index.php?title=Hip%C3%B3tesis_nulahttp://es.wikipedia.org/w/index.php?title=F_de_Snedecor7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion
18/35
Correlacin 16
Correlacin
En probabilidad y estadstica, la correlacin indica la fuerza y la direccin de una relacin lineal y proporcionalidad
entre dos variables estadsticas. Se considera que dos variables cuantitativas estn correlacionadas cuando los valores
de una de ellas varan sistemticamente con respecto a los valores homnimos de la otra: si tenemos dos variables (A
y B) existe correlacin si al aumentar los valores de A lo hacen tambin los de B y viceversa. La correlacin entredos variables no implica, por s misma, ninguna relacin de causalidad (Vase cum hoc ergo propter hoc).
Fuerza, sentido y forma de la correlacin
La relacin entre dos variables cuantitativas queda representada mediante la lnea de mejor ajuste, trazada a partir de
la nube de puntos. Los principales componentes elementales de una lnea de ajuste y, por lo tanto, de una
correlacin, son la fuerza, el sentido y la forma:
La fuerza extrema segn el caso, mide el grado en que la lnea representa a la nube de puntos: si la nube es
estrecha y alargada, se representa por una lnea recta, lo que indica que la relacin esfuerte; si la nube de puntos
tiene una tendencia elptica o circular, la relacin es dbil. El sentido mide la variacin de los valores de B con respecto a A: si al crecer los valores de A lo hacen los de B,
la relacin espositiva; si al crecer los valores de A disminuyen los de B, la relacin es negativa.
La forma establece el tipo de lnea que define el mejor ajuste: la lnea recta, la curva monotnica o la curva no
monotnica
Coeficientes de correlacin
Existen diversos coeficientes que miden el grado de correlacin, adaptados a la naturaleza de los datos. El ms
conocido es el coeficiente de correlacin de Pearson (introducido en realidad por Francis Galton), que se obtiene
dividiendo la covarianza de dos variables entre el producto de sus desviaciones estndar. Otros coeficientes son:
Coeficiente de correlacin de Spearman
Correlacin cannica
Coeficiente de Correlacin Intraclase
Interpretacin geomtrica
Dados los valores muestrales de dos variables aleatorias e , que pueden ser
consideradas como vectores en un espacio a n dimensiones, pueden construirse los "vectores centrados" como:
e .
El coseno del ngulo alfa entre estos vectores es dada por la frmula siguiente:
Pues es el coeficiente de correlacin muestral de Pearson. El coeficiente de correlacin es el coseno entre
ambos vectores centrados:
Si r = 1, el ngulo , ambos vectores son colineales (paralelos).
Si r = 0, el ngulo , ambos vectores son ortogonales. Si r =-1, el ngulo , ambos vectores son colineales de direccin opuesto.
http://es.wikipedia.org/w/index.php?title=Cosenohttp://es.wikipedia.org/w/index.php?title=Coeficiente_de_Correlaci%C3%B3n_Intraclasehttp://es.wikipedia.org/w/index.php?title=Correlaci%C3%B3n_can%C3%B3nicahttp://es.wikipedia.org/w/index.php?title=Covarianzahttp://es.wikipedia.org/w/index.php?title=Francis_Galtonhttp://es.wikipedia.org/w/index.php?title=Coeficiente_de_correlaci%C3%B3n_de_Pearsonhttp://es.wikipedia.org/w/index.php?title=Curva_no_monot%C3%B3nicahttp://es.wikipedia.org/w/index.php?title=Curva_no_monot%C3%B3nicahttp://es.wikipedia.org/w/index.php?title=Curva_monot%C3%B3nicahttp://es.wikipedia.org/w/index.php?title=L%C3%ADnea_rectahttp://es.wikipedia.org/w/index.php?title=M%C3%ADnimos_cuadradoshttp://es.wikipedia.org/w/index.php?title=Cum_hoc_ergo_propter_hochttp://es.wikipedia.org/w/index.php?title=Variable_estad%C3%ADsticahttp://es.wikipedia.org/w/index.php?title=Proporcionalidadhttp://es.wikipedia.org/w/index.php?title=Funci%C3%B3n_matem%C3%A1ticahttp://es.wikipedia.org/w/index.php?title=Estad%C3%ADsticahttp://es.wikipedia.org/w/index.php?title=Probabilidad7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion
19/35
Correlacin 17
Ms generalmente: .
Por supuesto, del punto vista geomtrica, no hablamos de correlacin lineal: el coeficiente de correlacin tiene
siempre un sentido, cualquiera si que sea su valor entre -1 y 1. Nos informa de modo preciso, no tanto sobre el grado
de dependencia entre las variables, que sobre su distancia angular en la hiperesfera a n dimensiones.
La Iconografa de las correlaciones es un mtodo de anlisis multidimensional que reposa en esta idea. La
correlacin lineal se da cuando en una nube de puntos estos se encuentran o se distribuyen alrededor de una recta.La frmula de correlacin para dos series distintas con cierto desfase "k", est dada por la frmula:
Distribucin del coeficiente de correlacin
El coeficiente de correlacin muestral de una muestra es de hecho una varible aleatoria, eso significa que si
repetimos un experimento o consideramos diferentes muestras se obtendrn valores diferentes y por tanto el
coeficiente de correlacin muestral calculado a partir de ellas tendr valores ligeramente diferentes. Para muestras
grandes la variacin en dicho coeficiente ser menor que para muestras pequeas. R. A. Fisher fue el primero en
determinar la distribucin de probabilidad para el coeficiente de correlacin.
Si las dos variables aleatorias que trata de relacionarse proceden de una distribucin gaussiana bivariante entonces el
coeficiente de correlacin r sigue una distribucin de probabilidad dada por:[1][2]
donde:
es la distribucin gamma
es la funcin gaussiana hipergeomtrica.
Ntese que , por tanto r es estimador sesgado de .
Puede obtenerse un estimador aproximado no sesgado resolviendo la ecuacin:
for
Aunque, la solucn:
es subptima. Se puede obtener un estimador sesgado con mnima varianza para grandes valores de n, con sesgo de
orden buscando el mximo de la expresin:
, i.e.
En el caso especial de que , la distribucin original puede ser reescrita como:
http://es.wikipedia.org/w/index.php?title=Funci%C3%B3n_hipergeom%C3%A9tricahttp://es.wikipedia.org/w/index.php?title=Distribuci%C3%B3n_gammahttp://es.wikipedia.org/w/index.php?title=Hiperesfera7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion
20/35
Correlacin 18
donde es la funcin beta.
Referencias
[1] Kenney, J. F. and Keeping, E. S.,Mathematics of Statistics, Pt. 2, 2nd ed. Princeton, NJ: Van Nostrand, 1951.
[2] Correlation Coefficient - Bivariate Normal Distribution (http://mathworld.wolfram.com/
CorrelationCoefficientBivariateNormalDistribution.html)
Enlaces externos
Diccionario Estadstico - Divestadstica (http://www.divestadistica.es/es/diccionario_estadistico.html#C) (en
castellano)
(http:/ /cajael.com/mestadisticos/T1EDescriptiva/node20.php) Simulacin de la correlacin entre dos
variables discretas con R (lenguaje de programacin)
Coeficiente de correlacin de Spearman
El coeficiente de correlacin de Spearman es
menos sensible que el de Pearson para los valores
muy lejos de lo esperado. En este ejemplo:
Pearson = 0.30706 Spearman = 0.76270
En estadstica, el coeficiente de correlacin de Spearman, (ro) es
una medida de la correlacin (la asociacin o interdependencia) entre
dos variables aleatorias continuas. Para calcular , los datos son
ordenados y reemplazados por su respectivo orden.
El estadstico viene dado por la expresin:
donde D es la diferencia entre los correspondientes estadsticos de
orden dex -y.N es el nmero de parejas.
Se tiene que considerar la existencia de datos idnticos a la hora de
ordenarlos, aunque si stos son pocos, se puede ignorar tal
circunstancia
Para muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximacin a la distribucin t de
Student
La interpretacin de coeficiente de Spearman es igual que la del coeficiente de correlacin de Pearson. Oscila entre
-1 y +1, indicndonos asociaciones negativas o positivas respectivamente, 0 cero, significa no correlacin pero noindependencia. La tau de Kendall es un coeficiente de correlacin por rangos, inversiones entre dos ordenaciones de
una distribucin normal bivariante.
Ejemplo
Los datos brutos usados en este ejemplo se ven debajo.
http://es.wikipedia.org/w/index.php?title=Tau_de_Kendallhttp://es.wikipedia.org/w/index.php?title=Coeficiente_de_correlaci%C3%B3n_de_Pearsonhttp://es.wikipedia.org/w/index.php?title=Distribuci%C3%B3n_t_de_Studenthttp://es.wikipedia.org/w/index.php?title=Distribuci%C3%B3n_t_de_Studenthttp://es.wikipedia.org/w/index.php?title=Variables_aleatoriashttp://es.wikipedia.org/w/index.php?title=Rhohttp://es.wikipedia.org/w/index.php?title=Estad%C3%ADsticahttp://es.wikipedia.org/w/index.php?title=Archivo%3ASpearman_500x325.pnghttp://es.wikipedia.org/w/index.php?title=R_%28lenguaje_de_programaci%C3%B3n%29http://cajael.com/mestadisticos/T1EDescriptiva/node20.phphttp://www.divestadistica.es/es/diccionario_estadistico.html#Chttp://mathworld.wolfram.com/CorrelationCoefficientBivariateNormalDistribution.htmlhttp://mathworld.wolfram.com/CorrelationCoefficientBivariateNormalDistribution.htmlhttp://es.wikipedia.org/w/index.php?title=Funci%C3%B3n_beta7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion
21/35
7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion
22/35
Coeficiente de correlacin de Spearman 20
Determinando la significacin estadstica
La aproximacin moderna al problema de averiguar si un valor observado de es significativamente diferente de
cero (siempre tendremos -1 1) es calcular la probabilidad de que sea mayor o igual que el esperado, dada la
hiptesis nula, utilizando un test de permutacin. Esta aproximacin es casi siempre superior a los mtodos
tradicionales, a no ser que el conjunto de datos sea tan grande que la potencia informtica no sea suficiente para
generar permutaciones (poco probable con la informtica moderna), o a no ser que sea difcil crear un algoritmo paracrear permutaciones que sean lgicas bajo la hiptesis nula en el caso particular de que se trate (aunque normalmente
estos algoritmos no ofrecen dificultad).
Aunque el test de permutacin es a menudo trivial para cualquiera con recursos informticos y experiencia en
programacin, todava se usan ampliamente los mtodos tradicionales para obtener significacin. La aproximacin
ms bsica es comparar el observado con tablas publicadas para varios niveles de significacin. Es una solucin
simple si la significacin slo necesita saberse dentro de cierto rango, o ser menor de un determinado valor, mientras
haya tablas disponibles que especifiquen los rangos adecuados. Ms abajo hay una referencia a una tabla semejante.
Sin embargo, generar estas tablas es computacionalmente intensivo y a lo largo de los aos se han usado
complicados trucos matemticos para generar tablas para tamaos de muestra cada vez mayores, de modo que no es
prctico para la mayora extender las tablas existentes.
Una aproximacin alternativa para tamaos de muestra suficientemente grandes es una aproximacin a la
distribucin t de Student. Para tamaos de muestra ms grandes que unos 20 individuos, la variable
tiene una distribucin t de Student en el caso nulo (correlacin cero). En el caso no nulo (ej: para averiguar si un
observado es significativamente diferente a un valor terico o si dos s observados difieren significativamente, los
tests son mucho menos potentes, pero puede utilizarse de nuevo la distribucin t.
Una generalizacin del coeficiente de Spearman es til en la situacin en la cual hay tres o ms condiciones, varios
individuos son observados en cada una de ellas, y predecimos que las observaciones tendrn un orden en particular.
Por ejemplo, un conjunto de individuos pueden tener tres oportunidades para intentar cierta tarea, y predecimos que
su habilidad mejorar de intento en intento. Un test de la significacin de la tendencia entre las condiciones en esta
situacin fue desarrollado por E. B. Page y normalmente suele conocerse como Page's trend test para alternativas
ordenadas.
Enlaces externos
Tabla de los valores crticos del coeficiente de correlacin de Spearman para muestras pequeas [1] (ingls)
Calculadora en internet [2] (ingls)
Fuente
Wikipedia. Traduccin del ingls.
Referencias
[1] http://www.sussex.ac.uk/Users/grahamh/RM1web/Rhotable.htm
[2] http://www.wessa.net/rankcorr.wasp
http://www.wessa.net/rankcorr.wasphttp://www.sussex.ac.uk/Users/grahamh/RM1web/Rhotable.htmhttp://www.wessa.net/rankcorr.wasphttp://www.sussex.ac.uk/Users/grahamh/RM1web/Rhotable.htmhttp://es.wikipedia.org/w/index.php?title=Page%27s_trend_testhttp://es.wikipedia.org/w/index.php?title=Distribuci%C3%B3n_t_de_Studenthttp://es.wikipedia.org/w/index.php?title=Conjunto_de_datoshttp://es.wikipedia.org/w/index.php?title=Remuestreo%23Test_de_Permutaci%C3%B3nhttp://es.wikipedia.org/w/index.php?title=Hip%C3%B3tesis_nula7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion
23/35
Anlisis de la correlacin cannica 21
Anlisis de la correlacin cannica
El anlisis de correlacin cannica es un mtodo de anlisis multivariante desarrollado por Harold Hotelling. Su
objetivo es buscar las relaciones que pueda haber entre dos grupos de variables y la validez de las mismas. Se
diferencia del anlisis de correlacin mltiple en que ste slo predice una variable dependiente a partir de mltiples
independientes, mientras que la correlacin cannica predice mltiples variables dependientes a partir de mltiplesindependientes. La correlacin hipercannica es una correlacin lineal y, por tanto, slo busca relaciones lineales
entre las variables.
Al disear el experimento hay que considerar el tamao de la muestra ya que son necesarias un mnimo de
observaciones por variable, para que el anlisis pueda representar las correlaciones adecuadamente.
Finalmente, hay que interpretar las cargas cannicas para determinar la importancia de cada variable en la funcin
cannica. Las cargas cannicas reflejan la varianza que la variable observada comparte con el valor terico cannico.
Iconografa de las correlacionesLa iconografa de las correlaciones, uno de los mtodos de anlisis de datos, consiste en reemplazar una matriz de
correlacin por un esquema o grafo donde las correlaciones notables son representadas por un trazo continuo
(correlacin positiva), o un trazo punteado (correlacin negativa).
A partir de un cuadro de datos (por ejemplo, una hoja de clculo) que contiene columnas (variables) y lneas
(observaciones de estas variables), la iconografa de las correlaciones elimina las falsas buenas correlaciones
entre estas variables, esto es, las que se deben a una tercera variable, y detecta las correlaciones enmascaradas. El
esquema final, que presenta solo los vnculos directos entre las variables cualitativas y\o cuantitativas, es un medio
de percibir de una ojeada lo esencial, sobre una figura nica, quitando las redundancias.
Correlaciones "notables" entre los perfiles alimenticios en
Europa.
Qu es una correlacin notable?
Una correlacin no tiene sentido aisladamente.
Recprocamente una correlacin escasa no implica la ausencia
de vnculo.
Ejemplo 1 : las variables A y C se correlacionan
fuertemente porque sus variaciones son vinculadas las
dos a una variable X. En realidad no hay vnculo AC,
sino un vnculo XA y un vnculo XC. En otros
trminos, la correlacin entra A y C es redundante, ydesaparece, cuando X es mantenido constante
(hablamos de correlacin parcial escasa con relacin a
X). Lo deducimos el esquema de las solas correlaciones
notables :
Ejemplo 2 : la variable Y depende de varias variables C, D, E, F y G independientes. Tambin la correlacin
de Y con cada una de ellas, consideradas por separado, es escasa (no "significativa" con sentido probabilista
del trmino). En realidad, existen unos vnculos rigurosos CY, DY, EY, FY y GY. Lo deducimos el esquema
de las correlaciones notables :
http://es.wikipedia.org/w/index.php?title=Archivo:LinkCorrelation1.pnghttp://es.wikipedia.org/w/index.php?title=Correlaci%C3%B3n_parcialhttp://es.wikipedia.org/w/index.php?title=Archivo%3ACorrelationIconographyEsp.pnghttp://es.wikipedia.org/w/index.php?title=Hoja_de_c%C3%A1lculohttp://es.wikipedia.org/w/index.php?title=Grafohttp://es.wikipedia.org/w/index.php?title=An%C3%A1lisis_de_datoshttp://es.wikipedia.org/w/index.php?title=An%C3%A1lisis_de_correlaci%C3%B3n_m%C3%BAltiplehttp://es.wikipedia.org/w/index.php?title=Harold_Hotellinghttp://es.wikipedia.org/w/index.php?title=An%C3%A1lisis_multivariante7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion
24/35
Iconografa de las correlaciones 22
Seleccin de los vnculos notables
Ilustrmosla sobre un pequeo ejemplo: en el momento de un control matemtico de un nivel de clase de tercer ao
de bachillerato, ocho alumnos del primer ao al ltimo curso, cuyo peso, la edad y la asiduidad conocemos,
obtuvieron las notas siguientes:
Datos originales
Alumno Peso Edad Asiduidad Nota
e1 52 12 12 5
e2 59 12,5 9 5
e3 55 13 15 9
e4 58 14,5 5 5
e5 66 15,5 11 13,5
e6 62 16 15 18
e7 63 17 12 18
e8 69 18 9 18
Matriz de correlacin
Peso Edad Assiduidad Nota
Peso 1
Edad 0,885 1
Asiduidad -0,160 -0,059 1
Nota 0,774 0,893 0,383 1
Coloquemos nuestras cuatro variables al azar sobre el papel, y tracemos uno trazo entre dos de ellas cada vez que su
correlacin es superior al umbral 0,3 en valor absoluto.
A la vista de este esquema, la correlacin (peso, nota) = 0.774, relativamente fuerte, da a pensar que el peso tiene
ms influencia sobre la nota que la asiduidad! Pero, por otra parte, tenemos las correlaciones (peso, edad) = 0,885, y(edad, nota) = 0,893.
http://es.wikipedia.org/w/index.php?title=Archivo:LinkCorrelation3esp.pnghttp://es.wikipedia.org/w/index.php?title=Archivo:LinkCorrelation2.png7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion
25/35
Iconografa de las correlaciones 23
A partir de estos 3 coeficientes de correlacin total, la frmula de la correlacin parcial da: correlacin (peso, nota)
a edad constante : = -0,08
La correlacin entre nota y peso, a edad constante fuertemente baj (es hasta ligeramente negativa)! De otro trmino
el peso no tiene influencia sobre la nota. Borremos el vnculo entre peso y nota:
En definitiva, un vnculo no es trazado,
sea porque su correlacin total es inferior al umbral, en valor absoluto,
sea porque existe por lo menos una correlacin parcial inferior al umbral, en valor absoluto, o de signo contrario a
la correlacin total.
No es necesario, aqu, de borrar otros vnculos, como se lo verifica a partir de los valores de otras correlaciones
parciales:Correlacin (peso, nota) a asiduidad constante = 0,92
Correlacin (edad, peso) a nota constante = 0,68
Correlacin (edad, peso) a asiduidad constante = 0,89
Correlacin (edad, nota) a peso constante= 0,71
Correlacin (asiduidad, peso) a nota constante = -0,78
Correlacin (asiduidad, peso) a edad constante = -0,23
Correlacin (asiduidad, nota) a peso constante = 0,81
Correlacin (asiduidad, nota) a edad constante = 0,97Correlacin (asiduidad, edad) a peso constante = 0,18
Correlacin (asiduidad, edad) a nota constante = -0,97
Instantes notables del anlisis
Los datos disponibles permiten llevar ms lejos el anlisis.
Podemos considerar en efecto cada lnea como un instante del anlisis, caracterizado por una variable indicadora
igual a 1 en el instante de la lnea considerada, y a 0, en otro caso:
Alumno Peso Edad Asiduidad Nota e1 e2 e3 e4 e5 e6 e7 e8
e1 52 12 12 5 1 0 0 0 0 0 0 0
e2 59 12,5 9 5 0 1 0 0 0 0 0 0
e3 55 13 15 9 0 0 1 0 0 0 0 0
e4 58 14,5 5 5 0 0 0 1 0 0 0 0
e5 66 15,5 11 13,5 0 0 0 0 1 0 0 0
e6 62 16 15 18 0 0 0 0 0 1 0 0
e7 63 17 12 18 0 0 0 0 0 0 1 0
e8 69 18 9 18 0 0 0 0 0 0 0 1
http://es.wikipedia.org/w/index.php?title=Correlaci%C3%B3n_parcialhttp://es.wikipedia.org/w/index.php?title=Correlaci%C3%B3n_parcialhttp://es.wikipedia.org/w/index.php?title=Archivo:LinkCorrelation4esp.pnghttp://es.wikipedia.org/w/index.php?title=Correlaci%C3%B3n_parcial7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion
26/35
Iconografa de las correlaciones 24
Aunque los instantes llevan los mismos nombres que los alumnos, hay que recordar que las alumnas son unas
lneas (observaciones), mientras que los instantes son unas columnas, que forman parte de las variables, con el
mismo ttulo que las 4 primeras columnas.
Podemos pues adoptar el mismo criterio de trazado de los vnculos para los "instantes" y las variables originales. No
obstante, para no agravar el esquema, dibujemos solamente los instantes vinculados a una variable por lo menos
(instantes notables).
Los instantes son representados por un tringulo, para que se puedan distinguir de las variables originales, que son
representadas por un cuadrado.
Con relacin al esquema precedente, el vnculo entre nota y asiduidad desapareci, reemplaz por los vnculos
(Nota, e6) y (Asiduidad, e6) . Era pues redundante: el alumno e6, muy asiduo y bien anotado, le explica a solas el
vnculo (Nota, Asiduidad) .
El alumno e3 tiene asiduidad notablemente fuerte, y el alumno e4 asiduidad notablemente escasa (trazo
punteado).
Un vnculo es dicho notable cuando otros vnculos presentes sobre la figura no bastan con explicarlo.
El alumno e6 tiene en efecto una nota notable: 18/20.
Los alumnos e7 y e8 que tienen, tambin, 18/20, no son notables: no aparecen sobre el esquema, porque, ms de
edad, sus nota es ya explicada por el vnculo (edad, anota).
Del mismo modo, podemos verificar sobre los datos, que e5 tiene un peso notablemente fuerte para su edad (con
relacin a los 8 alumnos de la poblacin estudiada); mientras que el alumno e1 tiene un peso notablemente escaso
para su edad.
Los vnculos entre cuadrados (variables - variables) subrayan las leyes generales; los vnculos cuadrado-tringulo
(variable - instante) subrayan los acontecimientos raros.
Algoritmo de la iconografa de las correlaciones
El principio de la iconografa de las correlaciones es bastante simple para permitir un trazado manual, si el cuadro de
datos es pequeo. Si no, hay que recurrir a un programa que contiene, en entrada, la matriz de correlacin y el
umbral escogido (por ejemplo 0,3). He aqu el algoritmo:
Para evitar las redundancias, el vnculo AB es trazado si y solamente si la correlacin total r(A,B) es superior
al umbral en valor absoluto, y si las correlaciones parciales r(A,B), con relacin a una variable Z, son
superiores al umbral, en valor absoluto, y con lo mismo signo que la correlacin total, para todo Z entre las
variables disponibles, incluido los instantes.
Este criterio de trazado es estricto, y garantiza la seleccin de los vnculos notables.
Las variables pueden ser cuantitativas y\o cualitativas (siempre y cuando estas ltimas utilicen una codificacin
disyuntiva completa).
http://es.wikipedia.org/w/index.php?title=Codificaci%C3%B3n_disyuntiva_completahttp://es.wikipedia.org/w/index.php?title=Codificaci%C3%B3n_disyuntiva_completahttp://es.wikipedia.org/w/index.php?title=Archivo:LinkCorrelation5esp.png7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion
27/35
Iconografa de las correlaciones 25
Posicin de los puntos sobre el papel
El ejemplo anterior mostr dos tipos de puntos: las variables (cuadrados), y los instantes (tringulos). Una vez
encontrados los vnculos entre estos elementos, positivos (trazos continuos) o negativos (trazos punteados), solo
queda dibujarlos sobre el papel.
Toda libertad de posicionamiento es dejada al analista, ya que la interpretacin depende de vnculos y no de
posiciones.
En lo posible, hay que evitar los cruces intiles entre vnculos, molestando para la lectura. El esquema siguiente, por
ejemplo, es menos legible que el precedente, aunque la interpretacin sea la misma (vnculos idnticos):
Varias tcnicas pueden ser utilizadas para colocar los puntos de modo automtico.
Un primer enfoque consiste en proyectar la nube de puntos de las variables sobre los dos primeros ejes de un anlisis
de los componentes principales. Pero las proyecciones no son adaptadas siempre a una buena legibilidad cuando hay
muchos componentes principales estadsticamente significativos, y particularmente en caso de mezcla de variables
cualitativas y cuantitativas.
Otro enfoque consiste en sacar partido de la interpretacin geomtrica del coeficiente de correlacin (coseno), y en
dibujar el esquema a la superficie de una esfera a 3 dimensiones.
Al siendo el arco-coseno de la correlacin una distancia angular, dos puntos sern tanto ms prximos sobre laesfera cuanto sern correlacionados ms (positivamente). A la inversa la distancia angular entre dos puntos
que se correlacionan negativamente es un ngulo obtuso; si la correlacin vale -1, los puntos son opuestos
sobre la esfera (ngulo 180).
Se trata, desde luego, de un mal menor, porque la esfera efectiva no est a 3 dimensiones, sino a n
dimensiones. Si pues dos puntos que se correlacionan mucho forzosamente son prximos sobre el dibujo, lo
inverso no est segura: dos puntos muy prximos sobre el dibujo no se correlacionan forzosamente. No
obstante, la ausencia de vnculo trazado levanta la ambigedad.
Podramos contemplar muchos otros modos de eleccin de las posiciones: el ms utilizado consiste en escoger como
distancia angular el arco-coseno del valor absoluto de la correlacin. As, los puntos que se correlacionan
negativamente no son opuestos sobre la esfera, y el vnculo punteado es ms corto y atesta menos el esquema
En prctica, en un enfoque software, una primera variable A es dibujada dondequiera sobre la esfera. Luego la
variable B que se correlacionan menos a esta primera es puesta sobre la esfera a la distancia
arco-coseno(r(A,B)) de la primera. Colocamos entonces, por triangulacin, la variable C la menos
correlacionada con ambas primeras. Otros puntos son puestos poco a poco. Si la cuarta variable tiene una
correlacin nula con las tres primeras, no es materialmente posible asignarle una posicin exacta. Las
distancias son vueltas a calcular de modo proporcional a los valores efectivos. Al cabo de un cierto tiempo, la
posicin de los primeros puntos es vuelta a calcular segn los siguientes. Etc. As, la figura progresivamente es
reajustada.
http://es.wikipedia.org/w/index.php?title=An%C3%A1lisis_de_los_componentes_principaleshttp://es.wikipedia.org/w/index.php?title=An%C3%A1lisis_de_los_componentes_principaleshttp://es.wikipedia.org/w/index.php?title=Archivo:LinkCorrelation6esp.png7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion
28/35
Iconografa de las correlaciones 26
Eleccin del umbral
El umbral puede variar entre 0 y 1. Un vnculo es trazado si, no solamente la correlacin total pero adems todas las
correlaciones parciales correspondientes son superiores al umbral en valor absoluto y del mismo signo. Esta
condicin es severa, y los vnculos que subsisten son ricos, en general, en informacin.
Aumentar el valor del umbral disminuye el nmero de vnculos, y clarifica la figura, pero disminuye tambin la
informacin, sobre todo cuando la variable de inters depende de varias variables independientes.
Es a menudo preferible tomar un umbral bastante bajo. Luego, si la figura completa es demasiado prolija, se puede
dibujar slo los vnculos a la variable de inters.
Por ejemplo, cuando se aborda nuevos datos, y cuando no se sabe cual umbral escoger, podremos comenzar por:
un umbral = 0.3 para un anlisis de datos;
un umbral = 0.1 para el anlisis de los resultados de un diseo de experimentos. En este caso en efecto, todos
los factores son controlados, y podemos permitirnos no dibujar los "instantes" (a priori notables por
construccin del plano), lo que alivia la figura;
un umbral = 0.01, o menos, podr hasta ser escogido cuando la tabla de datos comprende varias centenas de
observaciones.En nuestro ejemplo, hasta el umbral nulo, el vnculo (peso, nota) no es trazado, porque la correlacin parcial con
relacin a la edad est con signo contrario a la correlacin total. Pero el vnculo (asiduidad, nota) aparece, y hay ms
instantes notables.
Organizacin de los vnculos
La Iconografa de las Correlaciones pretende poner en evidencia la organizacin de los vnculos, que puede ser
cerrada tanto como jerrquica o continuamente repartida.
La ausencia de eje, cualquiera que sea la dimensin del problema permite reemplazar una multitud de proyecciones
bidimensionales por una imagen nica, o lo esencial aparece de una ojeada.
Retirada de una influencia evidente
Es comn, en anlisis de datos, disponer de una variable Z cuya influencia, preponderante, y ya bien conocida,
enmascara fenmenos ms finos que procuramos descubrir.
La solucin consiste en trazar el esquema, no de la matriz de correlacin total, pero de la matriz de las correlaciones
parciales con relacin a Z, con el fin de retirar toda influencia lineal de Z si existe all (creciente o decreciente) sobre
otras variables. El esquema revela entonces otra organizacin, abstraccin hecha las variaciones de Z.
Por ejemplo, retiremos el componente de la edad, cuya influencia, preponderante, es bien conocida. El esquema
revela entonces la influencia directa de la asiduidad sobre la nota. La edad desapareci de la figura, as como su
componente en todas las variables. Y el peso se encuentra aislado.
http://es.wikipedia.org/w/index.php?title=Correlaci%C3%B3n_parcialhttp://es.wikipedia.org/w/index.php?title=Correlaci%C3%B3n_parcialhttp://es.wikipedia.org/w/index.php?title=Archivo:LinkCorrelation7esp.png7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion
29/35
Iconografa de las correlaciones 27
En una tabla de datos que contiene ms variables puede ser interesante retirar varias influencias (el resultado no
depende del orden en el cual son retirados).
Interacciones lgicas notables
Lo mismo que los instantes son aadidos, ms arriba, a la tabla inicial, como de nuevas columnas, lo mismo,podemos aadir otras columnas, por ejemplo funciones de las variables iniciales, en particular las interacciones
lgicas, que son unos acoplamientos de variables.
El nmero de columnas suplementarias importa poco, con tal que se aada sobre el esquema slo a las que sern
vinculadas a uno por lo menos variables iniciales, con el fin de no agravar intilmente la figura.
Por ejemplo, en respuesta al aadido de nuevas columnas que corresponde a "y" lgica entre dos variables
cualquiera, slo la interaccin Edad&Asiduidad directamente parece vinculada a la nota :
La interaccin lgica aporta algo adems a la interpretacin (habida cuenta, por supuesto, del pequeo nmero de
variables explicativas disponibles en este ejemplo): para obtener una buena nota no basta con tener mayor edad, hay
que tambin ser asiduo a la clase.
http://es.wikipedia.org/w/index.php?title=Archivo:LinkCorrelation8esp.pnghttp://es.wikipedia.org/w/index.php?title=Interacci%C3%B3n_l%C3%B3gicahttp://es.wikipedia.org/w/index.php?title=Interacci%C3%B3n_l%C3%B3gicahttp://es.wikipedia.org/w/index.php?title=Archivo:LinkCorrelation9espbis.png7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion
30/35
Iconografa de las correlaciones 28
Base de conocimiento asociada con esquema
Los vnculos del esquema pueden ser descritos de la manera siguiente: a cada vnculo trazado, asociemos una regla
del tipo SI ENTONCES, seguida por el valor del coeficiente de correlacin total, precedido por uno * si el
vnculo es trazado, y de ? si el vnculo no es trazado, porque dudoso (el valor de la correlacin es superior al
umbral a causa de una sola observacin).
SI Peso ENTONCES Edad *.885
SI Edad ENTONCES Peso *.885
SI Edad ENTONCES Nota *.893
SI Nota ENTONCES Edad *.893
SI Asiduidad ENTONCES Edad*Asiduidad ?.493
SI Nota ENTONCES Edad*Asiduidad *.960
SI Edad*Asiduidad ENTONCES Nota *.960
SI .e1 ENTONCES Peso *.610
SI .e3 ENTONCES Asiduidad *.484SI .e4 ENTONCES Asiduidad *.726
SI .e5 ENTONCES Peso *.395
SI .e6 ENTONCES Edad*Asiduidad *.597
Los vnculos entre variables son indicados aqu en ambas direcciones, porque la causalidad no es directamente
deducible de la correlacin.
Los vnculos instantes notables - variables pueden ser indicadas en una sola direccin, porque la variable
emana de su realizacin en el instante considerado.
Una base de conocimiento puede servir de entrada a un sistema experto; y el utilizador puede enriquecerlo o
precisarlo.Por ejemplo, es contrario al sentido comn decir que la edad depende de una buena nota. No obstante lo
inverso puede ser posible. Lo mismo, los nios engordan aumentando, pero no es el peso que hace el nmero
de los aos. El utilizador puede pues suprimir las reglas SI Nota ENTONCES Edad .893, SI Nota
ENTONCES Edad *Asiduidad .960 y SI Peso ENTONCES Edad .885.
La base de conocimiento as modificado da un esquema donde ciertos vnculos son orientados en lo sucesivo.
Podemos aplicarle la Teora de grafos y sacarlo flujos de informaciones.
http://es.wikipedia.org/w/index.php?title=Teor%C3%ADa_de_grafoshttp://es.wikipedia.org/w/index.php?title=Sistema_experto7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion
31/35
Iconografa de las correlaciones 29
Campos de aplicacin
El mtodo se aplica en campos mltiples.
Un medio de no olvidar nada de esencial en un cuadro de datos
Vase un ejemplo de aplicacin a un gran cuadro de datos astronmicos difcil de aprehender de una ojeada.
Iconografa de correlaciones planetarias.Trazos continuos: correlaciones positivas.
Trazos punteados: correlaciones negativas
Mediante iconografa de las
correlaciones se puede representar, en
una figura nica, las relaciones ms
notables de la tabla anterior de los
Planetas principales. Podemos ver las
correlaciones ms notables (vnculos),
ya sean positivas (trazos continuos) o
negativas (trazos punteados) entre las
distintas variables.
La figura muestra los vnculos ms omenos evidentes (como la de la
gravedad con la velocidad de escape);
y tambin los vnculos propios de cada
planeta. Es un medio de no olvidar
nada de esencial en el cuadro de datos.
Se indican a continuacin algunas de
las correlaciones:
Los planetas con fuerte velocidad
orbital (como Mercurio) tienen
tambin una densidad fuerte y una
temperatura de superficie fuerte (en particular Vnus).
La Tierra tiene una inclinacin escasa (trazo punteado), mucho O2
en su atmsfera, y fuerte discriminante
planetario (trazos continuos).
Un gran perodo de rotacin corresponde a una inclinacin axial escasa y a una excentricidad fuerte.
El anlisis de los tableros de mandos
El tablero de mandos de gestin es un medio de pilotaje y de diagnstico. Constituido por varios indicadores de
realizacin, permite conocer la carga de trabajo, percibir la hipertrofia o atrofias de ejecucin de las diferentes tareas,
situar las anomalas de funcionamiento, enderezar ciertas situaciones. Sin embargo, habida cuenta de los lmites denuestra memoria, un tablero de mandos debe contener pocas cifras para ser de empleo fcil.
La iconografa de las correlaciones es un medio de analizar un tablero de mandos que tiene muchas cifras, y de
explotar verdaderamente todas las informaciones de la empresa. Pudiendo librarse de influencias exteriores (tales
como tendencias econmicas o decisiones de marketing), permite poner en evidencia la influencia mutua de las
tareas, analizar las causas de desviacin entre previsin y realizacin, y, gracias al esquema sinttico, traducir
rpidamente la informacin en forma de preconizaciones operacionales claras y bien apoyadas.
http://es.wikipedia.org/w/index.php?title=Archivo%3ADataPlanetas.pnghttp://es.wikipedia.org/w/index.php?title=Anexo:Datos_de_los_planetas_del_Sistema_Solar7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion
32/35
Iconografa de las correlaciones 30
Referencias
Lesty M. (1999) Une nouvelle approche dans le choix des rgresseurs de la rgression multiple en prsence
dinteractions et de colinarits. La revue de Modulad, n22, janvier 1999, pp. 41-77 [1]. (en francs)
Referencias
[1] http://www-rocq.inria.fr/axis/modulad/archives/numero-22/Lesty-22/unenouvelle.pdf
http://www-rocq.inria.fr/axis/modulad/archives/numero-22/Lesty-22/unenouvelle.pdfhttp://www-rocq.inria.fr/axis/modulad/archives/numero-22/Lesty-22/unenouvelle.pdf7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion
33/35
Fuentes y contribuyentes del artculo 31
Fuentes y contribuyentes del artculoAnlisis de la regresinFuente: http://es.wikipedia.org/w/index.php?oldid=66382028 Contribuyentes: Acratta, Amads, ConPermiso, Cpey, Ezarate, GermanX, Ihtizon, Juan Mayordomo, LP,Lauranrg, MarcoAurelio, Matdrodes, SrDonPatrn, Wikilptico, 37 ediciones annimas
Regresin no linealFuente: http://es.wikipedia.org/w/index.php?oldid=68947694 Contribuyentes: Antn Francho, Chocoteco, ConPermiso, Deachp, Donatiu, Gaortizg, GermanX, Ggenellina,HanPritcher, Jarfil, Juan Mayordomo, Lucien leGrey, Matdrodes, Nizampop, Pacomegia, Rhernan, Tano4595, Technopat, Tirithel, Trujilloleonardo, 46 ediciones annimas
Regresin segmentadaFuente: http://es.wikipedia.org/w/index.php?oldid=64617025 Contribuyentes: ConPermiso, Juan Mayordomo, Mr. Moonlight
Contraste de hiptesisFuente: http://es.wikipedia.org/w/index.php?oldid=69349525 Contribuyentes: Acratta, Alakasam, Califasuseso, Cgb, Davius, Elpolaco08, Fenicio, Folkvanger, Hu12,Ialad, Isha, Jagarsoft, Jcaraballo, Jmvkrecords, Jorge c2010, Joseaperez, Juan Mayordomo, LauraFarina, Lloux, LuchoX, Matdrodes, Mxcatania, NACLE, Niqueco, Pabloallo, Plux, RaimundoPastor, Sageo, Varyatanil, 64 ediciones annimas
CorrelacinFuente: http://es.wikipedia.org/w/index.php?oldid=70497511 Contribuyentes: Acratta, Alhen, Bucho, Camilo, Davius, Diegusjaimes, Egozcue, El Quinche, Grillitus, Humberto,Jkbw, Juan Mayordomo, Lauranrg