-
COMPONENTES PRINCIPALES
Si es posible describir con precisin los valores de p variables
por un pequeo subconjunto r
-
1.- PLANTEAMIENTO DEL PROBLEMA Supongamos que se dispone de los
valores de p-variables en n elementos de una poblacin dispuestos en
una matriz X de dimensiones np, donde las columnas contienen las
variables y las filas los elementos. Supondremos en este captulo
que previamente hemos restado a cada variable su media, de manera
que las variables de la matriz X tienen media cero y su matriz de
covarianzas vendr dada por 1/n XX. Ejemplo: Problema 1 El problema
que se desea resolver es cmo encontrar un espacio de dimensin ms
reducida que represente adecuadamente los datos. El problema puede
abordarse desde tres perspectivas equivalentes.
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
-
a) Enfoque descriptivo Se desea encontrar un subespacio de
dimensin menor que p tal que al proyectar sobre l los puntos
conserven su estructura con la menor distorsin posible.
Consideremos el caso de dos dimensiones (p=2). El diagrama de
dispersin y una recta, proporciona un buen resumen de los datos, ya
que las proyecciones de los puntos sobre ella indican
aproximadamente la situacin de los puntos en el plano.
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
-
La representacin es buena porque la recta pasa cerca de todos
los puntos y estos se deforman poco al proyectarlos. Esta propiedad
puede concretarse exigiendo que las distancias entre los puntos
originales y sus proyecciones sobre la recta sean lo ms pequeas
posibles. Si consideramos un punto xi y una direccin a1=(a11,...,
a1p), definida por un vector a1 de norma unidad, la proyeccin del
punto xi sobre esta direccin es el escalar: y el vector que
representa esta proyeccin ser zia1. Llamando ri a la distancia
entre el punto xi, y su proyeccin sobre la direccin a1, este
criterio implica: donde |u| es la norma euclidiana o mdulo del
vector u
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
-
En la figura se muestra que al proyectar cada punto sobre la
recta se forma un tringulo rectngulo donde la hipotenusa es la
distancia al origen del punto al origen, (xixi)
1/2, y los catetos la proyeccin del punto sobre la recta (zi) y
la distancia entre el punto y su proyeccin (ri). Por Pitgoras: y
sumando esta expresin para todos los puntos, se obtiene: Como el
primer miembro es constante, minimizar La suma de las distancias a
la recta de todos los puntos, es equivalente a maximizar. La suma
al cuadrado de los valores de las proyecciones. Como las
proyecciones zi son, variables de media cero, maximizar la suma de
sus cuadrados equivale a maximizar su varianza
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
-
En el espacio de p-dimensiones, lo caracterstico de la nube de
puntos son sus distancias relativas. Tratemos de encontrar un
subespacio de dimensin 1, es decir, un recta tal que los puntos
proyectados conserven lo ms posible sus distancias relativas. Si
llamamos a los cuadrados de las distancias originales entre los
puntos y a las distancias entre los puntos proyectados sobre una
recta, deseamos que. sea mnima. Como la suma de las distancias
originales es fija, minimizar D requiere maximizar , las distancias
entre los puntos proyectados. Se demuestra que la direccin es la
misma que proporciona una variable escalar de varianza mxima.
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
-
b) Enfoque estadstico: Representar puntos p dimensionales con la
mnima prdida de informacin en un espacio de dimensin uno es
equivalente a sustituir las p variables originales por una nueva
variable, z1, que resuma ptimamente la informacin. Esto supone que
la nueva variable debe tener globalmente mxima correlacin con las
originales o, en otros trminos, debe permitir prever las variables
originales con la mxima precisin (utilizar la variable de mxima
variabilidad). c) enfoque geomtrico Si consideramos la nube de
puntos de la figura vemos que los puntos se sitan siguiendo una
elipse y podemos describir su orientacin dando la direccin del eje
mayor de la elipse y la posicin de los punto por su proyeccin sobre
esta direccin. En varias dimensiones tendremos elipsoides y la
mejor aproximacin a los datos es la proporcionada por el eje mayor
del elipsoide. Considerar los ejes del elipsoide como nuevas
variables originales supone pasar de variables correlacionadas a
variables ortogonales
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
-
2.- CALCULO DE LOS COMPONENTES 2.1 Clculo del primer componente
Ser la combinacin lineal de las variables originales que tenga
varianza mxima. Los valores de este primer componente en los n
individuos se representarn por un vector z1, dado por Como las
variables originales tienen media cero tambin z1 tendr media nula.
Su varianza ser: S es la matriz de varianzas-covarianzas. Para
maximizar la varianza sin limite aumentamos el mdulo del vector a1.
Para que la maximizacin tenga solucin debemos imponer una
restriccin al mdulo del vector a1, y, sin prdida de generalidad,
impondremos que a1a1=1. Introduciremos esta restriccin mediante el
multiplicador de Lagrange: y maximizaremos esta expresin
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
-
cuya solucin es: que implica que a1 es un vector propio de la
matriz S, y su correspondiente valor propio. Para determinar qu
valor propio de S es la solucin de la ecuacin tendremos en cuenta
que, multiplicando por la izquierda por a1 esta ecuacin, y
concluimos, que es la varianza de z1. Como esta es la cantidad que
queremos maximizar, ser el mayor valor propio de la matriz S. Su
vector asociado, a1, define los coeficientes de cada variable en el
primer componente principal.
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
-
Problema 1.- Las observaciones corresponden a acciones que se
cotizan en el mercado y las variables a tres medidas de
rentabilidad de estas acciones durante un perodo de tiempo. Las
variables son : X1 es la rentabilidad efectiva por dividendos, X2
es la proporcin de beneficios que va a dividendos y X3 el ratio
entre precio por accin y beneficios.
Obs. X1 X2 X3
1 3.4 89.7 30.2
2 5.1 55.7 9.9
3 4.5 52.3 11.5
4 3.5 47.0 11.2
5 5.9 42.7 7.0
6 5.1 30.6 6.9
7 4.6 64.4 11.8
8 5.0 51.0 9.6
9 3.2 54.4 14.7
10 3.4 45.7 13.2
11 6.5 39.9 5.2
12 4.4 40.3 13.7
13 5.1 52.4 11.0
14 5.8 43.9 8.0
15 4.6 52.8 14.4
16 7.2 65.8 7.8
17 7.2 58.1 7.7
18 4.4 58.5 12.1
19 7.8 84.3 11.0
20 16.0 96.5 6.0
21 16.7 100.0 6.8
22 15.2 92.3 5.2
23 17.5 99.9 6.8
24 16.2 93.5 6.1
25 14.7 100.0 6.6
26 15.3 99.9 5.9
27 15.8 100.0 6.9
28 18.3 96.3 5.7
29 15.9 100.0 6.1
30 16.1 92.5 6.1
31 9.7 87.6 7.7
32 6.9 53.6 6.6
33 14.4 87.8 5.2
34 14.9 34.5 4.69
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
-
Las medidas de asimetra y kurtosis indican un alejamiento de la
distribucin normal para las tres variables: las dos primeras tienen
valores muy bajos de la kurtosis, lo que indica alta
heterogeneidad, posiblemente por la presencia de dos grupos de
datos distintos, y la tercera tiene alta kurtosis, lo que sugiere
la presencia de valores atpicos.
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
-
Estas caractersticas son muy claras en los histogramas de las
variables. La primera variable, rentabilidad efectiva por
dividendos, x1, muestra dos grupos de acciones con comportamiento
distinto.
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
-
El histograma de la segunda variable, x2, proporcin de
beneficios que va a dividendos, muestra tambin dos grupos de
acciones.
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
-
Finalmente, la distribucin de la tercera variable es muy
asimtrica, con un valor atpico muy destacado. La evidencia
disponible indica que las acciones pueden probablemente dividirse
en dos grupos ms homogneos. Sin embargo, vamos a ilustrar el
anlisis de todos los datos. X3 el ratio entre precio por accin y
beneficios.
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
-
La matriz de varianzas y covarianzas de estas tres variables
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
-
Como las dimensiones de las variables son distintas, no tiene
sentido calcular medidas promedio. Los histogramas de las tres
variables han mostrado una clara falta de normalidad. Una
posibilidad, que estudiaremos con ms detalle en el captulo
siguiente, es transformar las variables para facilitar su
interpretacin. Tomando logaritmos, la matriz de covarianzas de las
variables transformadas,
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
-
Se observa que los logaritmos modifican mucho los resultados.
Los datos ahora son ms homogneos y la variable de mayor varianza
pasa a ser la primera, el logaritmo de la rentabilidad efectiva,
mientras que la menor es la segunda, el logaritmo de la proporcin
de beneficios que va a dividendos. La relacin entre el logaritmo
del ratio precio/beneficios (X3) y la rentabilidad efectiva es
negativa. Las otras relaciones son dbiles. Una ventaja adicional de
los logaritmos es que hace las variables independientes de la
escala de medida: Si multiplicamos las variables por una constante
al tomar logaritmos esto es equivalente a sumar una cantidad y
sumar una constante a los datos no altera su variabilidad. Por
tanto, al tomar logaritmos en las variables las varianzas pueden
compararse aunque los datos tengan distintas dimensiones. La
varianza media de las tres variables es
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
-
Clculo de los Autovalores: Para el clculo de los autovalores
tenemos que calcular las races de la ecuacin:
Las races del polinomio, obtenidas son 1=0.521, 2=0.113,
3=6.51103.
El autovector asociado a 1 nos da los pesos de la primera
componente principal. Para calcular el primer autovector resolvemos
el sistema. que conduce a:
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
-
El sistema es compatible indeterminado. Para encontrar una de
las infinitas soluciones tomemos la primera variable como parmetro,
x, resolvamos el sistema en funcin de x. La solucin es, El valor de
x se obtiene ahora imponiendo que el vector tenga norma unidad, con
lo que resulta: el primer componente es
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
-
Donde X1,X2 y X3 son las variables en logaritmos. Por ejemplo,
el valor de esta nueva variable, la primera componente principal,
para la primera observacin (la primera accin) es El primer
componente principal puede aproximadamente escribirse. y utilizando
la definicin de las variables originales este componente puede
escribirse es decir
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
-
Que indica que este primer componente depende bsicamente de la
variable X1, la rentabilidad por dividendos. Llamando z1=logZ1 este
primer componente puede escribirse tambin como que es,
aproximadamente, de nuevo la variable x1, el cociente entre el
precio de la accin y los dividendos recibidos. Esta variable es la
que explica mejor la variabilidad conjunta de las acciones.
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
-
Problema 2.- La encuesta de presupuestos familiares en Espaa
(EPF) presenta los gastos medios de las familias: X1=alimentacin,
X2=vestido y calzado, X3=vivienda, X4=mobiliario domstico,
X5=gastos sanitarios, X6=transportes, X7=enseanza y cultura,
X8=turismo y ocio, X9=otros gastos, para 51 provincias. La matriz
de covarianzas resume la variabilidad de estas 9 variables en los
51 elementos observados. Como las distribuciones de los gastos son
muy asimtricas, las variables se han expresado en logaritmos. El
vector propio asociado al mayor valor propio, 0,348, define la
siguiente variable: z1 es una suma ponderada de todos los gastos
con mayor peso en los gastos en enseanza y cultura (x7) y gastos
sanitarios (x5). El menor peso lo tiene el gasto en alimentacin
(x1). Si calculamos las coordenadas z1 para las provincias y las
ordenamos por esta nueva variable las provincias quedan
prcticamente ordenadas por su renta. La primera componente
principal tiene pues en este caso una explicacin inmediata.
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
-
2.2 Clculo del segundo componente Vamos a obtener el mejor plano
de proyeccin de las variables X. Lo calcularemos estableciendo como
funcin objetivo que la suma de las varianzas de z1= Xa1 y z
2= Xa2 sea mxima, donde a1 y a2 son los vectores que definen el
plano. La funcin objetivo ser: ..(1) que incorpora las
restricciones de que las direcciones deben de tener mdulo unitario
(aiai) =1, i = 1, 2. Derivando e igualando a cero: La solucin de
este sistema es:
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
-
que indica que a1 y a2 deben ser vectores propios de S. Tomando
los vectores propios de norma uno y sustituyendo en (5.7), se
obtiene que, en el mximo, la funcin objetivo es es claro que 1 y 2
deben ser los dos autovalores mayores de la matriz S y a1 y a2 sus
correspondientes autovectores. Observemos que la covarianza entre
z1 y z2, dada por a1Sa2 es cero ya que a1a2 = 0, y las variables z1
y z2 estarn correlacionadas. Puede demostrarse que si en lugar de
maximizar la suma de varianzas, que es la traza de la matriz de
covarianzas de la proyeccin, se maximiza la varianza generalizada
(el determinante de la matriz de covarianzas) se obtiene el mismo
resultado.
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
-
Problema 3 El segundo componente principal para las variables
del EPF es el asociado al segundo valor propio mayor que es 0,032.
El vector propio asociado a este valor propio define la nueva
variable: Esta variable puede verse como la diferencia entre dos
medias ponderadas de los gastos. La primera da sobre todo peso a
otros gastos (x9), y transporte (x6). Este segundo componente va a
separar a provincias que envan recursos a otras (alto valor de x9)
y que tienen tambin altos gastos de transporte, respecto a las que
transfieren relativamente poco y tienen altos gastos de educacin y
sanidad.
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
- 2.3 En General El espacio de dimensin r que mejor representa a
los puntos viene definido por los vectores propios asociados a los
r mayores auto valores de S. Si la matriz X (S) tiene rango p,
existen tantas componentes principales como variables que se
obtendrn calculando los valores propios o races caractersticas,
1,..., p, de la matriz S de las variables, mediante: y sus vectores
asociados son: Los i son reales, al ser la matriz S simtrica, y
positivos, ya que S es definida positiva. Por ser S simtrica si j y
h son dos races distintas sus vectores asociados son ortogonales.
En efecto: y si jh, ahaj=ajah=0 y son ortogonales. Si S fuese
semidefinida positiva de rango p
-
Sea Z la matriz cuyas columnas son los valores de las p
componentes en los n individuos, estas nuevas variables estn
relacionadas con las originales mediante: Z = XA donde AA = I.
Calcular los componentes principales equivale a aplicar una
transformacin ortogonal A a las variables X para obtener unas
nuevas variables Z incorrelacionadas entre s. Esta operacin puede
interpretarse como elegir unos nuevos ejes coordenados, que
coincidan con los .ejes naturales. de los datos.
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
-
Problema 4 Los restantes valores propios de la matriz de
covarianzas de los datos de la EPF son 0.027, 0.0175, 0.0126,
0.0107, 0.010, 0.0059, y 0.00526. A partir del tercero son muy
pequeos y de valor similar. El tercer componente principal es.
Puede interpretarse como la diferencia entre dos medias ponderadas.
La primera da sobre todo peso a las variables 3, vivienda, 8,
turismo y ocio, 1, alimentacin y 4, mobiliario domstico. La segunda
a la 5, gastos sanitarios, y a la 7, enseanza y cultura.
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
-
Problema 5: La matriz de varianzas y covarianzas de nueve
indicadores econmicos medidos en distintas empresas es. Las races
caractersticas de esta matriz se presentan en Los vectores propios
de los tres primeros componentes
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
-
3. PROPIEDADES DE LOS COMPONENTES 1. La suma de las varianzas de
los componentes es igual a la suma de las
varianzas de las variables originales, y la varianza
generalizada de los componentes es igual a la original, pero con
distribucin distinta.
Componentes principales conservan la Varianza generalizada, 2.
La proporcin de variabilidad explicada por un componente es el
cociente entre su varianza, el valor propio asociado al vector
propio que lo define, y la suma de los valores propios de la
matriz.
3. Las covarianzas entre cada componente principal y las
variables X vienen dadas por el producto de las coordenadas del
vector propio que define el componente por el valor propio (donde
ai es el vector de coeficientes de la componente zi).
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
-
Justificacin: Donde Z = XA y A contiene en columnas los vectores
propios de S y D es la matriz diagonal de los valores propios. En
consecuencia, la covarianza entre. 4. Las correlacin entre un
componente principal y una variable X es
proporcional al coeficiente de esa variable en la definicin del
componente, y el coeficiente de proporcionalidad es el cociente
entre la desviacin tpica del componente y la desviacin tpica de la
variable.
5. Las r componentes principales (r
-
6. Si estandarizamos los componentes principales (Z), dividiendo
cada uno por su desviacin tpica, se obtiene la estandarizacin
multivariante de los datos originales.
D1/2 matriz inversa de desviaciones tpicas de las componentes.
La estandarizacin multivariante de una matriz de variables X de
media cero es. y ambas variables estn incorreladas y tienen matriz
de covarianzas identidad. Se diferencian en que unas pueden ser una
rotacin de las otras, lo que es indiferente al tener todas las
mismas varianzas. Por tanto, la estandarizacin multivariante puede
interpretarse como :
(1) obtener los componentes principales; (2) estandarizarlos
para que tengan todos la misma varianza.
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
-
La transformacin mediante componentes principales conduce a
variables incorreladas pero con distinta varianza, puede
interpretarse como rotar los ejes de la elipse que definen los
puntos para que coincidan con sus ejes naturales. La estandarizacin
multivariane produce variables incorreladas con varianza unidad, lo
que supone buscar los ejes naturales y luego estandarizarlos.
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
-
5. Seleccin del nmero de componentes 1. Realizar un grfico de i
frente a i. Seleccionar componentes hasta que
los restantes tengan aproximadamente el mismo valor de i. La
idea es buscar un codo en el grfico, es decir, un punto a partir
del cual los valores propios son aproximada mente iguales.
2. Seleccionar componentes hasta cubrir una proporcin
determinada de varianza, como 80% o 90%. Debe aplicarse con cierto
cuidado. Por ejemplo, es posible que un nico componente recoja el
90% de la variabilidad y sin embargo pueden existir otros
componentes que sean muy adecuados para explicar la forma de las
variables.
3. Desechar los componentes asociados a valores propios
inferiores a una cota, que suele fijarse como la varianza media
Para la matriz de correlacin, el valor medio es 1, seleccionar los
valores propios mayores a 1. (Regla arbitraria: una variable
independiente del resto suele llevarse un componente principal y
puede tener un valor propio mayor que la unidad. Sin embargo, si
esta incorrelada con el resto puede ser una variable poco relevante
para el anlisis).
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
-
ANLISIS NORMADO CON CORRELACIONES Los componentes principales
normados se obtiene calculando los vectores y valores propios de la
matriz correlacin R. Llamando Rp a las races caractersticas de esa
matriz, que suponemos no singular, se verifica que: La proporcin de
variacin explicada por Rp ser: Ejemplo 6: La matriz de correlacin
de los nueve indicadores econmicos Los valores propios son:
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
-
y los vectores propios asociados a los tres primeros valores
propios son: Con la matriz de varianzas las variables con ms peso
en el componente eran las que tenan una mayor varianza: la 2, luego
la 3 y finalmente las 1,4,5 y 6 con un peso parecido. Al utilizar
la matriz de correlaciones este efecto desaparece, y el peso de las
variables est ms relacionado con las correlaciones. La proporcin de
variabilidad explicada por el primer componente cambia mucho: de
878, 5/1441,8 = 60, 9% a 3.7/9 = 41% . El segundo componente cambia
completamente: ahora est prcticamente asociado a las tres ltimas
variables. La proporcin de variabilidad que explica ha aumentado
considerablemente, del 196/1441,8 = 13, 6% a 2.72/9 = 30% . El
tercer vector propio es tambin distinto en ambas matrices.
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO