This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Dado un esp. vect. V , real (sobre el cuerpo R), y dada una aplicación < , >:V ×V → R, denotada a veces (en notación infija) como < u, v >= u • v
Definición 1. Decimos que es un producto escalar si verifica para todou,u1,u2, v ∈V y todo λ ∈ K
1) Definida positiva: u •u ≥ 0 y u •u = 0 ⇐⇒ u = 02) Conmutativa: u • v = v •u3) Distributiva: (u1 +u2)• v = u1 • v +u2 • v4) Lineal: λu • v = λ(u • v)
Dado un producto escalar, por la distributiva, se tiene que
0•u = (0+0)•u = 0•u +0•u =⇒ 0•u = 0
Por la conmutativa, también 0•u = u •0 = 0Por la distributiva y lineal, además se tiene
(λ1u1 +λ2u2)• v = (λ1u1)• v + (λ2u2)• v =λ1(u1 • v)+λ2(u2 • v)
Este es el primer caso, de una inducción, para demostrar el siguiente
Lema 1. Dado un producto escalar en V , se verifica que
(λ1u1 +·· ·+λr ur )• (µ1v1 +·· ·+µs vs) =∑i jλiµ j (ui • v j )
Demostración: Por la conmutativa, basta demostrar el llamado paso de lainducción, en uno de los factores:
(λ1u1 +·· ·+λr ur )• v = (λ1u1 +·· ·+λr−1ur−1)• v +λr (ur • v) ==λ1(u1 • v)+·· ·+λr−1(ur−1 • v)+λr (ur • v) �
Se puede definir mas de un producto escalar. Por ejemplo, para V =R2
Ejemplo 1. Para u = (x1, x2), v = (y1, y2) ∈R2, el producto definido por
u • v = 2x1 y1 +5x2 y2
es un producto escalar. En efecto, basta calcular el producto matricial
(x1, x2)
(2 00 5
)(y1
y2
)= 2x1 y1 +5x2 y2 = u • v
Recordar que el producto de matrices es distributivo y lineal.Que el producto de números reales es conmutativo.Que siempre, la suma de positivos es positiva
u •u = 2x21 +5x2
2 ≥ 0
Y finalmente que, los positivos sólo se anulan cuando son cero
u •u = 2x21 +5x2
2 = 0 ⇐⇒ x1 = 0 = x2
Así, dados números reales positivos a1, . . . , an ∈R+. En V =Rn se tiene que
Lema 2. El producto definido por u • v = a1x1 y1 +·· ·+an xn yn es escalar.
Definición 2. Se define el producto escalar usual o estandar como
u • v = x1 y1 +·· ·+xn yn = (x1, . . . , xn)
1 . . . 0... . . . ...0 . . . 1
y1
...y2
Dado un esp. vect. real, V , y < , >: V ×V → R un producto escalar
Definición 3. Decimos que (V ,< , >) define un espacio vectorial euclídeo.
Ejemplo 2. En el esp. vect. de todos los polinomios reales de grado menoro igual que n, ∀p(x), q(x) ∈ Poln(R), el producto definido por
< p(x), q(x) > =∫ 1
0p(x)q(x)d x
es un producto escalar ya que por las propiedades (aditiva y lineal) de laintegral definida este producto es distributivo y lineal.Como el producto de polinomios es conmutativo también lo es este producto.
Finalmente, por la interpretación geométrica de la integral definida como elárea (con signo) sustentada entre la curva y el eje x. Se tiene que
< p(x), p(x) > =∫ 1
0p(x)2d x ≥ 0
ya que la gráfica de la función y = p(x)2 está sobre el eje x.Además, su área es cero sólo cuando coincida con el eje x.O sea, cuando p(x)2 = 0 en cuyo caso p(x) = 01
Ejemplo 3. En el esp. vect. de las matrices cuadradas reales, ∀A,B ∈Mn(R), el producto definido por
< A, B > = tr (AB t ) =n∑
i , j=1ai j bi j
es un producto escalar por la distributiva del producto de matrices, porque
< A, B > = tr (AB t ) =n∑
i , j=1ai j bi j =
n∑j ,i=1
bi j ai j = tr (B At ) = < B , A >
Por ejemplo, para las matrices A = (1 11 1
)y B = (
1 −11 −1
)tr (AB t ) = tr
(2 −22 −2
)= 2−2 = 0 = tr
(0 00 0
)= tr (B At )
y porque < A, A > = tr (A At ) =∑ni , j=1 a2
i j > 0 salvo que A = 0.
1Por reducción al absurdo, basta considerar el coeficiente líder.
Sea (V ,< , >) un espacio vectorial euclídeo de dimensión finita y B = {u1, . . . ,un}una base de V . A los productos escalares, de los vectores de la base
Definición 4. Los denotamos por gi j =< ui , u j >∈R.Llamamos matriz de Gram o métrica2 a la matriz G = (gi j ).
Por la propiedad conmutativa del producto escalar, se tiene
gi j = ui •u j = u j •ui = g j i
Lema 3. Toda matriz métrica es una matriz simétrica real.
Ejemplo 4. En R2, con el producto escalar usual y para la base B = {u1,u2},con u1 = (1,1), u2 = (1,2) se tiene
Ejemplo 6. Para Pol1(R), con el producto definido en el Ej. 2, se tiene
x • y = X tGY = (x1, x2)
(1 0.5
0.5 0.3
)(y1
y2
)= x1 y1 +0.5x1 y2 +0.5x2 y1 +0.3x2 y2
Dada una matriz simétrica real, G , de orden n, decimos que
Definición 5. G es semidefinida positiva3 si X tG X ≥ 0, para todo X ∈Rn .
Definición 6. G es definida positiva (d.p.) si X tG X > 0, ∀X ∈Rn − {0}.
Por definición, toda matriz métrica G es definida positiva.Recíprocamente, por las propiedades de la aritmética, toda matriz d.p. defineun producto escalar x • y = X tGY . Por tanto
Lema 4. Una matriz es d.p. si y sólo si es una matriz métrica.
3. CONGRUENCIA DE MATRICES.
Pero puede haber muchas matrices d.p. correspondientes al mismo producto.Así, si tenemos un producto escalar y dos bases B y B ′ de Rn , tenemos unasecuaciones del cambio de base X = P X ′ y dos matrices métricas asociadas
Ejemplo 7. Para Pol1(R), con el producto definido en el Ej. 2, para la basede monomios estandar B = {1, x} su matriz de Gram era
G =(
1 1/21/2 1/3
)pero para la base B ′ = {1,
p3(2x −1)} su matriz métrica es G ′ = I ya que
g ′11 =
∫ 1
0d x = 1, g ′
12 =∫ 1
0
p3(2x −1)d x = 0, g ′
22 =∫ 1
03(2x −1)2d x = 1
Como la matriz del cambio de B ′ a B es P =(
1 −p30 2
p3
)se tiene la congruencia(
1 00 1
)= I =G ′ = P tGP =
(1 0
−p3 2p
3
)(1 1/2
1/2 1/3
)(1 −p30 2
p3
)si despejamos la matriz inicial, obtenemos G = (P t )−1P−1 = T t T . O sea
G =(
1 1/21/2 1/3
)=
(1 0
−p3 2p
3
)−1 (1 −p30 2
p3
)−1
=(
1 01/2 1/(2
p3)
)(1 1/20 1/(2
p3)
)donde T =
(1 1/20 1/(2
p3)
)y G = T t T es la descomposición de cholesky de G .
Como en el ejemplo, veremos que para toda matriz G d.p. se tiene queG = T t T ⇐⇒ P tGP = I con P = T −1. O sea, existe una base respecto a lacual la matriz de la métrica es la identidad. Así, definimos
Definición 9. G es diagonalizable por congruencia si ∃P tal que I = P tGP .
Corolario 1. rango(G) da el número de vectores l.i. en el conjunto {c1, . . . ,cn}.Por tanto, det(G) 6= 0 si, y sólo si {c1, . . . ,cn} son l.i. �
Este es un criterio general para comprobar la independencia.O sea, cuando una grammiana G = At A, cuadrada nxn, tiene rango n.Se tiene que n ≤ m y la matriz A es de rango pleno por columnas, (r.p.p.c.)
Además, una matriz grammiana siempre es semidefinida positiva ya que
X tG X = X t At AX = Y t Y = y21 +·· ·+ y2
n ≥ 0
Además, como Y t Y = X t At AX = 0 implica Y = AX = 0.Si los vectores columnas de A son l.i. entonces X = 0.O sea, dada una matriz grammiana G = At A, hemos demostrado que
Corolario 2. det(G) 6= 0 ⇐⇒ A es de r.p.p.c. ⇐⇒G es d.p.6 �
Aunque A no sea de rango pleno. Se tienen consecuencias interesantes.Claramente, para todo X ∈Rn , At AX ∈C (At ). Por tanto, C (At A) ⊆C (At )
Por el teorema 1, di m(C (At A)) = di m(C (At ))y los dos subespacios de columnas son iguales
C (At A)) =C (At )
6Veremos el recíproco, si G es d.p. entonces existe A tal que G = At A y det(G) > 0
Definición 12. Decimos que u es un vector unitario si ‖u‖ = 1.
Siempre podemos obtener un vector unitario, a partir de uno arbitrario∥∥∥∥ u
‖u‖∥∥∥∥= 1
‖u‖‖u‖ = 1
Dado (V ,•), ∀u, v ∈V se verifican ciertas desigualdades, la primera es
Teorema 2. [Desigualdad de Cauchy-Bunyakowski-Schwartz]
|u • v | < ‖u‖‖v‖Salvo que u =λv . O uno de ellos sea cero. En cuyo caso, |u • v | = ‖u‖‖v‖.
Demostración: Claramente, si v = 0 o u = 0 o u =λv se verifica la igualdad.Si v 6= 0, entonces ‖v‖2 = v • v > 0.Además, para todo λ ∈R, por la definición de producto escalar, se tiene
u •u −2λ(u • v)+λ2(v • v) = (u −λv)• (u −λv) > 0
Salvo que u −λv = 0 ⇐⇒ u =λv . Ahora, tomando λ= u•v‖v‖2
|u • v | < ‖u‖‖v‖Ahora, usando esta desigualdad, se tiene
‖u + v‖2 = (u + v)• (u + v) = u •u +2(u • v)+ v • v =≤ ‖u‖2 +2|u • v |+‖v‖2 < ‖u‖2 +2‖u‖‖v‖+‖v‖2 = (‖u‖+‖v‖)2
De nuevo, extrayendo raíces cuadradas positivas, hemos demostrado la
Teorema 3. [Desigualdad triangular o de Minkowski]‖u + v‖ < ‖u‖+‖v‖
Salvo que u =λv . O uno de ellos sea cero. En cuyo caso, ‖u+v‖ = ‖u‖+‖v‖.
Un triangulo, en R2, se interpreta como la suma de dos vectores.Por tanto, sus longitudes deben satisfacer la desigualdad triangular. Así,tres lados que no satisfacen dicha desigualdad no pueden formar triángulo7.
Con el producto escalar usual, se tiene para todo a1, . . . , an ,b1, . . . ,bn ∈R|a1b1 +·· ·+anbn | ≤
√a2
1 +·· ·+a2n
√b2
1 +·· ·+b2n√
(a1 +b1)2 +·· ·+ (an +bn)2 ≤√
a21 +·· ·+a2
n +√
b21 +·· ·+b2
n
7Por ejemplo, 2, 3, 6 no forman triángulo. Tampoco 2, 3, 5.Tampoco pueden estar alineados tres puntos si ‖u + v‖ 6= ‖u‖+‖v‖.
5.1. Aplicaciones estadísticas. Si se miden dos características (variables)en una muestra de n objetos, se obtienen dos series de números reales {x1, . . . , xn}y {y1, . . . , yn} que se pueden considerar como vectores de Rn
x = (x1, . . . , xn), y = (y1, . . . , yn)
si se calculan sus medias x = (x1 + ·· · + xn)/n, y = (y1 + ·· · + yn)/n y seconsideran los vectores de sus desviaciones respecto de sus medias
u = x − x · 1 = (x1 − x, . . . , xn − x), v = y − y · 1 = (y1 − y , . . . , yn − y)
aplicando la desigualdad de Cauchy-Bunyakowski-Schwartz, se obtiene(∑i
(xi − x)(yi − y)
)2
= (u · v)2 ≤ ‖u‖2‖v‖2 =∑i
(xi − x)2∑
i(yi − y)2
equivalentemente
r 2 =(∑
i (xi − x)(yi − y))2∑
i (xi − x)2 ∑i (yi − y)2
≤ 1 ⇐⇒ −1 ≤ r ≤ 1
donde
−1 ≤ r = u
‖u‖ ·v
‖v‖ = 1
n
n∑1
(xi − x)(yi − y)
σ1σ2= 1
n −1
n∑1
(xi − x)(yi − y)
s1s2≤ 1
es llamado el coeficiente de correlación de Pearson. Cuando se miden másde dos, se usan subíndices, r12, para denotar las variables que se correlacio-nan. Claramente, ri j = r j i , ri i = 1 y se obtiene la matriz de correlación.
Como el caso límite de la desigualdad de Cauchy (la igualdad) se da cuandouno de los vectores es cero u = 0 o bien cuando uno es múltiplo del otrou =λv . En ambos casos, el coeficiente de correlación de Pearson vale ±1.
Por tanto, si el coeficiente de correlación de dos variables está cercano a -1o 1, ambas variables después de restar sus medias están próximas a ser unamúltiplo de la otra y se dice que están correlacionas. Aunque
Si en la fórmula del coeficiente de Pearson, eliminamos los denominadoresde las cuasivarianzas, se obtienen las covarianzas muestrales
si j = 1
n −1
n∑1
(xi − x)(yi − y) = 1
n −1u · v = 1
n −1ut v
Así, restando sus medias, A = X − X , se obtiene la matriz de covarianzas
S = (si j ) = 1
n −1At A
Las covarianzas también son una medida de la dependencia entre variablespero al no estar normalizadas sus columnas (de A) no está acotado su valor.
Ejemplo 11. Si tenemos 2 variables, x, y , que se miden 4 veces según losvalores de la matriz y calculamos sus medias
Como en el ejemplo, cuando el coeficiente de correlación vale 1 o -1, setiene que |u ·v | = ‖u‖‖v‖ y por tanto o bien los vectores u = x − x, v = y − yson proporcionales, en cuyo caso se obtiene una recta, y − y = λ(x − x), dependiente λ. O bien, uno de ellos es cero, y se obtiene o una recta horizontalx − x = 0, o una vertical y − y = 0.
En cualquiera de los 3 casos, si dibujamos los valores medidos de x, y comopuntos de R2, todos ellos se encuentran sobre una recta9.
En general, r 2 < 1 y los puntos no caen en una recta, pero cuanto más próx-imo r esté a 1 o -1 más se aproximan los puntos a su recta de regresión.
El coeficiente de correlación de Pearson no es robusto ni resistente. No es ro-busto porque variables cuya dependencia sea no lineal no dan un coeficiente±1 o muy próximo a ±1. No es resistente porque puede dar valores cercanosa ±1 sin que exista una dependencia clara entre las variables.
Si se cambian los datos por sus rangos respectivos10 y se calcula el coefi-ciente de correlación para los nuevos valores, se obtiene un coeficiente ro-busto y resistente, llamado coeficiente de correlación de Spearman.
Por tanto, el coeficiente de Spearman es un caso particular del de Pearson yestá comprendido entre -1 y 1. En el ejemplo anterior, ambos valen 1.
9Que coincide con la recta de regresión de la nube de puntos.10En caso de que un dato se repita varias veces en su columna, se le asigna la media
Así, con la norma usual, los vectores canónicos son ortogonales y unitarios
ei •e j = δi j ={
1 ·1 = 1 si i = j
0 ·1+1 ·0 = 0 Caso contrario
Definición 17. Decimos que una base es ortogonal si sus vectores son or-togonales. Decimos que es ortonormal si además son vectores unitarios.
La base canónica es una base ortonormal respecto al producto usual.Si (V ,•) es un esp. vect. euclídeo, y B = {u1, . . . ,un} es una base de V .Entonces, por la definicíón de su matriz G de Gram
1) B es ortogonal si, y sólo si su matriz G es diagonal.2) B es ortonormal si, y sólo si su matriz G = In es la identidad.
12Respecto a un producto escalar arbitrario.13Es cierto para cualquier dimensión y cualquier producto escalar.
Si la base es sólo ortogonal, los coeficientes de Fourier son λ j = u j •u‖u j ‖ .
Si ahora calculamos la norma al cuadrado de u =λ1u1 +·· ·+λnun
‖u‖2 = u •u =λ21(u1 •u1)+·· ·+λ2
n(un •un) =λ21 +·· ·+λ2
n
obtenemos la llamada identidad de Parseval14
Ejemplo 16. En R2, con el producto escalar usual, y la base B = {(1,1), (1,−1)}ortogonal. El vector u = (2,3) se expresa de la forma
u = 5p2
(1,1)+ 1p2
(1,−1) = 5p2
u1 + 1p2
u2
Si ahora tenemos dos bases B y B ′, por el lema 5, sus matrices de Gram G ′ yG son congruentes. O sea, existe una matriz P regular tal que G ′ = P tGP .
Si además, ambas bases son ortonormales, se tiene G ′ =G = I . Por tanto
I =G ′ = P tGP = P t I P = P t P =⇒ P t = P−1
Definición 19. Decimos que P es una matriz ortogonal si P t = P−1.O sea, si su traspuesta coincide con su inversa.
Así, la matriz de cambio entre dos bases ortonormales es ortogonal.Además, si {u1, . . . ,uk } son vectores ortogonales (dos a dos) se tiene
ya que ‖ui‖2 = ui •ui > 0. O sea, hemos demostrado
Lema 10. Un conjunto de vectores ortogonales es siempre l.i.
Dividiendo por su norma, los vectores ortogonales se pueden normalizar.Así, se obtienen vectores ortonormales que generan el mismo U = L(u1, . . . ,uk ).
Si los {u1, . . . ,uk } son ya ortonormales, todo vector x ∈Rn se puede proyectarsobre U = L(u1, . . . ,uk ), de la siguiente forma
Definición 20. Llamamos proyección de x sobre U a la expansión de Fourier,pU (x) = c1u1 +·· ·+ck uk , donde ci = x •ui para cada i .
Si normalizamos el vector sumador, 1n = (1, . . . ,1), obtenemos1n
‖1n‖= 1np
n=
(1pn
, . . . ,1pn
)Por tanto, para calcular la proyección de un vector x = (x1, . . . , xn) sobre 1n ,el coeficiente de Fourier es
c = x • 1npn= x1 +·· ·+xnp
n
Ejemplo 17. La proyección de un vector x sobre U = L(1n) es el vector
pU (x) = c1np
n= x1 +·· ·+xn
n1n = x1n = (x, . . . , x)
llamado el vector de la media aritmética, porque x = x1+···+xnn .
Por tanto, la matriz de cambio a la nueva base {(1,0), (−p3,2p
3)} es
P =(1 −p30 2
p3
)Con polinomios, la nueva base ortonormal es B ′ = {1,
p3(2x −1)}.
Ahora, si T = P−1, entonces P tGP = I ⇐⇒G = (P t )−1P−1 = T t T .
El proceso del ejemplo es completamente general. De forma que se tiene
Corolario 4. [de Choleski]Cualquier matriz d.p., G , tiene una descomposición de Cholesky y |G| > 0.
Demostración: Por Gram-Schmidt, basta hallar una nueva base ortonormal.Su matriz de cambio por columnas, P , es triangular superior. Su diagonalprincipal son reales positivos16. Y P tGP = I ⇒G = T t T ⇒|G| = |T |2 > 0.
Ejemplo 19. Dada la matriz A =1 1
0 20 1
Vamos a hallar la descomposición de Cholesky de su grammiana At A.Como el rango de A es 2, sus dos columnas son l.i.
Por 2, su matriz grammiana, G = At A =(1 11 6
), es d.p. y define una métrica.
16Lo asegura el proceso de Gram-Schmidt aplicado a la base canónica.
Una regla empírica dice que el método mas claro o simple en teoría no es elmas directo o eficiente para calcularlo.
Esta regla se cumple en alguna medida para el proceso de Gram-Schimdt yde forma absoluta para la descomposición de Cholesky.
Así, para ortonormalizar un conjunto de vectores {u1, . . . ,um} ∈ Rn , en unciclo de m iteraciones, se puede hacer con dos algoritmos17.
Gram-Schimdt clásico: en la iteración i , se proyecta ui sobre el subespaciogenerado por los anteriores, se le resta su proyección y se normaliza.
Gram-Schimdt modificado: en la iteración i , se actualizan todos los vec-tores. Primero se normaliza el i -ésimo. Después, se actualizan los demás,proyectandolos sobre éste y restándoles su proyección.
Teóricamente, deben dar la misma salida. Cierto para artiméticas exactas18.Pero no cuando se usa arimética real en coma flotante (con punto decimal).
Aquí, el modificado es menos sensible a errores de redondeo que el clásico.Donde la diferencia se muestra es cuando los vectores ui son casi paralelos.
17Para n ≥ 3, las salidas dan diferentes vectores l.i.18Como la racional o cuando se usan radicales
Si ui = u +εei , con ε ∈R pequeño, la salida del clásico puede ser errónea.Mientras que la salida del algoritmo modificado suele ser correcta.
Por ejemplo, para el input (1,10−6,10−6), (1,10−6,0), (1,0,10−6), cuando seusa coma flotante, el clásico da error en el tercer vector y el modificado no.
Ejemplo 20. Para las columnas de la matriz A =1 1 2
0 1 00 1 1
usando coma flotante, los dos primeros vectores, para ambos, son iguales.
El tercer vector de la base ortonormal para el clásico es
(0.707107,−1.39452∗10−31,−0.707107)
mientras que es (0.707107,−9.42055∗10−16,−0.707107) en el modificado.El error en la segunda coordenada es menor para el modificado19.
9. ALGORITMO DE CHOLESKY.
Toda matriz d.p., G , tiene una descomposición de Cholesky (única).Pero la forma de demostrarlo mediante ortonormalización, de la base canónicasegún la métrica definida por G , no es eficiente20.
19En ambos, esta segunda coordenada es un error de redondeo.20En particular, requiere el cálculo de una matriz inversa.
Además, las matrices semidefinidas positivas también tienen una descom-posición de Cholesky aunque no definen una métrica.
Como un producto T t T con T triangular superior es muy simple de calculary permite inducción sobre el orden n de T . Permite un algoritmo directo,para hallar la descomposición de Cholesky de una matriz simétrica G = (ai j ).
1) Definimos t11 =pa11.
2) Actualizo la primera fila, t1 j = a1 j
t11para todo j = 2, . . . ,n.
3) Para cada i = 2, . . . ,n, ti i =√
ai i −∑i−1k=1 t 2
ki y para cada j = i +1, . . . ,n
ti j =ai j −∑i−1
k=1 tki tk j
ti i
Ejemplo 21. Dada la matriz A =1 1
0 20 1
vamos a hallar la descomposición
de Cholesky de su grammiana con el algoritmo anterior.
espacio de columnas C (A) = L(c1, . . . ,cn) ⊆∈Rm hasta una base de Rm .
Esta base se puede ortonormalizar por el proceso de de Gram-Schmidt paraobtener una nueva base B1 = {u1, . . . ,um} ortonormal de Rm .
Escritas por columnas las coordenadas de estos ui nos definen una matriz Qortogonal21, que nos da el cambio de base desde la canónica B = {e1, . . . ,em}hasta B1. O sea, tenemos unas ecuaciones de cambio de base
X =
x1...
xm
=
q11 . . . q1m... . . . ...
qm1 . . . qmm
y1
...ym
=QY
donde X son las coordenadas respecto de la canónica B e Y respecto de B1.
Por tanto, podemos transformar nuestra matriz original (que está referida ala canónica) con esta matriz de cambio. Ya que se tiene el producto
R =Q t A ⇐⇒ A =QR
21O sea, Q t =Q−1, ya que el producto por su traspuesta es la identidad.
En general, si (V ,< , >) es un esp. vect. euclídeo de dimensión finita, U ⊆Vy tenemos dos vectores x, y ∈V tales que x⊥U , x⊥U . Entonces,
(λx +µy)•u =λ(x •u)+µ(y •u) =λ0+µ0 = 0
O sea, {x ∈V : x⊥U } = {x ∈V : x •u = 0, ∀u ∈U } es un subesp. vect. de V .
Definición 24. Lo denotamos U⊥ = {x ∈V : x⊥U } y lo llamamos el subesp.o complemento ortogonal de U .
Si U = L(u1, . . . ,uk ) y los {u1, . . . ,uk } son ortonormales, por el lema 10, pode-mos ampliar hasta una base ortonormal de V , B = {u1, . . . ,uk ,uk+1, . . . ,un}.
Entonces, ∀x ∈U⊥, los k primeros coeficientes de Fourier son cero
x = c1u1 +·· ·+ck uk + ck+1uk+a +·· ·+cnun =⇒ x •ui = ci = 0, ∀i = 1, . . . ,k
O sea, se tiene x = ck+1uk+a +·· ·+cnun ∈ L(uk+1, . . . ,un). Por tanto,
U⊥ = L(uk+1, . . . ,un) =⇒ di m(U⊥) = n −k
y además, U ∩U⊥ = {0}. O sea, hemos demostrado, ∀U ⊆V subesp. vect.
Teorema 6. di m(V ) = di m(U )+di m(U⊥) ⇐⇒ V =U ⊕U⊥.
Si los {u1, . . . ,uk } son l.i., podemos escribir de forma inmediata unas e.c. delcomplemento ortogonal de U = L(u1, . . . ,uk ).
x ∈U⊥ ⇐⇒
x •u1 = 0
...x •uk = 0
En particular, si U = L(u1), entonces U⊥ es un hiperplano22.
Ejemplo 23. En R3, con el producto escalar usual, dado U = L(u), conu = (1,1,1), su complemento ortogonal es el plano
U⊥ = {(x, y, z) ∈R3 : x + y + z = 0
}Ejemplo 24. En R3, con el producto escalar usual, dado U = L(u1,u2), conu1 = (1,1,1), u2 = (1,0,1), su complemento ortogonal es la recta
U⊥ ={
(x, y, z) ∈R3 :x + y + z = 0
x + z = 0
}Si los {u1, . . . ,uk } son ortonormales, todo vector, x ∈ Rn , se proyecta sobreU = L(u1, . . . ,uk ), en el vector pU (x) = c1u1 +·· ·+ck uk , donde ci = x •ui
23.
Por el lema 11, se tiene (x −pU (x))⊥U . O sea, x −pU (x) ∈U⊥.Además, para todo u ∈U , se tiene u −pU (x) ∈U .
22Que pasa por el origen.23Son los coeficientes de Fourier.
Claramente, si AX = B es compatible, cada solución X ∈ Rn del s.l. es unasolución mínimo cuadrática ya que verifica ‖B − AX ‖ = 0.
Si B ∉ C(A), el s.l. es incompatible. En este caso, por las propiedades de lanorma, para todo X ∈Rn se tiene ‖B − AX ‖ > 0.
Ahora, por el teorema de la mejor aproximación, el valor ‖AX −B‖ serámínimo cuando AX = pC (A)(B) ⇐⇒ B − AX⊥C (A). Equivalentemente
B − AX⊥C (A) ⇐⇒ AY • (B − AX ) = 0, ∀Y ∈Rn
⇐⇒ Y t At (B − AX ) = 0, ∀Y ∈Rn
⇐⇒ Y t At B = Y t At AX , ∀Y ∈Rn
⇐⇒ At AX = At B
Pero por el corolario 3, el s.l. asociado At AX = At B es compatible. Además,si A es de r.p.p.c., por el corolario 2, At AX = At B es de Cramer. Así,
Teorema 8. Las soluciones mínimo cuadráticas de AX = B , coinciden conlas soluciones de At AX = At B . Si A es de r.p.p.c., existe una única s.m.c.
En particular, el teorema se aplica para s.l. de rango pleno por columnas(r.p.p.c.), cuyo caso interesante es cuando AX = B es incompatible25.
25Si es de r.p.p.c. tiene inversa lateral AL A = (At A)−1 At A = In . Si además, AX = B escompatible, ALB = AL AX = X y tiene solución única. O sea, es de Cramer.
Una aplicación de los anteriores teoremas, es al cálculo de la llamada rectade regresión de Y sobre X , donde se busca una dependencia lineal del tipo
y = b +ax
entre dos conjuntos de datos x = {x1, . . . , xn}, e y = {y1, . . . , yn}. Lo que se
hace es considerar X =(
ba
)como incógnitas y los s.l. asociados
AX =
1 x1...
...1 xn
·(
ba
)=
y1...
yn
= B =⇒ At AX = At B
El primer sistema, AX = B usualmente será incompatible. Pero cuando Asea de rango 226, el segundo sistema, At AX = At B será de Cramer.
En ese caso, su solución única b, a ∈ R define una recta, y = b + ax, quegeométricamente está próxima a la nube de puntos (xi , yi ) y se llama rectade regresión de y sobre x.
Por el teo. 8, será una solución mínimo cuadrática del primer s.l. y por tanto‖AX −B‖ =
√∑ni=1 e2
i será mínimo, donde ei = b+axi − yi son los residuos.
26Basta con que dos medidas, xi 6= x j , sean diferentes y A es de r.p.p.c.
También, por el teorema de la mejor aproximación, este valor mínimo sealcanza cuando AX = pC (A)(B). Por tanto, los coeficientes de la recta deregresión también se pueden hallar proyectando el vector B sobre el espaciode columnas de la matriz A.
Para eso, lo que hay que hacer es ortonormalizar las dos columnas de A,
1n =(1
...1
), u =
( x1...
xn
). El primer vector de esa base ortonormal será u1 = 1p
n
(1...1
)y el segundo se calcula con el algoritmo de Gram-Schmidt.
u − (u1 ·u)u1 =
x1...
xn
− x1 +·· ·+xnpn
1pn
1...1
=
x1...
xn
− x
1...1
=
x1 − x...
xn − x
Como la norma de este vector es
√(x1 − x)2 +·· ·+ (x1 − x)2 = p
n σ1, el
segundo vector de la base ortonormal de columnas es u2 = 1pn σ1
(x1−x
...xn−x
).
Para la proyección pC (A)(B) = (B ·u1)u1+(B ·u2)u2, calculamos cada sumando
Análogamente, si se intercambian los papeles de x e y en las fórmulas ante-riores se obtiene la recta de regresión de x sobre y
x = x − s12
s22
y + s12
s22
y ⇐⇒ y = y − s22
s12x + s2
2
s12x
Y también, se comprueba que pasa por el centro de gravedad o punto medio(x, y) de la nube de puntos.
Así, el producto de los segundos coeficientes de ambas rectas de regresiónes igual al cuadrado del coeficiente de correlación de ambas variables.
s12
s21
s12
s22
=(
s12
s1s2
)2
= r 212
Ejemplo 26. Consideramos dos variables o características que se midenen 4 ubicaciones distintas, obteniendo los valores x = {2, 7, 2, 1}, y ={3, 6, 0, 1} vamos a hallar y dibujar sus dos rectas de regresión y comprobarsu relación con el coeficiente de regresión r12.
Ptrimero, escribimos los dos s.l. asociados AX = B =⇒ At AX = At B1 21 71 21 1
Si calculamos la intersección de ambas rectas de regresión, obtenemos{y = 45
11 + 322 x
x = 2710 + 1
15 y=⇒
{y = 45
11 + 322 ( 27
10 + 115 y) =
= 981220 + 1
110 y=⇒
{y = 110∗981
109∗220 = 92 = 4.5
x = 2710 + 1
15 ∗ 92 = 3
las dos medias y = 4.5, x = 3. O sea, el punto central es (x, y) = (3, 4.5).
Finalmente, lo dibujamos junto con los 4 puntos, (xi , yi ): p1 = (2, 3), p2 =(7, 6), p3 = (2, 0), p4 = (1, 9) y las dos rectas que pasan respectivamentepor (0, 45
11 ) ≈ (0, 4.1) y por ( 2710 , 0) = (2.7, 0) además de por el centro (3, 4.5).
p1
p2
p3
p4
x
ySe observa que los 4 puntos estánmuy poco correlacionados lineal-mente ya que se alejan bastantede ambas rectas de regresión.
Aunque, están más cerca de larecta de regresión de x sobre y(en rojo en la gráfica).
El producto de los segundos coeficientes de las dos rectas es igual al cuadradodel coeficiente de correlación de ambas variables y por tanto
r 212 =
(s12
s1s2
)2
= 3
22
1
15= 1
22∗5= 1
110=⇒ r12 = 1p
110≈ 0.0953463 ≈ 0.1
El coeficiente es muy pequeño en valor absoluto, lo que significa que ambasvariables están muy poco correlacionadas como se ha visto en su gráfica.
13. APÉNDICE 2: CORRELACIÓN Y RECTAS DE REGRESIÓN
Cuando los puntos están sobre una recta, y = b +a x ⇐⇒ x =−b + y/a, losdos s.l. siguientes tienen solución única, con b′ =−b, a′ = 1/a1 x1
......
1 xn
·(
ba
)=
y1...
yn
,
1 y1...
...1 yn
·(
b′a′
)=
x1...
xn
Por las fórmulas del apéndice anterior, s12
s22= a, s12
s21= 1
a y el coeficiente sale
r 212 =
s12
s21
s12
s22
= a
a= 1 ⇐⇒ r12 = 1 o bien r12 =−1
Recíprocamente, si r12 = 1, llamando a los vectores de las desviaciones de lasmedias respectivas, u = x− x∗1, v = y − y ∗1, y a sus vectores normalizados
u′ = u/‖u‖, v ′ = v/‖v‖ tenemos que su producto escalar vale 1 ya que
u′ · v ′ = u
‖u‖ ·v
‖v‖ =∑n
i=1(xi − x)(yi − y)√∑ni=1(xi − x)2
√∑ni=1(yi − y)2
= r12 = 1
pero entonces deben de ser iguales ya que la norma de su diferencia vale cero
‖u′− v ′‖2 = (u′− v ′) · (u′− v ′) = ‖u′‖2 +‖v ′‖2 −2u′ · v ′ = 1+1−2 = 0
Por tanto, si consideramos las matrices equivalentes por columnas1 x1 y1...
......
1 xn yn
∼
1 x1 − x y1 − y...
......
1 xn − x yn − y
∼
1 x1−x
‖u‖y1−y‖v‖
......
...1 xn−x
‖u‖yn−y‖v‖
tenemos que la 2ª y 3ª columnas de esta última matriz son los vectores u′ yv ′ tales que u′ = v ′ si r12 = 1. Si u′ · v ′ = r12 =−1 (r12 tiene el mismo signoque s12 y que las pendientes de regresión), se calcula la suma
‖u′+ v ′‖2 = (u′+ v ′) · (u′+ v ′) = ‖u′‖2 +‖v ′‖2 +2u′ · v ′ = 1+1−2 = 0
Por tanto, las 3 matrices tienen rango 2 y los s.l. que demuestran que lospuntos están alineados tienen solución única. Así, hemos demostrado
Teorema 9. El coeficiente r12 =±1 si y sólo si los puntos están alineados.
Por tanto, el coeficiente de correlación es un testigo de cuando una de lasvariables determina a la otra linealmente. Pero cuando los datos (xi , yi ) se
obtienen de medidas experimentales, a veces no se obtiene correlación porculpa de medidas erróneas. En esos casos, es mejor usar como testigos losvectores u′, v ′ ya que el desarrollo anterior también demuestra que
Teorema 10. u′ =±v ′ si y sólo si los puntos están alineados.
Donde el signo coincide con el de r12. Así, comparar las coordenadas de
u′ = 1
‖u′‖ (x1 − x, . . . , xn − x) , v ′ = 1
‖v ′‖(y1 − y , . . . , yn − y
)permite descubrir medidas que no se corresponden con el resto. Por ejemplo,cuando u′− v ′, o la suma, u′+ v ′, es muy pequeña salvo una coordenada.
Ejemplo 27. Dadas las variables, x = {1.9, 1, 3.1, 2.8}, y = {3.19, 2.2, 3.5, 4.18}.Si calculamos su coeficiente de regresión, r12 ≈ 0.88, sale proximo a 1. Comoes positivo, comparamos u′ = v ′. Esto es, calculamos los vectores u′ y v ′ y sudiferencia u′− v ′ = (−0.13,0.02,0.38,−0.27). Ahora, si descartamos las ter-ceras coordenadas (la mayor) obtenemos una correlación completa (r12 = 1)
p1p2
p3p4
x
yComo se observa los puntos p1, p2, p4 estáncorrelacionados linealmente mientras que el p3probablemente sea espurio o erróneo.
Si hubiera salido r12 próximo a -1, tendríamosque calcular la suma u′+ v ′ y probaríamos adescartar la mayor de sus coordenadas.
factorización QR de A. Comprueba que el rango de A coincide con el de lamatriz R.
Ejercicio 8. Comprueba que el sistema lineal de ecuaciones es incompati-ble.
x + y = 1x − y = 0x +3y = 1
Mientras que el s.l. At AX = At B es compatible y tiene solución única. Hallala distancia mínima del espacio de columnas C(A) al vector B de términosindependientes.
Ejercicio 9. Comprueba que el sistema lineal de ecuaciones es compatible{x + y + z = 1x − y +3z = 0
indeterminado. Halla la solución de norma mínima y su valor.
Ejercicio 10. Comprueba que el sistema lineal de ecuacionesx + y + z + t = 12x − y +3z −2t = 03x +4z − t = 1
es incompatible. Mientras que el s.l. At AX = At B es compatible y tieneinfinitas soluciones. Halla la distancia mínima del espacio de columnasC(A) al vector B de los términos independientes.
Para comenzar el cuestionario pulsa el botón de inicio.Cuando termines pulsa el botón de finalizar.Para marcar una respuesta coloca el ratón en la letra correspondiente y pulsael botón de la izquierda (del ratón).
1. ¿Cuál de las siguientes afirmaciones es verdadera?.(a) El producto escalar usual es el único posible en Rn .(b) Hay infinitos productos escalares en Rn .(c) Hay un número finito de productos escalares en Rn .(d) Solo existen productos escalares en R2 y R3.
2. ¿Cuál de las siguientes afirmaciones es verdadera?.(a) Un producto escalar es distributivo pero no conmutativo.(b) Un producto escalar es siempre definido positivo(c) Un producto escalar sólo es lineal, distributivo y conmutativo.(d) El producto escalar u •u puede ser cero.
3. ¿Cuál de las siguientes afirmaciones es verdadera?.(a) Una matriz grammiana es siempre matriz de una métrica.(b) Una matriz grammiana es siempre definida positiva.(c) El determinante de una matriz grammiana, At A, determina la inde-
pendencia de las columnas de A.(d) El determinante de una matriz grammiana, At A, siempre es distinto
de cero.
4. ¿Cuál de las siguientes afirmaciones es verdadera?.(a) Dos matrices simétricas reales siempre son congruentes.(b) Si una matriz admite una descomposición de Cholesky es congruente
con la identidad.(c) Una matriz simétrica real siempre admite una descomposición de
Cholesky.(d) Una matriz puede admitir una descomposición de Cholesky aunque
no sea simétrica.
5. ¿Cuál de las siguientes afirmaciones es verdadera?.(a) El sistema lineal de ecuaciones At AX = At B es incompatible.(b) El sistema lineal de ecuaciones At AX = At B puede ser compatible.(c) El sistema lineal de ecuaciones At AX = At B siempre es compatible
(d) El sistema lineal de ecuaciones At AX = At B puede ser compatibleindeterminado.
6. ¿Cuál de las siguientes afirmaciones es verdadera?.(a) La norma de todo vector es positiva.(b) Solo son vectores unitarios los canónicos.(c) La desigualdad de Cauchy-Schwartz relaciona las normas de dos vec-
tores y su suma.(d) La desigualdad de Cauchy-Schwartz sirve para definir ángulos.
7. ¿Cuál de las siguientes afirmaciones es verdadera?.(a) La desigualdad triangular sirve para definir ángulos.(b) La desigualdad triangular relaciona el producto escalar con las nor-
mas de dos vectores.(c) La desigualdad triangular determina si dos vectores están alineados.(d) La desigualdad triangular nunca da una igualdad.
8. ¿Cuál de las siguientes afirmaciones es verdadera?.(a) Un vector está formado por sus cosenos directores.(b) La norma de un vector y los cosenos directores determinan un vector.(c) Los cosenos directores de un vector no nulo pueden ser todos cero.
(d) Un vector unitario no tiene cosenos directores.
9. Para todo u ∈Rn y B = {u1, . . . ,un} una base.(a) u puede ser ortogonal a si mismo.(b) Un vector no nulo puede ser ortogonal a B .(c) di m(L(u))+di m(L(u)⊥) = n −1.(d) Existe un único vector que es ortogonal a B .
10. Dada una matriz, A ∈ Mmxn(R).(a) La matriz A At y At A tiene la misma descomposición de Cholesky.(b) La matriz A admite una descomposición de Cholesky.(c) La matriz A admite una descomposición QR.(d) A At tiene una descomposición QR pero A no.