机器学习研究第六讲：流形学习

中国科学院自动化研究所中国科学院自动化研究所Machine Learning and Data Mining 2006Machine Learning and Data Mining 2006

机器学习研究第六讲：流形学习

杨剑

中国科学院研究生院2006 年 6 月

中中国国科科学学院院自自动动化化研研究究所所

Machine Learning and Data Mining 2006Machine Learning and Data Mining 2006

维数约简增加特征数增加信息量

提高准确性

增加训练分

类器的难度维数灾难

解决办法：选取尽可能多的 , 可能有用的特征 , 然后根据需要进行特征约简 .



特征选择维数约简

依据某一标准选择性质最突出的特征经已有特征的某种变换获取约简特征

试验数据分析，数据可视化（通常为 2 维或3 维）等都需要维数约简

维数约简

特征抽取



线性维数约简方法 : PCA, MDA.

流形和维数约简 .

流形学习的一些数学基础 .

几种流形学习算法简介： LLE, Isomap, LSTA.

流形学习问题的简单探讨 .

Outline



线性约简方法通过特征的线性组合来降维 .

本质上是把数据投影到低维线性子空间 .

线性方法相对比较简单且容易计算 .

两种经典的寻找有效的线性变换的方法 :

主成分分析 (PCA);

多重判别分析 (MDA).



主成分分析 ( PCA ) 目的：寻找能够表示采样数据的最好的投影子空间 .

求解：对样本的散布矩阵进行特征值分解 , 所求子空间为过样本均值 , 以最大特征值所对应的特征向量为方向的子空间 .Principalcomponent



主成分分析 PCA 对于椭球状分布的样本集有很好的效果 , 学习所得的主方向就是椭球的主轴方向 .

PCA 是一种非监督的算法 , 能找到很好地代表所有样本的方向 , 但这个方向对于分类未必是最有利的 .



线性判别分析 (LDA)1

LDA 是一种监督的维数约简方法 .

思想 : 寻找最能把两类样本分开的投影直线 .

目标 : 使投影后两类样本的均值之差与投影样本的总类散布的比值最大 .Best projection direction for classification



线性判别分析 (LDA)2

求解 : 通过推导有关总类内散布矩阵和总类间散布矩阵的广义特征值问题 , 将原问题转化为矩阵求逆的问题 .



多重判别分析 (MDA) MDA 把 LDA 推广到多类的情况 .

对于 c- 类问题 , MDA 把样本投影到 c-1 维子空间 .

目标和解法与 LDA 相似 , 只是类内散布矩阵的定义更为复杂 , 求解的广义特征值问题也更为复杂 .



-1-0.5

00.5

1

-1

-0.5

0

0.5

10

5

10

15

20

线性方法的缺点线性方法对于很多数据不能进行有效的处理 .

现实中数据的有用特性往往不是特征的线性组合 .

R



流形学习和维数约简流形是线性子空间的一种非线性推广 .

流形是一个局部可坐标化的拓扑空间 .

流形学习是一种非线性的维数约简方法 .



流形学习的可行性很多高维采样数据都是由少数几个隐含变量所决定的，如人脸图像采样由光线亮度 , 人离相机的距离 , 人的头部姿势 , 人的脸部肌肉等因素决定 .

在认知科学研究中 , 有学者认为人的认知过程是基于认知流形和拓扑连续性的 .

R



流形学习的一些数学基础参考文献 : 陈省身 , 陈维桓 , 微分几何讲义 . 北京大学出版社 , 1983

M Berger, B Gostiaux. Differential Geometry: Manifolds, Curves and Surfaces, GTM115. Springer-Verlag, 1974

陈维桓 , 微分流形初步 ( 第二版 ). 高等教育出版社 , 2001



集合上的拓扑是的满足以下性质的子集族 :

(i) 对属于它的任意多元素的并集是封闭的 ;

(ii) 对属于它的有限多元素的交集是封闭的 ;

(iii) 且 ,

称是一个拓扑空间 , 的元素叫做开集 .

X X

X

),( X

拓扑

.}},{},,{},,{,{},,,{

的一个拓扑构成＝则设集合

SacabaScbaS



如果对空间中的任意两点存在和使得称是一个 Hausdorff 拓扑空间 . ),( X

,yx )(xA )(yB ,BA

),( X

Hausdorff 空间拓扑空间的任一开集称为它的每一个点及每一个子集的一个领域 .

。 xA

。 yB



设 M 是一个 Hausdorff 拓扑空间 , 若对每一点都有 P 的一个开领域 U 和的一个开子集同胚 ,则称 M 为 n 维拓扑流形 , 简称为 n 维流形 .

,Mp nR

流形的定义

M

。UP

nR

同胚映射



假定是同胚 , 其中是中的开集 ,

则称为流形 M 的一个坐标卡 , 并且把在中的坐标称为点的坐标 .

nRUU )(: nR),( U

流形在本质上是局部可坐标化的拓扑空间 .

)(U

)( p nR))(( p Up

M

x1

x2R2

Rnz

xx: coordinate for z

坐标卡



设是 n 维流形 M 的两个坐标卡 . 若当时 ,

和它的逆映射都是次可微的 , 则称是相关的 .

),(),,( 2211 UU

)()(: 2122111

12 UUUU

rCr

21 UU

),(),,( 2211 UU

相关 rC

1U 1

2U2

21 UU 112

nR

nR



设 M 是 n 维流形 , 假定是 M 上坐标卡的一个子集合 , 且满足以下条件 :

(1) 构成 M 的一个开覆盖 ;

(2) 属于的任意两个坐标卡都是相关的 ;

(3) 是极大的 ,

则称是 M 上的一个微分结构 .

}:),{( IU

}:{ IU

rC

rC

微分结构



设 M 是 n 维流形 , 若在 M 上指定了一个微分结构 ,

则称为一个 n 维微分流形 . 属于的坐标卡称为该微分流形的容许坐标卡 .

当时 , 称 M 为光滑流形 .

rC

),( M rC

rC

),( U

r

微分流形



设是定义在光滑流形 M 上的连续函数 . 若在点 , 存在 M 的一个容许坐标卡使得 ,

是在点处光滑的函数 , 则称函数在点处是光滑的 .

RMf :

Mx ),( U Ux

RUf )(:1 )(x fx

光滑函数

。xU

M

nRU )(

R

1ff



光滑映射NMf :

Mx ),( U

x)())((: 11 VVfUf

f)(x

设 M, N 分别是 m 维 , n 维光滑流形 , 是连续映射 . 设 , 若存在 M 在点 x 处的容许坐标卡及N 在点处的容许坐标卡 , 使得

是在点处光滑的映射 , 则称映射在点处是光滑的 .

处处光滑的映射称为光滑映射 .

)(xf ),( V



。xU M

)(U

f

nR

。 )(xfV N

)(VmR

1 f

)(1 Vf

))(( 1 VfU

光滑映射示意图



光滑流形 M 在点 x 的切向量是一个满足下列条件的映射(1) 有(2) 有(3) 有光滑流形的切向量是曲线的切向量的一种推广 .

v

RCv x :

,, xCgf );()()( gvfvgfv

,, RCf x );()( fvfv

).()()()()( fvxggvxfgfv ,, xCgf

切向量



设 M 是 m 维光滑流形 , , 用表示 M 在点处的全体切向量的集合 , 则在中有自然的线性结构 , 使得成为 m 维向量空间 , 称其为 M 在点的切空间 .

MTx0 0xMTx0

0x

Mx 0

MTx0

切空间

M

S1

S2x

T1

T2



黎曼流形就是以光滑的方式在每一点的切空间上指定了欧氏内积的微分流形 .

Riemann 流形

R



与流形学习有关的参考文献与机器学习 , 统计学等相关的各种杂志和会议论文 .

http://www.cse.msu.edu/~lawhiu/manifold/



流形学习问题设是一个低维流形 , 是一个光滑嵌入 ,

其中 D>d . 数据集是随机生成的 , 且经过 f 映射为观察空间的数据流形学习就是在给定观察样本集的条件下重构 f 和 .

V. de Silva and J. B. Tenenbaum. Global versus local methods in nonlinear dimensionality reduction . Neural Information Processing Systems 15 (NIPS'2002), pp. 705-712, 2003.

dRY DRYf :

}{ iy

)}.({ ii yfx

}{ ix }{ iy



几种流形学习算法局部线性嵌入 (LLE).S.T. Roweis and L. K. Saul. Nonlinear dimensionality reduction by locally linear embedding. Science, 2000, 290: 2323--2326.

等距映射 (Isomap).J.B. Tenenbaum, V. de Silva, and J. C. Langford. A global geometric framework for nonlinear dimensionality reduction. Science, 2000, 290: 2319--2323.

局部切空间排列 (LTSA).Z.Y. Zhang, H.Y. Zha. Principal manifolds and nonlinear dimensionality reduction via tangent space alignment. SIAM Journal of Scientific Computing, 2005, 26(1): 313-338.



局部线性嵌入 (LLE) 前提假设：采样数据所在的低维流形在局部是线性的，即每个采样点可以用它的近邻点线性表示 .

学习目标：在低维空间中保持每个邻域中的权值不变，即假设嵌入映射在局部是线性的条件下 , 最小化重构误差 .

求解方法：特征值分解 .



LLE 算法 1 计算每一个点的近邻点 , 一般采用 K 近邻或者邻域 .

2 计算权值使得把用它的 K 个近邻点线性表示的误差最小 , 即通过最小化来求出 .

3 保持权值不变 , 求在低维空间的象 , 使得低维重构误差最小 .

，ijW

iY

ijWjiji XWX

ijW

iX

iX

iX



LLE 算法示意图



LLE 算法的求解1 计算每一个点的近邻点 .

2 对于点和它的近邻点的权值 ,

3 令 , 低维嵌入是 M 的最小的第 2 到第 d＋ 1 个特征值对应的特征向量 .

iX

iXijW

.X, ,XX 1

1

的近邻点为）（）＝（其中， iljlijiijk

lmilm

kijk

ij GG

GW

，＝ )( ijWW )()( T WIWIM



LLE 算法的例子(1)



LLE 算法的例子 (2)



LLE 算法的优点 LLE 算法可以学习任意维数的低维流形 .

LLE 算法中的待定参数很少 , K 和 d.

LLE 算法中每个点的近邻权值在平移 , 旋转 ,伸缩变换下是保持不变的 .

LLE 算法有解析的整体最优解 , 不需迭代 .

LLE 算法归结为稀疏矩阵特征值计算 , 计算复杂度相对较小 , 容易执行 .



LLE 算法的缺点 LLE 算法要求所学习的流形只能是不闭合的且在局部是线性的 .

LLE 算法要求样本在流形上是稠密采样的 .

LLE 算法中的参数 K, d 有过多的选择 .

LLE 算法对样本中的噪音比较敏感 .

R



多维标度 (MDS) MDS 是一种非监督的维数约简方法 .

MDS 的基本思想 : 约简后低维空间中任意两点间的距离应该与它们在原高维空间中的距离相同 .

MDS 的求解 : 通过适当定义准则函数来体现在低维空间中对高维距离的重建误差 , 对准则函数用梯度下降法求解 ,

对于某些特殊的距离可以推导出解析解法 .



ji ij

ijij

ji ijef

dJ

2)(1

,)(

2

2

ji ij

ji ijijee

dJ

2

ji ij

ijijff

dJ

MDS 的准则函数



MDS 的示意图



MDS 的失效



建立在多维尺度变换 (MDS) 的基础上 , 力求保持数据点的内在几何性质 , 即保持两点间的测地距离 .

等距映射 (Isomap) 的基本思想



Isomap 的前提假设高维数据所在的低维流形与欧氏空间的一个子集是整体等距的 .

与数据所在的流形等距的欧氏空间的子集是一个凸集 .



估计两点间的测地距离 :

1 离得很近的点间的测地距离用欧氏距离代替 .

2 离得较远的点间的测地距离用最短路径来逼近 .

Isomap 算法的核心



测地距离估计



Isomap 算法1 计算每个点的近邻点 ( 用 K近邻或邻域 ).

2 在样本集上定义一个赋权无向图如果和互为近邻点 , 则边的权值为3 计算图中两点间的最短距离 , 记所得的距离矩阵为 .

4 用 MDS 求低维嵌入流形 ,

令低维嵌入是的最大的 d 个特征值所对应的特征向量 .

).,( jidX

)},({ jidD GG

jXiX

,2/)()/1()()()( 2 HSHDNHHDSS ijijijij ，，

)(D



M. Bernstein, V. Silva, J.C. Langford, J.B. Tenenbaum 证明了如下的渐进收敛定理 .

假设采样点是随机抽取的 , 则渐进收敛定理给定则只要样本集充分大且适当选择 K , 不等式

至少以概率成立 .

,0,, 21

21 1distance geodesic

distance graph1

1

图距离逼近测地距离



Isomap 算法的例子 (1)

The input consists of a sequence of 4096-dimensional vectors. Applied to N =698 raw images, Isomap (K =6) learns a three-dimensional embedding of the data’s intrinsic geometric structure.



Isomap 算法的例子(2)

Isomap applied to N=1000 handwritten “2”s from the MNIST database. Used e-Isomap (with e=4.2).



Isomap 算法的特点 Isomap 是非线性的 , 适用于学习内部平坦的低维流形 , 不适于学习有较大内在曲率的流形 .

Isomap 算法中有两个待定参数 K, d .

Isomap 算法计算图上两点间的最短距离 , 执行起来比较慢 .

R



局部切空间排列 (LTSA) 的前提假设样本集是从某个参数流形采样且含有噪声的无序点集 .用局部切空间来表示样本集所在流形的局部几何 .局部切空间的基可以用样本的局部协方差矩阵的特征向量来表示 . 整体嵌入坐标可以由局部坐标经过某些变换求得 .



LTSA 的基本思想用 K-近邻找求出每一个样本点的近邻点 , 用局部主成分分析求出样本点的低维局部坐标 .低维整体嵌入坐标可以由局部坐标经过平移 ,旋转 ,伸缩变换得到 , 经推导把求解整体嵌入坐标问题转换为矩阵的特征值问题 .



LTSA 算法找出每一个样本点的近邻点 .

构建局部样本协方差矩阵 , 通过它的特征向量求出主方向 , 把该邻域内的样本点投影到主方向求得局部坐标 .

通过最小化重构误差构建排列矩阵 .

由求解排列矩阵的特征向量给出整体嵌入坐标 .



LTSA 的例子 1



LTSA 的例子 2

LTSA results with N=2000 and different number of neighbors. For d=2, and k which is chosen from k=6 to k=30.



LTSA 的不足用于特征值分解的排列矩阵的阶数等于样本数 ,对于较大的样本集将无法处理 .

不能有效处理新来的样本点 .

R



已有流形学习算法有效的原因参数的方法 , 不需要对流形的很多的参数假设 .

线性的方法 , 都基于流形的内在几何结构 ,

更能体现现实中数据的本质 .

求解简单 , 都转化为求解特征值问题 , 而不需要用迭代算法 .



流形学习问题探讨1

对嵌入映射或者低维流形作出某种特定的假设 ,

或者以保持高维数据的某种性质不变为目标 .

将问题转化为求解优化问题 .

提供有效的解法 .



为流形学习提供更为坚实和易于接受的认知基础 .

如何确定低维目标空间的维数 .

当采样数据很稀疏时 , 怎样进行有效的学习 . 将统计学习理论引入流形学习对其泛化性能进行研究 .

流形学习问题探讨 2



流形学习问题探讨 3

流形学习作为一种非线性降维或数据可视化的方法已经在图像处理如人脸图像 ,手写数字图像 ,

语言处理方面得了利用 .

将其作为一种监督的学习方法用于模式识别 , 虽然有研究者涉足 , 但是目前在这方面的工作还很有限 .



Thanks!

机器学习研究 第六讲： 流形学习

Documents

机器学习研究第六讲：流形学习