isomap降维算法

降维算法分为线性和非线性两大类,主成分分析PCA属于经典的线性降维,而t-SNE, MDS等属于非线性降维。在非线性降维中,有一个重要的概念叫做流形学习manifold learing。

首先来看下什么叫做流形,流形是一般几何对象的总称,包括各种维度的曲线和曲面,简单理解就是数据本身的分布满足一定的几何特征,以下图中的"瑞士卷"为例

可以看到,在三维空间中,样本点的分布构成了一个瑞士卷的形状,这个瑞士卷就是一个流形。通过流形学习来降维,就是假设数据的分布存在一个潜在的流形,降维其实是将流形在低维空间展开。

从而延伸出了测地线的概念,以上图中的两个黑色点为例,如果不考虑流形的情况下,计算二者的距离可能直接就是欧式距离了,但是在考虑流形的情况下,数据只能在流形上移动,通过邻近点的欧式距离累加来计算,如下图所示

终慢慢延伸,得出两点之间的距离就是红色曲线标记的距离。所谓流形学习,就是在降维时,考虑数据的流形。

在流形学习中,isomap和局部性嵌入LLE都是典型的算法。isomap全称如下

isometric mapping

称之为等距映射,该算法的本质是通过流形中的测地距离来表示高维空间的距离,然后通过MDS算法进行降维。具体的步骤如下

1. 构建邻接图,有两种方法,第一种指定半径阈值,半径内的点为邻近点,第二种为K近邻,在邻近点之间基于欧式距离构建一个邻接图

2. 计算样本点测地距离矩阵,本质是计算邻接图中样本点之间的最短路径,可以选择Floyd-Warshall或者Dijkstra算法

3. 通过MDS算法对测地距离矩阵进行降维

在sickit-learn中使用isomap的代码如下

>>> from sklearn.datasets import load_digits
>>> from sklearn.manifold import Isomap
>>> X, _ = load_digits(return_X_y=True)
>>> X.shape
(1797, 64)
>>> embedding = Isomap(n_components=2)
>>> X_transformed = embedding.fit_transform(X)
>>> X_transformed.shape
(1797, 2)
在sickit-learn中,就是通过指定邻近点数目K来构架邻接图的,不同的K值对算法的结果影响较大。
·end·
(0)

相关推荐