ML之UL:无监督学习Unsupervised Learning的概念、应用、经典案例之详细攻略

ML之UL:无监督学习Unsupervised Learning的概念、应用、经典案例之详细攻略


参考文章:《2019中国人工智能发展报告》—清华大学中国工程院知识智能中心—201912

相关文章
ML之SL:监督学习(Supervised Learning)的简介、应用、经典案例之详细攻略
ML之UL:无监督学习Unsupervised Learning的概念、应用、经典案例之详细攻略
ML之SSL:Semi-Supervised Learning半监督学习的简介、应用、经典案例之详细攻略​​​​​​​

无监督学习Unsupervised Learning的概念

现实生活中常常会有这样的问题:缺乏足够的先验知识,因此难以人工标注类别或进行人工类别标注的成本太高。很自然地,我们希望计算机能代我们完成这些工作,或至少提供一些帮助。根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习。

跟监督学习相反,无监督学习中数据集是完全没有标签的,依据相似样本在数据空间中一般距离较近这一假设,将样本分类。常见的无监督学习算法包括:稀疏自编码(sparse auto-encoder)、主成分分析(Principal Component Analysis, PCA)、K-Means算法(K均值算法)、DBSCAN算法(Density-Based Spatial Clustering of Applications with Noise)、最大期望算法(Expectation-Maximization algorithm, EM)等。

无监督学习Unsupervised Learning的应用

利用无监督学习可以解决的问题可以分为关联分析、聚类问题和维度约减

1、关联分析

关联分析是指发现不同事物之间同时出现的概率。在购物篮分析中被广泛地应用。如果发现买面包的客户有百分之八十的概率买鸡蛋,那么商家就会把鸡蛋和面包放在相邻的货架上。

2、聚类问题

聚类问题是指将相似的样本划分为一个簇(cluster)。与分类问题不同,聚类问题预先并不知道类别,自然训练数据也没有类别的标签。

无监督学习里典型例子是聚类。聚类的目的在于把相似的东西聚在一起,而我们并不关心这一类是什么。因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了。

2.1、聚类算法常见的五种分类—划分方法(K-means/K-medoids/CLARANS)、层次方法(BIRCH/DBSCAN/CURE)

聚类算法一般有五种方法,最主要的是划分方法和层次方法两种。

划分聚类算法,通过优化评价函数把数据集分割为K个部分,它需要K作为 输人参数。典型的分割聚类算法有K-means算法, K-medoids算法、CLARANS算法

层次聚类,由不同层次的分割聚类组成,层次之间的分割具有嵌套的关系。它不需要输入参数,这是它优于分割聚类算法的一个明显的优点,其缺点是终止条件必须具体指定。典型的分层聚类算法有BIRCH算法、DBSCAN算法和CURE算法等。

3、维度约减

维度约减:顾名思义,是指减少数据维度的同时保证不丢失有意义的信息。利用特征提取方法和特征选择方法,可以达到维度约减的效果。特征选择是指选择原始变量的子集。特征提取是将数据从高维度转换到低维度。广为熟知的主成分分析算法就是特征提取的方法。

无监督学习Unsupervised Learning的经典案例

1、基础案例

TF之AE:AE实现TF自带数据集AE的encoder之后decoder之前的非监督学习分类

(0)

相关推荐