吴恩达《Machine Learning》精炼笔记 10:异常检测

在本文中主要讲解了机器学习中的异常检测问题,主要包含:

  • 问题产生

  • 高斯分布

  • 算法使用场景

  • 八种无监督异常检测技术

  • 异常检测和监督学习对比

  • 特征选择

异常检测Novelty Detection

异常是相对于其他观测数据而言有明显偏离的,以至于怀疑它与正常点不属于同一个数据分布。

异常检测是一种用于识别不符合预期行为的异常模式的技术,又称之为异常值检测。

在商业中也有许多应用,如网络入侵检测(识别可能发出黑客攻击的网络流量中的特殊模式)、系统健康性监测、信用卡交易欺诈检测、设备故障检测、风险识别等

问题动机

异常检测主要是运用于非监督学习的算法。问题的引出:通过飞机的检测开始。

检测飞机的引擎制造商生产了一批飞机引擎,测试了其中的一些特征变量,比如引擎运转时产生的热量,或者引擎的振动等。

假设有m个引擎,数据如下:

我们绘制出如下图表:

对于给定的数据集,需要检测xtestxtest是不是异常的,即这个测试数据不属于这组数据的几率是多少。

从上图看出,在蓝色圈内属于该组的概率高,越是偏远的概率,属于该组的可能性就越低。

另外两个异常检测的应用例子是

  • 识别欺骗行为,通过用户多久登陆一次、访问过的页面、发布帖子的数量等建立模型,通过模型来识别那些不符合该模型的用户。

  • 检测数据中心的使用情况:内存使用、被访问的磁盘数量、CPU负载等

高斯分布

高斯分布也叫正态分布。分布满足:

概率密度函数为:

均值μ为:

方差σ2为 :

高斯分布的样例为

当均值μ相同的时候

  • 方差的平方越大,图形是矮胖的

  • 方差的平方越小,图形是瘦高型的

使用场景

异常检测算法的使用场景一般是三种:

  1. 在做特征工程的时候需要对异常的数据做过滤,防止对归一化等处理的结果产生影响

  2. 对没有标记输出的特征数据做筛选,找出异常的数据

  3. 对有标记输出的特征数据做二分类时,由于某些类别的训练样本非常少,类别严重不平衡,此时也可以考虑用非监督的异常点检测算法来做

算法

算法的具体过程是

  1. 对于给定的数据集:

  1. 计算每个特征的μ;σ2 的估计值

  2. 两个参数的估计值为:

利用高斯分布进行计算p(x)

两个特征的训练集及特征非部分情况

三维图表示的是密度函数,z轴为根据两个特征的值估计的p(x)的值

当 p(x)>ε时候,预测是正常数据, 否则为异常

异常算法的设计

当我们开发一个异常检测系统时,从带标记(异常或正常)的数据着手

  • 从其中选择一部分正常数据用于构建训练集

  • 然后用剩下的正常数据和异常数据混合的数据构成交叉检验集和测试集。

八种无监督异常检测技术

  1. 基于统计的异常检测技术

    1. MA滑动平均法

    2. 3—Sigma(拉依达准则)

  2. 基于密度的异常检测

  3. 基于聚类的异常检测

  4. 基于``K-Means`聚类的异常检测

  5. One Class SVM的异常检测

  6. Isolation Forest的异常检测

  7. PCA+MD的异常检测

  8. AutoEncoder异常检测

异常检测和监督学习对比

异常检测中采用的也是带标记的数据,和监督学习类似。二者对比为:

当正样本的数量很少,甚至有时候是0,即出现了太多没见过的不同的异常类型,对于这些问题,通常应该使用的算法就是异常检测算法。

特征选择

异常检测算法是基于高斯分布的。当然不满足高斯分布也能处理,但是最好转成高斯分布。误差分析是特征选择中很重要的点。

有些异常数据可能出现较高的p(x)的值,被算法当做是正常数据。通过误差分析,增加新的特征得到新的算法,帮助我们更好地进行异常检测。

新特征获取:通过原有特征进行组合,得到新的特征

参考资料:李航-统计学习方法


(0)

相关推荐

  • CVPR 2021 | 又好又快的视频异常检测,引入元学习的动态原型学习组件

    Learning Normal Dynamics in Videos with Meta Prototype Network 作者:Hui lv, Chen Chen, Zhen Cui, Chuny ...

  • AIops | 一文了解日志异常检测

    背景介绍 日志是有关系统运行状态的描述,例如Linux的系统日志,数据库系统的日志以及分布式系统的日志等.日志是运维人员查看系统运行状态,寻找系统故障的重要数据.另一方面,日志属于非结构化数据,兼具有 ...

  • 干货!无监督学习的公平性研究

    公平性学习在近些年来受到学术界和工业界的广泛关注,其旨在于保护或隐藏某些敏感属性(例如,性别.种族.地域)并同时保持原有的学习效用.在本次讲座中,作者简单介绍了不同公平性定义,并聚焦于群组公平性,并介 ...

  • 基于M/EEG的生物标志物预测MCI和阿尔茨海默病

    本文概述了阿尔茨海默病(Alzheimer's disease, AD)和轻度认知障碍(mild cognitive impairment, MCI)预后的神经标志物的最新进展.本文的第一部分致力于回 ...

  • 机器都能监督自己学习,你为什么不行?

    学习是人类一生的使命.谁成想,机器也同样悲惨地被人类赋予了这个使命.于是,参照人类大脑利用深度神经网络来解决特征表达的运作方式,机器从此走上了"深度学习"的路,一去不复返..... ...

  • AI过滤“垃圾” 让用户快速找到有价值的邮件

    虽然我们或多或少还是会看到垃圾邮件,但在机器学习算法的强大支持之下,大多数垃圾邮件已经被从收件箱中直接清除. 来源丨The Next Web 编译丨科技行者 目前,全球每天发出的3000亿封电子邮件中 ...

  • ICCV2021 MuST:还在特定任务里为刷点而苦苦挣扎?谷歌的大佬们都已经开始玩多任务训练了

    0 写在前面 尽管在训练各种专门任务的模型已经取得了快速的发展,但学习一个适合多任务的单一通用模型对计算机视觉仍然具有挑战性.在本文中,作者引入了多任务自训练( multi-task self-tra ...

  • 吴恩达《Machine Learning》精炼笔记 7:支持向量机 SVM

    今天带来第七周课程的笔记:关于支持向量机SVM的相关知识点.内容包含: 硬间隔 支持向量 软间隔 对偶问题 优化目标Optimization Objectives 主要是讲解如何从逻辑回归慢慢的推导出 ...

  • 吴恩达机器学习笔记1

    一.关于回归方程的直观印象 我们有一批关于'房屋面积'和'房子价格'的数据,如图1-1: [图 1-1] 从图右边中可以很直观地看出,大致上,随着房屋面积的增加,房屋的售价也在提高,也就是它俩之间有' ...

  • 吴恩达机器学习笔记2

    一.逻辑回归(Logistics 回归)直观印象 逻辑回归是用来解决分类问题,比如给定一个肿瘤的直径大小(x),要预测出它是良性(0)还是恶性(1),如图1-1. [图1-1] 如图中我们可以直观地看 ...

  • CV开发者自我修养 | 吴恩达教程/笔记/刷题资料最全汇总

    加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总 ...

  • 下载量过百万的吴恩达机器学习和深度学习笔记.PDF

    吴恩达机器学习和深度学习课程笔记都更新了,本文提供下载,这两本笔记非常适合机器学习和深度学习入门. 0.导语 黄海广博士和同学将吴恩达老师机器学习和深度学习视频课程做了完整的笔记,笔记pdf放在git ...

  • 吴恩达:22张图全解深度学习知识!

    作者:Sophia,编辑:数据派THU 本文从深度学习基础.卷积网络和循环网络三个方面介绍该笔记. 吴恩达在推特上展示了一份由 TessFerrandez 完成的深度学习专项课程信息图,这套信息图优美 ...

  • 吴恩达:机器学习应以数据为中心

    今天是吴恩达45岁生日.他是国际最权威的ML学者之一,学生遍布世界各地.在最近的一期线上课程中,吴恩达提出了以模型为中心向以数据为中心的AI. 吴恩达发推称,「大家为自己送上最好的礼物就是,观看这个视 ...

  • 吴恩达:最新的28张图,全解深度学习知识!

    重磅干货,第一时间送达 编辑:Sophia 本文参考机器之心,思源.刘晓坤大佬的总结 最近看到不少分享28张图,全解深度学习知识的内容,但是基本都说成了22张图,明明28张好不好!同时,配图不少也都搞 ...

  • 吴恩达新课发布1天,引3万人观看 | 完整PPT

    作者丨金磊 来源丨量子位 编辑丨极市平台 什么样的课程, 时间,便吸引了全球近3万人的观看? 有名师--国际最权威的ML学者之一,吴恩达(Andrew NG). 有较新概念--机器学习操作 (MLOp ...