吴恩达:机器学习应以数据为中心

今天是吴恩达45岁生日。他是国际最权威的ML学者之一,学生遍布世界各地。在最近的一期线上课程中,吴恩达提出了以模型为中心向以数据为中心的AI。

吴恩达发推称,「大家为自己送上最好的礼物就是,观看这个视频观看并提出自己的见解。让大家的工作从以模型为中心向以数据为中心的AI转变。」

在这个视频中,吴恩达提出了著名二八定律:80%的数据+20%的模型=更好的AI。

他是斯坦福大学计算机科学系和电子工程系副教授,还是在线教育平台Coursera的联合创始人。

是当今人工智能和机器学习领域国际最权威的学者之一,学生遍布世界各地。

谢谢他带给我们的礼物,也感谢他为机器学习领域做出的贡献!

二八定律:80%的数据+20%的模型=更好的机器学习

机器学习操作(MLOps)——从以模型为中心到以数据为中心的AI这一课程上线的第一天,就引来了全球近3万人的观看。

吴恩达开场的第一句话就深入人心:

AI = Data + Code

他表示,「如果我们80%的工作是数据准备,那么确保数据质量是机器学习团队的重要工作。」

机器学习的进步是模型带来的还是数据带来的,这可能是一个世纪辩题。

吴恩达对此的想法是,一个机器学习团队80%的工作应该放在数据准备上,确保数据质量是最重要的工作,每个人都知道应该如此做,但没人在乎。如果更多地强调以数据为中心而不是以模型为中心,那么机器学习的发展会更快。

机器学习的进步很大程度上归功于团队下载模型并试图在标准基准数据集上做得更好。所以他们大部分的时间都花在了改进代码,模型或算法上。

机器学习的进步一直是由提高基准数据集性能的努力所推动的。研究人员的常见做法是在尝试改进代码的同时保持数据固定。但是,当数据集大小适中(<10,000个示例)时,如果数据集良好,则ML(Machine Learning)的团队将取得更快的进步。

所以对于很多问题,我们应该做的不仅是改进代码,而且应该将思维方式转向如何创造出一种更系统的方式来改进数据,这才是很有用的。

吴恩达(Andrew Ng)认为如果更多地强调以数据为中心而不是以模型为中心,那么机器学习将快速发展。

传统软件是由代码提供动力,而AI系统是同时使用代码(模型+算法)和数据构建的。

当系统运行不正常时,许多团队会本能地尝试改进代码。但是对于许多实际应用而言,集中精力改善数据会更有效。

吴恩达(Andrew Ng)提到每个人都应对ML做出80%的数据准备。

小编快速浏览了一下arxiv,了解到ML研究的方向现在围绕基准测试展开了前所未有的竞争,所以我们更应该充分做好数据准备,争取在竞争中脱颖而出。

我们都知道Google具有BERT,则OpenAI具有GPT-3。但是,这些神奇的模型仅解决了业务问题的20%。

良好部署的不同之处就在于数据的质量。每个人都可以使用经过预先训练的模型或许可的API。

根据剑桥研究人员所做的一项研究,最重要的但却经常被忽略的问题就是数据分散。

当数据从不同的源流式传输时会出现问题,这些源可能具有不同的架构,不同的约定及其存储和访问数据的方式。

现在,这对于ML工程师来说是一个繁琐的过程,因为需要他们将信息组合成适合机器学习的单个数据集,较大的数据量可能还会使标记变得困难。

MLOps是什么?

MLOps,即Machine Learning和Operations的组合,是ModelOps的子集。

它是数据科学家与操作专业人员之间进行协作和交流以帮助管理机器学习任务生命周期的一种实践。

与DevOps或DataOps方法类似,MLOps希望提高自动化程度并提高生产ML的质量,同时还要关注业务和法规要求。

互联网公司通常用有大量的数据,而如果在缺少数据的应用场景中进行部署AI时,例如农业场景,你不能指望自己有一百万台拖拉机为自己收集数据。

视频地址:
https://www.youtube.com/watch?v=06-AZXmwHjo

基于MLOps,吴恩达也提出几点建议:

  1. MLOps的最重要任务是提供高质量数据。
  2. 标签的一致性也很重要。检验标签是否有自己所管辖的明确界限,即使标签的定义是好的,缺乏一致性也会导致模型效果不佳。
  3. 系统地改善baseline模型上的数据质量要比追求具有低质量数据的最新模型要好。
  4. 如果训练期间出现错误,那么应当采取以数据为中心的方法。
  5. 如果以数据为中心,对于较小的数据集(<10,000个样本),则数据容量上存在很大的改进空间。
  6. 当使用较小的数据集时,提高数据质量的工具和服务至关重要。

一致性的数据定义,涵盖所有边界情况,从生产数据中得到及时的反馈,数据集大小合适。

吴恩达同时建议不要指望工程师去尝试改善数据集。相反,他希望ML社区开发更多MLOps工具,以帮助产生高质量的数据集和AI系统,并使他们具有可重复性。除此之外,MLOps是一个新生领域,MLOps团队的最重要目标应该是确保整个项目各个阶段的高质量和一致的数据流。

在线教育平台Coursera上市,吴恩达身价超4亿美元

值得关注的是,3月31日,在线教育平台Coursera以超过40亿美元的估值首次公开募股(IPO)。吴恩达身价超4亿美元。

Coursera由斯坦福大学计算机科学系教授Daphne Koller和吴恩达于2012年创办。

吴恩达的理想是让世界上每个人能够接受高质量的免费教育。

没想到的是,吴恩达74岁的父亲Ronald Paul Ng在过去八年的时间里一直在使用自己儿子创办的在线学习平台Coursera,他是儿子最有力的支持者!

吴老在Coursera上报名参加的第一门课程名为《模型思维》(Model Thinking),这是密歇根大学(University of Michigan)的一门基于逻辑的在线课程。他甚至还上过自己儿子的课程:吴恩达的深度学习AI课程。

吴老不仅是Coursera的第一批学生,他还立志要终身学习!

吴恩达曾经还有一次为自己的父亲学完了Coursera上面的146门课发了推特表示庆祝。

所以吴恩达为什么会创办在线教育平台Coursera呢?

这是因为多年前,吴恩达收到一本父亲在1980年写的有关机器学习诊断肝脏疾病的论文副本,吴恩达备受鼓舞,他想进一步将机器学习与医疗等行业结合起来,因此创办了Coursera。

Coursera旨在同世界顶尖大学合作,在线提供网络公开课程。Coursera的首批合作院校包括斯坦福大学、密歇根大学、普林斯顿大学、宾夕法尼亚大学等美国名校,还有很多世界上非常有名大学与企业与Coursera纷纷合作。

Coursera作为MOOC(大型开放式网络课程)中的领头羊,在创立后三年就拥有了160多名员工,由原耶鲁校长担任CEO,Coursera的使命就是让所有人最便捷的获取世界最优质的教育机会,“Universal Access to the World's Best Education”。

小编也经常在Coursera上面看国外知名大学的网课,真的受益匪浅!看来Coursera成功上市也是志在必得!

现在Coursera的股票差不多45美金/股,你们会买吗?

(0)

相关推荐

  • 吴恩达新课发布1天,引3万人观看 | 完整PPT

    作者丨金磊 来源丨量子位 编辑丨极市平台 什么样的课程, 时间,便吸引了全球近3万人的观看? 有名师--国际最权威的ML学者之一,吴恩达(Andrew NG). 有较新概念--机器学习操作 (MLOp ...

  • [首藏作品](6049)姿态逐渐“亲民” 2021年AI五大趋势备受期待

    姿态逐渐"亲民" 2021年AI五大趋势备受期待 2021年人工智能领域备受期待的五大趋势图片来源:美国<福布斯>双周刊网站科技创新世界潮◎本报记者 刘 霞人工智能(A ...

  • CV开发者自我修养 | 吴恩达教程/笔记/刷题资料最全汇总

    加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总 ...

  • MLOps 正在改变机器学习模型的开发方式

    提供机器学习解决方案远不止仅提供模型那么简单.机器学习运维 (MLOps) 的基础理论可以帮助数据科学团队更快.更有信心地交付模型,其涉及版本控制.测试和流水线这三个关键概念. MLOps(https ...

  • 吴恩达机器学习笔记1

    一.关于回归方程的直观印象 我们有一批关于'房屋面积'和'房子价格'的数据,如图1-1: [图 1-1] 从图右边中可以很直观地看出,大致上,随着房屋面积的增加,房屋的售价也在提高,也就是它俩之间有' ...

  • 吴恩达机器学习笔记2

    一.逻辑回归(Logistics 回归)直观印象 逻辑回归是用来解决分类问题,比如给定一个肿瘤的直径大小(x),要预测出它是良性(0)还是恶性(1),如图1-1. [图1-1] 如图中我们可以直观地看 ...

  • 下载量过百万的吴恩达机器学习和深度学习笔记.PDF

    吴恩达机器学习和深度学习课程笔记都更新了,本文提供下载,这两本笔记非常适合机器学习和深度学习入门. 0.导语 黄海广博士和同学将吴恩达老师机器学习和深度学习视频课程做了完整的笔记,笔记pdf放在git ...

  • 吴恩达发起新型竞赛范式!模型固定,只调数据?!

    打开 Kaggle ,琳琅满目的比赛让人目不暇接,研究的领域更是五花八门,从农林牧渔到衣食住行,似乎只要有数据,不论数据好坏,就可以直接使用各种机器学习的模型在其身上大展拳脚,从逻辑回归到 SVM,从 ...

  • 吴恩达的机器学习教程真的很赞

    这几天公众号都没更新,因为最近长沙一直在降雪,天冷了人也会变的懒的.好久没有玩自己的大疆,今天给大家看看雪后中南大学的雪景,这是大邓拍摄,我师兄kimmko剪的. 前天在哔哩哔哩上看到有全套的吴恩达的 ...

  • 机器学习研究者的养成指南,吴恩达建议这么读论文

    机器之心整理 机器之心编辑部 如何成为一名高效的机器学习研究者,然后在这个领域取得一些成就?在此之前,我们需要养成什么样的习惯?近日,一篇发布在 Reddit 机器学习版块的帖子引发了众人的讨论. 近 ...

  • 视频教程 | 机器学习:吴恩达主讲

    EEWORLD 电子资讯 犀利解读 技术干货 每日更新 今天向大家推荐一门深受世界各地机器学习入门者喜爱的视频教程,由人工智能专家吴恩达主讲的<MachineLearning>(机器学习) ...

  • 吴恩达:22张图全解深度学习知识!

    作者:Sophia,编辑:数据派THU 本文从深度学习基础.卷积网络和循环网络三个方面介绍该笔记. 吴恩达在推特上展示了一份由 TessFerrandez 完成的深度学习专项课程信息图,这套信息图优美 ...

  • 吴恩达:最新的28张图,全解深度学习知识!

    重磅干货,第一时间送达 编辑:Sophia 本文参考机器之心,思源.刘晓坤大佬的总结 最近看到不少分享28张图,全解深度学习知识的内容,但是基本都说成了22张图,明明28张好不好!同时,配图不少也都搞 ...