如何为数据标记提速？使用训练数据平台就对了

2024-06-11 11:36:34

任何组织在开启自己的AI探索之旅前，首先需要明确一点：数据标记是监督机器学习系统中成本最高、最为耗时的部分之一。无论选择外包标记还是内部标记，组织都需要选择一套TDP进行工作管理。

来源丨Venture Beat

编译丨科技行者

如今，几乎每家上市企业都在积极讨论人工智能技术对自身运营方式的重大影响。从特斯拉使用AI技术改善自动驾驶性能，到Levis通过AI强化产品决策能力，每个人都热切想要在AI领域占据一席之地。

但要实现这一目标，组织的智能度必须进一步提升。为了逐步发展AI，我们需要采用监督学习方法，而监督学习的效果又由标记数据的质量决定。原始数据需要经过漫长的标记过程，而后方可用于增强监督学习模型，由此产生的预算甚至可能给组织带来可感受的压力。过去十年以来，组织高管在存储数据并将数据转化为收入方面，主要拥有三种选项：

1、DIY并建立自己的定制数据标记系统。为人力、技术及时间层面的重大投资做好准备并调拨预算，借此建立起一套规模庞大、可永久保存的健壮生产系统。听起来不难?也许吧，毕竟谷歌和Facebook都成功了。但这一切未必适合您，因为那些科技巨头拥有出色的人才与几乎无穷的IT预算，足以建立并维护这些复杂的标记系统——换言之，这类企业的预算甚至与世界上某些小国的GDP相当。另外，即使您拥有充足的人力与时间来从零开始构建大规模生产系统，您的组织能接受这项长期延续的巨额投资吗?

2、外包。专业服务合作伙伴当然很给力，但您仍然需要开发自己的内部工具。这种方式还可能带来其它风险，因为此类解决方案要求将第三方数据与您自己的专有数据混合起来，通过显著扩大数据样本量在理论上获取质量更高的模型。您是否对自己的数据审计跟踪能力有信心，保证其能够在持久数据标记要求的整个生命周期中保持专有性?即使您的供应商倒闭，您在AI旅程中作为竞争优势开发出的流程是否可重复且始终可靠?您积累了数十的知识产权(数据)可能因此而不慎泄露，导致其落入同样与您合作伙伴联手构建系统的竞争方手中。以自动驾驶汽车行业为例，Scale.ai已经成为领域中规模最大的服务商，几乎所有相关机构都与其保持合作关系。

3、使用训练数据平台(TDP)。这些属于相对较新的市场解决方案，可提供一套统一平台，将负责收集、标记并馈送数据的所有作业汇总至监督学习模型当中，或者帮助用户自主构建新模型。这种方法可帮助不同规模的组织获得等同于Salesforce及Hubspot等客户关系管理商的方式建立标准化工作流程。其中一些平台还使用集成化机器学习算法自动执行复杂任务，借此进一步降低工作难度。更重要的是，TDP解决方案能够帮助数据科学家摆脱繁重的任务，将主要精力集中在构建实际结构(而非构建及维护复杂而脆弱的定制化系统)当中。目前比较重要的TDP厂商包括Labelbox、Alegion以及Superb.ai。

我们为什么需要训练数据平台

任何组织在开启自己的AI探索之旅前，首先需要明确一点：数据标记是监督机器学习系统中成本最高、最为耗时的部分之一。随着机器学习系统逐步发展成熟并可用于生产环境，数据标记任务仍然不会停止。这项任务将永远存在并不断增长。无论选择外包标记还是内部标记，组织都需要选择一套TDP进行工作管理。

TDP旨在促进整个数据标记过程，加快产生高质量数据的速度，由此帮助组织快速创建高性能的AI模型与应用程序。如今，已经有部分企业在强调TDP技术的重要性，但真正能被称为“TDP”的解决方案仍然非常有限。

其中有两点非常重要：业务准备情况与直观的使用界面。如果未对业务做好充分准备，IT部门将拒绝使用。如果界面不够直观，用户也会寻找其他更易于使用的方案。此外，任何负责处理敏感的、对业务至关重要的信息的系统，也都需要具备企业级的安全性与可伸缩性保障，否则同样无法正常起效。而实际情况甚至证明，这类目标也许永远无法实现。IT消费化至少已经持续了十年，但Instagram这类简单易用的应用都很难在组织内普及。Salesforce的自动化工具之所以能够从Siebel手中夺取市场，靠的就是轻松愉快的用户体验与便捷的云交付。

除了这些基础之外，数据注释、管理与迭代同样非常重要。如果候选系统无法满足这三项要求，那么其同样不能算是真正的TDP。下面来看关于这三项核心指标的更多细节：

注释。TDP必须提供可用于智能自动注释功能的工具，即尽可能自动做出更多标记。高水平的TDP应该能够处理有限数量、带有专业标签的数据。我们以放射科医师处理的X光片为例，系统需要首先从图像中识别出肿瘤，而后再做出预标记。而审核人员的工作，就是纠正各类错误标记问题。机器会为标记结果提供一项置信度输出，例如特定标签正确标记的可能性为80%。对审核人员来说，优先级最高的工作应该是检查并纠正机器认为置信度不足的标签。因此，组织应努力推动注释自动化并投入于相关专业服务，确保数据标记的准确性与完整性。好消息是，目前与注释相关的多数任务无需人工即可轻松完成。

管理。TDP应该用作数据训练项目中的中央记录系统。数据科学家与其他团队成员将在TDP中开展协作，通过与传统项目管理工具的集成、或者在平台本体之内，创建工作流并分配任务。

由此得出的数据集，还可供后续项目使用。以美国为例，每年约30%的房屋会投保房屋保险。为了预测风险并做出准确定价，保险公司需要分析多种数据——例如房龄、是否有游戏池或者蹦床，或者房屋与树木间的距离。为了推进这个过程，企业现在使用计算机视觉通过卫星图像为保险公司提供连续分析支持。在对新兴市场中的房屋进行分类时，企业应该使用TDP重复使用现有数据集。例如，如果某家公司有意进军英国市场，则应该能够重用来自美国的现有训练数据，以此为基础稍加更新以适应当地差异(例如英国本地的建筑材料选择)。这些迭代周期，将使企业提供高准确度数据，同时迅速做出调整以适应美国及其他地区的房屋情况变化。

这意味着您的TDP需要提供与其他软件相集成的API，借此对接项目管理应用、数据收集与处理工具，并帮助组织通过SDK建立自定义工具、扩展TDP。

迭代。真正的TDP必须承认这样的现实：带有注释的数据永远不会保持静态。相反，数据会不断变化，随着更多数据加入数据集而持续迭代，并由模型提供关于数据有效性的反馈。而保持数据准确性、客观性的关键，就是迭代。我们需要测试模型、改进模型、再次测试、持续循环。拖拉机的智能喷雾器能够在50%的概率将除草剂准确喷向杂草，而随着训练数据中的杂草图像越来越多，计算机视觉模型的后续迭代有望逐步将准确率提升至90%或更高，同时帮助喷雾器更准确地识别出那些不需要喷洒除草剂的植物。这个过程可能相当耗时，而且在高自动化水平的支持下，往往仍需要审核人员的参与。通过一次次迭代，我们可以推动模型逐步走向最佳状态。而TDP的目的就是加速这种迭代，并确保每次迭代都能给模型带来积极的改进，由此节约时间和金钱。

展望未来

正如十八世纪的标准化与可互换部件引发了工业革命一样，用于定义TDP的标准框架也开始将AI技术推向新的高度。尽管尚处于起步阶段，但真正的TDP管理平台能够以更可靠的方式将原始数据(特别是宝贵的知识产权)转化为标记数据，由此帮助组织在所在行业中建立起实际竞争优势。

在另一方面，高层管理人员还需要切实理解通过投资挖掘AI潜在财富的必要性。以往，组织只能在自主构建、外包或者直接采购之间做出选择，三者都会带来高昂的成本。更重要的是，自主构建与外包还可能带来巨大的隐性成本，导致组织难以成功迈入新的业务领域。真正的TDP能够“降低”这一高成本决策的风险，同时有效保护企业的核心竞争优势，即知识产权。

想弄懂图网络为何如此强大，我们跟极验聊了聊|白洞战报

此前我们多期<白洞计划>中,都在探讨以深度学习为代表的AI与产业接轨的细枝末节. 其中,数据难以收集.处理任务难.模型训练成本高等等,已经是老生常谈的槽点了.而在众多解决方法中,近期来被提 ...
单细胞RNA-seq数据分析最佳实践（下）

男, 一个长大了才会遇到的帅哥, 稳健,潇洒,大方,靠谱. 一段生信缘,一棵技能树, 一枚大型测序工厂的螺丝钉, 一个随机森林中提灯觅食的津门旅客. 文章信息 Luecken MD, Theis FJ ...
让“灯塔工厂”用上AI视觉，亚马逊云科技如何做到

有这样一家工厂,自9年前奠基伊始就被寄予厚望,在集团所属的200余家工厂中,它被选为全球第一家精益数字化管理系统的"试点",只用了短短两年时间就完成了从楼宇.配电.机器.厂房.电网 ...
SenseCore商汤AI大装置领衔，多平台从基础到应用引领AI变革

人工智能的发展进步,是一个不断突破可能性的动态过程,商汤近期正在实现更多突破,激发AI变革. 商汤最新技术成果的集大成体现--SenseCore商汤AI大装置与大家"见面",将改写 ...
Google拥有业界最大的机器学习堆栈，为何并没有那么大的吸引力

Google拥有业界最大的机器学习堆栈之一,目前以其Google Cloud AI和机器学习平台为中心.谷歌几年前将TensorFlow开源,但TensorFlow仍然是最成熟且被广泛引用的深度学习框 ...
金融科技面临价值重构，自主研发破局应用难题

作者 | 洪七公来源 | 镭射财经就国内消费金融市场而言,今年头部消费金融公司纷纷开启金融科技转型,科技向金融服务渗透加快,科技与金融的联结正在为消费金融市场创造新的业绩拐点. 不过,在金融强监管 ...
神经网络调参经验大汇总。

炼丹笔记干货作者:Andrej Karpathy,翻译:杰少 A Recipe for Training Neural Networks 简介今天看到一篇非常非常棒的调节NN的文章,作者是特斯拉高 ...
如何避免机器学习中的「7」种数据偏差

机器学习中的数据偏差是一种错误,其中数据集的某些元素比其他元素具有更大的权重和或表示.有偏见的数据集不能准确地表示模型的用例,从而导致结果偏斜,准确性水平低和分析错误. 通常,用于机器学习项目的训练数 ...
回望2020：在大时代中奔腾的百度飞桨

在人工智能的赛道上,中国不再是那个处处挨打的落后者,百度飞桨等中坚力量正在时代的大潮中奔腾. 撰文 / Alter 编辑 / 胖爷 IDC新近发布了<深度学习框架和平台市场份额报告&g ...
水泥行业自动监控数据标记应用与分析

2020年12月14日生态环境部执法局发布通知<火电.水泥和造纸行业排污单位自动监测数据标记规则(试行)>,以下通过对某试点省份某水泥企业自动监控数据标记实施后,窑尾烟室温度与自动监控数据 ...
excel防止重复输入设置案例：重复数据标记和圈释无效数据

内容提要:本文讲解excel防止重复输入案例和设置方法,以及excel圈释无效数据的使用方法. 我们上一篇教程学习了使用excel数据有效性来规范日期格式,excel重复数据标记也是个非常实用的话题. ...
给你1份独立的Power BI训练数据，还要告诉你这是怎么做出来的……

小勤:学习Power BI好麻烦啊,每次都要去关联一些数据进来,老是要连着个 Excel-- 大海:那就做个独立的Power BI文件啊,这样不是想怎么搞就怎么搞?为什么非要从Excel里接数据呢? ...
excel如何根据销售数据创建带数据标记的折线图

在excel中,如何根据销售数据创建带数据标记的折线图呢? 打开一个"销售汇总表",如图所示. 单击选中表格中的所有数据,如图所示. 单击工具栏上的插入-全部图表,如图所示. 插入 ...
模型压缩经典解读：解决训练数据问题，无需数据的神经网络压缩技术

作者丨科技猛兽来源丨极市平台编辑丨极市平台极市导读目前很少有工作关注在无数据情况下的网络压缩,然而,这些方法得到的压缩后的网络准确率下降很多,这是因为这些方法没有利用待压缩网络的信息.为了解决 ...
训练数据较少时如何生成更多的数据

在图像和物体识别方面,计算机表现优于人类. 像Google和Microsoft这样的大公司在图像识别方面已经超越了人类基准[1,2].平均而言,人类大约有5%的时间在图像识别任务上犯了错误.截至201 ...
EXCEL怎么打印带数据标记的堆积折线图

EXCEL怎么打印带数据标记的堆积折线图呢? 1.EXCEL打开需要打印的带数据标记的堆积折线图,并选中该图表区,如图所示. 2.点击[打印预览和打印],如图所示. 3.[页面设置],如图所示. 4. ...
网智天元副总裁刘喆：大数据智能提速汽车消费金融

数据猿报道,2017年10月25日,由数据猿联合<清华金融评论>共同主办的"2017金融科技价值峰会--数据驱动金融商业裂变"在北京隆重召开.本文为数据猿现场直播& ...
每一步超详细！制作自己的voc数据集并通过yolov3训练

每一步超详细！制作自己的voc数据集并通过yolov3训练

如何为数据标记提速？使用训练数据平台就对了

相关推荐