从难以普及的数据增强技术，看AI的性价比时代

2024-06-18 22:53:01

数据是AI训练的核心，这一点已经被确认再确认了。虽然数据驱动不是AI算法训练的唯一途径，但在产业中已经出现了很明显的趋势，那些数据丰富廉价的领域，就是会更容易孕育出AI技术。像是汉英之间的机器翻译能力会大大强于小语种间的机器翻译，数据收集更容易的人脸识别应用率也高于虹膜、眼纹等等生物特征的智能识别。

可以说数据的缺乏或昂贵，往往是阻碍AI发展的直接缘由。

当然面对这种情况，也出现了相应的技术解决方案——数据增强技术。

数据的有丝分裂，是怎样进行的？

所谓数据增强技术，可以理解为数据的繁殖皿，可以让数据进行“有丝分裂”，增强样本扩大数据集。

以图像数据为例，当图像数据不足时，可以对图像进行一些轻微的改变，例如裁剪、旋转、镜像反转、轻微的扭曲、增加噪点、增加遮挡物等等。对于人类来说，虽然可以一眼识破两者之间没有区别。但对于AI来说，即使几个像素点的变动，也是全新的数据样本。

而应用于文本数据，则有互译和词向量替换两种方法。通过机器翻译，将一句话从中文翻译成英文，再由英文翻译成中文，就可以实现语序、同义词等等的调整替换，得到语料乘二的效果。以及通过自然语言生成技术，将一句话中的不同对象进行划分并替换生成新的句子。

这些数据增强技术也开始通过深度学习的加持逐渐提升效率，例如去年4月谷歌就推出了一项名为AutoAugment的技术，这一模式设计了一个自动搜索空间，利用搜索算法来确定适合数据集的图像增强策略（例如上述的平移、缩放等等），制定执行的顺序并且自动执行。

例如将一个动物照片数据集输入给AutoAugment，AutoAugment通过计算会确定出先平移再剪裁是让AI对于数据“陌生感”最大化的解决方案，然后开始自动执行。

为什么数据增强没能普及？

AI企业的成本怪圈

看到了这些解决方案，大家是不是有种“天亮了”感觉？既然数据可以“自我繁殖”，那么数据的累积和采集就再也不是AI发展的阻碍。小语种的翻译、冷门植物动物的识别都可以快速AI化，巨头移动互联网企业霸权下的数据垄断也即将被破解……等等，如果数据增强技术有如此之强的能力，这项技术至少应该像BERT一样在学术界和产业界引起极高的关注，并且迅速形成产业链。

可实际上今天我们仍然能看到大量AI企业为如何获取数据而忧虑。

为什么数据增强技术没能彻底解决他们的问题呢？这背后其实是老生常谈的成本问题。

数据增强技术从来都不是免费利用的，很多时候AI技术接口本身就需要按调用次数收费，更别提背后的计算成本和时间成本了。

就拿文本数据经常利用的机器翻译来说，百度、搜狗、有道等等提供的机器翻译服务对于普通用户来说虽然是免费的，但是超过了一定流量值之后也要进行收费。数据增强技术显然属于收费范畴之中。曾有知乎用户表示，几款主流的机器翻译软件的收费标准大概在48元-60元/百万字符不等。对于企业来说，这也是一项不小的花销。

而应用于图片数据增强的AutoAugment，更是一种十分昂贵的算法。应用时要对15000个模型进行收敛，这对算力的消耗是巨大的。如果以CIFAR-10这样的对象作为数据集，需要利用英伟达Tesla P100 GPU计算几千个小时，以谷歌云的收费标准需要花费7500美元。

换句话说，如果数据增强的收费成本超过了人工去拍照收集，企业自然会去选择更划算的方法。实际上大多数时候企业既不能覆盖人工获取数据的成本，也不能覆盖数据增强技术应用的成本。

当AI走进性价比时代

这一现象提醒了我们，AI正在进入一个“性价比”时代。

资本对于AI一掷千金的岁月已经过去，随着巨头的AI技术逐渐产业化，其他AI企业已经无法向以前那样不计成本的投入。同时随着产业链发展的越来越完善，AI企业发展过程中的“计费标准”也逐渐清晰起来。在巨头占据市场的情况下，AI企业很容易看到在未来业务的发展中究竟经历着哪些成本上的商业风险。

这时，帮助降低数据增强这一类技术的应用成本就成了一件很重要的事。

例如最近伯克利人工智能研究院就推出了一种群体增强技术，通过数据结组方法，更高效地找到数据增强策略。相比单纯的应用AutoAugment，可以提升近千倍的效率。让很多无法负担高昂计算成本的企业甚至个人都能利用起数据增强技术。

而这种旨在降低AI研发成本的技术，或许未来会成为典型。其中的原因在于，谷歌这样的巨头企业，以及OpenAI这样的研究机构，本身拥有雄厚的资本和资源支持，导致他们在研发技术时，很难会考虑技术的“性价比”。何况很多时候这些企业本身也是算力资源的掌握着，他们在某种程度上掌握着技术与算力之间的定价权。从谷歌的角度来说，他们当然希望企业在研发AI时需要消耗尽可能多的算力资源，毕竟从算法技术到云计算资源都是他们的一套买卖。

如此以往下去，如果技术的计算标准和计算资源都被垄断，AI企业在发展时会遇到一条明显的阈值。一旦超过这一阈值，AI企业就会很难跨越成本，于是直接被拦在门外。甚至科技巨头可以利用这种方式对于产业进行间接的操控，举例来讲，如果谷歌想保护自己在小语种机器翻译上的优势，只需要提高该语种机器翻译应用费用，就能通过加大企业获取语料数据成本的方式，阻碍他们进行相关研究。

在这种情况下，打破垄断、重塑定价权，让AI研发更具性价比，或许能够打造出一条独辟蹊径的道路。

创业公司难以采用AI的三个关键因素

近十年来,出现了一些令人惊叹的技术.随着 2000 年代后期 iOS 和 Android 应用程序商店的推出,移动应用生态系统已经成熟.任何一个有好点子的人,都能开发出一个应用并进行发布.比如像 Ub ...
全球首个突破200种语言互译的翻译引擎百度翻译打破世界沟通壁垒

机器翻译作为人工智能关键技术之一,正日益成为企业智能化升级的重要应用场景.12月1日,百度大脑开放日举办了以"机器翻译沟通全世界"为主题的专场活动.IDC中国副总裁兼首席分析师武连 ...
中译语通举行“LanguageBox·语言盒子”渠道大会：晶源十方为特约经销商

2019年4月12日,中译语通"LanguageBox·语言盒子"渠道大会在北京举行,晶源十方和来自科技.金融.能源.电信.汽车.教育等诸多领域的上百名政企代表齐聚中译语通,共同见 ...
如何解决神经机器翻译三大关键性问题？清华团队发表NMT最新技术综述

如今,计算机技术渗透人们生活的方方面面,而要说对我们工作学习帮助极大的,机器翻译(machine translation)必须榜上有名. 近年来随着计算机技术的不断提高.AI 系统的日益精进,机器翻译 ...
【技术综述】深度学习中的数据增强方法都有哪些？

很多实际的项目,我们都难以有充足的数据来完成任务,要保证完美的完成任务,有两件事情需要做好:(1)寻找更多的数据.(2)充分利用已有的数据进行数据增强,今天就来说说数据增强. 作者 | 言有三编辑 ...
【技术综述】深度学习中的数据增强（下）

言有三毕业于中国科学院,计算机视觉方向从业者,有三工作室等创始人作者 | 言有三(微信号Longlongtogo) 编辑 | 言有三今天带来深度学习中的数据增强方法的下篇.我们将从以下几个方向入 ...
宇宙大千世界到底有多大？这是数据，慢慢看吧！

宇宙大千世界,它到底有多大,下面就让我们以星球大小对比的方式来看看这三千大千世界吧.虽然我们以为自己的星球非常之大,但殊不知在茫茫大千世界里,地球也不过沧海一粟,而人类呢可想而知. 宇宙大千世界,它到 ...
云原生数据中台技术与趋势解读

数据中台发展至今,大体经历了 4 个重要阶段:数据库 - 数据仓库 - 大数据平台 - 数据中台.每次新的变革,都是为了解决上一阶段存在的问题. 当前,走向云原生成为数据中台的必然和必须. 云原生从何 ...
从脉诊技术看一个中医的基本功扎实不扎实！...

从脉诊技术看一个中医的基本功扎实不扎实! 所谓的脉诊是中医的基本功,中医诊断疾病是分望闻问切.切诊就是医生运用手指切按患者体表的动脉.探查外向,了解病情,用于诊断疾病的一种重要的方法. 当患者去找中医 ...
学而思、万学教育、正保教育...正在用数据和技术推动教育行业进步

诸葛君说:百年大计,教育为本,教育大计,科技先行.从诸葛io行业客户增长的速率来看,2017年,金融.教育.零售三大行业在数据.技术驱动的大环境下增长迅猛,特别是在教育行业,我们服务的客户也已经覆盖了 ...
大数据安全分析07_大数据存储技术介绍

鉴于网络安全数据组成的复杂性.规模,以及对实时搜索响应的需求,需要通过大数据存储集群快速实现空间的扩容,在PB级的安全数据中做到安全分析查询的秒级响应,同时需要为数据提供了冗余机制,保障数据的安全. ...
美创成为首批信通院数据安全产品技术能力验证计划企业，实力领跑数据安全

4月28日,由中国信息通信研究院(以下简称"中国信通院")举办的卓信大数据计划峰会在北京隆重召开.会上,美创科技作为首批通过数据安全产品功能评测项目企业出席参加,并获"数 ...
Excel合并单元格统计数据，只看这一篇就够了

Hello,大家好,今天跟大家分享下带有合并单元格的表格如何求平均值,这也是一个粉丝提问的问题,他表示如果不用合并单元格自己是会计算的,但是用了合并单元格就无法使用常规方法计算平均值了,但是老板还要求 ...

从难以普及的数据增强技术，看AI的性价比时代

相关推荐