美智库分析小数据人工智能的潜力

2021年9月,美国安全与新兴技术研究中心发布报告《小数据人工智能的巨大潜力》,针对“人工智能依赖于大量数据,数据是重要的战略资源,可用数据的数量被视为人工智能进展的关键指标”这一传统观点,报告指出,这种对数据在人工智能中的作用的理解是不全面的,可能会对政策制定者产生误导。当前许多人工智能系统确实利用了大量数据,但并非所有人工智能系统都需要大量数据作为支撑。对于大数据的过度强调,忽视了小数据人工智能的存在,也低估了小数据人工智能方法的巨大潜力。

一、什么是小数据方法

小数据方法是指不需要大量数据集进行训练的人工智能方法,该方法有助于解决没有标记数据或标记数据很少的情况,减少对从现实世界收集大量数据集的依赖性。小数据方法大致可分为5类:①迁移学习,首先在数据丰富的环境中学习执行任务,然后将所学到的东西“迁移”至数据匮乏的任务中;②数据标记,适用于标记数据有限,但有大量未标记数据的情况,使用自动生成标记或主动学习等方法来理解现有的未标记数据;③人工数据生成,通过创建新的数据点或其他相关技术,力求从少量数据中最大程度地提取信息;④贝叶斯方法,采用机器学习和统计学方法,将有关问题的架构信息纳入解决问题的方法中,专注于对其预测的不确定性产生良好的校准估计;⑤强化学习,计算机系统通过试错来学习如何与环境交互,常用于训练游戏系统、机器人和自动驾驶汽车。

二、小数据方法的意义

1.缩小实体间人工智能能力的差距
大型数据集对于许多人工智能应用的作用日益重要。由于不同实体收集、存储和处理数据的能力各不相同,拥有人工智能能力的大型科技公司可能拉开与其他公司的差距。如果迁移学习、自动标记、贝叶斯方法等方法能够在数据较少的情况下应用人工智能,那么小型实体在数据方面的准入门槛将会降低,就可以缩小大型和小型实体之间人工智能能力的差距。
2.减少收集个人数据
某些小数据方法可减少收集个人数据的行为,比如人工数据生成或使用模拟训练算法的方法,这两种方法不依赖于个人数据,或者具有合成数据以删除敏感的个人可识别属性的能力。尽管这并不意味着所有的隐私问题都能得到解决,但通过减少收集大量真实世界数据的需求,可以降低人们对大规模收集、使用或披露消费者个人数据的担忧。
3.促进数据匮乏领域的发展
人工智能近期的许多进步都是通过可用数据的爆炸式增长而实现的。然而,对于许多重要问题,可以输入人工智能系统的数据可能很少或根本不存在。小数据方法能够提供一种基于规则的方式来处理数据的缺乏。可以利用标记和未标记数据,从相关问题迁移知识;也可以利用现有的少量数据点来创建更多的数据点,凭借有关问题领域的先验知识,或者通过构建模拟或编码结构假设来冒险进入新的领域。
4.规避“脏数据”
小数据方法可以使受“脏数据”困扰的机构受益。例如,美国防部就存在大量“脏数据”,需要大量时间和人力进行数据清理、标记和组织工作。小数据方法中的数据标记法可以通过自动生成标签,降低处理大量未标记数据的难度。迁移学习、贝叶斯方法或人工数据方法可以缩减需要清理的数据量,显著减少“脏数据”的规模。

三、结论

1.人工智能不等于大数据,也不是大型、预先标记的数据集的代名词。大数据在过去十年的人工智能热潮中发挥了作用,但如果把大规模数据收集和标记作为发展人工智能的先决条件,容易将政策制定者引入歧途。
2.对于迁移学习的研究发展迅速,这种方法在未来可能会得到更广泛的应用。
3.美国和中国在小数据方法领域的竞争非常激烈。美国在强化学习和贝叶斯方法上有很大优势,但中国在迁移学习方面处于领先地位。
4.相对于整个人工智能领域的投资规模,美国政府对小数据方法的资助比例较小。迁移学习作为一个迅速崛起的领域,有希望获得美国政府提供的更多资金。
(0)

相关推荐