发现机器学习中的未知未知数
视频介绍:发现机器学习中的未知未知数
机器学习 (ML) 模型的性能取决于学习算法以及用于训练和评估的数据。算法的作用得到了很好的研究,并且是众多挑战的焦点,例如SQuAD、GLUE、ImageNet等。此外,还努力改进数据,包括一系列解决 ML 评估问题的研讨会。相比之下,专注于 用于评估 ML 模型的数据并不常见。此外,许多评估数据集包含易于评估的项目,例如具有易于识别的主题的照片,因此它们错过了现实世界上下文的自然模糊性。评估中缺乏模棱两可的真实世界示例削弱了可靠地测试机器学习性能的能力,这使得 ML 模型容易出现“弱点”,即模型难以或不可能准确评估的示例类别,因为评估集中缺少那类示例。
为了解决识别 ML 模型中的这些弱点的问题,我们最近在HCOMP 2020(对全球研究人员和开发人员开放至 2021 年 4 月 30 日)发起了机器学习众包不利测试集(CATS4ML) 数据挑战赛。挑战的目标是提高 ML 评估集的标准,并找到尽可能多的示例,这些示例使算法处理起来令人困惑或有其他问题。CATS4ML 依靠人们的能力和直觉来发现机器学习确信但实际上错误分类的新数据示例。
什么是机器学习“弱点”?
有两类弱点:已知的未知数和未知的未知数。已知未知数是模型不确定正确分类的示例。研究界继续在称为主动学习的领域中研究这一点,并找到了解决方案,概括地说,就是在不确定的例子上以交互方式从人们那里获取新标签。例如,如果模特不确定照片的主题是否是猫,则要求一个人进行验证;但如果系统是确定的,就不会问一个人。虽然这方面还有改进的余地,但令人欣慰的是模型的置信度与其性能相关,即可以看到模型不知道的东西。
另一方面,未知的未知数是模型对其答案充满信心但实际上是错误的示例。主动发现未知未知数的努力(例如Attenberg 2015和Crawford 2019)帮助发现了许多意外的机器行为。与这种发现未知未知的方法相比,生成对抗网络(GAN)生成未知的未知用于计算机视觉错觉形式的图像识别模型,这些模型会导致深度学习模型犯超出人类感知的错误。虽然 GAN 会在有意操纵的情况下发现模型漏洞,但现实世界的示例可以更好地突出模型在日常性能中的失败。这些真实世界的例子是 CATS4ML 感兴趣的未知未知数——挑战旨在收集人类可以可靠解释但许多 ML 模型肯定不同意的未经处理的例子。
CATS4ML数据挑战的第一版:打开图像数据集
的CATS4ML数据的挑战集中在视觉识别,使用图像和标签从打开图像数据集。挑战的目标图像是从开放图像数据集中选择的,以及来自同一数据集的一组 24 个目标标签。挑战参与者被邀请发明新的和创造性的方法来探索这个现有的公开可用的数据集,并专注于预先选择的目标标签列表,发现 ML 模型未知未知数的例子。
CATS4ML是FAIR最近推出的用于动态数据收集的DynaBench研究平台的补充。DynaBench 使用 ML 模型在循环中解决静态基准测试问题,CATS4ML 通过鼓励探索现有的 ML 基准测试可能是未知的不利示例,专注于改进 ML 的评估数据集。结果将有助于检测和避免未来的错误,还将为模型可解释性提供见解。
通过这种方式,CATS4ML 旨在通过提供数据集资源来提高对问题的认识,开发人员可以使用这些资源来发现其算法的弱点。这也将为研究人员提供有关如何为机器学习创建更加平衡、多样化和具有社会意识的基准数据集的信息。
参与
我们邀请全球 ML 研究人员和从业者社区与我们一起努力从开放图像数据集中发现有趣、困难的例子。在挑战网站上注册,下载目标图像和标记数据,贡献您发现的图像并参加获胜者的比赛!
为了在本次比赛中得分,参赛者应提交一组图像-标签对,由人工在环评分者确认,其投票应与多个机器上标签的平均机器得分不一致学习模型。
更新说明:优先更新微信公众号“雨夜的博客”,后更新博客,之后才会陆续分发到各个平台,如果先提前了解更多,请关注微信公众号“雨夜的博客”。