电商标识检测的鲁棒性防御,ACM MM2021 安全AI大赛技术解析
2019年至今,阿里天池大赛一共举办了六期安全AI挑战者计划大赛。这六期比赛分别是第一期的人脸对抗识别比赛、第二期的ImageNet图像对抗比赛、第三期的辱骂场景文本对抗比赛、第四期的通用目标检测的对抗攻击比赛、第五期的伪造图像的对抗攻击比赛、第六期的ImageNet无限制对抗攻击比赛。
这六期比赛有一个共同点就是它们都是关注AI模型安全中的“攻”的方面。最近的ACM MM 2021 AI挑战者计划第七期电商标识检测的鲁棒性防御关注的是AI模型安全中“防”的方面。这也可能是之后比赛的一个趋势,更加关注各类AI模型的如何抵御对抗攻击。
比赛链接:https://tianchi.aliyun.com/s/8951edeaa748e1228da53a0533b92211
在商品、视频、音乐等领域知识产权问题逐步受到关注。在商品知识产权领域,知识产权体现为在线商品的设计和品牌。目前存在着非法商户通过一些对抗手段干扰商标识别来逃避侵权,这带来了很高的知识产权风险和财务损失。
这项挑战的目的是吸引来自多媒体分析、内容安全/保护、以及强大的机器学习社区一起在AI安全防御领域进行尝试,并为内容安全构建先进学习技术的基础。
主办方寻求就问题定义和稳健的对象检测框架达成共识,借此想描述确保感知模型安全的特性,并评估在实际商业多媒体系统的各种对抗样本下的后果。
本次题目来源于知识产权中的重要技术之一:商标检测任务。
参赛选手需要在限定时间内完成模型结构的设计和训练,使得模型具备商标的检测和识别能力,同时能够抵御系统生成的鲁棒性对抗样本攻击。
本次比赛一共分为三部分:
小目标检测:小目标检测一直是目标检测领域的难点之一,在商标数据集合中,平均目标像素大小小于图片像素大小的1
长尾类别检测:本次提供的数据中商标515类,抽取自Open Brands数据集合并制作成长尾分布数据。
检测模型鲁棒性:本次比赛提供给选手干净的标注样本训练,测评集合会通过扰动生成各种样式的对抗样本,用于测试检测模型的鲁棒性。
本次比赛数据采用目前规模最大的标识检测数据集合Open Brand,该数据集合来源于各大电商平台,包含了584920图片,1303563的标注量,包含了行业内大部分商标。该数据集的具体细节可以如下图示的论文中获得。
链接:https://arxiv.org/pdf/2012.07350.pdf
数据样本的图片实例为:
初赛测试集合有共50,486张测试图片。复赛测试集合有约10万张测试图片,测评数据中增加了现实情况已知和未知干扰,可见复赛的难度要比初赛高很多。
mAP(mean Average Precision)特指目标检测中衡量识别精度的指标。多个类别目标检测中,每个类别都可以根据recall(召回率)和percision(准确率)绘制一条曲线。AP就是该曲线下的面积,mAP意思是对每一类的AP再求平均。
True_positives(TP):被正确地划分为正例的个数,即实际为正例且被分类器划分为正例的实例数;
False_positives(FP):被错误地划分为正例的个数,即实际为负例但被分类器划分为正例的实例数;
False_negatives(FN):被错误地划分为负例的个数,即实际为正例但被分类器划分为负例的实例数;
True_negatives(TN):被正确地划分为负例的个数,即实际为负例且被分类器划分为负例的实例数。
召回率(查全率)的计算公式:
准确率(查准率)的计算公式:
如下图示为目标检测中各类目标物体中的召回率和准确率计算过程。
3.3 IOU
交并比IOU(Intersection over Union)主要是衡量两个集合的重叠程度,在目标检测中它主要代指模型预测的BBox和Ground Truth之间的差异。IOU 的计算公式和图示如下所示:
或者又可以写成为
模型框架没有限制,主流的深度学习框架(Tensorflow,Pytorch,Caffe)都可以被使用。
只能用ImageNet的预训练模型进行训练,不可以用coco等其它的数据集。
因为训练任务量巨大,训练一个成熟的模型在8卡16G的显卡上大约需要花费两天多的时间。
官方提供baseline的模型和模板便于参赛选手快速上手,如下图所示为Baseline模型流程图
建议先在小模型上对算法进行调优,调优后再在大模型上实验。
官方提供的模型可以被允许用于继续训练。但是提供的模型没有细调过,需要自己在自己的设备中进行细调。
针对小目标检测问题,可以使用自适应卷积、特征融合、特征金字塔等方法提升效果。
针对长尾检测问题,可以使用一些长尾的loss函数提升检测效果,例如Class-Balanced Loss、Equalization Loss、Seesaw Loss。