利用卷积视觉变压器进行深度假视频检测
重磅干货,第一时间送达
小白导读
论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。
摘要
深度学习模型可以生成和合成被称为深度造假(Deepfakes)的超现实视频,其快速发展及其易于获取的特性,引起了所有相关机构对其可能恶意使用的担忧。深度学习技术现在可以生成面孔,在视频中的两个受试者之间交换面孔,改变面部表情,改变性别,改变面部特征,等等。这些功能强大的视频操作方法在许多领域都有潜在的用途。然而,他们也对每个人构成了隐现的威胁,如果用于有害的目的,如身份盗窃,网络钓鱼和诈骗。在这项工作中,作者提出了一种用于深度造假检测的卷积视觉转换器。卷积视觉转换器由卷积神经网络(CNN)和视觉转换器(ViT)两部分组成。CNN提取了可学习的特征,而ViT将学习到的特征作为输入,并使用注意机制对它们进行分类。作者在DeepFake Detection Challenge Dataset (DFDC)上训练了作者的模型,达到了91.5%的准确率,AUC值为0.91,损失值为0.32。作者的贡献是向ViT体系结构添加了CNN模块,并在DFDC数据集上取得了具有竞争力的结果。
框架结构
作者提出的cit模型
实验结果
深度造假检测精度DL库比较
结论
深度造假在数字媒体、虚拟现实、机器人、教育和许多其他领域开辟了新的可能性。另一方面,这些技术可能会对公众造成破坏和不信任。基于此,作者设计并开发了一种基于cnn和变压器的深度伪视频检测的广义模型,作者将其命名为卷积视觉变压器。作者称作者的模型为广义模型有三个原因。
1)第一个原因来自于CNNs和Transformer的联合学习能力。cnn擅长学习局部特征,而变压器可以从局部和全局特征映射中学习。这种综合能力使作者的模型能够关联图像的每个像素,并理解非局部特征之间的关系。
2)在训练和分类过程中,作者对数据的预处理同样重视。
3)利用最大、最多样化的数据集进行深度假检测。
CViT模型是根据从DFDC数据集中提取的多种面部图像集进行训练的。该模型在400个DFDC视频上进行了测试,准确率达到91.5%。不过,作者的模型还有很大的改进空间。在未来,作者打算扩大作者目前的工作,添加为深度造假研究发布的其他数据集,使其更加多样化、准确和健壮。
每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。
- END -
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。深度学习爱好者 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
深度学习爱好者 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
· 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
· 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
· 深度学习爱好者 默认每篇文章都是首发,均会添加“原创”标志