端到端多模态理解的MDETR调制检测

重磅干货,第一时间送达

小黑导读

论文是学术研究的精华和未来发展的明灯。小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。

摘要

多模态推理系统依靠预先训练的目标检测器从图像中提取感兴趣的区域。然而,这个关键模块通常用作一个黑盒,它独立于下游任务进行训练,并且使用固定的对象和属性词汇表。这使得这类系统很难捕捉以自由形式文本表达的视觉概念的长尾。在本文中,作者提出了MDETR,一种端到端调制检测器,用于检测基于原始文本查询(如标题或问题)的图像中的对象。在模型的早期阶段,作者使用一个基于变压器的架构,通过融合两种模式来共同推理文本和图像。作者在1.3M文本-图像对上预先训练该网络,从已有的多模态数据集中挖掘,文本中的短语和图像中的对象之间有明确的对齐。然后,作者对几个下游任务进行微调,如短语基础、引用表达理解和分割,在流行的基准上获得最先进的结果。作者还研究了作者的模型作为一个对象检测器在给定的标签集上的效用,当微调在几个镜头设置。作者展示了作者的训练前方法提供了一种处理对象类别长尾的方法,这些类别只有很少的标记实例。作者的方法可以很容易地扩展到视觉问答,在GQA和cleverr上获得具有竞争力的性能。

代码链接:https://github.com/ashkamath/mdetr

论文创新点

作者的贡献如下:

  • 作者介绍了一个端到端文本调制检测系统派生的检测器。

  • 作者证明了调制检测方法可以无缝地应用于解决短语基础和指称表达理解等任务,使用具有合成和真实图像的数据集在这两种任务上设置了新的艺术状态。

  • 作者表明,良好的调制检测性能自然转化为下游任务性能,例如在视觉问答、参考表情分割和少镜头长尾目标检测上实现竞争性能。

框架结构

MDETR使用卷积主干提取视觉特征,使用RoBERTa等语言模型提取文本特征。这两种模式的特征被投射到一个共享的嵌入空间,连接和馈送到一个变压器编码器-解码器,它预测对象的边界框和它们在文本中的基础。

在MDETR预处理训练过程中,训练模型检测问题中提到的所有对象。为了将其扩展为问答,作者除了提供对象查询外,还提供特定于QA的查询作为转换器解码器的输入。作者用专门的头来处理不同类型的问题。

实验结果

作者对注释的组合产生了如下示例:手腕上戴着手表、穿着灰色衬衫的人。另一个穿蓝色毛衣的人。第三个人穿着灰色外套,围着围巾。作者为这个标题显示了模型的预测。它能够关注图像中所有的物体,然后根据文本对它们进行消歧。该模型被训练为预测短语的根作为正标记跨度,正如作者在图中可以看到的,正确地指的是三个不同的人。

结论

作者提出了MDETR,一种完全可微调制检测器。作者建立了它在多种数据集上的多模态理解任务上的强大性能,并展示了它在其他下游应用如少镜头检测和视觉问答中的潜力。作者希望这项工作为开发完全集成的多模态架构开辟新的机会,而不依赖黑匣子目标探测器。

论文链接:https://arxiv.org/pdf/2104.12763.pdf

每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。

(0)

相关推荐

  • 论文降重大概多少钱

    论文降重大概多少钱?论文进行查重检测后多数文章都是需要降重修改的,降重一般有两种途径,一是机器降重,二是人工降重,这两种降重途径都是需要支付一定费用的,费用高低有所不同,效果也是不同的. 一般来说人工 ...

  • ECCV 2020附代码论文合集(目标检测)

    上次我们给大家带来了关于CNN与图像分割主题的论文,本次的主题是目标检测,包含2D.3D的目标检测,旋转目标检测,视频目标检测,同样每篇论文都附带论文代码,大家在阅读论文的同时也可亲自动手实践,快来看 ...

  • 目标检测的稀疏对抗攻击,代码已开源

    题目:Sparse Adversarial Attack to Object Detection 论文:https://arxiv.org/pdf/2012.13692v1.pdf 代码:https: ...

  • Cascade R-CNN升级!目标检测制霸COCO,实例分割超越Mask R-CNN

    前天,arxiv上新出一篇论文<Cascade R-CNN: High Quality Object Detection and Instance Segmentation>,目标检测算法 ...

  • Fashion.ai 人工智能时尚v2.0

    17年的时候,我开发过一个小程序,叫MIX灵感,专门用来收集"好玩"的产品.技术应用. 不过现在,这个小程序早就没有维护,我也把数据迁移到了知识星球.利用知识星球方便的标签功能,读 ...

  • 跨界出圈 | 谈谈BERT跨模态预训练

    NewBeeNLP原创出品 公众号专栏作者@上杉翔二 悠闲会 · 信息检索 BERT以及BERT后时代在NLP各项任务上都是强势刷榜,多模态领域也不遑多让.前几天我们刚分享了复旦邱锡鹏老师的报告:复旦 ...

  • sci查重参考文献算不算

    我们写作学术论文都会引用一些他人的文献成果,以使我们的文章更具说服力,参考文献可以说是学术论文写作中的必备项,即便专业内的专家学者写作论文也不免需要引用他人文献,很多作者担心参考文献部分的写作会加重文 ...

  • 目标检测一卷到底之后,终于有人为它挖了个新坑|CVPR2021 Oral

    作者丨二玖 审稿|邓富城 报道丨极市平台 极市导读 本文解决了两个挑战:一是在没有明确监督的情况下,将尚未引入的目标识别为"未知",二是让网络进行N+1式增量学习. >> ...

  • 万方查重怎么查

    目前,很多高校和杂志社使用万方论文查重检测系统,万方的优势一是权威:二是收费便宜:三是对个人开放使用.万方分为几个版本:本科版.通用版.硕博版.职称版.那么如何使用万方进行论文查重呢?下面小编就和大家 ...

  • 南京大学提出CPD:通过视频-文本对匹配的视频预训练模型

    作者:南京大学教授.博士生导师 王利民 本文介绍南京大学计算机系媒体计算组于2020年初公开到arxiv上的一篇文章: CPD (Learning Spatiotemporal Features vi ...

  • OpenViDial:一个大规模多模态对话数据集

    人类对话不仅仅只依靠聊天内容,更需要利用视觉信息.本文构建了一个大规模多模态对话数据集,从电影和电视剧中抽取出(句子,图片)对,经过数据处理与清洗,最终得到一百万余条句子,及其对应的图片信息.此外,本 ...