CVPR2019|基于场景图的可解释显示视觉推理

2024-05-22 12:55:19

计算机视觉三大顶会之一CVPR2019在美国洛杉矶举办，此前接收结果已经公布，一共有1300篇论文被接收，接收率为25.2%。

今天分享给大家的是其中一篇被接收的论文《Explainable and Explicit Visual Reasoning over Scene Graphs》。

论文链接：https://arxiv.org/pdf/1812.01855.pdf

研究背景

视觉问答（Visual Question Answering）是近年来很受关注的一个跨模态任务，它的输入是一张图片和一个与图片有关的自然语言问题（如“桌上放着什么东西”），目标是让模型自动回答该问题。

视觉推理（Visual Reasoning）与视觉问答的形式类似，但输入的问题更难，且会涉及到物体之间的多跳关系（如“桌子旁边的椅子上的盘子是什么颜色”），这就要求模型具有推理能力。视觉推理任务最早由李飞飞等人在2017 年提出，他们提出的 CLEVR [1]数据集是目前使用最多的。

神经模块网络（Neural Module Networks，NMN）[2]是解决视觉推理任务的一类有效方法。

它定义了很多小的神经模块，每个模块负责特定的功能（如定位物体，转移注意力等），然后将输入的问题解析为模块的组合从而得到一个由模块组成的程序，执行程序即可得到问题的答案。它充分利用了语言的可组合性，并且大大增加了模型的透明度。已有的 NMN 方法都是直接对图片本身的像素级特征进行操作，该论文认为人脑的推理过程是建立在符号、概念等基础上的，仅利用像素级信息很难进行精确的推理。另外已有的 NMN 方法需要仔细设计每个模块的内部实现细节，这是很需要技巧的，不容易扩展到新的领域。

论文方法

论文提出了基于场景图（Scene Graph）来实现 NMN进行视觉推理。

Scene Graph 是对图片进行解析后得到的结果，它的节点（node）对应图片中的物体，它的边（edge）对应物体之间的关系。作者认为物体检测和场景推理任务应该分离开来，推理任务直接建立在检测出来的物体上，而不是像以往的方法那样建立在像素级别上。基于 Scene Graph，作者设计了以下四种基本操作，作为元模块（Meta Modules）：

AttendNode 输出一个在所有节点上的注意力向量，用来找到特定的物体节点；AttendEdge 输出一个在所有边上的注意力矩阵，用来找到特定的关系；Transfer 用来将注意力从一个节点转移到其他节点上，转移的路径由边上的注意力权重决定；Logic 用来对注意力向量进行逻辑操作，即与或非。

只需要对这四种元模块进行组合，即可得到更加复杂的模块，以在 CLEVR 等数据集上使用，这大大简化了模块内部实现的设计。另外，所有的元模块都完全基于注意力机制，意味着在执行由模块组成的程序时，所有中间过程都可以进行可视化，这大大增强了模型的可解释性。

下面是论文方法的流程图。对于输入的图片和问题，使用外部解析器，将图片解析成 Scene Graph，将问题解析成模块组成的程序，然后在 Scene Graph 上执行程序，从而得到预测的答案。

实验结果

论文在三个数据集上做了实验，分别是 CLEVR、CLEVR-CoGenT 和 VQA2.0。其中CLEVR 和 CLEVR-CoGenT 是合成数据集，VQA2.0 是真实数据集。

下表给出了在 CLEVR 上的结果，其中 XNM-GT 表示使用的是标注好的 Scene Graph，XNM-Det 表示使用的是检测出来的 Scene Graph，可以看到当Scene Graph 完全正确时，论文方法可以达到100%的准确率。由于论文提出的模块设计非常简单，模型只需要非常小的参数量，只是其他模型的几十分之一甚至几百分之一。

下表给出了在 CLEVR-CoGenT 上的结果，该数据集有两种设定，分别是 Condition A 和 Condition B，训练集全部都是 Condition A，而测试集则既有 A 也有 B。可以看到当 Scene Graph 完全正确时，在两种条件下论文方法均可以达到100%的准确率。

在 VQA2.0 上的结果，论文提出方法的效果要远远好于使用像素级特征的 StackNMN，同时也表明了方法在真实数据集上同样适用。

AI Time是一群关注人工智能发展，并有思想情怀的青年人创办的圈子。AI Time旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索，加强思想碰撞，打造成为北京乃至全国人工智能知识分享的策源地和聚集地。

AI Time：论道自动机器学习与可解释机器学习

时间：6月19日15:00-17:00

地点：海淀区中关村东路搜狐大厦二楼1911（清华科技园）

本次活动我们邀请了四位大牛：美国伊利诺伊大学芝加哥分校(UIC)特聘教授Philip Yu（ACM/IEEE Fellow，原ACM TKDD主编）、美国密歇根大学Qiaozhu Mei教授（绝对的青年才俊，刚拿了WWW 最佳论文，之前还拿过ICML、WSDM最佳论文）、北京大学的王立威教授（无敌的青年才俊，ML理论方面难逢对手）、百度高级研究员李兴建。

赶快戳下方小程序进入AI Time报名通道！

学术头条

发掘科技创新的原动力

您的转发就是我们最大的动力

CVPR 2020 Oral 出炉！5篇 Oral 论文抢先看

在2月24日,CVPR 2020 公布接收论文结果公布,从 6656 篇有效投稿中录取了 1470 篇论文,录取率约为 22%.昨天,CVPR Oral结果公布了.有大佬已经分享了自己的工作,本文整理 ...
一文看尽 6篇 CVPR2021 伪装目标检测、旋转目标检测论文

作者丨一只喵编辑丨极市平台极市导读本文对 CVPR 2021 检测大类中的"伪装目标检测"."旋转目标检测"领域的论文进行了盘点,将会依次阐述每篇论文的方 ...
CVPR 2021 论文大盘点-文本图像篇

OpenCV中文网 OpenCV技术布道,CV实用教程,业界前沿资讯 36篇原创内容公众号本文收集文本检测与识别相关论文,包含任意形状文本检测.场景文本识别.手写文本识别.文本分割.文本图像检索. ...
【学术前沿】CVPR2021论文收稿7500篇，接受率仅为23.7%

AI研习图书馆,发现不一样的精彩世界 1. CVPR2021 CVPR,IEEE Conference on Computer Vision and Pattern Recognition,即IEEE ...
视觉 Transformer 的可视化｜CVPR2021

报道丨极市平台极市导读可视化对于Transformer的模型调试.验证等过程都非常重要,FAIR的研究者开源了一种Transformer可视化新方法,能针对不同类呈现不同且准确的效果. >& ...
CVPR2021 P2GAN：提高图像风格迁移的鲁棒性

CVPR2021 P2GAN：提高图像风格迁移的鲁棒性
大合集！80篇CVPR2020论文分方向整理: 目标检测/图像分割/姿态估计等，附打包下载

从论文ID公布以来,极市一直在对CVPR进行实时跟进,本文是对80篇CVPR2020论文整理和分类,均有论文链接,部分含开源代码,涵盖的方向有:目标检测.目标跟踪.图像分割.人脸识别.姿态估计.三维点 ...
CVPR2020论文解读—华为高效轻量级网络GhostNet, 性能超越谷歌MobileNetV3

AI研习图书馆,发现不一样的精彩世界论文解读华为诺亚方舟实验室提出的新型端侧神经网络架构GhostNet,在同样精度条件下,模型速度和计算量均少于此前SOTA算法,值得一看.GhostNet论文已 ...
绘制意境场景图的技巧 | 今晚八点场景插画JW讲解“速查速纠（改图）”

图片素材来自网络,版权归原作者,仅供交流 ---------------- 有绘画学习的地方,就有原画人的身影今天,我们分享一个由跟课天使芈冰整理的JW老师90分钟课程示范整理总结的速涂笔记,希望对 ...
室内拼贴表现丨小清新室内场景图

Hello小伙伴们,又到了每周的制图教室的时间啦~2018年年末我们制图教室统计了大家最喜爱的图纸表现风格,其中拼贴风高居榜首,今天就为大家带来一篇室内拼贴表现的教程~ 提到拼贴,大家都不会陌生.拼贴 ...
【上门或远程教你】酒类摄影布灯技巧白酒名酒摄影拍摄拍照课程教程教学怎么拍摄酒类如何拍摄酒类白底图场景图

[上门或远程教你]酒类摄影布灯技巧白酒名酒摄影拍摄拍照课程教程教学怎么拍摄酒类如何拍摄酒类白底图场景图
炫酷的机械动图，直观解释其工作原理！

炫酷的机械动图，直观解释其工作原理！
史上最神奇的两张图：至今解释不了！（中老年必看）

全世界最神奇的第一张图: 右看向左转,左看向右转?解释不了! 全世界最神奇的第二张图: ▼▼ ▼▼ ▼▼ ▼▼ ▼▼ 你怎么解释上述现象呢?! 如果你也惊呆了,发到朋友圈.微信群给更多人来帮忙分析原因 ...
主图指标（有显示所属行业）MA1:MA(...

主图指标(有显示所属行业) MA1:MA(CLOSE,M1); MA2:MA(CLOSE,M2); MA3:MA(CLOSE,M3); MA4:MA(CLOSE,M4); MA5:MA(CLOSE,M ...
在没有输入或者观看非常暗的场景时，屏幕中显示云朵状白色阴影或亮斑。 | Sony China

LCD屏幕利用高精度技术制成,以达到高水平的性能和画质.要达到这一性能水平,电视机的背光设置设定为最大化屏幕亮度.然而,在昏暗的环境中观看时,如果电视机没有视频输入源或者显示空白屏幕,则可能会发现亮度 ...
昆凌否认盗图侯佩岑，解释难被网友相信，《彩虹》歌词早有暗示

前几天,昆凌在自己社交账号上发了一张很漂亮的彩虹图,并且配文写道"a little get away",当时有人网友猜测昆凌应该是在旅游,抓拍到了这么美的彩虹. 原本是明星积极营业 ...
2017全新蜡烛图 K线转换显示任意周期K线黄金外汇 MT4指标模板-云指标公式网

现亲情推出2017年全新蜡烛图转换指标--Candle Converter. 这款指标可以在小周期显示大周期的K线图标,避免重复切换盘面.比如你设置 4小时图表在其他周期显示.那么小于4小时的图表都能 ...

CVPR2019|基于场景图的可解释显示视觉推理

相关推荐