CVPR 2021 前景背景分开建模,UCLA 视觉研究组提出用于视频预测的动态语义模型

详细信息如下:
  • 论文题目:Learning Semantic-Aware Dynamics for Video Prediction

  • 论文链接:https://arxiv.org/abs/2104.09762

      01      

动机
对于很多自主感知应用而言,预测环境未来的变化是非常重要的基础功能。本文来自加州大学洛杉矶分校和斯坦福大学,提出了一种语义导向的动态模型来实现视频预测。
本文作者认为,在视频数据中,由于物体自身的几何结构和运动模式不同,会产生不同的时序视觉变化,直接训练模型来预测整个画幅的变化,难度较大,所以本文假设,将视频场景分解成独立的个体,捕获每个个体的演变特点,然后再进行预测整合,可以提高整体预测的效果。
上图为对同一段视频帧序列的三种不同表示,视频帧、语义分割图和光流场,可以看出,视频帧中发生的动态变化相比语义分割图和光流场中的动态变化都更为复杂,所以作者提出将语义分割图(场景布局)和光流场(运动信息)分开处理,分别进行预测,并将它们的上下文信息进行整合,来进行未来帧的预测。

      02      

本文方法
本文的核心出发点是为了明确的进行动态语义建模,即动态模型的输入为视频帧的语义图和光流场

,模型预测得到未来K帧的描述

,随后进行特征融合一系列后处理得到最后的预测结果。

2.1 语义动态建模
对于输入的动态描述(语义图和光流图),本文以编解码的形式进行处理,具体流程如下图所示。
语义一致性区域通过C个语义类别构成,令

为当前类别c的区域掩码,将该掩码乘到对应t时刻的光流场得到当前类别c的动态像素

,对动态像素经过语义循环编码器得到历史帧的中间状态即历史时序信息:

对于全部类别得到中间状态集合

,包含了已经输入模型的所有语义图和光流场,需要说明的一点是,

每次只能表示一个类别的独立对象,虽然会给人一种效率低下的感觉,但是分开类别处理可以减少模型的参数量,同时独立的对象更易于表示。

随后语义循环解码器通过对编码器得到的历史时序信息进行动态信息提取,进而预测未来帧的语义图和光流场,预测流程如下:
其中

表示C个类别的循环解码器,不断更新中间状态

和嵌入表示

,随后使用两个预测头

分别对语义图和光流场进行预测,并通过多任务学习的形式进行模型优化。随后对预测得到的未来帧语义图和光流场以线性组合的形式后融合得到最终结果。

2.2 损失函数
动态语义建模的优化目标由以下三项构成,首先是对于未来帧的光流图的重建损失:
对于语义图的预测使用加权交叉熵损失:
其中

为交叉熵函数,附加的权重用来描述当前元素是否靠近不同类别之间边界的程度。以上两个损失函数可以对上文提到的明确性语义感知建模进行监督,但是本文作者提到仍然需要给模型对未来帧预测时增加一定的随机性。为此,本文额外加入了一个循环编码器

,该编码器以同样的方式对历史帧进行处理,其目标是生成与输入序列相对应的随机噪声,然后以参数重置的方式将噪声进行整合,加入KL散度损失对

进行优化:

整体损失函数由上述三项联合得到:
2.3 去遮挡处理
由于动态语义模型只负责生成未来帧的语义图和光流场,对于最终视频帧的预测需要借助输入历史帧的图像细节,但是直接将得到的语义图和光流场对历史序列进行叠加,势必会带来一定的目标错位和遮挡,所以作者将历史序列帧作为锚点随后进行变化,引入一个条件绘制网络

,该网络将输入作为锚点帧,尝试将遮挡区域进行补全,并以对抗训练的方式进行优化,完成整体的未来帧预测过程。

      03      

实验效果
本文在三个常见的数据集上进行了实验,分别是Cityscapes、KITTI Flow和KITTI Raw,这些数据集包含一定数量的车辆驾驶场景,本文使用预训练好的语义分割网络DeepLabV3和光流估计网络PWC-Net分别对视频序列提取语义图和光流场。
质量对比实验分为未来帧预测效果对比和语义分割精确度对比两部分,其中预测效果对比由MS-SSIM和LPIPS两种常用的图像恢复评价指标给出:
分别在Cityscapes和KITTI Raw数据集上有优越的性能表现。对于语义分割效果对比使用平均IoU给出,分数计算以对每个序列的第20帧的预测结果为准,下表给出了对于不同序列长度的对比结果,可以看到本文方法在序列长度较长时效果更加明显。

END

(0)

相关推荐

  • 快20倍!谷歌AI推TensorFlow 3D,智能汽车好用

    [新智元导读]Google AI发布了TensorFlow 3D,将3D深度学习能力引入TensorFlow,加入3D稀疏卷积网络,在Waymo Open数据集上的实验表明,这种实现比预先设计好的Te ...

  • 电商搜索:召回篇

    文章作者:阿里CBU技术部 内容来源:<阿里巴巴B2B电商算法实战> 导读:搜索引擎已经广泛应用于电商网站,我们为什么需要搜索引擎?搜索引擎又是如何工作的呢?电商网站中存在着上亿的商品,想 ...

  • 智能驾驶的数据采集与测评解决方案

    当前,智能驾驶AI识别领域高速发展,人工智能商业化在算力.算法和技术方面,基本达到阶段性成熟,应用控制能力落地不断加速.通过算法和应用的落地来真正解决行业具体痛点,需要采集大量人工智能相关的原始数据, ...

  • 万字综述,GNN在NLP中的应用,建议收藏慢慢看

    来自:图与推荐 今天为大家解读的是由京东硅谷研发中心首席科学家吴凌飞博士等研究者最新发表的GNN for NLP综述,几乎覆盖了围绕NLP任务的所有GNN相关技术,是迄今为止GNN for NLP领域 ...

  • 使用多尺度注意力进行语义分割

    作者:Andrew Tao and Karan Sapra 编译:ronghuaiyang 导读 来自NVIDIA的SOTA语义分割文章,代码开源. 有一项重要的技术,通常用于自动驾驶.医学成像,甚至 ...

  • BEV图像处理对自动驾驶系统的性能优化

    众所周知,可靠地环境状态感知的能力,尤其是潜在对象的存在及其运动行为,对于自动驾驶至关重要.在自动驾驶系统运行过程中比较重要的是对其行驶的周边环境进行态势评估.这需要通过多个车载摄像机图像.激光点云. ...

  • 展示全景的细分预测

    点击上方"深度学习爱好者",选择加"星标"或"置顶" 重磅干货,第一时间送达 小黑导读 论文是学术研究的精华和未来发展的明灯.小黑决心每天为 ...

  • DeepUrbanEvent: 大型事件下全市人群动态预测系统

    DeepUrbanEvent: 大型事件下全市人群动态预测系统

  • 用Transformer进行图像语义分割,性能超最先进的卷积方法!

    重磅干货,第一时间送达 丰色 发自 凹非寺 报道 | 量子位 正如大家所知,在进行图像语义分割时,图像被编码成一系列补丁后往往很模糊,需要借助上下文信息才能被正确分割. 因此上下文建模对图像语义分割的 ...

  • 使用 TensorFlow 3D 理解 3D 场景

    在过去几年中 ,3D 传感器(例如,激光雷达.深度感应摄像头和雷达)的日益普及催生了对能够处理这些设备捕获的数据的场景理解技术的需求.这种技术可以使使用这些传感器的机器学习 (ML) 系统(如自动驾驶 ...

  • 新论文:倾斜摄影点云+深度学习=城市风环境自动化模拟

    DOI:https://doi.org/10.3390/rs13122383 引言     昨天居委会又在尽职尽责的通过各种渠道发布暴雨和大风黄色预警,每个人都在紧张中等待着狂风暴雨的到来.如果可以提 ...