【泡泡图灵智库】看听：多模态融合机器人场景辨识 / 四六文摘

泡泡图灵智库，带你精读机器人顶级会议文章

标题：Look and Listen: A Multi-modality Late FusionApproach to Scene Classification for Autonomous Machines

作者: Jordan J. Bird1,2, Diego R. Faria1,2, Cristiano Premebida3, Aniko Ek ´ art ´1and George Vogiatzis

机构：Aston University, Birmingham, United Kingdom， University of Coimbra, Coimbra,Portugal

来源：IROS 2020

编译 : 万应才

审核：wyc

这是泡泡图灵智库推送的第 544篇文章，欢迎个人转发朋友圈；其他机构或自媒体如需转载，后台留言申请授权

摘要

大家好，今天为大家带来的文章是IDA-3D:Depth Estimation from Monocular Images and Sparse Radar Data

这项研究的新颖之处在于采用了一种多模态的场景分类方法，在这种方法中，图像和音频在深度后期融合的过程中相互补充。该方法在一个困难的分类问题上进行了演示，该问题由16000个数据对象的两个同步平衡数据集组成，包含8个具有不同相似程度的环境的4.4小时视频。我们首先以1秒的间隔提取视频帧和伴随的音频。首先利用VGG16和进化优化的深度神经网络对图像和音频数据集进行独立分类，分类准确率分别为89.27%和93.72%。其次是两个神经网络的后期融合，以实现更高阶的功能，使得在这种具有同步视频帧和音频片段的多模态分类器中，准确率达到96.81%。当两个主网络作为特征生成器时，用于后期融合的三级神经网络比经典的状态分类算法性能提高了约3%。我们表明，单一模态可能被异常数据点混淆的情况现在通过新兴的高阶积分得到纠正。典型的例子包括一个城市的水特征被单独的音频分类器误分类为河流，以及一个拥挤的街道被单独的图像分类器误分类为森林。这两个例子都被我们的多模态方法正确分类。

背景与贡献

‘Where am I?’

人类利用他们的视觉、听觉、温度等感官以及过去的经验来判断他们是否碰巧在室内、室外和地理定位。这个过程在瞬间发生，无论出于什么目的。视觉听觉是人类为了解决模糊性而进行的最佳整合；人们普遍认为听觉主导时间知觉，视觉主导空间知觉。这两种方式对于了解周围环境至关重要。在一个快速向实验室或家庭之外的自动机器发展的世界中，环境识别是一个重要的信息，应该被视为空间意识解释过程的一部分。

视觉与听觉场景辨识

视觉和听觉结合相辅相成，例如，如果一个人在乡村道路上观察到繁忙的交通，仅周围环境的声音就可能被错误地归类为城市街道，而视觉使观察者能够识别乡村并纠正这一错误。相反，拥挤的城市街道混淆了一个强大的视觉模型，因为在多个尺度上没有可识别的物体，但是城市街道的声音仍然可以听到。尽管这种异常数据点混淆了视觉模型，但解释网络学习这些模式，并优先考虑音频分类，从而得到正确的预测结果。

我们作出以下贡献：

（1）形成了一个包含多种动态环境的大型数据集，并将其公开。该数据集提供了一个具有挑战性的问题，因为许多环境都有相似的视觉和听觉特性。（2）通过对视觉数据的训练，对VGG16模型进行有监督的转移学习，再加上工程化的一系列解释神经元进行微调，可以获得精确的分类能力。（3）对从伴音中提取的属性进行音频处理的深度神经网络的进化优化导致了准确的分类能力，类似于视觉网络。（4）最后的后期融合模型结合并解释了先前训练过的网络的输出，以便识别和纠正导致错误的各种异常数据点。多模态模型优于单独的视音频网络，因此我们认为多模态分类是一种更好的场景分类方法。

算法流程

1.整体框架

本文通过两个神经网络通过后期融合连接到另一个隐藏层，然后进行最终预测。在获取视频、视频帧和伴音片段的数据集之后，一般的实验过程如下。（i）对于音频分类：提取每个音频片段的mfcc以生成数值特征，并对神经网络拓扑进行进化优化以获得网络超参数。（ii）对于图像分类：由于较大图像所需的计算复杂度，通过centrecrop（square）进行预处理并调整为128x128x3的RGB矩阵，然后对解释层进行微调，以对VGG16训练权重集进行微调传输学习。（iii）对于最终模型：冻结前两个模型的训练权重，同时为视觉和音频数据的同步分类确定解释层的基准。

图1 整体结构无softmax激活层的预训练网络以同步图像和音频片段为输入，根据对两种模型输出的解释进行分类。

2. 方法

2.1 数据集

最初，在NTSC 29.97 FPS的9个环境等级中，以不同的长度收集了45个视频源，后来每个视频源减少到2000秒：海滩（4个源，2080秒），城市（5个源，2432秒），森林（3个源，2000秒），河流（8个源，2500秒），丛林（3个源，2000秒），足球比赛（4个源，2300秒）、教室（6个来源，2753秒）、餐厅（8个来源，2300秒）和杂货店（4个来源，2079秒）。从人类的角度来看，这些视频是动态的。所有的音频都是在环境中自然产生的。必须注意的是，有些类是相似的环境，因此提供了一个很难识别的问题。要生成初始数据对象，每秒都要执行裁剪。视频第二帧的中心帧与音频的第二帧一起提取，城市数据处理实例如图3所示。今后应进一步探讨观测长度。

2.1 网络处理

对于音频分类，使用进化算法[22]来选择MLP中包含的层和神经元的数量，以获得最佳的网络拓扑。由于稳定发生在第10代之前，人口被设定为20代，世代为10代。为了避免在局部极小值处的停滞被认为是错误的最佳解，模拟被执行了五次。隐藏层的激活设置为ReLu。

对于图像分类，除了卷积层之外的密集解释层外，VGG16层和权重[19]被实现，然后是{2，4，8，···，4096}ReLu神经元进行解释，最后是一个针对九类问题的softmax激活层。为了生成最终的模型，还遵循了之前的神经元基准测试过程。

这两个训练后的音频和图像分类模型的权重是固定的，训练集中在对网络输出的解释上。回到图2，softmax激活层从最初的两个网络中移除，以便通过连接将它们的解释传递到最终解释层，这是两个网络之后的一个密集连接层，{2，4，8，···，对4096个ReLu神经元进行基准测试，以显示多模态分类能力。所有的神经网络都训练了100个时代的洗牌10倍交叉验证。