12月8日论文推荐(附下载地址)
论文名:
Collaborative Deep Metric Learning for Video Understanding
作者:
Joonseok Lee (Google AI Perception), Sami Abu-El-Haija (Google AI Perception), Balakrishnan Varadarajan (Google AI Perception), Apostol (Paul) Natsev (Google AI Perception)
推荐理由:
“Collaborative Deep Metric Learning for Video Understanding”是Google AI Perception的一篇文章,这篇文章是提出了一个新的深度学习框架,大大提高了视频理解的精度。传统的视频分析的研究大多针对特定问题,比如视频分类、视频搜索、个性化推荐等;这篇文章提出一个新的表示学习方法,把传统的几个问题都归一化为统一表示的学习问题。最后在2亿多个YouTube视频数据上的实验表明,无论视频分类还是视频推荐都比传统方法好的多。本质上,这篇文章解决的视频理解的问题可以用下图的例子来解释。
图:视频推荐(左)和视频搜索(右)
从方法论文,这篇文章的方法其实很简单,首先对视频的内容进行表示学习,具体来说用的是Inception-v3 网络,另一方面对音频信息也进行表示学习,这里用了一个基于VGG的音频模型和ResNet-50的网络结构。学习的时候使用了排序的Triplet loss,也就是给定三个视频(Anchor、Positive、Negative),保证学习的时候Anchor视频和Positive更相似,和Negative更不相似(Negative可以随机选择一个)。学习的时候把刚才单独学习到的表示作为Triplet Loss function的输入,然后学习每个视频的混合表示(包括视频和音频)。混合策略可以有Early Fusion(右下图中的第一个混合策略),或者Late Fusion(右下图中的第一个混合策略)。
图:方法框架
最后在视频推荐和视频检索方面的效果都很不错。下图是视频推荐的评测结果以及在YouTube-8M数据集上的视频检索的例子。
Abstract
The goal of video understanding is to develop algorithms that enable machines understand videos at the level of human experts. Researchers have tackled various domains including video classification, search, personalized recommendation, and more. However, there is a research gap in combining these domains in one unified learning framework. Towards that, we propose a deep network that embeds videos using their audio-visual content, onto a metric space which preserves video-to-video relationships. Then, we use the trained embedding network to tackle various domains including video classification and recommendation, showing significant improvements over state-of-the-art baselines. The proposed approach is highly scalable to deploy on large-scale video sharing platforms like YouTube.