谷歌YouTube算法团队:视频质量评价的集成池化方法
随着移动互联网的发展,视频成为信息消费越来越重要的形式(这从国内外的YouTube、抖音的发展可见一斑),而其中用户贡献内容(UGC)往往占很大比例。
因为每个用户制作水平不同,UGC内容的视频质量是良莠不齐的,视频网站运营商不仅要对视频内容进行审核,对视频的画面质量审核也非常重要。
所以自动化的视频质量评价应运而生。
今天arXiv新出论文《A Comparative Evaluation of Temporal Pooling Methods for Blind Video Quality Assessment》,
来自德克萨斯大学奥斯汀分校和谷歌YouTube算法团队的研究者对这一问题进行了分析,提出了一种集成池化方法,并建立了有效的评估,实验结果证明了方法的有效性。
视频质量评价方法(VQA)
VQA可分为有参考视频的质量评价(常用于对视频进行压缩或处理之后的前后比较)和无参考的质量评价。
很显然,对UGC内容的质量评价是无参考的,说白了这个问题就是对一段视频计算得出一个数值,反应视频的画面质量。
一种很直接的思路是,对每一帧画面进行图像质量评价,得到每一帧的质量分数,然后将这些质量分数综合起来,这个综合的过程,被称为时序池化(Temporal Pooling)。
考虑视频和人眼视觉感知的特点,业界已经出现了很多时序池化方法,包括:
算数平均:
直观、简单,用的也很广泛。
谐波平均:
有效抑制低质量视频帧影响。
几何平均:
可有效反应视频质量分数的中心趋势。
当然还有更复杂的、反应更多视频特点的时序池化方法不再细述,请查看原论文。
谷歌的工程师觉得:运用单个方法往往只能带来一个好处,如果把这些方法集成起来,对最终的视频质量评价肯定更有效(看起来很美好~)。
集成的方法很简单:
选择一种图像帧质量评价方法后,使用多个时序池化方法得到质量分数,然后使用线性回归,把它们结合起来。
实验结果
论文使用了多种图像质量评价方法,在两个大规模数据集KoNViD-1k 、LIVE-VQC上进行了实验,结果如下:
实验中作者选择了三种时序池化方法的结果进行集成,表格中EPooling即为集成池化方法的结果。
可见大多数情况下,EPooling都是最好的或者次好的。
作者指出,该文的集成池化方法只是提出了一个思路,在实际工程中,选用哪种图像质量评价方法、使用哪几种时序池化方法、选择什么回归方法都可以进一步探索。
论文地址:
https://arxiv.org/abs/2002.10651