走向AI摄影终极之路 AVA数据集后时代与发展?
编辑:叶琰
简介
前面两篇已经介绍过当今最大的美学数据集AVA以及AVA之前的数据集,AVA数据集的发布是2012年,离现在已经过去了5年,在机器学习迭代如此频繁的日子里,必然会出现新的数据集。
本文就略作介绍,也是数据集介绍的最后一篇文章。在准备好这些之后,就要开始真正的搞起了!
1,AADB【1】(Aesthetic with Attributes Database)
总的来说,AADB算是AVA数据集的一个补充。标注的方式,是请了5个人,最终的score取5个人的平均值,共10000张图。除了标注分数外,也标注了11个属性。
与AVA数据集的区别主要在于:
a) AVA中包含了很多非真实的摄影图,以及后期处理过的图,所以AVA中分数超过5分(满分为10分)的占据绝大多数。但是AADB中,则更多地考虑了专业摄影者和普通拍照者图的均衡,基本是1:1。
b) 由于标注者少,AADB专门去分析了标注者的标注一致性。间接反映出标注者的质量,也就是证明了标注者是具有很高的标注水准。结果具有了很高的一致性,是可靠的;
c) 关于图像属性,也就是风格的标注,AADB给AVA做了补充。
与AVA一样,AADB也标注了属性,那有什么不同呢?
那么,我们先回顾一下AVA的14个属性,括号内是包含该属性的图的数量:Complementary Colors (949), Duotones (1,301), High Dynamic Range (396), Image Grain (840), Light on White (1,199), Long Exposure (845), Macro (1,698), Motion Blur (609), Negative Image (959), Rule of Thirds (1,031), Shallow DOF (710), Silhouettes (1,389), Soft Focus (1,479), Vanishing Point (674).
然后我们看看AADB的11个属性。
1. “balancing element” – whether the image contains balanced elements;
2. “content” – whether the image has good/interesting content;
3. “color harmony” – whether the overall color of the image is harmonious;
4. “depth of field” – whether the image has shallow depth of field;
5. “lighting” – whether the image has good/interesting lighting;
6. “motion blur” – whether the image has motion blur;
7. “object emphasis” – whether the image emphasizes foreground objects;
8. “rule of thirds” – whether the photography follows rule of thirds;
9. “vivid color”–whether the photo has vivid color, not necessarily harmonious color;
10. “repetition” – whether the image has repetitive patterns;
11. “symmetry” – whether the photo has symmetric patterns.
除去Shallow DOF,lighting,Rule of Thirds,Motion Blur之外,其他都是多出来的,举了例子如下:
这些属性的分布示例如下:
看看他们的标注示意图吧。
高分图:
低分图:
2,AADB之后,文【2】又提出了新的数据集
说了一下前两者的缺点:
AVA的主要缺点:很多图都被后期过。
AADB的主要缺点:基本上是原图,但是数据集太小,标注人员也太少。
而本文是从flickr爬取的300多万,2004~2016年间的图,每一张图都包括:
number of views(阅读量), comments(评论), favorite list containing this photo(被喜欢量), title of the image and their description from the Flickr website.
平均每一张图被访问过7000次。
这么多的图,显然不可能人工标注:因此采用了上面的一些信息来做标注label
以被喜欢量F(i),比上访问量V(i)的对数,来评估其美学质量,这可以说是一个很客观的指标了:
更详细的比较结果如下:
3,后续的数据集的展望
类似于【2】的做法,在【3】中也出现了。
在看完三个数据集的介绍之后,想必大家心里也有了一个路线图。
(1) 最开始的时候:数据集比较小,大家只标注个高质量与低质量的二分类。
(2) 到后来,数据集增加,标注了具体的分数,还增加了属性。
(3) 到最新,数据集到百万级别,已经无法再做很细致的人工标注,在往无监督的方向。
[1] Kong S, Shen X, Lin Z, et al. Photo Aesthetics Ranking Network with Attributes and Content Adaptation[J]. 2016:662-679.
[2] Schwarz K, Wieschollek P, Lensch H P A. Will People Like Your Image?[J]. 2016.
[3] Suchecki M, Trzcinski T. Understanding Aesthetics in Photography using Deep Convolutional Neural Networks[J]. 2017.