本文首发于微信公众号《与有三学AI》

不知道你有没有读过笔者之前发过的一篇文章?

《干掉柯洁的下一步,阿尔法狗创始人又要毁掉这个行业(深度学习)》

文章在在公众号和知乎专栏都有,

AI的确对摄影的方方面面带来了很大的冲击,那么,当深度学习没有起来之前,计算机又是怎么玩摄影的呢?

从今天起,我们会分享一段时间的计算机美学方面的研究。所谓计算机美学,直白点就是给图片打个分,告诉你这是张高质量图片还是低质量图片。当然不直白点说,咱们就慢慢来吧。

今天,也是这个系列的第一篇,我们先从AVA美学质量评估数据库说起。因为数据是机器学习里最重要的东西,所以也算是合情合理。1 AVA Dataset【1】是什么?

这是一个美学质量评估的数据库,包括250000张照片。每一张照片,都有一系列的评分,以及语义级别的label,其中语义级别的label共60类,同时还有photographic style,也就是照片的风格,有14类,文后详说。

一句话总结:在规模,多样性和标注的一致性上,都不是以往的数据库可以比拟的。

在文章后面作者们还举了3个应用的例子,强调了该数据库的意义。2 AVA Dataset都做了什么标注?

2.1 Aesthetic annotations

顾名思义,美学质量标注。每一张图,都有若干人来投票,投票的数量从78~549。大概每一张图,有210个投票。投票的分数,从0~9,分值越高,说明图片质量越高。

并且,标注者中不止包括了专业的图像工作者,摄影师,也包括了摄影爱好者,这样显得更有普适性。

2.2 Semantic annotations

什么是语义标注呢?顾名思义,就是图像中到底包含了什么内容。具体来说,这个数据集包含了66个textual tags。大概有200000张图只包含一个tags,150000张图包含2个tags。

哪些tags最多呢,作者们也作出了一个统计。

从中可以看出,这些tags都不在一个维度的。

怎么说呢,有的是描述图像的内容,比如water,architecture,有的是描述图像的风格,比如black and white。

2.3 Photographic style annotations

好了,这个是比较难理解的一个部分 。为什么呢?因为真正的涉及到摄影美学了。从3大方向开始描述:

light, colour, composition。

最终得到了14个属性:

下面列出了所有属性,以及包含该属性的图片数量。

Complementary Colors (949), Duotones (1,301), High Dynamic Range (396), Image Grain (840), Light on White (1,199), Long Exposure (845), Macro (1,698), Motion Blur (609), Negative Image (959), Rule of Thirds (1,031), Shallow DOF (710), Silhouettes (1,389), Soft Focus (1,479), Vanishing Point (674).

就不翻译了,大家可以先对着去看中文。

如果对摄影相关的术语还不太懂,可以去我的摄影公众号《言有三工作室》去学习。

反正也不用着急,因为我们会慢慢道来。3 AVA Dataset靠不靠谱?

AVA不是第一个美学质量数据库,也不是最后一个,但是仍然是最大的美学数据集。

下面是AVA与其他的数据集做的比较:

其中,现在看来很多的维度都非常重要。

比如,当全局的美学平均分不够用时,AVA也提供了一个分布,而且每张图的标注数量很大,有偏性就很了。

另外,Semantic 和 style label现在甚至都可以单独当作一个问题来研究的。

不过,由于美学是一个很主观的东西,虽然每一张图都有人投票,但是评分到底靠不靠谱,

个体差异会不会很大呢?

作者做了分数分布统计,如下:

(1) 首先,分数的极端,也就是0和9分的占比。2~8分占超过99.77%的量,所以0和9的比例非常低,不必担心评分过于离谱。

(2) 再看各个区间,如下图。

可知,对于分值接近于5的,分布是很明显的高斯,这说明投票比较一致。而对于分值很高或者很低的,也分别在两侧有很陡的表现。综合表现说明,所有投票基本是达到一致结论的。

从下面方差图可以看出,越是分值接近于0.5的,越是方差小,说明越是稳定。

关于这个方差,作者也举例说明了:

如上图,都是在5分左右的图。上面一组图的方差小,这说明大家比较能达成一致,认为是5分左右,也就是一般般的图,不好不坏。但是下面的方差大,这说明有些人认为很好,有些人认为很差。

这种情况,通常出现在比较抽象的图。

综上,AVA dataset很靠谱。4 提一下应用

4.1 Large-Scale aesthetic quality categorization

应用于图像质量评估。

作者实验表明,随着数据库量级的增大和训练图像质量的增加,原来的各种方法都能在原有基础上得到提升。

4.2 Content-based aesthetic categorization

基于内容的图像质量聚类。作者取了最多的8个类别,训练了3个分类器:

(1) 训练了8个独立的SVM二分类器。

(2) 从这些类别中随机取了同样数量的图训练了1个分类器。

(3) 从AVA中随机选了10倍于(1),(2)中图像数量的图做了训练。

结果表明,第(1)个分类器效果好于第(2)个,而第(3)个又好于第(1)个,所以,可见越大的数据集,是有效的。 4.3 style categorization

作者训练了14个分类器,然后观察结果表明,对于”duotones”,“complementary colors”,“light on white”等,颜色直方图是最好的特征。而对于,“shallow depth of field”,“vanishing point”,SIFI和LBP是最好的特征。这些表明,对于不同style的照片,需要不同的特征来描述,所以style的标注是非常有意义的。

更多请移步

1,我的gitchat达人课

2,AI技术公众号,《与有三学AI》

3,以及摄影号,《有三工作室》

[1] AVA: A Large-Scale Database for Aesthetic Visual Analysis

ava查询mysql的数据_【技术综述】AVA-第一个大规模的美学质量评估数据库相关推荐

  1. 分布式从mysql查数据_技术分享 | 从库数据的查找和参数 slave_rows_search_algorithms...

    作者:高鹏 文章末尾有他著作的<深入理解MySQL主从原理 32讲>,深入透彻理解MySQL主从,GTID相关技术知识. 本文节选自<深入理解MySQL主从原理>第24节 注意 ...

  2. ava查询mysql的数据_MYSQLi数据访问查询数据

    单条件查询 数据查询 请输入汽车品牌: 汽车代号 汽车名字 系列代号 汽车油耗 汽车价格 $tj = " 1=1 ";//恒成立条件 $name = ""; i ...

  3. 大规模图数据匹配技术综述

    摘要 在大规模图数据上进行高效地查询.匹配是大数据分析处理的基础问题.从应用角度对图查询的图数据匹配技术的研究进展进行综述,根据图数据的不同特征以及应用的不同需求对图匹配问题分类进行介绍.同时,将重点 ...

  4. 分布式数据流计算系统的数据缓存技术综述

    点击上方蓝字关注我们 分布式数据流计算系统的数据缓存技术综述 袁旭初, 付国, 毕继泽, 张岩峰, 聂铁铮, 谷峪, 鲍玉斌, 于戈 东北大学计算机科学与工程学院,辽宁 沈阳 110169 论文引用格 ...

  5. 磁盘泄密威胁和数据销毁技术综述

    磁盘泄密威胁和数据销毁技术综述 中软通用产品研发中心 陈尚义 内容摘要:政府部门的有关规定对涉密计算机的磁盘数据销毁做出了明确规定,个人隐私在网络化和信息化条件下逐渐成为挑战,商业机密和知识产权保护成 ...

  6. NLP中的数据增强技术综述

    NLP数据增强技术 1. 词汇替换 Lexical Substitution 基于词典的替换 Thesaurus-based substitution 基于词向量的替换 Word-Embeddings ...

  7. 查询mysql版本好_查询mysql版本(select查mysql版本)

    查询mysql版本(select查mysql版本) 2020-07-24 11:32:47 共10个回答 1.通过mysql的-V参数查询版本信息mysql-V2.登录mysql时可以查询版本信息my ...

  8. 腾讯技术开放日 | 腾讯会议如何进行视频质量评估与优化?

    腾讯会议系统中,视频质量是影响用户体验的主要因素,对视频质量进行评估和优化是吸引和留住用户的关键.在开发腾讯会议质量评估系统的过程中,有哪些技术难点和相应的解决方案?在[腾讯技术开放日 · 云视频会议 ...

  9. 发布json数据_技术分享 | MySQL 8.0.17 GA 发布!

    昨日 MySQL 官网正式发布 8.0.17 / 5.7.27 / 5.6.45 三个(维护)版本,距离上一个 GA 版本(8.0.16)发布时隔仅 88 天! MySQL 各开发团队的博客网站,同一 ...

最新文章

  1. 硅谷“封城”前夜的L4级别无人车试乘实况,及其背后创新技术的深度剖析
  2. Flash存储控制器组成!(flash)
  3. 懒人 IDEA 插件推荐: EasyCode 一键帮你生成所需代码~
  4. [它山之石] 一件事情,假设你不能说清楚,十有八九你就做不好
  5. 【程序设计】模块化程序设计
  6. Hugo中文文档 快速开始
  7. Linux操作系统多线程信号总结(转)
  8. 作文未来的计算机医生300字,医生作文300字【3篇】
  9. 如何使用Mac预览程序将png转换为jpg格式的技巧分享
  10. 【Java】PAT乙级真题全记录(二)21到40题
  11. ci框架基础详解(入门学习)
  12. 回顾码农历程总结2013 期待2014
  13. js简单分页,只有上一页和下一页
  14. ES插件在谷歌浏览器的安装
  15. 点或积分区域的对称性,积分结果的对称性
  16. Affinity Designer笔记:从图像创建调色板
  17. 华为nova7se能云闪付吗_vivoS7和华为nova7se哪个好?自拍手机该如何抉择!
  18. D - Folding Machine ( dfs )
  19. 淘宝按关键词搜索示例
  20. 强大的Http监控工具Fidder

热门文章

  1. 欢迎使用CSDN-markdown编辑器噶梦想偶尔
  2. web开发 jsp页面3 JSTL if choose/when/otherwise forEach
  3. Android驱动模块调试方法
  4. 实证论文复刻|stata安慰剂检验
  5. swi prolog 和java_java-如何在Android中使用swi-prolog
  6. pd.read_excel出现ValueError: Unknown engine: openpyxl解决方案
  7. 原创 | 既生synchronized,何生volatile?!
  8. ubuntu 安装 docker swarm 集群
  9. html5调用静态库,如何在VS2010项目中引用Lib静态库(以Openssl为例)
  10. 乾隆皇帝大年夜都吃啥?