一文看尽2018全年计算机视觉大突破

摘要:计算机视觉领域同样精彩纷呈,与四年前相比GAN生成的假脸逼真到让人不敢相信;新工具、新框架的出现,也让这个领域的明天特别让人期待……
近日,Analytics Vidhya发布了一份2018人工智能技术总结与2019趋势预测报告,原文作者PRANAV DAR。这份报告总结和梳理了全年主要AI技术领域的重大进展,同时也给出了相关的资源地址,以便大家更好的使用、查询。
重点为大家介绍这份报告中的两个部分:计算机视觉工具和库
下面我们就逐一来盘点和展望。
计算机视觉今年,无论是图像还是视频方向都有大量新研究问世,有三大研究曾在CV圈掀起了集体波澜。
BigGAN
今年9月,当搭载BigGAN的双盲评审中的ICLR 2019论文现身,行家们就沸腾了:简直看不出这是GAN自己生成的。


在计算机图像研究史上,BigGAN的效果比前人进步了一大截。比如在ImageNet上进行128×128分辨率的训练后,它的Inception Score(IS)得分166.3,是之前最佳得分52.52分3倍。
除了搞定128×128小图之外,BigGAN还能直接在256×256、512×512的ImageNet数据上训练,生成更让人信服的样本。

在论文中研究人员揭秘,BigGAN的惊人效果背后,真的付出了金钱的代价,最多要用512个TPU训练,费用可达11万美元,合人民币76万元。
不止是模型参数多,训练规模也是有GAN以来最大的。它的参数是前人的2-4倍,批次大小是前人的8倍。
研究论文:https://openreview.net/pdf?id=B1xsqj09Fm
Fast.ai 18分钟训练整个ImageNet
在完整的ImageNet上训练一个模型需要多久?各大公司不断下血本刷新着记录。
不过,也有不那么烧计算资源的平民版。
今年8月,在线深度学习课程Fast.ai的创始人Jeremy Howard和自己的学生,用租来的亚马逊AWS的云计算资源,18分钟在ImageNet上将图像分类模型训练到了93%的准确率。
前前后后,Fast.ai团队只用了16个AWS云实例,每个实例搭载8块英伟达V100 GPU,结果比Google用TPU Pod在斯坦福DAWNBench测试上达到的速度还要快40%。
这样拔群的成绩,成本价只需要40美元,Fast.ai在博客中将其称作人人可实现。Fast.ai博客介绍:https://www.fast.ai/2018/08/10/fastai-diu-imagenet/
vid2vid技术
今年8月,英伟达和MIT的研究团队高出一个超逼真高清视频生成AI。
只要一幅动态的语义地图,就可获得和真实世界几乎一模一样的视频。换句话说,只要把你心中的场景勾勒出来,无需实拍,电影级的视频就可以自动P出来,除了街景,人脸也可生成。
这背后的vid2vid技术,是一种在生成对抗性学习框架下的新方法:精心设计的生成器和鉴别器架构,再加上时空对抗目标。
这种方法可以在分割蒙版、素描草图、人体姿势等多种输入格式上,实现高分辨率、逼真、时间相干的视频效果。
研究论文:https://tcwang0509.github.io/vid2vid/paper_vid2vid.pdf
GitHub地址:https://github.com/NVIDIA/vid2vid
2019趋势展望
Analytics Vidhya预计,明年在计算机视觉领域,对现有方法的改进和增强的研究可能多于创造新方法。
在美国,政府对无人机的限令可能会稍微“松绑”,开放程度可能增加。而今年大火的自监督学习明年可能会应用到更多研究中。
Analytics Vidhya对视觉领域也有一些期待,目前来看,在CVPR和ICML等国际顶会上公布最新研究成果,在工业界的应用情况还不乐观。他希望在2019年,能看到更多的研究在实际场景中落地。
Analytics Vidhya预计,视觉问答(Visual Question Answering,VQA)技术和视觉对话系统可能会在各种实际应用中首次亮相。
工具和框架
哪种工具最好?哪个框架代表了未来?这都是一个个能永远争论下去的话题。
没有异议的是,不管争辩的结果是什么,我们都需要掌握和了解最新的工具,否则就有可能被行业所抛弃。
今年,机器学习领域的工具和框架仍在快速的发展,下面就是这方面的总结和展望。
PyTorch 1.0
根据10月GitHub发布的2018年度报告,PyTorch在增长最快的开源项目排行上,名列第二。也是唯一入围的深度学习框架。
作为谷歌TensorFlow最大的“劲敌”,PyTorch其实是一个新兵,2017年1月19日才正式发布。2018年5月,PyTorch和Caffe2整合,成为新一代PyTorch 1.0,竞争力更进一步。
相较而言,PyTorch速度快而且非常灵活,在GitHub上有越来越多的开码都采用了PyTorch框架。可以预见,明年PyTorch会更加普及。
至于PyTorch和TensorFlow怎么选择?在我们之前发过的一篇报道里,不少大佬站PyTorch。
实际上,两个框架越来越像。前Google Brain深度学习研究员,Denny Britz认为,大多数情况下,选择哪一个深度学习框架,其实影响没那么大。
PyTorch官网:https://pytorch.org/
AutoML
很多人将AutoML称为深度学习的新方式,认为它改变了整个系统。有了AutoML,我们就不再需要设计复杂的深度学习网络。
今年1月17日,谷歌推出Cloud AutoML服务,把自家的AutoML技术通过云平台对外发布,即便你不懂机器学习,也能训练出一个定制化的机器学习模型。
不过AutoML并不是谷歌的专利。过去几年,很多公司都在涉足这个领域,比方国外有RapidMiner、KNIME、DataRobot和H2O.ai等等。
除了这些公司的产品,还有一个开源库要介绍给大家:
Auto Keras!
这是一个用于执行AutoML任务的开源库,意在让更多人即便没有人工智能的专家背景,也能搞定机器学习这件事。
这个库的作者是美国德州农工大学(Texas A&M University)助理教授胡侠和他的两名博士生:金海峰、Qingquan Song。Auto Keras直击谷歌AutoML的三大缺陷:
第一,还得付钱。
第二,因为在云上,还得配置Docker容器和Kubernetes。
第三,服务商(Google)保证不了你数据安全和隐私。
官网:https://autokeras.com/
GitHub:https://github.com/jhfjhfj1/autokeras
TensorFlow.js
今年3月底的TensorFlow开发者会峰会2018上,TensorFlow.js正式发布。
这是一个面向JavaScript开发者的机器学习框架,可以完全在浏览器中定义和训练模型,也能导入离线训练的TensorFlow和Keras模型进行预测,还对WebGL实现无缝支持。
在浏览器中使用TensorFlow.js可以扩展更多的应用场景,包括展开交互式的机器学习、所有数据都保存在客户端的情况等。
实际上,这个新发布的TensorFlow.js,就是基于之前的deeplearn.js,只不过被整合进TensorFlow之中。
谷歌还给了几个TensorFlow.js的应用案例。比如借用你的摄像头,来玩经典游戏:吃豆人(Pac-Man)。
官网:https://js.tensorflow.org/
2019趋势展望
在工具这个主题中,最受关注的就是AutoML。因为这是一个真正会改变游戏规则的核心技术。在此,引用H2O.ai的大神Marios Michailidis(KazAnova)对明年AutoML领域的展望。
以智能可视化、提供洞见等方式,帮助描述和理解数据为数据集
发现、构建、提取更好的特征
快速构建更强大、更智能的预测模型
通过机器学习可解释性,弥补黑盒建模带来的差距
推动这些模型的产生
转载自:极市平台(ID:extrememart)

一文看尽2018全年计算机视觉大突破人工智能前沿相关推荐

  1. 一文看尽2018全年计算机视觉大突破

    来源:极市平台 摘要:计算机视觉领域同样精彩纷呈,与四年前相比GAN生成的假脸逼真到让人不敢相信:新工具.新框架的出现,也让这个领域的明天特别让人期待-- 2018,仍是AI领域激动人心的一年. 计算 ...

  2. 年度回顾 :一文看尽2018全年AI技术大突破

    本文经AI新媒体量子位(公众号 ID: QbitAI)授权转载,转载请联系出处 2018,仍是AI领域激动人心的一年. 这一年成为NLP研究的分水岭,各种突破接连不断:CV领域同样精彩纷呈,与四年前相 ...

  3. 一文看尽2018全年AI技术大突破

    来源:量子位 摘要:2018,仍是AI领域激动人心的一年.这一年成为NLP研究的分水岭,各种突破接连不断:CV领域同样精彩纷呈,与四年前相比GAN生成的假脸逼真到让人不敢相信:新工具.新框架的出现,也 ...

  4. 一文看尽 | 2018年电子合同与电子签章大发展、大突破

    2018年,是电子合同.电子签章技术持续发展.深度融合的一年. 这一年,电子签章应用更加贴合应用场景,签章管理功能更加精细: 这一年,政策与技术持续完善,为电子签章应用实施落地保驾护航: 这一年,以电 ...

  5. 一文看尽2019全年AI技术突破

    2020-01-29 11:45:29 边策 十三 鱼羊 发自 凹非寺量子位 报道 | 公众号 QbitAI 2019年,整个AI行业的发展如何? NLP模型不断刷新成绩,谷歌和Facebook你方唱 ...

  6. 一文看完2018苹果秋季新品发布会,你想知道的问题这里都有答案!

    苹果2018秋季新品发布会结束了.此处发布会看完下来内心毫无波澜,并没有多少惊艳到人的地方,倒是处处看到了国产手机发布会的影子.话不多说,下文给大家汇总一下本次苹果新品发布会的重点. 命名有国产手机的 ...

  7. 一文看尽2020全年AI技术突破

    2020-12-26 11:08:01 晓查 蕾师师 发自 凹非寺 量子位 报道 | 公众号 QbitAI 2020年在紧张的防疫工作中悄然过去.这一年,人工智能却从来没有停下前进的脚步. 这一年人工 ...

  8. 一文看懂最近70年的人工智能简史!中国已经领先全球!

    来源:techjury [导读]如果从阿兰·图灵1943年首次提出"图灵机"的概念算起,AI已经经历了86年的发展史.本文以信息图的形式回顾了这70多年的标志性事件,并归纳出AI发 ...

  9. 当仁不让!一文看尽MWC舞台上的人工智能

    ▼ 点击上方蓝字 关注网易智能 聚焦AI,读懂下一个大时代! [网易智能讯 2月28日消息]本周一,巴塞罗那世界移动大会(MWC2018)正式开幕,作为"移动通信行业的风向标",开 ...

最新文章

  1. Prometheus — 核心概念
  2. 国家卫健委发布第一版新冠疫苗接种技术指南
  3. linux top交叉编译_Linux 系统下ARM Linux交叉编译环境crosstool工具
  4. Spark1.4 和 Hive 1.1.1 启动错误
  5. 服务器被攻击怎么办 安全狗来防护
  6. Android之不需要自定义View(ViewfindView.java)最简单的二维码扫描
  7. scala使用java类_使用Java和Scala将Play Framework 2应用程序部署到Openshift
  8. oracle12 快照保存时间,【AWR】调整AWR数据采样时间间隔及历史快照保留时间
  9. 3月初的日记:网站工作记录
  10. python爬虫爬取今日头条_Python爬虫实战入门五:获取JS动态内容—爬取今日头条...
  11. 详细步骤:pytorch pth转wts转tensorrt(自定义模型,不用parser)
  12. 数据结构化——pandas库
  13. php设为首页代码,JavaScript
  14. Hash散列算法详细解析(六)
  15. navicat报错 Access violation at address in module ‘navicat.exe‘
  16. 鸡啄米:C++编程入门系列之目录和总结
  17. 骨灰级玩家体验带你测试体验天使纪元OL折扣端
  18. VMware vCenter Converter 物理机迁移
  19. 简单聊一聊如今火爆当下的数字孪生技术到底为何物
  20. Cross Domian iFrame Exceptions 跨域iFrame屏蔽例外

热门文章

  1. 详解汽车数字钥匙(Digital Key)规范
  2. netbeans设置默认编码和菜单字体大小的方法。。
  3. Python-绘制花朵
  4. <码农翻身>读书笔记
  5. pytorch实现CNN网络
  6. 手把手教你写个xposed模块
  7. 低年级语文教学:立足语文学习关注核心素养
  8. C语言初探 之 printf压栈顺序
  9. Spring 之官方中文文档
  10. Java多线程案例及其代码实现