来源:  新智元

本文约4600字,建议阅读5分钟

本文为你总结2020年AI领域有很多精彩的重要成果。

2020年,想必各国的人民都被新冠病毒支配得瑟瑟发抖...

不过,这并不影响科研工作者的工作态度和产出质量。

疫情之下,通过各种方式,全球的研究者继续积极合作,发表了许许多多有影响力的成果——特别是在人工智能领域。

同时,AI偏见和AI伦理也开始逐渐引起大家的普遍重视。

在今年新的研究成果中,那些汇集着科研工作者心血的精华部分,势必会对未来几年人工智能的发展,有着不小的影响。

这篇文章就为您介绍了从2020年初到现在为止,在AI和数据科学领域,最有趣,最具突破性的论文成果:

1、YOLOv4:目标检测的最佳速度和精度

论文原文:

A. Bochkovskiy, C.-Y. Wang, and H.-Y. M. Liao, Yolov4: Optimal speed and accuracy of object detection, 2020. arXiv:2004.10934 [cs.CV].

2020年4月,Alexey Bochkovsky等人在论文“YOLOv4:目标检测的最优速度和精度”中正式引入了Yolo4。论文中算法的主要目标,是制作一个具有高质量、高精度的超高速目标探测器。

代码地址:

https://github.com/AlexeyAB/darknet

2、DeepFace rawing:依据草图的人脸图像深度生成

论文原文:

S.-Y. Chen, W. Su, L. Gao, S. Xia, and H. Fu, “DeepFaceDrawing: Deep generation of face images from sketches,” ACM Transactions on Graphics (Proceedings of ACM SIGGRAPH2020), vol. 39, no. 4, 72:1–72:16, 2020.

根据这种新的图像到图像转换技术,我们可以从粗糙的或甚至不完整的草图出发,来生成高质量的面部图像。不仅如此,我们甚至还可以调整眼睛、嘴巴和鼻子对最终图像的影响。

代码地址:

https://github.com/IGLICT/DeepFaceDrawing-Jittor

3、PULSE:通过生成模型的潜空间探索进行自我监督照片上采样

论文原文:

S. Menon, A. Damian, S. Hu, N. Ravi, and C. Rudin, Pulse: Self-supervised photo upsampling via latent space exploration of generative models, 2020. arXiv:2003.03808 [cs.CV].

该算法可以将模糊的图像转换成高分辨率的图像——它可以把一个超低分辨率的16x16图像,转换成1080p高清晰度的人脸。

代码地址:

https://github.com/adamian98/pulse

4、编程语言的无监督翻译

论文原文:

M.-A. Lachaux, B. Roziere, L. Chanussot, and G. Lample, Unsupervised translation of programming languages, 2020. arXiv:2006.03511 [cs.CL].

这种新模型,可以将代码从一种编程语言转换为另一种编程语言,而不需要任何监督。它可以接受Python函数并将其转换为c++函数,反之亦然,而不需要任何先前的示例。它理解每种语言的语法,因此可以推广到任何编程语言。

代码地址:

https://github.com/facebookresearch/TransCoder?utm_source=catalyzex.com

5、PIFuHD:多层次像素对齐隐式功能,用于高分辨率的3D人体重建

论文原文:

S. Saito, T. Simon, J. Saragih, and H. Joo, Pifuhd: Multi-level pixel-aligned implicit function for high-resolution 3d human digitization, 2020. arXiv:2004.00452 [cs.CV].

这个技术,可以根据2D图像来重建3D高分辨率的人。你只需要提供一个单一的形象,就可以产生一个3D化身,哪怕从背后,也看起来像你。

代码地址:

https://github.com/facebookresearch/pifuhd

6、迪士尼的百万像素级换脸技术

论文原文:

J. Naruniec, L. Helminger, C. Schroers, and R. Weber, “High-resolution neural face-swapping for visual effects,” Computer Graphics Forum, vol. 39, pp. 173–184, Jul. 2020.doi:10.1111/cgf.14062.

迪士尼在欧洲图形学会透视研讨会(EGSR)上发表研究,展示了首个百万像素逼真换脸技术。他们提出了一种在图像和视频中实现全自动换脸的算法。据研究者称,这是首个渲染百万像素逼真结果的方法,且输出结果具备时序一致性。

论文链接:

https://studios.disneyresearch.com/2020/06/29/high-resolution-neural-face-swapping-for-visual-effects/

7、互换自动编码器的深度图像处理

论文原文:

T. Park, J.-Y. Zhu, O. Wang, J. Lu, E. Shechtman, A. A. Efros, and R. Zhang,Swappingautoencoder for deep image manipulation, 2020. arXiv:2007.00653 [cs.CV].

这种新技术,通过完全的无监督训练,可以改变任何图片的纹理,同时还能保持真实性。结果看起来甚至比GAN还要好,并且速度要快得多。它甚至可以用来制作deepfakes。

代码地址:

https://github.com/rosinality/swapping-autoencoder-pytorch?utm_source=catalyzex.com

8、GPT-3:实现小样本学习的语言模型

论文原文:

T. B. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P.Shyam, G. Sastry, A. Askell, S. Agarwal, A. Herbert-Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, D. M. Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin, S.Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever, and D. Amodei,“Language models are few-shot learners,” 2020. arXiv:2005.14165 [cs.CL].

目前最先进的NLP系统,都在努力推广到不同的任务上去,而它们需要在数千个样本的数据集上进行微调,相比而言,人类只需要看到几个例子,就可以执行新的语言任务。这就是GPT-3背后的目标——改进语言模型的任务无关特性。

代码地址:

https://github.com/openai/gpt-3

9、联合时空变换的视频绘制

论文原文:

Y. Zeng, J. Fu, and H. Chao, Learning joint spatial-temporal transformations for video in-painting, 2020. arXiv:2007.10247 [cs.CV].

这种AI技术,可以填补删除移动物体后的缺失像素,并且可以重建整个视频。这种方法,比之前的方法都要更准确,更清晰。

代码地址:

https://github.com/researchmm/STTN?utm_source=catalyzex.com

10、像素级别的生成预处理

论文原文:

M. Chen, A. Radford, R. Child, J. Wu, H. Jun, D. Luan, and I. Sutskever, “Generative pretraining from pixels,” in Proceedings of the 37th International Conference on Machine Learning, H. D. III and A. Singh, Eds., ser. Proceedings of Machine Learning Research, vol. 119, Virtual: PMLR, 13–18 Jul 2020, pp. 1691–1703. [Online].

一个好的AI,比如在Gmail中使用的AI,可以生成连贯的文本并补全短语。类似的,使用相同的原则,这个模型可以补全一个图像。此外,所有这些都是在无监督的训练中完成的,根本不需要任何标签!

代码地址:

https://github.com/openai/image-gpt

11、使用白盒卡通表示,来学习卡通化的过程

论文原文:

Xinrui Wang and Jinze Yu, “Learning to Cartoonize Using White-box Cartoon Representations.”, IEEE Conference on Computer Vision and Pattern Recognition, June 2020.

只要输入你想要的的卡通风格,这个AI技术可以将任何图片或视频卡通化。

代码地址:

https://github.com/SystemErrorWang/White-box-Cartoonization

12、FreezeG冻结甄别器:一个简单的基准来微调GAN

论文原文:

S. Mo, M. Cho, and J. Shin, Freeze the discriminator: A simple baseline for fine-tuning gans,2020. arXiv:2002.10964 [cs.CV].

这个人脸生成模型,能够将正常的人脸照片转换成独特的风格,如Lee malnyeon,辛普森一家,艺术的风格,你甚至还可以试试狗! 这种新技术最好的地方,是它超级简单,而且显著优于以前使用GAN的技术。

代码地址:

https://github.com/sangwoomo/freezeD?utm_source=catalyzex.com

13、从单一图像对人的神经重新渲染

论文地址:

K. Sarkar, D. Mehta, W. Xu, V. Golyanik, and C. Theobalt, “Neural re-rendering of humans from a single image,” in European Conference on Computer Vision (ECCV), 2020.

该算法将人体的姿态和形状表示为一个参数网格,可以由单个图像重建,并易于恢复。根据其他输入图片,给定一个人的图像,此技术能够创建这个人具有不同姿势,身穿不同衣服的合成图像。

项目主页:

http://gvv.mpi-inf.mpg.de/projects/NHRR/

14、I2L-MeshNet:实现从单个RGB图像出发,来进行精确三维人体姿态和网格估计的mage-to-Lixel 预测网络

论文原文:

G. Moon and K. M. Lee, “I2l-meshnet: Image-to-lixel prediction network for accurate 3d human pose and mesh estimation from a single rgb image,” in European Conference on ComputerVision (ECCV), 2020

该论文研究者提出了一种从单一RGB图像,来进行三维人体姿态和网格估计的新技术,他们将其称之为I2L-MeshNet。其中I2L表示图像到lixel,类似于体素(体积+像素),研究者将lixel、一条线和像素定义为一维空间中的量化细胞。

I2L-MeshNet: Image-to-Lixel Prediction Network for Accurate 3D Human Pose and Mesh Estimation from a Single RGB Image [14]

代码地址:

https://github.com/mks0601/I2L-MeshNet_RELEASE

15、超级导航图:连续环境中的视觉语言导航

论文原文:

J. Krantz, E. Wijmans, A. Majumdar, D. Batra, and S. Lee, “Beyond the nav-graph: Vision-and-language navigation in continuous environments,” 2020. arXiv:2004.02857 [cs.CV].

语言导航是一个被广泛研究且非常复杂的领域。事实上,对于一个人来说,穿过一间房子去取你放在床边床头柜上的咖啡似乎很简单。但对于机器来说,情况就完全不同了。agent是一种自主的人工智能驱动系统,使用深度学习来执行任务。

代码地址:

https://github.com/jacobkrantz/VLN-CE

16、RAFT:光流的循环全对场变换

论文原文:

Z. Teed and J. Deng, Raft: Recurrent all-pairs field transforms for optical flow, 2020. arXiv:2003.12039 [cs.CV].

此篇论文来自于普林斯顿大学的团队,并获得ECCV 2020最佳论文奖。研究者开发了一种新的端到端可训练的光流模型。他们的方法超越了最先进的架构在多个数据集上的准确性,而且效率更高。

代码地址:

https://github.com/princeton-vl/RAFT

17、众包采样全光功能

论文原文:

Z. Li, W. Xian, A. Davis, and N. Snavely, “Crowdsampling the plenoptic function,” inProc.European Conference on Computer Vision (ECCV), 2020.

利用游客在网上公开的照片,他们能够重建一个场景的多个视点,并保留真实的阴影和光线。对于photorealistic场景渲染来说,这是一个巨大的进步,象征着最先进的技术。他们的结果是惊人的。

代码地址:

https://github.com/zhengqili/Crowdsampling-the-Plenoptic-Function

18、通过深度潜在空间翻译来恢复老照片

论文原文:

Z. Wan, B. Zhang, D. Chen, P. Zhang, D. Chen, J. Liao, and F. Wen, Old photo restoration via deep latent space translation, 2020. arXiv:2009.07047 [cs.CV].

想象一下,仅仅靠那些旧的、折叠的、甚至撕破的照片,你就不留任何人工痕迹地可以拥有祖母18岁时的高清照——这就是所谓的旧照片恢复。

代码地址:

https://github.com/microsoft/Bringing-Old-Photos-Back-to-Life?utm_source=catalyzex.com

19、支持可审核自治的神经回路策略

论文原文:

Lechner, M., Hasani, R., Amini, A. et al. Neural circuit policies enabling auditable autonomy. Nat Mach Intell2, 642–652 (2020).

奥地利理工学院(IST Austria)和麻省理工学院(MIT)的研究人员利用一种新的人工智能系统,是基于蠕虫等微小动物的大脑,他们成功训练了一辆自动驾驶汽车。与Inceptions、Resnets或VGG等流行的深度神经网络所需的数百万神经元相比,他们只需要少数神经元,就能控制自动驾驶汽车。

论文地址:

https://doi.org/10.1038/s42256-020-00237-3

20、了解不同岁数的你

论文原文:

R. Or-El, S. Sengupta, O. Fried, E. Shechtman, and I. Kemelmacher-Shlizerman, “Lifespanage transformation synthesis,” in Proceedings of the European Conference on Computer Vision(ECCV), 2020.

想看看你40岁的时候长什么样?现在可以了!Adobe研究院的一组研究人员开发了一种新技术,仅根据一张真人照片,就可以合成此人在任何年龄的照片。

代码地址:

https://github.com/royorel/Lifespan_Age_Transformation_Synthesis

21、DeOldify:为黑白图像着色

DeOldify是一种对旧的黑白图像或甚至电影胶片进行着色和恢复的技术。它由Jason Antic开发,目前仍在更新中。这是现在给黑白图像着色的最先进的方法,所有的东西都是开源的。

代码地址:

https://github.com/jantic/DeOldify

22、COOT:视频文本表示学习的协作层次变换

论文原文:

S. Ging, M. Zolfaghari, H. Pirsiavash, and T. Brox, “Coot: Cooperative hierarchical trans-former for video-text representation learning,” in Conference on Neural Information ProcessingSystems, 2020.

顾名思义,通过输入视频和视频的一般描述,此技术能使用转换器,为视频的每个序列生成准确的文本描述。

代码地址:

https://github.com/gingsi/coot-videotext

23、像一个真正的画家一样变换图片风格

论文原文:

Z. Zou, T. Shi, S. Qiu, Y. Yuan, and Z. Shi, Stylized neural painting, 2020. arXiv:2011.08114[cs.CV]

这种从图像到绘画的转换模型,使用了一种不涉及任何GAN架构的新颖方法,在多种风格上模拟一个真正的画家。

代码地址:

https://github.com/jiupinjia/stylized-neural-painting

24、实时人像抠图真的需要绿色屏幕吗?

论文原文:

Z. Ke, K. Li, Y. Zhou, Q. Wu, X. Mao, Q. Yan, and R. W. Lau, “Is a green screen really necessary for real-time portrait matting?” ArXiv, vol. abs/2011.11961, 2020.

人体抠图是一项非常有趣的任务,它的目标是找到照片中的任何一个人,并将背景从照片中移除。由于任务的复杂性,要找到拥有完美轮廓的人是非常困难的。在这篇文章中,研究者回顾了这些年来使用的最佳技术和发表于2020年11月29日的一种新方法。

项目地址:

https://github.com/ZHKKKe/MODNet

25、ADA: 使用有限数据训练生成对抗网络

论文原文:

T. Karras, M. Aittala, J. Hellsten, S. Laine, J. Lehtinen, and T. Aila, Training generative adversarial networks with limited data, 2020. arXiv:2006.06676 [cs.CV].

使用这种由英伟达开发的新训练方法,仅仅使用十分之一的图像,您就可以训练一个强大的生成模型!

代码地址:

https://github.com/NVlabs/stylegan2-ada

最后,大家也可以在在GitHub中访问论文完整列表:

https://github.com/louisfb01/Best_AI_paper_2020

参考链接:

https://medium.com/towards-artificial-intelligence/2020-a-year-full-of-amazing-ai-papers-a-review-c42fa07aff4b

编辑:王菁

校对:林亦霖

年终收藏!一文看尽2020年度最出圈AI论文合集相关推荐

  1. 年终收藏! 一文看尽2020年度最「出圈」AI论文合集

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 转载自:新智元 2020年,想必各国的人民都被新冠病毒支配得瑟瑟发抖... 不过,这并不影响科 ...

  2. ICLR 2020共计198篇开源代码论文合集!

    作者:忆臻 来源:https://zhuanlan.zhihu.com/p/99197301 ICLR 2020 (International Conference on Learning Repre ...

  3. 2020年度“CCF优秀博士学位论文奖”初评结果公示

    本文转自中国计算机学会,该文未经许可,禁止进行转载.摘编.复制及建立镜像等任何使用.如需转载,请通过向CCFvoice公众号后台申请并获得授权.我爱计算机视觉已获授权. 根据同行专家函评意见和学科方向 ...

  4. 专家票选! 2020 年度 10 篇人工智能经典论文(6-10)

    内容提要:近日,多家机构发布了关于人工智能的年终回顾总结,从种种表现来看,疫情之下,AI 依然蓬勃发展,全球 AI 产业规模达到 1500 多亿美元.这背后,又有哪些突破性的研究值得关注? 关键词:A ...

  5. 专家票选! 2020 年度 10 篇人工智能经典论文(1-5)

    By 超神经 内容提要:2020 年即将过去,虽然这一年全球都笼罩在疫情的阴影之下,许多事情也因疫情而停摆.但是,人工智能领域依然逆势而上,取得了许多重大突破.在岁末之际,一起看看今年有哪些研究值得关 ...

  6. 值得收藏!基于激光雷达数据的深度学习目标检测方法大合集(下)

    作者 | 黄浴 来源 | 转载自知乎专栏自动驾驶的挑战和发展 [导读]在近日发布的<值得收藏!基于激光雷达数据的深度学习目标检测方法大合集(上)>一文中,作者介绍了一部分各大公司和机构基于 ...

  7. 盘点2020 | Cocos 精选 2D、3D 游戏合集

    盘点完了 2020 年 Cocos 技术和实例教程合集之后,今日C姐将为大家继续盘点2020年 #Created with Cocos# 的那些精品游戏,涵盖原生游戏.H5游戏和小游戏等,有来自大厂的 ...

  8. 【强化学习论文合集】二十六.2020国际人工智能联合会议论文(IJCAI2020)

    欢迎订阅本专栏:<强化学习论文合集> 专栏介绍: 本专栏整理了2017~2022年(后面会持续更新)强化学习领域国际顶级会议已录用的论文,会议包括但不限于:ICML.NeurIPS.AAA ...

  9. 【强化学习论文合集】二十七.2020机器人与自动化国际会议论文(ICRA2020)

    欢迎订阅本专栏:<强化学习论文合集> 专栏介绍: 本专栏整理了2017~2022年(后面会持续更新)强化学习领域国际顶级会议已录用的论文,会议包括但不限于:ICML.NeurIPS.AAA ...

最新文章

  1. mysql与redis面试题
  2. 电脑显示器变色_流光溢彩电竞出击:飞利浦猛腾M1系列电竞显示器275M1RZ
  3. Flutter 填坑之 表单数据哪里去了?
  4. 「Caffe」python版本caffe编译
  5. log4j2 配置文件
  6. 从零开发一个laravel项目的增删改查、详情
  7. 模型训练太慢?显存不够用?这个算法让你的GPU老树开新花
  8. nodejs 获取内存,网络 ,连接 ,磁盘等等
  9. Linux 分区管理与swqp与逻辑卷创建修改删除
  10. 开博啦——半路出家做运维以来的一些杂感
  11. python2.7 内置ConfigParser支持Unicode读写
  12. 3D视觉创新方案分享:仓储VSLAM/商品三维重建/静态场景重建/表情识别等多个方向...
  13. python调用vbs脚本_xShell终端调用VBS脚本 使用方法说明
  14. 【python办公自动化(17)】利用python向PPT文档中写入内容(证书生成器)
  15. java 获取拼音_Java获取汉字对应的拼音(全拼或首字母)
  16. 钛资本研究院:保险科技行业现状及趋势分析
  17. objective-c感悟(四)class、catagory、class extension、optional
  18. 已知两点经纬度 计算距离和方位角(MATLAB实现)
  19. 远程连接云服务器中的mysql数据库_云服务器远程连接mysql数据库
  20. Python毕业设计开题报告职业推荐系统

热门文章

  1. linux下如何更新镜像源(ubuntu 10.04 为例),Ubuntu 10.04 更新源补充
  2. Linux下升级安装Python-2.7.8版本
  3. 信息互通联动防御 亚信安全翻开融合终端安全新篇章
  4. TCP三次握手与四次分手
  5. mysql AB 的基本搭建
  6. 深入浅出MyBatis-快速入门
  7. 转Redis性能测试
  8. BW标准数据源初始化设置
  9. 根据年月来判断月里天数
  10. Predictably Irractional - 零成本的成本