过去多年来,阿里巴巴一直坚持把技术的持续创新力作为重要的企业能力,持续推动对下一代技术的探索创新。单是今年上半年,阿里巴巴在计算机科学前沿领域里,被收录的中国计算机协会推荐的国际A类顶会论文已经达到200余篇。

今天,我们聚焦计算机视觉、自然语言处理、机器学习、数据库、计算机系统五大技术领域,为大家精选了25篇有突破性的顶会论文,一起探索前沿热点创新成果。

希望本文能对大家提供一些有价值的参考,欢迎大家一起在留言区讨论。

Part 1 计算机视觉领域

编者按:CVPR是计算机视觉方向的三大顶级会议之一,主要内容是计算机视觉与模式识别技术;IJCAI是人工智能领域中最主要的学术会议之一;ICLR是深度学习领域顶会之一,关注有关深度学习各方面的前沿研究;ACM MM是多媒体领域顶会,研究领域覆盖图像、视频、音频、人机交互、社交媒体等多个主题。这里精选了其中九篇有代表性的工作为大家进行简要介绍。

1. 用于单目物体位姿估计的端到端概率n点透视算法


CVPR 2022:EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation

论文摘要:利用透视点(PnP)基数从单个 RGB 图像中定位 3D 物体是计算机视觉领域一个长期存在的问题。在端到端深度学习的驱动下,近期的研究建议将 PnP 解释为一个可微分层,如此 2D-3D 点对应就可以部分地通过反向传播梯度 w.r.t. 物体姿态来学习。然而,从零开始学习整套不受限的 2D-3D 点在现有的方法下很难收敛,因为确定性的姿态本质上是不可微的。

这篇论文提出了一种用于普遍端到端姿态估计的概率 PnP 层——EPro-PnP(end-to-end probabilistic PnP),它在 SE 流形上输出姿态的分布,实质地将分类 Softmax 带入连续域。2D-3D 坐标和相应的权值作为中间变量,通过最小化预测姿态与目标姿态分布之间的 KL 散度来学习。其基本原理统一了现有的方法,类似于注意力机制。EPro-PnP 的性能明显优于其他基准,缩小了基于 PnP 的方法与基于 LineMOD 6DoF 的姿态估计以及 nuScenes 3D 目标检测基准的特定任务方法之间的差距。

2. 基于重投影提升神经辐射场的视角外插能力


CVPR 2022:Ray Priors through Reprojection: Improving Neural Radiance Fields for Novel View Extrapolation

论文摘要:神经辐射场 (NeRF) 已成为场景表征以及高质量图像合成的有效方案。传统 NeRF的主要问题在于:其无法在与训练视点有着显著不同的新视角下进行高质量的渲染。对此,我们提出了RapNeRF (RAy Priors),通过随机视线投射以及视角先验信息大大提升了极端视角的鲁棒性,保证了高质量的图像合成。

3. 面向未裁剪视频的基于多层级一致性的自监督视频表征学习


CVPR 2022:Learning from Untrimmed Videos: Self-Supervised Video Representation Learning with Hierarchical Consistency

论文摘要:自然的无剪切长视频通常包含更丰富的语义信息,且更容易获取,在实际场景中有着非常重要的应用价值。然而现有视频自监督方法在长视频中却呈现出明显的性能下降,主要原因是其太强的时空一致性假设,这种假设在长视频中难以成立。因此,我们提出了分层一致性的方法—HiCo来直接进行长视频自监督,HiCo主要包括视觉一致性学习和主题一致性学习,即时间距离相近但视觉相似的片段保持视觉一致,时间相差较远但是表达内容语意相同的片段被认为主题一致,从两个维度进行表征学习。

4. 关注视觉骨干:一种用于端到端视觉定位的查询调整优化网络


CVPR 2022:Shifting More Attention to Visual Backbone: Query-modulated Refinement Networks for End-to-End Visual Grounding

论文摘要:本工作主要解决视觉定位领域,现有模型的视觉骨干网络抽取特征与查询文本不一致的问题。我们注意到抽取不一致特征的根源在于视觉骨干网络是文本不感知的,因此提出利用查询文本特征对预训练的骨干网络进行调整,以提升视觉定位模型的性能。

5. LTP:基于车道片的自动驾驶轨迹预测


CVPR 2022:LTP: Lane-based Trajectory Prediction for Autonomous Driving

论文摘要:随着自动驾驶技术的快速发展,如何理解并预测动态驾驶环境中周围目标的行为已经成为自动驾驶系统落地过程中的重要一环。轨迹预测任务的结果是自动驾驶系统自主决策的重要信息之一。该任务旨在根据目标(如车辆、行人等交通参与者)当前及历史轨迹信息、环境信息等,对目标未来可能的行驶轨迹进行预测。轨迹预测任务存在交互关系难建模、预测过程多模态和预测结果难解释的难点。

因此,我们提出了一种基于车道片级锚点的两阶段轨迹预测方法。该方法将细粒度切分的车道片作为一种具有解释性的可共享型锚点,使用图神经网络和Transformer分别建模地图和周围目标的形状信息和交互关系,通过基于方差的非最大值抑制策略选择代表性轨迹以确保预测输出的多模性。在多个数据集上的实验表明,该方法的性能优于现有方法,在保证预测结果多模性的基础上能够有效提升轨迹预测的准确性。此外,该方法可以在闭环仿真中实现较低的碰撞率和较少的越界行为,并获得可靠的性能。

6. 用于无监督域适应的跨域Transformer


ICLR 2022:CDTrans: Cross-Domain Transformer for Unsupervised Domain Adaptation

论文摘要:为了解决目标场景无标注数据的问题,本文提出了一种基于交叉注意力机制的跨域方法(CDTrans)。该方法利用了交叉注意力机制对于噪声的强鲁棒性的特点,来进行不同场景的分布对齐。

7. Entroformer:基于Transformer的图像压缩概率模型


ICLR 2022:Entroformer: A Transformer-based Entropy Model for Learned Image Compression

论文摘要:图像压缩是计算机视觉领域一个基本性的任务。图像压缩的关键在于如何估计更准确的数据分布空间, 从而能够对图像数据进行更好的编码, 来得到更优的压缩率。本文提出基于Transformer的概率模型来得到更准确的分布估计, 同时对模型的效率进行了优化, 在提升了压缩性能的同时保持了较优的解压缩效率。

8. 感知图像内容的创意布局自动生成方法


IJCAI 2022:Composition-aware Graphic Layout GAN for Visual-textual Presentation Designs

一键解锁,2022阿里顶会创新技术前沿进展相关推荐

  1. 知识表示与融入技术前沿进展及应用

    作者|李杨[1],李晶阳[1],牛广林[2],唐呈光[1],付彬[1],余海洋[1],孙健[1] 单位|阿里巴巴-达摩院-小蜜Conversational AI团队[1],北京航空航天大学计算机学院[ ...

  2. 《2022大数据产业年度创新技术突破》榜重磅发布丨金猿奖

    ‍ 年度金猿榜单/奖项 本届"数据猿年度金猿策划活动--2022大数据产业创新技术突破榜单/奖项"由金猿&数据猿共同推出. ‍数据智能产业创新服务媒体 --聚焦数智 · 改 ...

  3. 技术解读 | 科大讯飞语音技术最新进展之二:语音识别与语音合成

    这一篇内容将围绕语音识别与合成方向,继续为大家带来相关技术解析. "风物长宜放眼量".面向人机交互更加自然流畅的未来,智能语音技术进展如何?该走向何方? 以下内容根据讯飞研究院杰出 ...

  4. Facebook的AI识菜谱,把皮卡丘认成了煎蛋……|技术前沿洞察

    硅谷Live / 实地探访 / 热点探秘 / 深度探讨 大家好,一周技术前沿洞察又来啦!不少小伙伴说很喜欢这个栏目,小探们在找的时候也觉得,不仅有趣,而且实实在在地促进科技进步. 这周有啥技术进展呢: ...

  5. 聚焦2022阿里云直播峰会,洞察直播技术创新应用未来

    当前,直播经济快速发展,为用户带来新消费体验,催生出新模式与新业态.直播应用场景持续拓展,可承载的内容越来越丰富.随着越来越多的传统场景线上化,直播与各行各业的联动日益紧密,市场规模扩大的同时需求进一 ...

  6. 请查收 | 2022 阿里妈妈技术文章回顾

    新年伊始,万象更新! 转眼,阿里妈妈技术已陪伴大家走过601天~ 在此,感谢每位读者朋友的支持与关注 回顾2022,我们分享了60篇原创技术文章.发布了1本营销科学系列白皮书.开源了1项向量召回技术方 ...

  7. 开放下载 | 2022阿里妈妈技术年刊来啦!

    年味愈浓,春节将近.阿里妈妈技术年刊如约而至~ 2021 年 5 月,我们开始通过「阿里妈妈技术」 微信公众号持续分享我们的技术实践与经验,覆盖广告算法实践.AI 平台及工程引擎.智能创意.风控.数据 ...

  8. 从标准到开源,阿里大淘宝技术的“创新担当”

    近期,中国网络通信标准与开源在多方面取得重要进展.阿里巴巴(中国)有限公司联合国内学界提交的<可交互低延时互联网多媒体传输系统需求>(GRTN)国际标准立项提案正式获批通过.阿里巴巴大淘宝 ...

  9. 2022阿里云码上公益“第益课”大学生技术公益实践计划活动说明

    简介:简介: 2022年,码上公益联合共青团杭州市余杭区团委.杭州师范大学.浙江工商大学.浙江大学.阿里巴巴公益.阿里云开发者学堂.宜搭发起"第益课"高校技术公益实践计划,为高校学 ...

最新文章

  1. 从AI应用的五大要素看,AI产业存在哪些机会?(算力算法)
  2. Cissp-【第3章 安全工程】-2021-2-20(248页-268页)
  3. 学python用什么书-python有什么好的书籍
  4. boost::mpl模块实现next相关的测试程序
  5. css --- 弹性盒子
  6. DS5020配置集群存储
  7. 监控摄像头服务器维护要多久,监控摄像机怎么维护和保养?
  8. PHP中register_globals参数为OFF和ON的区别
  9. Python之程序执行时间计算
  10. Linux 网络配置 (nmcli)
  11. 人工神经网络与遗传算法,神经网络和算法的关系
  12. 推荐几款好用的云笔记软件
  13. python基础学习(一)
  14. 魔兽铃声(适合做短信铃声)铃声 魔兽铃声(适合做短信铃声)手机...
  15. 尚硅谷大数据superset安装包冲突
  16. opengl与显卡驱动的关系
  17. android switch 未定义,源生Switch控件在Android4.4无法显示?
  18. Java技术交流群[微信](Talking Coding)
  19. ad中使用智能粘贴_AD10 复制问题(复制方法和智能粘贴 拼版)
  20. FlinkSQL使用自定义UDTF函数行转列-IK分词器

热门文章

  1. oracle 朱志辉_阿里云自定义镜像
  2. P8196 [传智杯 #4 决赛] 三元组
  3. 栈和队列的相同点和不同点
  4. 用于自然语言理解的多任务深度神经网络
  5. 标准体重和身高的对应关系
  6. 【AEC】【拍乐云Pano 】回声消除(AEC)怎么理解?
  7. opencv------图片转化为视频
  8. R语言使用cph函数和rcs函数构建限制性立方样条cox回归模型、使用ggcoxzph函数可视化进行Schoenfeld残差图检验模型是否满足等比例风险
  9. EventBus原理源码分析和使用
  10. 华为 日志服务器 配置文件,华为设置日志服务器配置