论坛报名 | 视觉大模型是实现视觉智能的必由之路吗？

2021年6月1日-3日，第三届北京智源大会将隆重举办。现正式开放大会线上和线下报名渠道。地点：中关村国家自主创新示范区会议中心

2021年北京智源大会召开在即，6月1日至6月3日，持续三天，13场主旨报告/重磅对话，29场由各领域领军学者主导的专题论坛，4场讲习班。大会将紧紧围绕这些当前学术领域迫切需要解决的问题，以及产业落地过程中存在的诸多挑战，延续一贯以来的“内行认可”品质口碑，采取极为严格的内行荣誉邀请制，分享真正内行认可的重大成果与真知灼见，献上一场诚意满满的AI盛宴！

北京智源大会倒计时：5 天

论坛主题

在具备大规模、有监督数据的视觉任务上，深度学习为视觉感知任务的解决提供了切实可行的路径。然而，这种严重依赖场景数据并且“一事一议”式的技术路径终究不够优雅，更不具备新任务、新场景的快速扩展能力。学术界和工业界都殷切期待并在努力探索更具通用性的基础视觉模型，及其依托这类模型实现便捷任务扩展的方法。BERT、GPT-3等预训练语言模型的诞生为此提供了可能的参照。然而，视觉毕竟不是自然语言，作为基本视觉单元的像素距离高层语义更远，找不到像“单词”这样离散化、符号化的基本语义单元，因此简单地借鉴预训练语言模型的实现方法恐难以奏效。故而截止目前我们尚未看到令人惊艳的视觉大模型出现。为此，本论坛邀请了视觉智能及相关领域的多名专家分享他们在相关问题上的探索和研究进展，并就下列Panel议题展开深入讨论。

论坛议程

论坛主席

山世光

山世光，中科院计算所研究员、博导，现任中科院智能信息处理重点实验室常务副主任。他是基金委优青，国家重要人才计划入选者，科技部创新人才推进计划中青年科技创新领军人才，人社部国家百千万人才工程有突出贡献中青年专家，CCF青年科学家奖获得者, 首届腾讯科学探索奖获得者，国务院特殊津贴获得者。他的研究领域为计算机视觉和机器学习。已在国内外刊物和学术会议上发表论文300余篇，其中CCF A类论文100余篇，论文被谷歌学术引用20000余次。研究成果获2005年度国家科技进步二等奖，2015年度国家自然科学二等奖，CVPR2008 Best Student Poster Award Runner-up奖。

演讲主题及嘉宾介绍

1. 预训练大模型的探索和实践

议题简介：人工智能正在逐步落地千行百业，并推动社会发展进展。作为新的通用技术，人工智能技术虽然近年来取得了长足的发展，但是在通用性和实用性上依旧存在很大的进步空间。在通用性上，华为云以大模型为技术发展目标，基于模型高效、数据高效、算力高效和知识高效在预训练大模型领域的研究和实践取得了长足发展。另外，为了提升人工智能在众多领域中的实用性，华为云还在加强人工智能和科学计算的交叉学科研究，在工业、气象、能源、生物医学等领域也取得了成功应用和落地。

演讲嘉宾：田奇

田奇教授现任华为云人工智能领域首席科学家。田教授本科毕业于清华大学，博士毕业于美国伊利诺伊大学香槟分校（UIUC）。他曾任德克萨斯大学圣安东尼奥分校（UTSA）计算机科学系正教授，清华大学神经与认知中心讲席教授，教育部长江讲座教授、中科院海外评审专家，2016年当选IEEE Fellow。他的主要研究方向为计算机视觉、多媒体信息检索、机器学习，曾获Google Faculty Research Award （2010）、2017年UTSA校长杰出研究奖、2016年多媒体领域10大最具影响力学者，发表630+篇国际期刊与会议论文，谷歌学术引用28400+次, h-index 81。

2. 大规模视觉表征学习

议题简介：计算机视觉模型一般需要大量训练样本来识别新的物体，样本标注限制了计算机视觉模型的落地应用。本报告介绍如何通过大规模视觉模型预训练，及小样本条件下的迁移学习，来解决上述问题。本报告首先介绍基于亿级规模图像数据预训练的“Big Transfer (BiT)”模型和仅基于Transformer的“Vision Transformer (ViT)”模型，然后介绍如何将上述预训练模型应用于小样本、多样化的下游视觉任务"Visual Task Adaptation Benchmark (VTAB)"。最后，本报告将基于人工标注来探讨广泛使用的“ImageNet”分类任务，并分析多个state-of-the-art计算机视觉模型的性能。

演讲嘉宾：翟晓华

翟晓华，现任瑞士苏黎世谷歌大脑团队研究员，研究方向为表征学习、深度学习、人工智能。他于2014年在北京大学获得博士学位。他负责的大规模迁移学习算法“Big Transfer (BiT)”基于亿级规模图像数据来预训练模型，在超过二十个视觉任务上取得良好的效果；作为共同一作，他提出的“Vision Transformer (ViT)”将Transformer模型应用于图像识别，取得了与计算机视觉领域的主流模型CNN相当的效果。这两个特征学习项目及模型已开源，在GitHub上共获得3800个星标。他发表了包括ICLR、ICML、ICCV、CVPR、ECCV在内的多篇国际顶级会议和期刊论文。2012年作为第二完成人（彭宇新教授团队）参加由美国国家标准技术局举办的TRECVID中的INS比赛，并获得国际第一名。他是IEEE TPAMI、TIP、TMM、ICLR、ICML、ICCV、CVPR、ECCV和NeurIPS等国际顶级期刊和会议的审稿人。

3. 我们赖以生存的意义和超大规模多模态预训练

议题简介：认知科学的体验革命带来人们对于从语言理解意义的新观点：思考以及使用语言的能力是我们的肉身与头脑合作的成果。肉身包括视觉、听觉、嗅觉、触觉和运动神经等各种各样的模态。这次讲座将从探讨人类如何将语言变成意义出发，介绍我们在多模态理解方面的工作。将详细介绍超大规模多模态预训练模型悟道∙文澜的设计理念、数据收集、模型结构、实验结果和应用落地。此外，还将深入分析多模态预训练与单模态的差异。

演讲嘉宾：宋睿华

宋睿华博士，中国人民大学高瓴人工智能学院长聘副教授，曾任微软亚洲研究院主管研究员和微软小冰首席科学家。她的算法完成了人类史上第一本人工智能创作的诗集《阳光失了玻璃窗》。宋睿华博士是具有国际影响力的人工智能科学家，发表学术论文90余篇，申请国际专利25项。她是SIGIR 2021短文的PC Chair，ACL 2021的Area Chair，EMNLP 2021的Senior Area Chair，和Information Retrieval Journal的主编。近期的研究兴趣包括人工智能创作、自然语言的多模态理解和多模态对话。她是北京智源研究院支持的悟道∙文澜项目的学术带头人。

4. 圆桌论坛：视觉大模型研究现状与挑战

主持人：山世光

嘉宾：田奇、翟晓华、宋睿华、卢志武、鲁继文、张祥雨。

演讲嘉宾：鲁继文

鲁继文，清华大学自动化系副教授、博士生导师，IAPR Fellow。主要研究方向为计算机视觉与模式识别，在PAMI/IJCV/CVPR/ICCV/ECCV上发表论文100余篇，主持承担国家自然科学基金联合重点项目、优秀青年科学基金、国家重点研发计划课题等项目10余项，以第一完成人获2020年中国电子学会自然科学一等奖。担任国际期刊Pattern Recognition Letters主编，IEEE T-IP/T-CSVT/T-BIOM编委，国际会议ICME 2022大会主席，FG 2023、VCIP 2022、AVSS 2021、ICME 2020程序委员会主席。

演讲嘉宾：张祥雨

张祥雨，旷视研究院Base Model研究组负责人。2017年博士毕业于西安交通大学，师从孙剑博士和何恺明博士。目前团队研究方向包括高性能卷积网络设计，AutoML与自动化神经网络架构搜索，深度模型的裁剪与加速等。曾在CVPR/ICCV/ECCV/NIPS/ICLR/TPAMI等顶级会议/期刊上发表论文三十余篇，获CVPR 2016最佳论文奖，并多次获得顶级视觉竞赛如ImageNet 2015、COCO 2015/2017/2018/2019冠军。代表作包括ResNets/ShuffleNets/SPOS等，在业界得到广泛应用。Google Scholar引用数100,000+。

演讲嘉宾：卢志武

卢志武，中国人民大学高瓴人工智能学院教授，博士生导师。2005年7月毕业于北京大学数学科学学院信息科学系，获理学硕士学位；2011年3月毕业于香港城市大学计算机系，获PhD学位。主要研究方向包括机器学习、计算机视觉等。主持NSFC、KJW等多个国家项目。首个公开的中文通用图文预训练模型BriVL设计者。以主要作者身份发表学术论文70余篇，其中在TPAMI、IJCV、TIP等重要国际期刊和ICLR、NeurIPS、CVPR、ICCV、ECCV等重要国际会议上发表论文40余篇，CCF A类论文30篇，入选ESI高被引论文1篇。获深度学习权威评测ImageNet 2015视频检测任务亚军、2015年IBM SUR Award、计算机图形学国际会议CGI 2014最佳论文奖等。担任CCF生物信息学专委会委员。

2021 智源大会完整议程

- 点击阅读原文或长按图片，内行盛会，免费注册-

欢迎加入智源社区「计算机视觉」交流群

（更多活动信息将在交流群中同步）

论坛报名 | 视觉大模型是实现视觉智能的必由之路吗？相关推荐

有认知会推理！视觉大模型的未来不只靠表征
智源导读:在具备大规模.有监督数据的视觉任务上,深度学习为视觉感知任务的解决提供了切实可行的路径.然而,这种严重依赖场景数据并且"一事一议"式的技术路径终究不够优雅,更不具备新任务 ...
论文笔记：InternImage—基于可变形卷积的视觉大模型，超越ViT视觉大模型，COCO 新纪录 64.5 mAP！
目录文章信息写在前面 Background & Motivation Method DCN V2 DCN V3 模型架构 Experiment 分类检测文章信息 Title:Inter ...
视觉大模型调研(Survey of Visual Foundation Model)
目录 A.写在前面 B.论文支撑与基础理论 1.大模型基本概念的诞生 2.大模型产业化落地的理论支撑 3.视觉模型架构的形成-Transformer到ViT再到MAE C.产业落地化现状 1.百度文心 ...
中兴智能视觉大数据公交车专用道移动智能电子警察系统功能、特点及优势详细介绍...
中兴智能视觉大数据公交车专用道移动智能电子警察系统功能.特点及优势详细介绍公交车专用道移动智能电子警察系统是专为交管部门查处社会车辆高峰期占用公交车道行驶行为的一款产品. 系统由前端抓拍设备和后端电 ...
【AI人工智能大模型】如何基于大模型打造企业的智能底座?
目录如何基于大模型打造企业的智能底座? 1. 引言 1.1 企业智能底座的定义和重要性
何恺明时隔2年再发一作论文：为视觉大模型开路，“CVPR 2022最佳论文候选预定”...
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达杨净明敏雷刚发自凹非寺量子位报道 | 公众号 QbitA ...
大模型时代，视觉推理任务竟然只用语言数据也能学习
原文链接:https://www.techbeat.net/article-info?id=4394 作者:seven_ 要让AI模型真正具备智能感知和认知的功能,我们就不得不把视觉分析和自然语言理解 ...
Swim-Transform V2：用于目标检测，视觉大模型不再是难题（附源代码）
关注并星标从此不迷路计算机视觉研究院公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式论文地址:https://arxiv.org/pdf/2111.09883.p ...
视觉大模型DINOv2:自我监督学习的新领域
如果你对自监督学习感兴趣,可能听说过Facebook人工智能的DINO(无标签知识蒸馏).我们在以前的文章中也介绍过它.DINOv2不仅是一个新版本而且带来了新的改进,并为判别性自监督学习设定了更高的 ...

论坛报名 | 视觉大模型是实现视觉智能的必由之路吗？

论坛报名 | 视觉大模型是实现视觉智能的必由之路吗？相关推荐

最新文章

热门文章