卡内基梅隆大学梁俊卫：视频中行人的多种未来轨迹预测

不到现场，照样看最干货的学术报告！

嗨，大家好。这里是学术报告专栏，读芯术小编不定期挑选并亲自跑会，为大家奉献科技领域最优秀的学术报告，为同学们记录报告干货，并想方设法搞到一手的PPT和现场视频——足够干货，足够新鲜！话不多说，快快看过来，希望这些优秀的青年学者、专家杰青的学术报告，能让您在业余时间的知识阅读更有价值。

人工智能论坛如今浩如烟海，有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办，百度全力支持，读芯术、paperweekly作为合作自媒体。承办单位为中国科学院大学学生会，协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会。2020年7月26日，第17期“AI未来说·青年学术论坛”百度奖学金特别专场论坛以“线上平台直播+微信社群图文直播”形式举行。卡内基梅隆大学梁俊卫带来报告《视频中行人的多种未来轨迹预测》。

卡内基梅隆大学梁俊卫做“视频中行人的多种未来轨迹预测”主题报告分享

梁俊卫，卡内基梅隆大学计算机学院三年级博士生，师从Prof. Alexander Hauptmann。他在2017年拿到卡内基梅隆大学的人工智能硕士，并在2018年拿到雅虎博士生奖学金，2019年拿到百度奖学金，2020年获得WAIC明日之星云帆奖。他研究的方向主要是基于视频的计算机视觉和机器学习。他与李飞飞教授合著的CVPR'19行人未来预测文章获得量子位和机器之心等媒体的关注，他的视频事件重建系统以及枪手定位系统获得包括CBS在内的广大美国媒体报道。

视频中行人的多种未来轨迹预测

首先，梁俊卫介绍了智能驾驶的安全性方面的工作。这篇论文发表在CVPR2020上，是跟蒋路博士，Professor Kevin murphy，Ting Yu博士，还有Professor Alex Hauptmann合作的。梁俊卫通过一个具体的例子来介绍了他们所做的工作。

在今年CVPR2020上的工作，梁俊卫主要解决多未来轨迹预测问题。上图中左下角行人往停车场走过来，它是有可能走向其中任意一辆，但是如果用这个视频作为一个评测标准的话，就会忽略掉行人会往车辆行走的这些可能的预测。所以梁俊卫就提出了一个新的可创造多未来轨迹的数据集。利用 simulation也就是3D模拟器，可以把真实的视频重建进去，通过让人类标志者控制这些agent，我们可以得到所有可能的未来路径的一个数据集，我们叫做the forkingpaths dataset。

接下来，梁俊卫介绍了他们这篇论文的三点主要贡献。一是提出了第一个可以去量化考核、多未来轨迹预测的数据集。二是提出了一个new effective model。三是在一个叫做VIRAT/ActEV的真实视频、数据集以及我们提出的多未来轨迹预测数据集上拿到了STOA。

具体而言，在第一点上，也就是如何去创建的这样一个多轨迹未来预测的数据集。这个数据集叫做 The Forking Paths Dataset，它分成三步：第一步是场景重建（Scenariore-creation）。scenario是场景，是15秒钟左右的一个片段。这一步包括了静态场景的重建，比如不动的建筑、人行道类似的事物等，以及动态事物的重建。其中动态事物重建包括行人跟车辆，这个是可以自动重建出来的；第二步是场景编辑（Scenario editing），因为3D模拟器它总会有一些误差在里面，所以需要去人工干预重建的效果，移除一些不够真实的事物。同时还要决定哪一些行人是有可能走出不同路径的；第三步是人类标注（Human annotation），也就是让人类去标注多未来可能的轨迹。

在场景重建（Scenario re-creation）上，下图展示了一个视频，视频中展示了梁俊卫对场景的正确模拟。同时。梁俊卫在这个数据集构造了一个非常容易编辑的图形界面。可以看到，在图中可以用鼠标去构造一个新的轨迹，也可以在上面加一辆汽车，然后可以查看重建的效果。在我们成功的重建这些场景之后，我们就可以让人类标注者去控制这些agent进行实际操作。

如下图所示，标注者一开始会从鸟瞰视角确定自己的目的地，人类标注者的任务就是要在规定时间，比如说15秒内控制 agent，在不触碰其他周围的行人的情况下，在限时15秒内到达目的地。然后梁俊卫可视化的展示了收集到的数据集。不同的人类标注者会走出不同的路径，因为这些都是人类标注者实际操作出来的，也就是在实际情况下这些路径是可能存在的，所以这样的一个数据集，可以用来评测模型，看模型是否能正确地预测出所有可能的行人未来路径。

梁俊卫团队总共重建了大概7个场景，这些场景都是来自于两个在行人轨迹预测领域使用频率的非常高的数据集。

然后，梁俊卫介绍了他们团队提出的概率模型。团队做了一个multidecoder的框架，去预测粗粒度和细粒度的未来位置，其输入特征就是语义分割特征。为了构建该模型，需要完成下面几步工作：

第一步是Encode。也就是把整个场景分割成了相同大小的方格，然后Encoder会把观察阶段中从时间1到时间T的行人的位置进行编码，并将语义分割的特征，以及周围的场景特征进行编码，输入到ConvolutionalLSTM中。这个模型它会首先预测行人在下一个时间点会出现在哪个大的方格内。当确定了在哪个大的方格之后，再预测它在该大方格内，它会出现在在哪个具体位置，这个具体位置用从方格的中心点到绝对位置的差进行表示。

第二步是decoder。这里的decoder就有粗细两个粒度，decoder的作用就是要预测从T+1时间到 Tpred时间点的行人所在的未来位置，在每个时间点会使用一个图卷积网络去refine 它的 hidden state。这样做的意义是在于能把行人周围所在的位置、它周围有没有车辆，有没有其他行人这些信息，考虑进这个Multiverse模型，做未来预测的时候，就可以使用一个叫beam search的方法去得到多种未来可能性的路径预测。

梁俊卫向我们具体展示了两个实验的评测。第一个实验是单轨迹和多轨迹预测。单轨迹预测的是从T+1时间到 Tpred时间点的所在位置，评测标准就是你预测的点的坐标与正确答案的点的坐标之间的绝对距离，然后因为有多个时间点那么就可以计算模型的平均错误，或者是最后一个预测点的错误。多轨迹预测里面的评测标准，唯一不同点就是模型可以输出多个未来路径。另外一个评测是Negative Log-Likelihood（NLL）。如果输出的是一个概率分布，那么就可以计算正确答案跟概率分布的匹配程度。

下图展示了单轨迹预测的实验数据结果。它是坐在VIRAT/ActEV dataset，实验基于VIRAT/ActEV这一个真实视频的数据集。从数据看，梁俊卫的模型就拿到了最好的结果。图中的数字表示绝对值错误，所以数值越小就越好。并且图中展示了不仅在真实数据集中模型能够达到最好结果，在虚拟数据集中也能达到最好结果。

下面两张图则展示出了第二个实验，即多未来路径预测的实验结果。从图中可以看到梁俊卫的模型也是比原有的方法好很多。

下图是对实验结果的一个可视化的对比。黄色是观察阶段，绿色是正确答案。橘色的热图就是模型的预测，左边是Social-GAN的预测，右边是梁俊卫的模型。

最后，梁俊卫展示了相关的工作以及如何获取更多的相关信息，并进行了集中答疑。

AI未来说*青年学术论坛

第一期数据挖掘专场

1. 李国杰院士：理性认识人工智能的“头雁”作用

2. 百度熊辉教授：大数据智能化人才管理

3. 清华唐杰教授：网络表示学习理论及应用

4. 瑞莱智慧刘强博士：深度学习时代的个性化推荐

5. 清华柴成亮博士：基于人机协作的数据管理

第二期自然语言处理专场

1. 中科院张家俊：面向自然语言生成的同步双向推断模型

2. 北邮李蕾：关于自动文本摘要的分析与讨论

3. 百度孙珂：对话技术的产业化应用与问题探讨

4. 阿里谭继伟：基于序列到序列模型的文本摘要及淘宝的实践

5. 哈工大刘一佳：通过句法分析看上下文相关词向量

第三期计算机视觉专场

1. 北大彭宇新：跨媒体智能分析与应用

2. 清华鲁继文：深度强化学习与视觉内容理解

3. 百度李颖超：百度增强现实技术及应⽤

4. 中科院张士峰：基于深度学习的通用物体检测算法对比探索

5. 港中文李弘扬：物体检测最新进展

第四期语音技术专场

1. 中科院陶建华：语音技术现状与未来

2. 清华大学吴及：音频信号的深度学习处理方法

3. 小米王育军：小爱背后的小米语音技术

4. 百度康永国：AI 时代的百度语音技术

5. 中科院刘斌：基于联合对抗增强训练的鲁棒性端到端语音识别

第五期量子计算专场

1. 清华大学翟荟：Discovering Quantum Mechanics with Machine Learning

2. 南方科技大学鲁大为：量子计算与人工智能的碰撞

3. 荷兰国家数学和计算机科学中心（CWI）李绎楠：大数据时代下的量子计算

4. 苏黎世联邦理工学院（ETH）杨宇翔：量子精密测量

5. 百度段润尧：量子架构——机遇与挑战

第六期机器学习专场

1. 中科院张文生：健康医疗大数据时代的认知计算

2. 中科院庄福振：基于知识共享的机器学习算法研究及应用

3. 百度胡晓光：飞桨（PaddlePaddle）核心技术与应用实践

4. 清华大学王奕森：Adversarial Machine Learning: Attack and Defence

5. 南京大学赵申宜：SCOPE - Scalable Composite Optimization for Learning

第七期自动驾驶专场

1. 北京大学查红彬：基于数据流处理的SLAM技术

2. 清华大学邓志东：自动驾驶的“感”与“知” - 挑战与机遇

3. 百度朱帆：开放时代的自动驾驶 - 百度Apollo计划

4. 北理宋文杰：时空域下智能车辆未知区域自主导航技术

第八期深度学习专场

1. 中科院文新：深度学习入门基础与学习资源

2. 中科院陈智能：计算机视觉经典——深度学习与目标检测

3. 中科院付鹏：深度学习与机器阅读

第九期个性化内容推荐专场

1. 人民大学赵鑫：基于知识与推理的序列化推荐技术研究

2. 中科院赵军：知识图谱关键技术及其在推荐系统中的应用

第十期视频理解与推荐专场

1. 北京大学袁晓如：智能数据可视分析

第十一期信息检索与知识图谱专场

1. 北京邮电大学邵蓥侠：知识图谱高效嵌入方法

2. 人民大学徐君：智能搜索中的排序-突破概率排序准则

3. 百度周景博：POI知识图谱的构建及应用

4. 百度宋勋超：百度大规模知识图谱构建及智能应用

5. 百度冯知凡：基于知识图谱的多模认知技术及智能应用

第十二期年度特别专场

1. 复旦大学桂韬：当NLP邂逅Social Media--构建计算机与网络语言的桥梁

2. 清华大学董胤蓬：Adversarial Robustness of Deep Learning

3. UIUC罗宇男：AI-assisted Scientific Discovery

4. 斯坦福应智韬：Graph Neural Network Applications

第十三期 AI助力疫情攻关线上专场

1. 清华大学吴及：信息技术助力新冠防控

2. 北京大学王亚沙：新冠肺炎传播预测模型

3. 百度黄际洲：时空大数据与AI助力抗击疫情——百度地图的实践与思考

4. 百度张传明：疫情下的“活”导航是如何炼成的

第十四期深度学习线上专场

1. 中国科学院徐俊刚：自动深度学习解读

2. 北航孙钰：昆虫目标检测技术

3. 百度尤晓赫：EasyDL，加速企业AI转型

4. 百度邓凯鹏：飞桨视觉技术解析与应用

第十五期大数据线上专场

1. 复旦赵卫东：大数据的系统观

2. 中科大徐童：AI×Talent数据驱动的智能人才计算

3. 百度李伟彬：基于PGL的图神经网络基线系统

4. 中科大张乐：基于人才流动表征的企业竞争力分析

第十六期 NLP前沿技术及产业化线上专场

1. 复旦大学黄萱菁：自然语言处理中的表示学习

2. 中科院刘康：低资源环境下的事件知识抽取

3. 百度何中军：机器翻译 —— 从设想到大规模应用

4. 百度孙宇：百度语义理解技术ERNIE及其应用

5. 哈佛邓云天：Cascaded Text Generation with Markov Transformers

6. 复旦大学桂韬：Uncertainty—Aware Sequence Labeling

推荐阅读专题

留言点赞发个朋友圈

我们一起分享AI学习与发展的干货

推荐文章阅读

ACL2018论文集50篇解读

EMNLP2017论文集28篇论文解读

2018年AI三大顶会中国学术成果全链接

ACL2017 论文集：34篇解读干货全在这里

10篇AAAI2017经典论文回顾

长按识别二维码可添加关注

读芯君爱你

卡内基梅隆大学梁俊卫：视频中行人的多种未来轨迹预测相关推荐

卡耐基梅隆大学计算机工程录取率,卡内基梅隆大学2020新生数据出炉！计算机学院录取率堪比藤校...
提起CMU,想必各位小伙伴肯定都不陌生,坐落在美国宾夕法尼亚州匹兹堡的它,可是美国25所新常春藤盟校之一.最近卡内基梅隆大学2020年秋季录取数据出炉!跟着学霸君来看看到底什么样的人才会被它录取吧! ...
卡内基梅隆大学机器学习系副主任邢波：AI落地现在最缺的是思维方式
来源:亿欧摘要:邢波认为:人工智能现在最缺的不是算法和知识,而是落地应用的思维方式:数据如何被处理.系统如何被调试.资源如何配置,目前阶段还处于黑箱,很混沌的状态:人工智能未来会成为非常朴实的领域. ...
卡内基梅隆大学的研究人员提出新的源定位算法: SilenceMap，寻找大脑的静默区域...
大脑是最重要的器官之一.它们为整个身体提供调度指示,让我们能够与世界互动.因此,快速检测大脑活动的变化是很重要的.一种可能导致永久性损伤的危险变化是神经静默(neural silence)[注:这个词 ...
计算机专业申请计算生物学,卡内基梅隆大学计算生物学硕士专业
卡内基梅隆大学计算生物学硕士专业为综合项目,助力于运用现代计算机科学.统计学.数学方法探索生物学与生物医学问题.卡内基梅隆大学计算生物学硕士专业面向想要直接到产业部门工作,或想要探索计算生物学但不想继 ...
讨论计算机在学术领域的应用,BGPLUS实地科研 | 卡内基梅隆大学 | 计算机、人工智能：在科学实验领域的应用...
原标题:BGPLUS实地科研 | 卡内基梅隆大学 | 计算机.人工智能:在科学实验领域的应用课题名称 = 人工智能在科学实验领域的应用 = 项目简介 2021暑期实地项目汇集了国内外名校的资深教授. ...
卡耐基大学计算机专业分类,卡内基梅隆大学计算机专业
卡内基梅隆大学计算机专业申请要求已获本科或硕士及以上学位:成绩要求:TOFEL成绩要求100以上:GPA高于3.0即B:GRE general:对于录取而言,学校更注重学生实际能力,而不是纯粹的高分数 ...
学计算机是什么猿,卡内基梅隆大学生物计算机专业让你快快乐乐的当一个程序猿...
现在最热门的专业是计算机专业以及金融专业,有句话是这样说的,站在风口上猪都会飞,而现在计算机专业已经站在了风口上,很多学习计算机专业的学生赚了一波红利.现在互联网技术越来越先进,我们已经迎来了5G时代 ...
卡内基·梅隆大学计算机科学系主任周以真的父母是中国人吗,一篇是王飞跃等人翻译的美国卡内基梅隆大学计算机科学系主任.PPT...
一篇是王飞跃等人翻译的美国卡内基梅隆大学计算机科学系主任 * * 信息论的内涵与外延 1.狭义信息论: 又称香农信息论.主要通过数学描述与定量分析,研究通信系统从信源到信宿的全过程,包括信息的测度.信 ...
卡内基梅隆大学和斯坦福计算机,卡内基梅隆大学并列全美榜首的专业--计算机专业...
不同于别的计算机系的是,卡内基梅隆大学计算机学院异常庞大,专业设置异常众多,要了解清楚确实不易.根据多年的申请经验对卡内基梅隆大学计算机学院进行深层解答. 专业排名卡内基梅隆大学在美国排名23名,但 ...

卡内基梅隆大学梁俊卫：视频中行人的多种未来轨迹预测

卡内基梅隆大学梁俊卫：视频中行人的多种未来轨迹预测相关推荐

最新文章

热门文章