点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

转载自:淘系技术

CVPR 2021 Homage Genome Action 比赛,让我们聊聊淘系冠军背后的故事,以及“视频交互关系检测”这个CV领域的未来新趋势。

“薛定谔”的冠军?

“ 第一次提交榜单的时候,我们队排名第4,和第一名数据还差了十个点。”

“ 当时只剩下5天就截止比赛了,要是没拿到成绩,我决定装作这一周什么都没发生过。”

正是眼前这个带着点羞赧笑容的男人,一周后带领着他的3人队伍,以远超出第二名8个点的成绩,拿下了 CVPR 2021 Homage Genome Action 首届比赛的冠军。

接受我们采访的冠军张爱喜(花名:少麟)

报名就是一场冲刺

他是张爱喜(花名:少麟),来自阿里巴巴淘系技术多媒体算法团队,这支团队支持着淘宝直播、逛逛、点淘等内容业务,在高层语义理解的技术领域一直有着持续的探索。

这次斯坦福大学李飞飞教授课题组重点推动的 Homage Genome Action 比赛,也是高层语义理解的方向,着眼于探索视频结构化的信息与交互,在传统的画面识别基础上,更多地探索视频中人与物的关系推理,从而实现更有效的算法推荐和分发。

作为 CVPR 去年的冠军选手少麟,今年“玩”得更刺激了点:报名时距离比赛截止还剩9天。(正常情况下,一般选手的备赛时间是1-3个月)

这是不是很像学霸考试前说自己没复习的凡尔赛?

就试试咯,我们参加比赛,一方面是因为这个方向我们在尝试推动业务落地,另一方面,我们也希望通过打比赛来检验一下技术的先进性和通用性。

彼时,少麟刚刚冲刺了两个多月递交了一篇相关领域的 paper,趁着这股热乎劲儿,搞搞数据集,改改方案,他感觉还能冲一把。

三个和尚有水喝

相比于论文大多数专注于某一个技术点,比赛考验的是多种算法的综合能力和整体方法的创新能力。Homage Genome Action 今年是第一届举办,这意味着没有往年的方案和数据参考,对于创新思考的要求更高。

三个和尚可能没水喝,也可能齐头并进喝。

要在有限的时间内完成冲刺,最关键的是要看比赛的这支队伍如何高效协同,实现精力资源的最优分配。

少麟的队友主要有2个,一个是 paper 的合作者,目前正在北航读计算机视觉方向博士的廖越;另一个是他的老板,大学时拿过ACM金牌,有着一把技术热情的咏亮。

这次比赛提供的是一个室内监控数据集,任务要求准确判断每一组人体和物体之间的动作关系和空间关系。他们梳理了数据集特点和比赛流程后,认为检测和关系判断在比赛中最关键,并迅速做出了明确分工。廖越负责检测模型,咏亮负责模型融合,少麟则负责关系判断模型和全流程整合,三人之间的结果互相依赖,每天上午和下午保持实时跟进,并迅速迭代着各自的方案细节。

“这就像阿里绩效管理OKR的思路,我们确定了O以后,把每个人的 KR 列的清清楚楚。廖越呢,各种想法比较多,我是工程实现能力比较强,咏亮很执着,我们在协商好的 KR 下推进得非常有条理。”

本科北航,硕士香港科大毕业的少麟,一直都是个喜欢突破自己、突破边界的“不折腾不舒服”青年。他原来学的是集成电路设计,在外企捣鼓了一阵儿半导体软件开发后,悄悄瞄上了深度学习。通过自学,16年他开始做计算机视觉方向,从人物静态的脸部识别,到如今动态高层的语义理解,他始终活跃在开疆拓土的最前沿,享受着自己作为一颗嫩芽冲破泥土层的爽感。

距离比赛还剩5天截止时间的时候,他们提交了自己的第一版结果,榜单出来后一看排名妥妥前三开外,和第一名差了近乎十个点。主管咏亮试图宽慰他,“你也拿过冠军,投了 paper,从个人绩效角度而言这个比赛也无增益。”

这段时间,3个人都是近乎没日没夜地投入。一直有着早睡早起习惯的少麟,连着一周多都是5点起床,遛完家里的两只狗狗后,7点就到了公司,一边跑模型,一边打开钉钉回复凌晨来自咏亮的一串问题反馈。

5点被遛完的狗:补个觉,谢谢

“我是队伍的主心骨,比赛也是我提议打的,我不能说不行。”深知队友的付出和努力,少麟表示没有问题,只要在千丝万缕中剥离出方案的改进点,他们依然有希望获得质的飞跃。

一把梭哈夺第一

6月7日,下午3点。坐在工位上的少麟,突然蹦了起来,一溜烟跑去跟咏亮大声汇报:

“我去,我比上次高了接近20个点!”

其他不明真相的同事诧异地看着眼前这个手舞足蹈的男人。原来,由于参赛时间太紧,少麟一直悄悄咪咪在参加比赛,打算要是没希望就做个鸵鸟,把头埋进去当做什么都没发生过。

就在前两天,他们终于找到了方案中的问题所在,他们拆分了验证集,解了一个bug,也完成了最新方案的coding,重新梳理了整个流程结构,完成一系列操作后,单个 demo 的提交结果显示已提升20个点。

回想起来,那是个比收到最后冠军结果邮件还要高兴的时刻。之后的策略调整就更像打通了任督二脉,每尝试一个策略,数据都会提一点点,喜悦越来越多地飞上少麟的眉梢。

最后一次,实际上也是第二次提交完比赛数据后,他们抱着一把梭哈的心态,少麟和咏亮开心地去公司附近撸了个串,并已然当做过去式在讨论以后的技术规划了。

Home Action Genome Challenge 第一名获奖证书

“视频交互关系检测”这个方向,少麟打从去年10月就开始自发地在研究和探索了。它和单纯的视频理解识别不一样,要求提取画面中结构化的信息,并能够训练机器自主识别人与物实体的交互关系。这个方向目前还处于比较早期的阶段,尚未出现大规模的应用场景。但是该方向已连续在 ECCV,CVPR 和 ICCV 计算机视觉领域三大顶会上举办了workshop,未来在安防和监控领域能够帮助人高效提取需要的信息,极有可能是CV领域接下来一段时间的热点方向。

从淘系业务的角度,少麟希望这个技术的使用,能够帮助算法在商品的推荐和投放上效率更高,计算机能够通过计算和关系判断,智能地将正在直播的淘宝主播或者需要的商品,适时推荐给需要的用户。

“可能用户的直接感知并不强烈,但这个算法技术能够为淘宝直播大大提效。”

技术人的追求:既要又要还要

既是队友又是小主管的咏亮,在打比赛这件事情上态度非常明确:鼓励同学们尽可能参加。

阿里并不是一家可以“躺平”的公司,技术人始终面对着行业环境和业务需求的不断迭代,但任何时候都不能缺失对于技术的敏感度和钻研的追求。对于一名有技术追求的人来说,应该去挑战那些崇山峻岭

咏亮的团队目前是淘宝多媒体算法分支里竞赛成绩最好的,以少麟为代表,这支来自爱奇艺、小红书、京东、百度等不同文化的小分队,逐渐克服自己的路径依赖和信心不足,慢慢发现,同时做到业务需求开发和技术钻研挑战,并没有想象中那么困难。

蝉联了两届冠军的少麟,特别”凡尔赛“地表示,明年再打比赛就是自己的舒适区了。比赛是方案和技术的综合,论文是更偏单点的创新。下一步地突破,他希望今年能中CCF-A类的一作文章,明年能中 PAMI 和顶会的 oral ,将自己在业务场景上的思考提炼成基础的学术问题,能够更加形成技术壁垒。

“始终做团队的突破点是很爽的,来阿里之后,发现更难了,因为大家都很优秀。如果以后能持续产出顶会paper ,成为行业某个领域的标杆的解决方案,就是那种面试的时候,大家会提到说‘哎那个谁写的论文里’的,这种美好愿景想一想就很激动。”

他喜欢《三体》,更因为罗辑这个人物读了三四遍。罗辑这个承载着人类命运重压的普通人,在参透黑暗森林法则的真理之路上,不断突破着认知与精神的极限。少麟认为,不停地探索未知区域应该是种持续的追求,大到人类,小到个人都是如此。

技术人的耐心:盯大熊猫半个多小时

张弛有度,打完比赛,少麟休了一周假,从成都-乐山-西安一路吃喝睡了下去。(家里的两只狗狗表示:谢谢你,我终于不用5点起来被遛了。)

作为一个东北黑龙江人,四川的冷锅串串钵钵鸡、麻辣火锅、跷脚牛肉、毛血旺散发着椒麻的鲜香,瞬间从味蕾治愈到了大脑。

他最喜欢的,还是熊猫基地。

一只硕大的黑白胖子把自己挂在树上,几乎承受不住重量的树枝已经被压成了月牙弯。少麟掏出手机,心里暗暗想着,我可一定要拍到它掉下来的那个瞬间。结果这一站,就是半个多小时。

“耐心这事儿,搞技术的人一定要有的。不然怎么憋得住探索未知的苦闷呢。”

大熊猫:兄弟,我稳得很

CVPR冠军队伍采访

CVPR和Transformer资料下载后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集
后台回复:Transformer综述,即可下载最新的两篇Transformer综述PDF
CVer-目标Transformer交流群成立
扫码添加CVer助手,可申请加入CVer-Transformer 微信交流群,方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲长按加小助手微信,进交流群▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

9天拿下CVPR竞赛冠军!家里的狗狗都改了作息时间...相关推荐

  1. 仅9天拿下CVPR竞赛冠军,家里的狗狗都改了作息

    CVPR 2021 Homage Genome Action 比赛,让我们聊聊淘系冠军背后的故事,以及"视频交互关系检测"这个CV领域的未来新趋势. "薛定谔" ...

  2. CoTNet-重磅开源!京东AI Research提出新的主干网络CoTNet,在CVPR上获得开放域图像识别竞赛冠军

    基于Self-Attention的Transformer结构,首先在NLP任务中被提出,最近在CV任务中展现出了非常好的效果.然而,大多数现有的Transformer直接在二维特征图上的进行Self- ...

  3. CVPR 2022 ActivityNet竞赛冠军:中科院深圳先进院提出高低分双模态行为识别框架...

    来源:新智元 本文约2400字,建议阅读10+分钟本文为CVPR 2022 ActivityNet竞赛冠军的方案详解,该方案主要解决真实监控场景下的低分辨率行为识别. 前言 安防监控是智慧城市的重要组 ...

  4. 各大视觉技术竞赛冠军及 TOP 方案集锦(持续更新)

    为了让大家能够对视觉竞赛有更深刻的认识和理解,我们搜集了2018年各大视觉竞赛的冠军技术方案,希望可以让大家在2019年的竞赛中披荆斩棘,获得好名次.欢迎点♥关注本贴~即时收到最新推送.也欢迎大家加入 ...

  5. 从零开始拿到了Kaggle竞赛冠军

    点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:机器之心 AI博士笔记系列推荐 周志华<机器学习>手推笔记正式开源!可打印版本附pdf下载链接 因 ...

  6. 教育|俄罗斯天才少女200万年薪加入华为,22岁拿下世界编程冠军,同天队友也宣布加盟...

    华为又招来了两名天才少年! 但这次并非国内的"天才少年",而是来自俄罗斯. 一位是刚刚在ICPC 2020上夺冠,年仅22岁的天才少女Valeria Ryabchikova: 另一 ...

  7. 旷视COCO获奖团队亲述:我们是如何两年拿下7个冠军的

    郭一璞 假装发自 慕尼黑  量子位 报道 | 公众号 QbitAI 即将年满7岁的旷视,最近给自己送了一个生日礼物,计算机视觉顶级赛事MS COCO的Detection(并列).Panoptic.Ke ...

  8. 俄罗斯天才少女也选华为,22岁拿下世界编程冠军,同天队友也宣布加盟

    博雯 丰色 发自 凹非寺 量子位 | 公众号 QbitAI 华为又招来了两名天才少年! 但这次并非国内的"天才少年",而是来自俄罗斯. 一位是刚刚在ICPC 2020上夺冠,年仅2 ...

  9. 中国首个开源基金会成立;京东 AI 研究院获 QuAC 机器阅读理解竞赛冠军

    开发者社区技术周刊又和大家见面了,快来看看这周有哪些值得我们开发者关注的重要新闻吧. 京东AI研究院获QuAC机器阅读理解竞赛冠军 中国首个开源基金会成立,已有七个项目加入孵化 COVID-19大流行 ...

最新文章

  1. Windows 10下安装scrapy(pip方式,非wheel)
  2. oracle重做日志文件版本不一致问题处理
  3. 我们坚持专业与创新,U can U up
  4. CIKERS Shane 20190530
  5. 指针(pointers)和引用(references)区别
  6. css高度已知,左右定宽,中间自适应三栏布局
  7. docker mysql.sock,Docker mysql主从配置
  8. c++回到起点旅行商问题_不要犯同样的错,提C型房车回渝上牌长途旅行的心路历程...
  9. Silver Cow Party(POJ-3268)
  10. android studio打印日志语句Log.d()
  11. idea新建类模板注释设置_开发者必备——IDEA配置清单
  12. python用matplotlib或boxplot作图的时候,中文标注无法正常显示,乱码为小方框的解决办法
  13. win禁用shift切换输入法
  14. 服务器对比个人计算机,服务器与一般电脑有何区别,为什么差价很大?
  15. 《东周列国志》第十九回 擒傅瑕厉公复国 杀子颓惠王反正
  16. Notepad++的字体设置加Consolas和微软雅黑混合字体
  17. Strategy策略模式详解与实例
  18. linux skyeye,在Ubuntu 10.04上安装SkyEye及测试
  19. 农村房屋房产证怎么申请
  20. 框架集frames笔记

热门文章

  1. 网易裁员,让保安把身患绝症的员工赶出公司!前网易员工亲述经历的噩梦!...
  2. android 伪终端,伪终端pty的原理及使用
  3. echarts——纵向柱状图
  4. 打印机form2尺寸_打印机纸张规格
  5. svg爱心小熊眼睛睁开动画
  6. 建造者模式 java_java的建造者模式可以应用在什么地方
  7. CalibrateIO
  8. wildfly服务启动,关闭
  9. c语言中int 3.6 =,(C语言中的常量)乐创DIY C语言讲义​——3.6节
  10. android出现应用程序未安装的解决办法