阿里巴巴淘系技术部与北京大学前沿计算研究中心CVDA实验室、英国爱丁堡大学等合作,正式开源业界首个大规模的多模态直播服饰检索数据集(Watch and Buy),以推动视频多模态检索技术的研究。此前,依托该数据集举办的第一届淘宝直播商品识别大赛完美落幕,近2000支队伍参加了比赛,涌现了一批检索创新技术,有效提升淘宝直播场景中服饰检索的效果,形成了一定的学术和工业影响力。

什么是 Watch and Buy?


直播带货是淘宝连接商品和消费者的重要方式,通过对直播视频中商品进行实时识别和推荐,可实现消费者边看边买的消费体验,有效提高商品购买的转化,有非常大的经济价值。通常情况下直播对应的数百款商品之间相似程度高,且直播画面中存在大量的背景干扰、灯光变化、商品遮挡和形变等,给直播画面中商品的匹配识别带来很大的技术挑战。

淘宝直播“边看边买”效果示例,借助PixelAI 商品识别算法,可以从该直播的商品库中识别出直播中主播讲解的商品,并在直播中通过商品卡片形式推荐给消费者。

为了提升直播中商品匹配识别的效果,我们依托淘宝直播海量数据,构建了业界最大规模的多模态视频商品检索数据集Watch and Buy (WAB)

该数据集包含70,000个由直播视频片段和对应讲解商品构成的匹配对,具有规模大、标注全、模态多、功能广的特点。

我们抽取视频片段若干关键帧和商品的全部商品图进行了实例框级标注,商品id数达82,173个,标注图像数达1,042,178张,检测框实例1,654,780个

框级标注信息丰富多样,包括商品的检测框、类别、视角、展示方式、同款编号等。除了视觉标注,我们还对主播讲解语音进行了人工文本转录,同时提供了商品的标题文本信息。该数据集可用于物体检测的算法、商品重识别算法、主播意图识别、跨模态检索和多模态检索等多种算法的研究。

为什么需要 Watch and Buy?


当前开源的服饰检索数据集都存在一些不足,无法满足真实视频场景中服饰实时识别的应用和细致研究。

首先,已有开源数据集均为静态图片的数据集,而真实视频直播场景中还存着运动模糊、遮挡等问题;通过针对视频场景的数据集能够有效对上述问题进行研究和解决。

其次,已有开源数据集的图片多为网上收集,数目少、噪声大且标注维度不全,我们依托淘宝网和淘宝直播的真实业务场景,能够获取大规模、高质量和全面的商品信息。

最后,现有数据集多为单一的图片数据集,我们还提供了主播语音翻译文本、商品图标题文本等多模态的信息,进行多模态商品检索的研究,能够更加贴近真实场景。

我们相信 Watch and Buy 数据集的这些特性将会持续激发视频多模态检索领域的技术创新研究。

 

淘宝直播商品识别大赛简介


为了方便学术界广泛参与,我们将业务问题抽象为视频库和商品库之间的多模态视觉检索问题。在评价指标上,提出了片段级、帧级和检测框级评价标准,全面衡量选手算法效果。

为了保证选手算法既能快速迭代又能有效赋能线上真实业务,我们在初赛、复赛和决赛的赛题中逐步引导选手从技术贴近业务,其中,初赛为万级视频片段的检索问题,复赛则加入了真实场景中存在的商品缺失问题,决赛则是将选手方案部署到真实线上场景,直接评价完整直播视频的算法效果。

大赛由淘系技术部内容社交互动平台和天池竞赛平台共同举办, 发布了业界最丰富的7W规模多模态视频检索数据集,用于进行算法模型的训练和效果评测,并且提供了24W的比赛奖金奖励优秀参赛者,考虑到疫情期间高校参赛者的资源困难,额外提供了GPU机器进行模型在线训练,最终吸引到1945支队伍参赛。

选手来源中,30%的队伍来自高校,26%来自公司,个人参赛有6%。选手学历分布为,40%的选手拥有硕士学历,24%的选手为本科,博士选手占6%。最终,来自中科院计算所和吉林大学的逐星团队以超越Baseline方案20%的成绩夺得本次比赛的冠军,另外多位来自高校的参赛同学表示已经在数据集上进行算法研究,并保持于主办方密切联系。

淘系技术的算法同学对优秀方案吸纳并补充到淘宝直播线上场景中,实现更好服务于淘宝直播商品识别业务。

附录:

淘宝直播商品识别大赛链接:https://tianchi.aliyun.com/competition/entrance/231772/introduction

Watch and Buy数据集开源链接:

https://tianchi.aliyun.com/dataset/dataDetail?dataId=75730

淘系技术部—多媒体算法团队

我们依托淘系数十亿级的视频数据和千亿级商品数据,有丰富的业务场景和技术方向。我们着眼于淘宝直播和短视频,着手打造集团统一的视频内容理解框架,对图像&视频的生产、智能审核、大规模检索、高效率分发提供全链路的赋能。我们持续以技术驱动产品和商品创新,不断探索和衍生颠覆型互联网新技术。欢迎机器学习、视觉算法、音视频通信、端侧智能等领域全球顶尖专业人才加入,让科技引领面来未来的商业创新和进步。

阿里巴巴淘系开源首个多模态直播服饰检索数据集相关推荐

  1. “保持耐心”,永远从用户角度出发— 专访阿里巴巴淘系技术内容中台负责人吴桂林(梁舒)...

    互联网电商的出现为人们的生活带来了很大便捷,随着媒体化的趋势和发展,更多电商相关如直播.短视频等内容形式纷纷涌现,带来的是更高的技术要求与挑战. 以下内容由LiveVideoStack对阿里巴巴淘系技 ...

  2. CCF C³@阿里巴巴淘系:内容化驱动的互联网新周期

    CCF C³活动是CCF CTO Club发起的,面向企业技术专家的热门技术和战略分享会,C³活动旨在联结企业CTO及高级技术人才和资深学者,每次以一个技术话题为核心,走进一家技术领先企业.线下为主, ...

  3. 阿里巴巴淘系开源大型3D家具数据集(3D-FUTURE)推动3D家居智能研究

    出品 | 阿里巴巴新零售淘系技术部&躺平 阿里巴巴淘系技术部与英国伦敦大学伯贝克学院 Steve Maybank 教授(Fellow of the IEEE and a Member of t ...

  4. 阿里巴巴淘系前端实习生招聘

    起止时间要求:2023-11-01~2024-10-31 招聘类型:实习生 面试地点:远程 招聘批次:阿里巴巴春季2024届实习生招聘 职位描述 1.负责集团技术平台的终端开发,通过合理的技术方案设计 ...

  5. 阿里巴巴淘系技术部拍卖部-春招提前批

    1.跨域的解决方案. 答:只记得做的一个比较老的项目,里面用的是 配置代理用来转发请求, 从而实现跨域. 又问还有哪些新方法?其实我都没看这个点,就说了不知道. 跨域:因为浏览器同源策略的限制,当前域 ...

  6. 阿里巴巴淘系技术:超详|2020年你不应该错过的CSS新特性

    @argyleink在第四次的伦敦(LondonCSS 2020)CSS活动中分享了一个有关于CSS特性相关的话题.看了一下这个主题的PPT,里面有些新东西还是蛮有意思的.基于该PPT,我稍微整理近2 ...

  7. 多模态视频商品检索记录再刷新!第二届淘宝直播算法大赛完美落幕

    10月20-10月24日,多媒体方向学术盛会ACM Multimedia 2021 于中国成都正式召开.阿里巴巴淘系技术与浙江大学联合举办的直播中多模态商品识别Workshop暨第二届淘宝直播商品识别 ...

  8. 从编解码算法到全链路RTC架构,揭秘淘系直播技术演进之路

    从2016年直播元年至今,纯粹的直播已经逐渐失去竞争力,越来越多形式创新映入眼帘,而众多企业开始走向内容垂直化--秀场.游戏.电商.广电等内容特点深度结合.伴随2020年疫情爆发,电商为人们日常生活提 ...

  9. 让AI学会“哦买尬,买它!”,清北中科院CMU争相角逐顶会Workshop竞赛,淘系技术浙大联手举办...

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 看场直播 ...

最新文章

  1. Java学习笔记(必看经典)
  2. mootools1.3.1源码解读
  3. 网络编程五种IO模型之poll模型
  4. [ARM异常]-图解armv7/armv8的异常向量表和基地址
  5. php ajax 注册,非常实用的ajax用户注册模块
  6. 使用python实现多维数据降维操作
  7. 置信学习:让样本中的“脏数据“原形毕露
  8. 线性搜索或顺序搜索算法在Java中如何工作? 示例教程
  9. IDEA建立Spring MVC Hello World 详细入门教程
  10. (5)通过Node.js 运行JS代码
  11. PCL学习笔记01:在Ubuntu上安装PCL
  12. 【Android】不依赖焦点和选中的TextView跑马灯
  13. 2019最新java实战项目资料
  14. 度数计算机在线使用,度数换算(度数换算计算器)
  15. 小说APP网站源码运营版+在线采集
  16. 前淘宝工程师谈12306:做它比做淘宝难
  17. 0基础怎么画出好看的水彩画美术集水彩教程入门级教程
  18. connect的中文意思是什么_connect是什么意思
  19. 吐血分享:QQ群霸屏技术教程(利润篇)
  20. 【python】win32模拟键盘实现游戏内操作

热门文章

  1. idea页面不显示鼠标光标了?_Mac鼠标光标消失怎么办?苹果电脑鼠标指针不显示的解决方法
  2. 图像编辑系列之(2)基于StyleGAN(3)GAN逆映射(4)人脸 (5)语义生成 | ICCV2021生成对抗GAN梳理汇总...
  3. 浮躁和傲慢,这样的人比比皆是
  4. 最全电力电子仿真matlab/simulink仿真 单相全桥/半桥整流仿真 单相半波全波仿真
  5. 怎么设置网页背景 html,html怎么设置网页背景
  6. 旷视科技 CVPR部分文章
  7. android No address associated with hostname错误
  8. Python中find_elements以及presence_of_element_located的用法
  9. 大家好,我是数学家!来抢诺贝尔奖了!
  10. 算法 - 判断一个数是不是2的n次幂