【天池大赛】淘宝直播商品识别
点击我爱计算机视觉标星,更快获取CVML新技术
背景介绍
直播带货是淘宝连接商品和消费者的重要方式,买家在观看直播的过程对喜爱的商品进行购买。
在单场直播中,主播常常会对成百上千的商品进行展示、试用和介绍,买家如果想购买正在讲解的商品,则需要在该直播关联的商品列表(包含成百上千个商品)中手动去挑选,非常影响用户的购买效率和用户体验。
如果能够通过商品识别的算法,根据直播视频的画面和主播的讲解,自动识别出当前讲解的商品,把对应的购买链接推荐给用户,将大大提升用户的购买体验。
本赛题要求选手通过计算机视觉、自然语言处理等人工智能算法,把视频中正在讲解的商品识别出来,提升用户在淘宝直播中的购买体验。
竞赛题目
比赛中,主办方将提供一个包含大量直播片段的视频库和一个包含大量商品的商品库,其中视频库中包含直播片段的视频帧和该时间段对应的主播讲解语音的文本,商品库中包含商品的多张展示图和对商品的文本描述。
对于视频库中的每一个直播片段,选手需要从商品库中检索和识别出直播中正在讲解的具体商品,如下图所示。
竞赛数据
术语说明
匹配对:直播直播片段和对应讲解的商品构成一个匹配对
展示方式(display):衣服的展示方式,分为由主播或者模特进行试穿和纯商品展示
视角(viewpoint):图像中服饰商品的拍摄角度,分为正面、侧面、背面
实例编号(instance_id):图像中每个服饰检测框视为一个实例,具有唯一的实例编号,具有相同编号的实例为同一个商品
训练数据
训练数据主要由两部分构成,分为直播片段视频帧及对应的讲解文本、商品展示图及商品文本介绍,上述信息将提供为选手作为算法的输入信息。
数据的标注主要包括视频帧和商品图中的服饰信息。视频帧中服饰标注精确到检测框的粒度,主要包括服饰的检测框位置、对应的服饰类别、实例编号、是否为主播试穿、拍摄视角。
商品的标注与视频帧标注类似,主要包括商品展示图中的服饰标注和商品的文本描述,其中每一个商品展示图中标注了服饰的检测框位置、对应的服饰类别、实例编号、是否为主播试穿、拍摄视角。
视频帧中的商品和商品图中的商品通过实例编号关联起来,同一个实例编号对应同一个商品。选手可以使用上述信息进行模型的训练。标注的示例如下图所示。
数据结构
训练集数据组织形式如下:
数据:
+ video文件夹:直播片段数据(.mp4格式)
+ video_text 文件夹:直播片段中主播讲解文本(.txt)
+ image文件夹:商品图数据- 商品文件夹(每个商品文件夹包含当前商品的多张图,.jpg格式)
+ image_text 文件夹:商品文本描述 (.txt)
数据标注:
+ video_annotation文件夹:直播片段标注数据(.json格式)
+ image_annotation文件夹:商品图标注数据- 商品文件夹(每个商品文件夹包含当前商品多张图的标注,.json格式)
video文件夹、video_text 文件夹、image文件夹、image_text 文件夹为输入数据,video_annotation文件夹和image_annotation文件夹为数据的标注。所有直播片段、商品和相应的标注均以0开头的6位数字作为id命名,
同一个id的直播片段和商品构成一个匹配对。如000001.mp4 /000001.txt/ 000001.json (直播片段、文本及标注)、000001/1.jpg /000001.txt / 000001/1.json(商品图、文本及标注),视频、讲解文本和对应标注json具有相同文件名,商品图、商品描述文本和对应标注json具有相同文件名。
直播片段标注数据json格式如下:
{"video_id":"000001","frames":[{"frame_index":1,"annotations":[{"label":"短袖连衣裙","viewpoint":1,"display":1,"instance_id":1,"box":[10,10,100,200]},...]},...]
}
其中,video_id
字段为直播片段编号,frames
字段是一个列表,包括多张视频帧标注(间隔40帧(2秒)标注一帧)。
每一个视频帧标注中,frame_index
字段表示当前视频帧编号(0~399),boxes
字段为该帧画面中标注的多个检测框,
每一个检测框标注包括服饰类型字段label
(共22类,具体类别见下图),视角字段viewpoint
(0:正面,1:背面,2:侧面),展示方式字段display
(0:纯商品展示,1:试穿展示),实例编号字段instance_id
(商品图和视频帧中标注了大于0的相同instance_id的检测框为同一件商品,具有对应关系,instance_id为0表示不具有匹配关系),
以及标注框位置字段box
(xmin, ymin, xmax, ymax)。
商品图标注数据json格式如下:
{"item_id":"000001","img_name":"1","annotations":[{"label":"短袖连衣裙","viewpoint":1,"display":1,"instance_id":1,"box":[10,10,100,200]},...]
}
其中item_id
为商品id信息字段,img_name
为商品文件夹下的商品图名称,其余字段与单张视频帧标注格式一致。
数据评测
验证集和每个测试集均包含10,000个直播片段和商品匹配对。每一个直播片段将提供对应的视频帧和主播讲解语音文本,每个商品将提供商品的多张展示图和商品的文本描述,上述的信息将作为算法的输入提供给选手。
对于验证集或测试集中的每一个直播片段,选手需要利用图像和文本信息从10,000个商品构成的查询库中识别出该直播片段正在讲解的商品。
返回的商品信息,需要包含该直播片段讲解的商品id,该商品在直播画面中出现的视频帧号(算法检测到多帧画面均包含该商品的,返回任意一帧的序号即可),该商品在对应视频帧中检测框的位置,包含该商品的商品图的名称,该商品在该商品图中出现的检测框位置等信息,具体格式如下。
算法输出格式
算法根据输入数据,识别讲解商品,返回如下json格式的算法结果:
[{"video_id":"000001","result":[{"item_id":"100002","frame_index":10,"img_name":"1","item_box":[10,10,200,200],"frame_box":[10,10,200,200],}]},{"video_id":"000002","result":[]},...
]
参赛者需返回视频库中每一个直播片段中正在讲解的商品信息,组织成上述格式,其中,video_id
为直播片段id
,result
为结果列表,包含字典形式的结果数据,没有则为空,其中item_id
为商品id
,frame_index
为匹配到的视频帧编号,img_name
为匹配商品图文件名,item_box
为商品图中匹配商品检测框,frame_box
为视频帧中匹配商品检测框。
验证集还将提供标注信息,格式同训练集一致。参赛选手可使用评测脚本自行验证。
评判标准
算法性能要求:
平台将提供统一环境运行选手算法,将对运行时间做出限制,如果超过该时间,则判定算法结果无效。
算法效果评价
比赛评分将综合考量直播片段级、视频帧级、以及检测框级商品识别效果。比赛采用F1 Score
作为综合评价算法各级别的精确率和召回率的分数:
其中,PP为算法精确率,RR为算法召回率,NTP为算法预测正确的商品数量, NP为算法检测出存在对应匹配关系的商品总数量,NGT为人工标注出的正确匹配商品数量。
直播片段级商品识别分数S1:
算法返回正确的item_id,即视为商品预测正确
视频帧级商品识别分数S2:
算法返回正确的item_id,并且返回视频帧画面中确实存在该商品,即视为商品预测正确
检测框级商品识别分数S3:
算法返回正确的item_id,返回视频帧画面中确实存在该商品,并且返回商品图中算法预测检测框与标注检测框IOU>0.5,即视为商品预测正确
最终分数由上述三项加权得到:
赛程安排
初赛(1月19日-3月27日,UTC+8)
复赛(4月1日-4月30日,UTC+8)
线上实战总决赛(5月,UTC+8)
奖项设置
冠军:1支队伍,奖金10万元人民币,颁发获奖证书
亚军:2支队伍,每支队伍奖金5万元人民币,颁发获奖证书
季军:2支队伍,每支队伍奖金2万元人民币,颁发获奖证书
(上述奖项以方案评审及线上实战总决赛后的最终名次决定)
参赛对象
面向全社会开放,高等院校、科研单位、互联网企业等人员均可报名参赛,组队上限为3人。
阿里巴巴集团、蚂蚁金服、菜鸟等BU员工均可报名参赛,规则如下:
阿里系员工报名参赛,可参与排名,但不得领取奖金,排名靠前者可获得相应的天池礼品,包括天池纪念衫、淘公仔、马克杯等;
选手完成阿里云账号注册,并在天池个人中心页面内邮箱改为阿里巴巴员工邮箱,组织单位体现所在BU(“天池平台-个人中心-所在机构”);
队伍内有一位阿里系员工,即属于阿里巴巴集团内部参赛团队。
*注:更多详情请戳链接:
https://tianchi.aliyun.com/competition/entrance/231772/introduction
竞赛交流群
了解最新竞赛信息、找人组队、技术交流,扫码添加CV君拉你入群,(如已为CV君其他账号好友请直接私信)
(请务必注明:竞赛)
喜欢在QQ交流的童鞋,可以加52CV官方QQ群:805388940。
(不会时时在线,如果没能及时通过验证还请见谅)
长按关注我爱计算机视觉
【天池大赛】淘宝直播商品识别相关推荐
- 淘宝直播商品识别大赛开幕,助力视频多模态商品检索技术再升级
阿里巴巴淘系技术与浙江大学深度合作,在多媒体领域顶会ACM Multimedia 2021举办直播中多模态商品识别workshop暨第二届淘宝直播商品识别大赛,共同推动电商直播场景中多模态商品检索识别 ...
- 淘宝直播商品识别大赛
赛题链接: https://tianchi.aliyun.com/competition/entrance/231772/information 开篇之前,感谢队友的倾情付出,以及不离不弃.把我队友的 ...
- 多模态视频商品检索记录再刷新!第二届淘宝直播算法大赛完美落幕
10月20-10月24日,多媒体方向学术盛会ACM Multimedia 2021 于中国成都正式召开.阿里巴巴淘系技术与浙江大学联合举办的直播中多模态商品识别Workshop暨第二届淘宝直播商品识别 ...
- 淘宝/天猫图片识别商品接口,1688图片识别商品API接口
淘宝/天猫图片识别商品接口,1688图片识别商品API接口接口代码如下: 1.公共参数: 名称 类型 必须 描述 key String 是 调用key(必须以GET方式拼接在URL中) secret ...
- 淘宝直播在冲刺最复杂的人工智能技术!
01 上周,主播林珊珊测试了一下淘宝直播团队依据他个人形象打造的虚拟主播,也就是林珊珊下播以后,让虚拟主播上场,粉丝在直播间可以跟虚拟主播互动,虚拟主播则实时介绍商品,回答消费者提问. 第二天,林珊珊 ...
- 详解淘宝直播背后的技术!
在移动网络.云计算.人工智能等技术发展的驱动下,直播成为当今时代的一个电商新物种.而该领域发展至今,无论是从量级上,还是技术上,作为行业中的佼佼者--淘宝直播,一直以来,都备受技术人的关注. 在阿里文 ...
- 归因分析:淘宝直播数据助理及其价值研究
导读:近年来,直播带货成为一种新的流行业态.主播在直播间与线上消费者实时互动,这极大的提高了信息交流的效率.在这种实时性极强的场景,主播对直播间实时信息的使用有可显著影响直播间的带货情况. 为了让主播 ...
- 淘宝直播三大核心技术揭秘
阿里巴巴淘系技术部 高级算法专家王立波(花名:庄恕)受邀参加LiveVideoStackCon 2020线上峰会的分享,为大家带来「淘宝直播窄带高清技术」,本文将结合现场演讲,从直播背景.直播痛点分析 ...
- 淘宝直播窄带高清技术
本文来自阿里巴巴淘系技术部 高级算法专家王立波在LiveVideoStackCon 2020线上峰会的分享,从直播背景.直播痛点分析.窄带高清.云视频技术趋势几方面详细介绍了如何在确保用户体验QOS不 ...
最新文章
- python零基础入门教材-python如何零基础学习,如何入好门?
- 那些年,我们一起做过的性能优化
- 碎片化学前端,促进技术提升,我推荐这些
- C#趣味程序---爱因斯坦的台阶问题
- 【渝粤题库】陕西师范大学200991教育统计学作业(高起本)
- MV-LDL论文修改20211115(B-Y Rong)
- python实训总结万能版3000字_实训总结万能版2000字范文五篇
- Linux设备驱动与整个软硬件系统的关系
- serialport 延时计时器 修改_为了夜经济,青岛真是拼了!地铁公交延时运营,再也不怕没车了...
- 有人说苹果手机的CPU非常强大,为什么会这样?苹果cpu又是谁设计的?
- NVIDIA芯片组BIOS设置和RAID设置简单介绍
- BZOJ4872: [Shoi2017]分手是祝愿
- Node.js中使用AWS SNS服务发送短信
- opencv实时录像+视频打码
- m3u8简单教程之我不是药神下载
- APMCon2017 | 一大波技术大神来袭,你要的性能优化干货这里全都有
- 产品经理懂点技术之:大话5G
- 树莓派环境处理_树莓派安装raspbian并配置开发环境
- python 类调用不存在的方法_找不到Python方法,但在类中定义
- 其实读一读,真的安静了