任务和主题

本次题目围绕电商领域搜索算法,开发者们可以通过基于阿里巴巴集团自研的高性能分布式搜索引擎问天引擎(提供高工程性能的电商智能搜索平台),可以快速迭代搜索算法,无需自主建设检索全链路环境

本次评测的数据来自于淘宝搜索真实的业务场景,其中整个搜索商品集合按照商品的类别随机抽样保证了数据的多样性,搜索Query和相关的商品来自点击行为日志并通过模型+人工确认的方式完成校验保证了训练和测试数据的准确性。

比赛形式分为初赛和复赛两部分,分别从向量召回角度和精排模型角度让选手比拼算法模型。

初赛:
提供HA3环境,让选手PK向量召回模型的效果,选手拿到100万全量Doc和10万对Query-Doc相关训练集,自行训练向量召回模型。选手每次提交的内容为100万全量Doc通过模型转换的embedding(固定维度,如128)以及测试集1000条Query转换的embedding。我们通过回流数据,建向量索引,查询测试,给出评测指标(MRR@10,正确Doc排的位置越靠前分越高)。

复赛:
对于进入到复赛的选手开放精排模型的PK,选手需要在PAI上按照我们要求的模型格式训练精排模型。选手每次提交的内容除了初赛的Doc和Queryembedding,还包括训练好的精排模型。我们通过回流数据,建向量索引,查询测试(该阶段会做超时限制,防止选手无限制扩大模型复杂度),给出评测指标。

参赛流程

下载比赛数据

在任意环境训练向量召回模型

用训练好的模型预测出语料库embedding+测试集query的embedding

在天池上传2份文件进行评测 (按要求打包为.tar.gz格式的压缩包进行提交)

问天引擎回流数据进行测试算分

返回本次模型得分

“阿里灵杰”问天引擎电商搜索算法赛 - 数据说明2022相关推荐

  1. 阿里灵杰:AI工程化助力产业数字升级

    对于人工智能领域而言,"工程化"无疑是贯穿2021全年的热点.Gartner.德勤.中国信通院等权威研究机构先后在年度趋势报告中指出其必要性,与此同时,AI产业化的曲折探索也时刻提 ...

  2. 贾扬清演讲实录:一个AI开发者的奇幻漂流丨2021阿里灵杰AI工程化峰会

    演讲人:贾扬清 演讲主题:一个AI开发者的奇幻漂流 活动:2021阿里灵杰AI工程化峰会(2012年12月3日) 对于绝大多数人来说,这一波AI浪潮兴许是从深度学习开始的. 2011年谷歌发表的一篇文 ...

  3. 阿里灵杰:与开发者一起推动AI创新落地

    对于人工智能领域而言,"AIGC"无疑是贯穿2022年的热点.12月16日,Science杂志发布了2022年度科学十大突破,AIGC赫然在列.以文生图,对话机器人等AI创新应用的 ...

  4. 阿里灵杰融合智能算力,全栈AI服务为探索者铺路

    8月30日,阿里云宣布正式推出全栈智能计算解决方案"飞天智算平台",并启动两座超大规模智算中心,为各类科研和智能企业机构提供高效.开放.绿色的智能计算服务. 其中,在AI开发层,阿 ...

  5. 聚焦 | 阿里灵杰AI工程化峰会来了

    简介:半个多世纪以来,人工智能(Artificial Intelligence,以下简称AI)技术与产业经历了高速增长,也逐渐回归理性.阿里云始终坚信,工程化是推动AI从实验室落地到产业中的必经之路. ...

  6. 麦包包简朝阳:MySQL的B2C电商系统前端数据层架构

    大家好,我是来自麦包包技术保障部的简朝阳,今天我分享的主题是基于MySQL的B2C电商系统前端数据层架构.我之前在互联网企业工作,也是与电子商务相关.之前我自己写过一本MySQL方面的书,可能有些同学 ...

  7. 利用python分析电商_基于Word2Vec+SVM对电商的评论数据进行情感分析

    Word2Vec-sentiment 基于Word2Vec+SVM对电商的评论数据进行情感分析 首先是利用word2vec对正负评论数据进行词向量训练,然后利用SVM分类器对语料进行分类,具体的过程如 ...

  8. 大数据交易研究_学术著作 | 基于电商平台大数据的特征价格指数研究——统计研究...

    基于电商平台大数据的特征价格指数研究 作者:雷泽坤,辽宁大学经济学院,清华大学中国经济社会数据研究中心:郑正喜,上海财经大学统计与管理学院,清华大学中国经济社会数据研究中心:许宪春,清华大学中国经济社 ...

  9. CnOpenData电商平台交易数据数据

    一.数据简介   电子商务是网络化的新型经济活动,是推动"互联网+"发展的重要力量,是新经济的主要组成部分.通过电商平台获取的电商交易平台数据可以及时统计.监测数据,全方位跟踪分析 ...

  10. 数据挖掘实战—电商产品评论数据情感分析

    文章目录 引言 一.评论预处理 1.评论去重 2.数据清洗 二.评论分词 1.分词.词性标注.去除停用词 2.提取含名词的评论 3.绘制词云查看分词效果 三.构建模型 1.评论数据情感倾向分析 1.1 ...

最新文章

  1. VMware安装CentOS6.8详细教程
  2. C语言网络编程:socket函数
  3. java构造方法的书写和注意事项(入门可看)
  4. R语言Goldfeld-Quandt检验实战:检验回归模型中是否存在异方差性(heteroscedasticity)、发生了异常差(heteroscedasticity)问题如何解决
  5. CC2540开发板学习笔记(一)——LED点亮
  6. Oracle 11g 预定义账户和PLSQL工具、企业管理器的初步使用
  7. boost::mpl模块实现replace_if相关的测试程序
  8. 【Linux】 Linux 系统文件相关的操作命令
  9. python--装饰器(附偏函数、断言)
  10. c语言二叉树图形输出,C语言数据结构树状输出二叉树,谁能给详细的解释一下...
  11. lua 给userdata设置元表_UE4热更新:基于UnLua的Lua编程指南
  12. Mybatis的几种传参方式
  13. IIR数字程控滤波器
  14. 贴片电阻封装规格及阻值标注方法
  15. 怎么查看计算机mac地址,怎么查电脑的mac地址?电脑mac地址查询方法
  16. vue会不会?看了你就会了!干了#兄弟们
  17. Java岗大厂面试百日冲刺 - 日积月累,每日三题【Day14】—— 数据库3
  18. 按键精灵手机版 参数个数不匹配
  19. SAP批次管理-内容概览
  20. traffic server文件目录

热门文章

  1. POJ-2031-Building a Space Station
  2. ECS 还是轻量应用服务器,看完评测你就知道了?
  3. 玩转 Git 与 GitHub
  4. PHP_变量什么情况下加大括号{}
  5. 帮同学的忙,随意写了个课程设计(关于循环双向列表)
  6. 号外号外:Exchange2010SP2已经发布
  7. 设计网际网络的地址标准
  8. Oracle 触发器 判断
  9. 全国软件专业人才开发与设计赛题之中等题“五位数黑洞”
  10. php存库,php – 使用Laravel实现存储库模式