现状

闲鱼是一个基于C2C场景的闲置交易平台,每个用户既是买家也是卖家,并随着这些年的高速发展,一方面闲鱼的商品越来越丰富,在自由享受交易乐趣的同时也存在商品良莠不齐的问题,另一方面这些年闲鱼一直在深耕商品理解,沉淀了丰富的商品属性资产,因此我们希望针对这些基础属性资产进行分析处理,进行商品分层,挖掘出闲鱼的优质商品,形成闲鱼特有精品库。

问题

闲鱼虽然倡导轻发布,一张图片加一段描述一分钟就即可完成发布,但是通过引导用户售卖补全属性,图文算法分析等手段沉淀了不少商品属性和用户属性,其中商品属性包括基础属性和二手属性等,用户属性包括信用属性和服务等,因此我们核心要解的问题是:如何利用些结构化信息发现并定义优质商品,进而沉淀优质商品,构建闲鱼精品库。

整体架构

通过前文的介绍 我们知道了需要解的问题,从系统角度看,我们解决思路是以结构化信息为基础(包含商品和人属性),抽象出不同维度的指标模型,最终为商品打标,实现闲鱼精品库。进一步拆解下去,系统核心要解决两个问题

  • 如何定义优质商品

  • 如何沉淀精品标签

结合算法能力,工程能力,下游导购链路,我们梳理了闲鱼的精品库系统架构

商品理解(优质商品定义)

解决优质商品定义的问题,传统直接做法是直接使用深度学习网络DNN,SVM,GBDT等网络, 这种做法的好处能快速的达到效果,但带来问题是黑盒模型,运营无法获得输入,且后续指标准确率较难提升,而我们要跟运营持续协作,并在后续需要更深入的应用。因此我们采用另外一种解法:基于闲鱼知识库可解释的商品理解

通过对闲鱼动销高的商品结构信息分析归类,我们抽象出一些维度去定义优质商品,如商品信息完善度,价格指标,供需指标、卖家指标等,算法通过上述四个商品维度去分析商品信息,通过智能因子分析函数发现每个商品维度相关的关键因子,并通过仿真系统对这些关键因子组成的指数进行动销率回归预测分析,验证指数的有效性,通过循环迭代后形成信息完善度指数模型,价格指数模型,卖家指数模型,供需数据模型能及指数加权后优质商品分模型。

特征计算&存储(精品标签沉淀)

有了优质商品定义模型,我们需要对闲鱼所有商品打标(包括安全负向标签),跟其它电商场景不一样的,闲鱼商品有个显著的特征:大部分是孤品,因此这里带来一个显著的差异:特征计算链路考虑实时计算和离线链路

实时计算

如上图所以,每当商品信息有变更,如用户编辑商品,新发商品等,都将会触发一次实时计算链路,数据计算是基于TPP平台实现的,TPP是集团内部算法开发和托管的平台,除模型计算外,还需要重点考虑安全问题,商品安全检测、用户安全检测等。在标签进下游HA3引擎及基础数据标签存储前,我们架设一个异构数据统一接入层,主要是负责后续各种不同来源的数据源,同扩适配器将各种数据统一化为Metaq消息,通过元数据中心完成统一的注册和管理,保证数据shcema的全局统一,便于后续特征模型的快速接入。

离线计算

二手商品随着时间推移,有价值衰减的情况,因此离线计算每天会将闲鱼的全量在线商品重新计算一遍,分为数据整合、数据计算,数据导入三块,过程涉及到计算量比较大,主要是基于ODPS大数据计算平台来完成。ODPS(MaxCompute) 是阿里巴巴自主研发的海量数据处理平台。主要服务于批量结构化数据的存储和计算,可以提供海量数据仓库的解决方案以及针对大数据的分析建模服务。

全量增量相互覆盖问题

实时+离线带来一个难题:全量与增量的相互覆盖问题。例如T+1全量的导入时间从早上0点开始,2点结束,这期间不停有最新的增量数据写入,很可能出现1点增量数据在2点被离线数据覆盖,从而出现脏数据。针对这个问题,我们的解决思路是先把T+1全量数据写到备库并记下全量数据的截止时间,等全量回流完成后,再从截止时间开始回放期间的增量变更数据,直到追上最新的变更记录,然后再切换版本。几个步骤如下图所示:

这里我们的选择是iGraph,iGraph是集团内部一个大规模分布式在线图存储和检索服务,提供全量ODPS+增量消息的回流服务,原理跟上述类似。

服务能力

服务能力主要是根据下游应用场景抽象出来,重点分为这几块:数据在线查询能力:数据要实时的,要具备多维度查询能力,数据要足够的聚合,避免下游子业务频繁且无效的聚合加工操作,这里我们通过HSF接口服务来提供。消息订阅能力:优质商品实时变更消息服务,供下游业务订阅,做到上下游的数据联动。离线数据服务能力:提供天级、小时级、分钟级的ODPS离线数据,供下游数据加工处理。

业务层

通过闲鱼选品平台(马赫),运营同学配置圈选逻辑提供各种的投放玩法,给用户呈现不同的优质商品触达方式,如下图所示:

另外通过搜索推荐给用户提供精品库的个性化推荐服务,快速支撑商品侧的业务形态,如为价格指导提供闲鱼的二手价格锚点。

业务效果

通过商品分层沉淀出来的闲鱼的精品库,目前已支持上百种选品策略,用户的点击和购买提标都有较明显的提升效果,如在新用户首页购,如在新用户首购接入精品库,支持转化率提升近1倍,手机频道页的点击率提升20%以上,搜索优质价格标签透出,提升交买卖家转化率相对基准桶提升1%等。

展望

本文介绍一种基于对商品结构化信息的理解构建了一套闲鱼精品库建设方案,限于篇幅的原因,本文主要介绍系统的整体架构及几个关键点的解决思路,希望能给读者带来的一些思考和启发。后续我们会通过商品聚簇的方式来加深对商品的理解,如对价格的判断,另一方面我们会对接下游回收流程,使好商品能快速流通起来,提升闲鱼的平台价值。

系列文章|闲鱼商品理解之精品库建设相关推荐

  1. 闲鱼商品理解和选品,究竟是怎么做的?

    简介:为了更懂你,我们始终在努力 闲鱼技术-仝辉 背景   闲鱼在这几年的高速发展中,积累了几亿件在线商品,而这些商品稂莠不齐,可能会带来买家不好的购物体验.因此,我们希望引入闲鱼商品理解的能力,选取 ...

  2. 纳米镜系列文章|闲鱼如何快速仿真运营活动效果?

    背景 在互联网行业中,为了增加用户对产品的粘性,常常会针对性地开展用户运营活动.以红包活动为例介绍运营活动的一般流程.首先根据以往红包活动具有对不同活跃度的用户产生不同促活效果的经验,将用户群体划分为 ...

  3. 闲鱼商品详情抓取系统开发/测试完毕,可自动采集闲鱼商品详情信息

    原来开发的闲鱼工具,一直采集的是闲鱼的搜索列表页,在采集字段上浅显地使用基本没有问题,但对于浏览量.收藏.用户销售量.以及一些用于智能判断商品质量.用户是否涉嫌造假的字段数据上,并没有采集到,因为这些 ...

  4. java爬取闲鱼商品信息(一)

    闲鱼真是一个很神奇的地方,= =能让我等学生狗不用花很多钱就能体验科技的乐趣,当然,前提是别翻车. 好了,这当然是题外话,这阵子总结了自己学习的一些技能,就写一个对闲鱼的数据抓取来练练手. 预计达到的 ...

  5. 闲鱼java系统_java爬取闲鱼商品信息(一)

    闲鱼真是一个很神奇的地方,= =能让我等学生狗不用花很多钱就能体验科技的乐趣,当然,前提是别翻车. 好了,这当然是题外话,这阵子总结了自己学习的一些技能,就写一个对闲鱼的数据抓取来练练手. 预计达到的 ...

  6. java爬取闲鱼商品信息(三)

    这一篇距离前两篇更新的时间有点久了,最近忙着刷题- -. 好了,上次说到没办法获取到动态加载的部分. 我用了phantomjs尝试了一下,多获取到的部分是复杂的js代码,代码量太大了,没找到我们需要的 ...

  7. java爬取闲鱼商品信息(三)_java爬取闲鱼商品信息(二)

    有了需要爬取的起点队列. 接下来就可以细看一下源码中html的规则. 上面这一段就是一个商品在html源码中的结构. 这里面包含了,卖家头像,ID,vip等级,主页,各种图片,商品基本信息,地址等等东 ...

  8. java爬取闲鱼商品信息(三)_java爬取闲鱼商品信息(三)

    这一篇距离前两篇更新的时间有点久了,最近忙着刷题- -.又笔试了两轮猪厂一轮鹅厂,结果还没出来,不过感觉都凉了. 好了,上次说到没办法获取到动态加载的部分. 我用了phantomjs尝试了一下,多获取 ...

  9. 电商api—闲鱼商品

    电商api接口之闲鱼商品数据 数据展示: "all_result": {"itemDO": {"browseCnt": "7266 ...

最新文章

  1. Template methed
  2. VTK:几何对象之ParametricObjects
  3. Go在谷歌:以软件工程为目的的语言设计
  4. Linux启动过程以及初始化
  5. adb push ,adb pull和adb install的区别
  6. jps出现– process information unavailable解决方法
  7. 直男不懂女人心?10953 条数据告诉你女王节送什么口红色号!
  8. 【vijos1790】拓扑编号
  9. [转]唐骏谈职场 —— 管理者要学会让员工感动
  10. 拓端tecdat|R语言用极大似然和梯度下降算法估计GARCH(p)过程
  11. 2014年物联网Internet of Things应用简介
  12. BOM详解(整个BOM架构体系)
  13. 华为路由器怎么配置虚拟服务器,华为路由器配置实例详细备注讲解
  14. android q mix3,小米MIX3成首款适配Android Q的5G手机
  15. VMware破解密码
  16. 单肩包属于什么类目_包包属于什么商标类目
  17. MediaWiki配置
  18. 第四代编程语言_几代编程语言
  19. C/C++《数据结构课程设计》任务书[2022-12-27]
  20. 【车载】度(角度)和弧度的概念

热门文章

  1. CCNP-EBGP环回口建立邻居之间启用IGP的效果
  2. qml延迟代码_选择C而不是QML将您的代码减少80
  3. JAVA基础入门学习编程
  4. 如何用银联易办事POS机缴纳交通违章罚款
  5. ➢ 微信公众号运营教程(一)申请一个微信公众号
  6. 贵州支教之第三天(11月9日)
  7. 【心电信号】基于matlab小波阙值心电信号去噪【含Matlab源码 2188期】
  8. 亚微米SOI脊型波导(课堂笔记)
  9. 《大数据原理与实践》第4次公开课:Application
  10. “谁动了我的奶酪?”的故事