1. 背景

作为电子商务网站,淘宝网上的每个商品都有一个价格,该价格从一个很重要的维度上反应出一个商品的品质。但是由于该价格是由第三方卖家自己确定的,因此存在一定的随机性。一个价格过低的商品,其假货的可能性往往较大,比如500元的劳力士手表,或者商品的质量存在问题;同时一个价格过高的商品,可能会失去一个潜在的购买者,也可能会是卖家故意设置高价,以便用户按价格排序时展现在靠前的位置。
    因此对一个商品当前价格的合理性进行判断,并根据该商品的属性给出其合理的价格区间,对于规范淘宝网的商品运营以及搜索结果展现方面都具有重要的作用。

2. 应用场景

本算法目前主要用于三个场景:

  1. 在搜索排序中,对于商品价格合理性极低的商品进行降权;
  2. 商品假货识别中,针对超低价商品判断其是否为假货;
  3. 商品品质项目中,根据商品的价格合理性作为商品品质分析的一个维度,从劣质、性价比等方面刻画一个商品的品质。

3. 技术方案

3.1 概述

本算法提出三个优化点来判断一个商品的价格合理性并给出一个合理的价格区间:

  1. 根据商品的属性对商品进行同款聚合,以同款商品为单位,对同款中商品的价格合理性进行判断;
  2. 使用近30天商品的成交价,同时以天猫、KA卖家等可信商家的商品价格作为训练数据;
  3. 基于训练样本动态地选择单高斯模型或双高斯模型,同时解决奇异值与过拟合问题,以提高准确率。

整体流程图如下所示:

3.2 详细流程

3.2.1. 获得同款数据

第一步是获取商品的同款信息,只有基于同款的情况下,才能利用大数据对商品的合理价格进行预测。目前使用到的同款数据主要有以下三个:

  1. 部分标类商品有spuid节点,spuid相同的商品为同一类
  2. 当前淘宝网上的找同款的数据
  3. 图像团队产出的同款数据

除此之外,我们还有基于商品重点属性的同款聚合的通用方法,以增加对商品的覆盖量。该方法通过设置类目下的重点属性,自动地根据这些属性对商品进行聚合成同款进行后续的计算。

3.2.2 训练样本集获取

获取了同款数据之后,需要从里面找到价格有问题的样本,首先需要获取其中可信任的样本,当前从三个维度获取可信样本:

  1. 以商品成交价作为训练样本,因此需要以同款为粒度获取该同款下过去30天内成交的商品的成交价,同时为了保证成交价的合理性,需要去掉其中识别出来的炒信、作弊等销量
  2. 取同款中天猫卖家的商品价格作为训练样本
  3. 取同款中KA卖家的商品价格作为训练样本

3.2.3 基于动态高斯模型的商品价格模型

在获取了同款下商品的训练样本之后,使用高斯模型获得其分布的均值、方差等信息。在本方法中对传统的高斯模型进行了两处优化:

  1. 根据样本分布情况去除奇异点;
  2. 根据数据样本情况动态选择单高斯或双高斯模型进行训练;

具体算法流程如下图所示:

    本算法中会首先使用双高斯模型计算出当前训练样本的分布情况,同时会根据具体的样本信息决定使用双高斯模型还是单高斯模型。
    判断双高斯是否合适的方法:
    判断是否使用单高斯模型的逻辑有两个

  1. 判断两个高斯模型的均值是否较为接近,若其比值大于某个阈值,比如均值分别为100与130的情况,则可以使用单高斯模型。同时还要判断其均值是否过于接近,如果过于接近,则合并为单高斯之后会造成数据过拟合的情况。因此需要对它们的均值之比设置一个上限与下限;
  2. 同时再设置两个高斯模型中样本点的数量之差的限制

去除奇异点方法:
    去除奇异点的目的主要是为了解决当前同款数据中本身存在的噪声问题,让训练的样本更加收敛。主要方法是在双高斯模型情况下,若其中一个模型中的样本量过少,而另一个模型中的样本量很多,那么样本量少的可以作为奇异值进行去除。比如在同一款中,大量的价格聚集在100元,只有少量的价格聚集在20元,那么20元周围的样本可以作为奇异值进行去除。具体的阈值等信息根据情况进行设置。
 
    通过该方法计算出每个同款下商品价格的分布情况,在预测时,可以直接通过查表的方式找到该同款下每个商品价格的合理性概率值。

4. 效果与后续计划

4.1 当前识别效果

当前价格模型的数据分别在假货识别、商品品质、超低价商品降权中得到应用。

  1. 具体在假货识别中,应用到了运动鞋类目、手表类目以及门票等类目下,目前已经通过价格的方式识别到有问题的商品X个,经过评测准确率达到98%。
  2. 在商品品质模型中,价格模型也应用于找到性价比更好的商品以及同款商品中价格不合理的商品,作为商品品质模型的一个特征。

4.2 后续计划

在价格模型后续的工作中,会从以下几个方面进行开展:

  1. 对当前价格模型的不断优化
  2. 假货识别中,从当前的几个类目扩展到更多的类目进行尝试
  3. 商品品质模型中,更好地利用好价格这一因素,开发出更多的模型,如商品性价比模型等
该文章来自于阿里巴巴技术协会(ATA)

基于动态混合高斯模型的商品价格模型算法相关推荐

  1. AAAI 2021 | 基于动态混合关系网络的对话式语义解析方法

    作者|惠彬原,耿瑞莹,黎槟华,李永彬,孙健 单位|阿里巴巴达摩院Conversational AI团队 引言 机器可以自己写 SQL 语句吗?当然可以~只需要用自然语言描述你的想法即可,甚至还能进行多 ...

  2. 基于动态邻域的切换粒子群优化算法

    英文: A Dynamic Neighborhood-Based Switching Particle Swarm Optimization Algorithm 摘要: 本文提出了一种基于动态邻域的切 ...

  3. 基于动态用户偏好和服务质量的推荐算法

    引用: Zhang Y, Qian Y, Wang Y. A RecommendationAlgorithm Based on Dynamic User Preference and Service ...

  4. 混合高斯模型的基本原理,以及通过混合高斯模型进行背景建模的基本思想

    混合高斯模型的基本原理,以及通过混合高斯模型进行背景建模的基本思想 混合高斯模型的基本原理 虽然是背景,但是灰度并不是一直保持不变的,灰度是在一个范围内变化的.一个背景像素随着时间变化呈现一定的随机性 ...

  5. Opencv实战之混合高斯前景背景分割算法

    -不管三七二十一,先上代码 -读取需要掌握的函数 # 相关函数 # cv.VideoCapture() 初始化摄像头,0开启第一个摄像头,1开启第2个摄像头,返回摄像头对象,一般会自动打开摄像头 # ...

  6. 上海科技大学ACL2018高分论文:混合高斯隐向量文法

    作者丨赵彦鹏.张力文.屠可伟 单位丨上海科技大学 研究方向丨NLP.机器学习 自然语言处理领域的传统方法着重于处理离散符号之间的复杂结构,但近几年随着深度学习的兴起,出现了很多将符号向量化结合神经网络 ...

  7. 基于Python实现k-means算法和混合高斯模型

    1. 实验目的 实现一个 k-means 算法和混合高斯模型,并且用 EM 算法估计模型中的参数. 2. 实验要求 用高斯分布产生 k 个高斯分布的数据(不同均值和方差)(其中参数自己设定). 用 k ...

  8. 基于混合高斯模型与帧差法结合的目标跟踪算法matlab仿真

    目录 一.理论基础 二.核心程序 三.仿真测试结果 一.理论基础 目标检测:混合高斯模型与帧差法结合的算法,与单独的混合高斯模型算法作对比,体现前者的优越性 3.要求和结果:对比改进前后的算法,可以非 ...

  9. 混合高斯模型去除背景

    本文转自 http://www.cnblogs.com/mfryf/archive/2012/03/29/2424024.html 基于混合高斯模型去除背景法 高斯模型去除背景法也是背景去除的一种常用 ...

最新文章

  1. 普通用户 fork报错 fork: retry: No child processes 解决方法
  2. vscode 好用插件
  3. iOS GPUImage之视频采集GPUImageVideoCamera
  4. 安装、启动、配置zookeeper(window版)
  5. 人脸特征值能存放在sql server中吗_SQL运行内幕:从执行原理看调优的本质
  6. JavaScript Iframe富文本编辑器中的光标定位
  7. 找第一个只出现一次的字符_剑指offer 字符流中第一个只出现一次的字符
  8. python提示jsondecodeerror是什么意思_python中报错json.decoder.JSONDecodeError: Expecting value:的解决...
  9. php 正则匹配所有路径,与文件路径匹配的PHP正则表达式
  10. Zabbix(四)zabbix使用JMX监控tomcat(java类应用)
  11. 创建前缀一样的文件_Win10更快速创建或重命名仅扩展名文件
  12. c php curl post,php curl post
  13. python 拼音 四线格_Python 中拼音库 PyPinyin 的用法
  14. 人工智能时代!Python跃升编程语言第一名!
  15. 服务器怎么修改远程桌面端口号,windows系统如何修改默认的远程桌面端口 如何更改服务器远程端口...
  16. html常用字体代码大全,HTML常用字体代码(HTML is a common font code).doc
  17. android 5.0 开启网卡 权限请求,Aurora Droid | F-Droid - Free and Open Source Android App Repository...
  18. mac解决“您的电脑因为出现问题问题而重新启动 SOCD report detected: (iBoot panic)“报错, 重置SMC与重置NVRAM(PRAM)
  19. 关于csgo的观看录像fps低_CSGO如何设置视频选项高FPS
  20. connect的中文意思是什么_connect是什么意思

热门文章

  1. C/C++下载文件_上传文件
  2. Linux系统编程:使用semaphore信号量和mutex互斥量实现多个生产者和消费者模型
  3. iOS -转载-开发之个人开发者账号转公司开发者账号
  4. 常见开源协议大白话说明
  5. Ubuntu 12.04安装Microsoft lifecam studio摄像头
  6. 在VC8里调用VBScript.dll的RegularExpression
  7. ZZ:WSS 扩展文件夹的属性--如何给文件夹添加扩展字段 from Jianyi0115
  8. S5PV210启动过程
  9. 想当年,我也是斩获20+大厂offer的收割机!
  10. 一文详解,RocketMQ事务消息