PMCAFF微分享 | 京东首席搜索专家,告诉你电商搜索你不得不知道的秘密
本期主题 | 京东搜索下拉框产品个性化探索
分享时间 | 7月9日(周五)21:00
分享地点 | PMcaff B端产品经理群
进群方式 | 请加管理员微信:kit alt
【本期嘉宾】
商倩兰 京东实战派搜索专家,京东商学院特级讲师,四年阿里巴巴平台搜索排序产品设计经验,现任京东搜索资深产品经理,拥有SEO实战运作经验,熟知京东、淘宝、天猫平台搜索引擎规则。在电商搜索领域有过丰富的运营和产品设计经验,擅长将电商平台搜索从一做到十,目前被京东搜索团队定位为京东的“鬼脚七”。
今天只讲搜索引擎的一个小模块,所以上半部分,先说搜索引擎的基础模块。这个图是我给京东内部员工和我团队产品经理培训时画的,目前网页搜索、电商平台类搜索,或各种名目繁多的垂直搜索,都可以简单描述成这样的结构。
抽象说,围绕用户搜索产品做四部分内容:
1、辅助用户输入,提升用户表达需求的效率;
2、理解用户意图,对用户输入进行理解,涉及到自然语言、数据挖掘等知识,目前一般的的用户输入方式还是关键词,语音、图片等交互方式还没有兴起,都尝试,尤其app、电视这种关键词交互方式受制的客户端,在积累对用户交互的理解。但总归需要对用户输入的东西进行理解,比如搜“红豆”,在淘宝前面都是红豆男装,在京东都是粮油调味,这是不同平台对大多数用户需求的理解;
3、检索返回内容,依据理解用户意图的模块带来的信息,进行精确的检索和排序;
4、呈现,页面结构、视觉和交互的设计来承载返回的内容。
今天的内容只是第1点中的一个产品
在阿里巴巴\淘宝叫smart suggestion,京东叫下拉框推荐,雅虎叫自动补全,起到输入法的作用,提高搜索效率。因为推荐和搜索产品都是策略类产品,所以基本都跟数据挖掘有关,目前下拉框推荐词的数据源有三部分组成。
淘宝、京东最开始都只采取most popular的数据策略,这样虽然一个词搜索量大,里面需求比较零散(基于消费者表达意思还是短词多的现状),可以最大程度满足大多数人的需求。所以包含当前已经输入在搜索框内容的词列表,按pv从大到小排序,再加上一些反作弊策略即可应用。
我在搭建目前京东海外站搜索产品的时候,尤其英文站的下拉框推荐词数据源,直接抓取亚马逊的,再检验下载京东有商品即可,也是Most popular的策略。
最开始都是most popular,形成平台上的马太效应之后,流量不精准问题,必然想到走向个性化,比如在京东搜索框输入“RY”,下拉框推荐词都是荣耀,但在淘宝确有“R语言”的推荐词。
策略类产品的不同,有时候不是因为两边技术的差异,而是平台不同,消费者行为数据造成的,走向个性化,就是以上三个数据策略中的后两项。
我们今晚小流量上线的设计就是挖掘session下数据,来探索实时个性化的策略。
如果用户搜索了“nike钱包”,在下一次搜索中会搜 “adidas钱包” 的概率是704/4648 = 15.1%; 如果用户在下一个Query中输入 Adidas 应该提示 “Adidas 钱包”,同时去观察同session下用户的数据,需求是有趋同的意图,类似这种:
所以,我们挖掘出很多词对组成一份数据源,根据用户上一步的关键词表达实时推荐相关词。举一个例子:
这就是挖掘出来的词对数据源,有了它之后,当用户在一个session中前面有一个词是“十三香”,当用户在搜索框中输入“五”这个字的时候,可以推荐“五香粉”给它,而没有做实时个性化推荐前,所有京东用户在搜索框输入“五”的时候都看到一样的下拉框推荐词,都是这个:
产品假设、数据挖掘都是在用户历史行为中得出的猜想,今晚小流量上线了,等看后续数据。
【Q&A环节】
Q:session值是目前所有在线用户同时搜索的这个关键词么?可以理解SESSION CONTEXT就是找“尿布和啤酒”么?
A:必然不是,京东每天的session量是个很大的数,session是什么意思大家知道,数据挖掘,策略类产品不是特别好懂,就是访问会话。进到www.jd.com,搜了n多词,点击了一堆商品,买或不买了几个商品,然后关掉www.jd.com,session就结束了
Q:session值是目前所有在线用户点击的关键词么?
A:不对,session会记录所有用户在你网站的行为,但因为搜索的产品,我们只用其中关键词搜索来做尝试。你们在京东任何地方,点了商品,再回到首页后,有个推荐产品叫“猜你喜欢”都会变化。
Q:那可以理解为,根据一次会话的两个词共同出现次数(有序的),虚拟两个词之间的相关程度,然后根据已输入的Q2的分词,根据相关程度排序,按顺序进行词语推荐么?
A:根据所有搜过“十三香”的session中其他搜索词数据,挖掘词的相关关系。
Q:目前是否是用平台上汇总的全部session来做的推荐?有结合当前用户的画像/分类/行为进一步精细化的计划么?
A:如是是一两个,那就没有统计意义,但其实策略类产品很好玩,比如去年做过价格模型,加上业务的努力,京东服装部的每日3000W RMB,提到到去年底的8000W。
Q:有搜索推荐入门书籍推荐吗?
A:搜索推荐这类产品涉及很多知识,可以先从偏技术类书入门,对以后有好处。
【推荐书籍】
《这就是搜索引擎:核心技术详解》
《解密搜索引擎技术实战:Lucene&Java精华版》
【推荐阅读】
PMcaff 2015上半年干货精选
本文版权归PMcaff产品经理社区,转载请注明出处,商业使用请联系PMcaff。
投稿请发送至邮箱:tougao@pmcaff.com
商务合作请联系:xiaoxi@pmcaff.com
PMcaff合作媒体:Chinaz
PMCAFF微分享 | 京东首席搜索专家,告诉你电商搜索你不得不知道的秘密相关推荐
- 万字长文解读电商搜索——如何让你买得又快又好
文章作者:姚凯飞 Club Factory 推荐算法负责人 内容来源:作者授权发布 出品社区:DataFun 注:欢迎转载,转载请注明出处. 一. 概述 一个产品的搜索功能,是用户快速触达所需信息的通 ...
- 人工智能技术在电商搜索的落地应用
一直以来都被高度曝光的人工智能领域相关应用,总是引来巨大关注.在电商搜索领域,人工智能发挥着怎样的作用?Etsy数据科学主管洪亮劼以案例为基,从人工智能技术在电商中的基本应用.电商人工智能技术与传统领 ...
- PMcaff微分享 | 为什么大部分女生爱星座?大部分男生恨星座?
什么是星座?自从古代以来,人类便把三五成群的恒星与他们神话中的人物或器具联系起来,称之为"星座",然而,不同的文明和不同的群体,都有着自己对星座的不同的解读,而人类中最分明却又是最 ...
- 用Elasticsearch构建电商搜索平台(有赞)
随着互联网数据规模的爆炸式增长,如何从海量的历史,实时数据中快速获取有用的信息,变得越来越有挑战性. 电商数据系统主要类型 一个中等的电商平台,每天都要产生百万条原始数据,上亿条用户行为数据.一般来说 ...
- 用Elasticsearch构建电商搜索平台,一个极有代表性的基础技术架构和算法实践案例
转自:http://www.sohu.com/a/114545287_116235 电商数据系统主要类型 一个中等的电商平台,每天都要产生百万条原始数据,上亿条用户行为数据.一般来说,电商数据一般有3 ...
- 用Elasticsearch构建电商搜索平台,一个极有代表性的基础技术架构和算法实践案例(转)
转自:https://blog.csdn.net/jek123456/article/details/54562158 随着数据规模的爆炸式增长,如何从海量的历史,实时数据中快速获取有用的信息,变得越 ...
- 用Elasticsearch构建电商搜索平台
电商数据系统主要类型 一个中等的电商平台,每天都要产生百万条原始数据,上亿条用户行为数据.一般来说,电商数据一般有3种主要类型的数据系统: 关系型数据库 ,大多数互联网公司会选用mysql作为关数据库 ...
- 电商搜索全链路(PART I)Overview
大家好,我是kaiyuan.好久没码字了,趁着五一在家整理整理,毕竟北京这疫情哪儿也别想去 虽然我们之前分享过很多 #搜索推荐广告 方面的文章,但是发现很难有一个系统的框架,无法串联成完整的链路.于是 ...
- 阿里巴巴电商搜索推荐实时数仓演进之路
分享嘉宾:张照亮 阿里巴巴 高级技术专家 编辑整理:郑银秋 出品平台:DataFunTalk 导读:今天分享的内容是阿里搜索推荐数据平台研发团队在实时数仓的一些探索,围绕着团队在数仓上基于Flink ...
最新文章
- 礼让行人监控系统+政策助力,共建城市文明交通
- qstring 属于元数据类型吗_2020年退休养老金只有1800元,属于什么水平?还要继续工作吗?...
- mysql bit 和 tinyint 的区别及使用场景?
- Nano PC ubuntu13.10 源
- 双流棠湖中学怎么样_棠湖中学教师团队荣获四川省“最美教师团队”!
- 了解如何解决OSGI捆绑包
- 操作系统(八)进程管理——进程同步
- python简单体育竞技模拟_python初体验 —— 模拟体育竞技
- memcached内存管理及key value长度限制
- tcpdump 命令祥解
- java8与hibernate_如何在JPA和Hibernate中使用Java 8 LocalDateTime
- 朱啸虎:自己来说可以把一小部分资产购买比特币,作为资产配置是可以考虑的
- 微信公众号-关注取消关注后图文和普通消息自动回复
- 对极域64位禁止终止进程、键盘锁定的分析
- vue使用a标签下载文件_vue+iview 通过a标签实现文件下载
- 【MisakaHookFinder使用方法】关于如何提取一个文字游戏的文本钩子以供翻译的方法
- 解决MAC上网速度慢的原因
- 4.15 使用渐变映射命令制作艺术效果 [原创Ps教程]
- filedownload实现
- java_多线程下载
热门文章
- C语言0xc0000142错误,第一次用c++编译器出现奇怪的报错
- oracle 新建TNS监听,oracle for windows 监听问题之TNS-12545
- idea springboot 发布webservice 发布服务_太赞了:Spring boot+redis实现消息发布与订阅...
- 怎么样给ajax的ulr加密,研究Ajax请求受登录保护的URL的优雅解决
- 随机森林c语言编程,一种基于随机森林的C语言源代码静态评分方法与流程
- java for与foreach_java中for和foreach的区别是什么?
- echart 饼图设置指引线_EXCEL中把饼图砍一半,美观程度瞬间提升
- mysql的hash分区_MySQL中hash和key分区值的计算方法
- 中国商业智能(BI)市场发展趋势及未来投资潜力评估报告2022-2028年版
- 为何优秀的Java程序员如此难招?