分词是搜索中非常核心的一步,下面通过一个案例介绍在没有专业分词系统的情况下,如何做分词性能的调优。

假设有下面几个商品的名称:

  1. 女士香水
  2. 香精
  3. 矿泉水
  4. 古驰香水
  5. 蓝色经典男士淡香水
  6. 女士背包

当搜索 “女士香水“(只是其中一个例子)的时候,如果分词分的过细,分出:女士、香水,返回的排序结果会是:

很明显女士背包并不应该排在最前面。

如果使用ik_max_word分词会分的过细,这种方案召回率很高,但是准确率低;
如果使用ik_smart分词,则会分的过粗,这种方案召回率低,但是准确率高。

因此,分词的结果对搜索对准确度有很大对影响。

研发可以根据客户对准确率和召回率对要求做取舍。

推荐对解决方法:

1.扩充专有词库。可以根据业务抽取出来专有词库,把词库更新到ik对自定义词库中。
2. 准确率高,使用ik_smart分词;召回率高,使用ik_max_word分词。

关于如何解决搜索“女士香水“的时候不让“女士背包“也搜索出来,请讨论。

Elasticsearch电商搜索分词效果调优相关推荐

  1. 亿级流量电商系统JVM性能调优实战

    https://blog.csdn.net/qq_23864697/article/details/104616755

  2. 用Elasticsearch构建电商搜索平台(有赞)

    随着互联网数据规模的爆炸式增长,如何从海量的历史,实时数据中快速获取有用的信息,变得越来越有挑战性. 电商数据系统主要类型 一个中等的电商平台,每天都要产生百万条原始数据,上亿条用户行为数据.一般来说 ...

  3. 用Elasticsearch构建电商搜索平台,一个极有代表性的基础技术架构和算法实践案例

    转自:http://www.sohu.com/a/114545287_116235 电商数据系统主要类型 一个中等的电商平台,每天都要产生百万条原始数据,上亿条用户行为数据.一般来说,电商数据一般有3 ...

  4. 用Elasticsearch构建电商搜索平台,一个极有代表性的基础技术架构和算法实践案例(转)

    转自:https://blog.csdn.net/jek123456/article/details/54562158 随着数据规模的爆炸式增长,如何从海量的历史,实时数据中快速获取有用的信息,变得越 ...

  5. 用Elasticsearch构建电商搜索平台

    电商数据系统主要类型 一个中等的电商平台,每天都要产生百万条原始数据,上亿条用户行为数据.一般来说,电商数据一般有3种主要类型的数据系统: 关系型数据库 ,大多数互联网公司会选用mysql作为关数据库 ...

  6. 关于电商搜索中Elasticsearch的正确使用姿势--检索篇

    文章目录 前言 检索的前一步 检索 分数 sort operator 二次召回 改变权重 组合查询 归因问题(functionScore) 聚合 结语 前言 书接上文,我们为电商项目做了个性化的索引配 ...

  7. 关于电商搜索中Elasticsearch的正确使用姿势--配置篇

    文章目录 前言 什么是Elasticsearch ES快在哪里 创建索引 索引的基本配置 分片 分析器 Field分析器应用 copy_to multi-fields 结语 更新 前言 过年放假啦,总 ...

  8. 电商搜索“优化商品排序”实践方案

    一.案例背景 某导购类电商APP,与淘宝天猫等一线商家合作,亿级商品索引量,类目和子类目多层嵌套,商品有不同子款式和尺码,搜索和筛选需求复杂. 通过采用分销+券模式,优惠券帮助普通C用户降低了单品价格 ...

  9. 阿里云技术专家解读 | 行业首创电商搜索模板

    讲师:徐希杰–阿里巴巴技术专家 视频地址:https://developer.aliyun.com/live/246673 电商行业模板介绍:https://www.aliyun.com/page-s ...

最新文章

  1. 在SQLserver数据库里设置作业的步骤
  2. outlook收不到html图片,急!求教高手!用outlook发送HTML格式邮件,图片不能显示是为什么...
  3. 成为一流CSS设计师的8大技巧
  4. HTML 4.01 符号实体
  5. OpenMP入门教程(一)hello world
  6. Druid 在spring中的配置
  7. linux运行好麻烦,解析用Linux非常困难、必须用命令行、很老又丑陋及无法运行游戏...
  8. Windows Server 2008 R2终端服务器远程授权激活
  9. 老师也不是什么好东西
  10. 霍夫曼编码PHP,数据结构:哈夫曼编码(php版)
  11. MySQL数据库修改密码忘记密码
  12. zb_system login.php,zblog后台登录地址怎么修改?
  13. Centos7 设置静态IP地址
  14. python抽签程序_【一点资讯】python打造一个抽奖程序 www.yidianzixun.com
  15. cc2530单片机的内核是什么_ZigBee技术开发:CC2530单片机原理及应用简介,目录书摘...
  16. CAJViewer安装报错卸载报错打开报错解决流程
  17. 计算机硬盘应该什么格式化,电脑硬盘格式化方法总结 【图文】
  18. 迅雷大乱,突现“两个迅雷”
  19. 华为南研所2014春季机试题目-2不能入住的房客数
  20. SQL Server 使用DATEADD()函数实现秒、分钟、小时、日、周、月份、季度、年份加减

热门文章

  1. 成都百择电商:抖音小店有哪些引流方法?
  2. 24种工具,跨境电商
  3. 英雄联盟s8总决赛告诉你 什么是数据可视化!
  4. 惩罚孩子的10大智慧 [转]
  5. 【法律星球】人工智能在挑战知识产权法律规则
  6. android 图片资源目录下,Android编程实现获取图片资源的四种方法
  7. 隐藏在电影背后的神秘力量,竟然是 ta!!!
  8. 【USACO 2.4.1】两只塔姆沃斯牛
  9. Swift之使用key paths创建自定义查询函数 | CSDN创作打卡
  10. uniapp-微信小程序定位(授权定位)