电商搜索能力解读-实体识别(NER)
简介:搜索是电商行业业务转化中最重要的功能,那你了解其中的技术实现原理吗?一起来了解基于多年淘系全量数据和知识库深入优化的电商行业实体识别的能力吧,在查询分析和类目预测中能带来哪些优化效果那~
实体识别功能介绍
实体识别,全称命名实体识别(Named Entity Recognition,简称NER),指对电商查询词中的具有特定意义的语义实体进行实体词打标识别其中的品牌、品类、品类修饰、型号、款式等40种类别 。查询分析根据识别的结果,依据实体类型的权重对查询词进行改写,使得召回的文档符合查询的意图。
类别 |
|||
普通词 |
材质 |
风格 |
款式元素 |
颜色 |
品牌 |
功能功效 |
尺寸规格 |
品质成色 |
场景 |
人群 |
套装 |
时间季节 |
型号 |
新品 |
系列 |
营销服务 |
地点地域 |
人名 |
文娱书文曲 |
机构实体 |
影视名称 |
游戏名称 |
数字 |
单位 |
品类 |
新词 |
修饰 |
专有名词 |
品类修饰词 |
符号 |
前缀 |
后缀 |
赠送 |
否定 |
代理 |
开放搜索实体识别优势
基于多年淘系全量数据和知识库深入优化电商行业实体识别能力,解决品牌更新快歧义大,品类存在修饰关系,品牌品类搭配关系等问题。解决尤其在中文上由于缺乏天然分隔符,面临边界歧义、语义歧义、嵌套歧义等困难。
实体识别在查询分析中作用
1.作用于query改写:
开放搜索查询分析可以改写两个query,第一个query更精准,第二个query减少了参与召回的term,旨在当更精确的召回结果数不足时,用第二个query进行扩大召回。query改写主要根据实体的重要性,召回时保留重要性高的实体词,对重要性低的部分不影响召回,只影响算法排序。
实现方式:
实体重要性目前分为高、中、低三档。其中“品牌、品类”是在高档,也就是最重要的;其次“风格、款式、颜色、季节、人群、地点…”处于中档;最后“尺寸、修饰词、影响服务、系列、单位…”处于低档,可以丢弃不参与召回。
2.与类目预测一起使用
query中不同的实体对类目的影响是不一样的,因此,当原query没有类目预测的结果时,会根据一定的规则,去掉和类目意图无关或者相关度低的词后,进行类目预测,这对长尾query的类目预测会有很大的帮助.
示例:
“杨幂(人名)同款(后缀)春季(时间季节)修身(款式元素)连衣裙(品类)”丢词后的query按照优先级排序分别为:
春季修身连衣裙
春季连衣裙
修身连衣裙
连衣裙
系统会按照上述顺序依次查询类目预测的结果
更多类目预测功能详介绍:https://help.aliyun.com/document_detail/69036.html
电商行业增强版实体识别能力再升级
开放搜索打造独有的行业智能搜索解决方案,推出电商行业增强版,其中在实体识别能力上进行了再升级,使得实体打标效果更好,可以更精准的定位用户搜索意图满足商品搜索需求。
- 现有框架知识库更新
基于老模型链路重新构建全量知识库,F1 69 -> 74
- 标注训练数据,使用神经网络模型
标注10万条数据,耗时4个月,BiLSTM-CRF模型,F1 74 -> 78
- 神经网络模型结合知识库
技术创新GraphNER框架结合监督模型与知识库,F1 78 -> 82
实体识别干预词典
业务场景不同,实体识别语义也是不同的,为了方便用户使用,开放搜索提供实体识别干预词典,供用户自定义词的语义,目前实体识别的干预主要包括两个:一是对实体识别结果本身的干预,二是实体类型重要性的干预。当实体识别的结果不准时,应该通过实体识别的干预词典的配置来进行干预。通过创建实体识别干预词典,并在查询分析中实体识别配置相应的干预词典,就可以干预实体识别功能。
例如:业务特殊专有名词,需要进行实体识别干预。
用户搜索“小熊 (Bear)婴儿指甲刀护理套装",其中“小熊”“bear”实体识别结果为:普通词,但实际业务上“小熊(bear)”是一家母婴品牌,这时可以使用干预词典,设置为“品牌”,从而影响召回排序的效果。
实践后的搜索性能对比
1. 搜索“荷兰美素佳儿婴幼儿奶粉“分词效果
• Before:“荷兰 美 素 佳 儿 婴幼儿 婴 幼 儿 奶粉 奶 粉”
• After: “荷兰(地点地域) 美素佳儿(品牌) 婴幼儿(人群) 奶粉(品类)”
2. 搜索“夏季新款凉鞋男童”
• Before:3个召回结果,
• After:22个召回结果
利用实体识别功能:定位搜索关键词
实体识别:“夏季”时间季节,“男童”人群;“新款"新品;;“凉鞋”品类;
Query1: “凉鞋”“夏季”“男童”;
Query2:“凉鞋”
阿里云搜索相关产品推荐
开放搜索(OpenSearch):基于阿里巴巴自主研发的大规模分布式搜索引擎搭建的一站式智能搜索业务开发平台,目前为包括淘宝、天猫在内的阿里集团核心业务提供搜索服务支持。通过内置各行业的查询语义理解、机器学习排序算法等能力,提供充分开放的引擎能力,助力开发者快速搭建更高性能、更高搜索基线效果的智能搜索服务
了解产品详情:https://www.aliyun.com/product/opensearch
了解更多电商行业搜索解决方案:https://www.aliyun.com/page-source//data-intelligence/activity/opensearch
原文链接:https://developer.aliyun.com/article/784865?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
电商搜索能力解读-实体识别(NER)相关推荐
- 阿里云技术专家解读 | 行业首创电商搜索模板
讲师:徐希杰–阿里巴巴技术专家 视频地址:https://developer.aliyun.com/live/246673 电商行业模板介绍:https://www.aliyun.com/page-s ...
- 万字长文解读电商搜索——如何让你买得又快又好
文章作者:姚凯飞 Club Factory 推荐算法负责人 内容来源:作者授权发布 出品社区:DataFun 注:欢迎转载,转载请注明出处. 一. 概述 一个产品的搜索功能,是用户快速触达所需信息的通 ...
- 逐行讲解CRF实现命名实体识别(NER)
文章标题 本文概述 NER介绍 代码详解 任务 导入库 加载数据集 构造特征字典 数据处理 模型训练 模型验证 模型参数 备注 随机搜索RandomizedSearchCV 本文概述 使用sklear ...
- 阿里巴巴电商搜索推荐实时数仓演进之路
分享嘉宾:张照亮 阿里巴巴 高级技术专家 编辑整理:郑银秋 出品平台:DataFunTalk 导读:今天分享的内容是阿里搜索推荐数据平台研发团队在实时数仓的一些探索,围绕着团队在数仓上基于Flink ...
- 电商搜索“优化商品排序”实践方案
一.案例背景 某导购类电商APP,与淘宝天猫等一线商家合作,亿级商品索引量,类目和子类目多层嵌套,商品有不同子款式和尺码,搜索和筛选需求复杂. 通过采用分销+券模式,优惠券帮助普通C用户降低了单品价格 ...
- 电商搜索“想用户所想,提高搜索结果质量”实践方案
案例背景 国内某头部母婴垂直类电商平台,致力于提供多元的产品和服务,满足中国年轻家庭知识获取.交流交友.记录成长和消费购物的四个核心需求,营收主要来源于商城部分,我们之前提到,大部分垂直类电商搜索转化 ...
- 用Elasticsearch构建电商搜索平台,一个极有代表性的基础技术架构和算法实践案例(转)
转自:https://blog.csdn.net/jek123456/article/details/54562158 随着数据规模的爆炸式增长,如何从海量的历史,实时数据中快速获取有用的信息,变得越 ...
- 电商搜索全链路(PART II)Query理解
作者 | kaiyuan 整理 | NewBeeNLP 大家好,我是kaiyuan.电商搜索全链路系列文章们躺在我的草稿箱里已经N久了,上一篇整理还是在上次,错过的小伙伴点击传送门:电商搜索全链路(P ...
- 【命名实体识别(NER)】(1):命名实体识别综述
什么是命名实体识别? 命名实体识别(Named Entity Recognition,简称NER),又称作"专名识别",是自然语言处理中的一项基础任务,应用范围非常广泛.命名实体一 ...
最新文章
- 自定义报错返回_Keras编写自定义层--以GroupNormalization为例
- Vue的模板语法学习
- create-react-app 脚手架构建项目,搬砖过程中持续总结心得
- linux命令strip
- Amazon上最畅销的「操作系统书」有哪些?
- NetFramework各个版本的特性笔记
- [渝粤教育] 西南科技大学 高等数学1 在线考试复习资料
- Python实现文件md5校验
- 【数据结构与算法】循环队列和链队列的比较
- c语言程序设计省考是什么,省考C语言程序设计题附答案..doc
- Linux下解决高并发socket最大连接数限制,tcp默认1024个连接
- Elasticsearch 架构原理—— 新数据写入过程
- cmd 将文件夹下文件剪切到另外一个文件_手把手教你运行第一个 Java 程序,看不懂你来骂我!...
- pytorch迁移学习--模型建立的代码实现
- 声卡测试音频100Hz~1KHz
- cad对计算机专业的用处,CAD软件的特点和用途
- android实时投屏软件下载,安卓投屏助手
- [Python]基于pygame的像素转化器
- Android蓝牙手柄开发
- 《Learning to Reconstruct Botanical Trees from Single Images》学习从单幅图像重建植物树
热门文章
- pythondes加密盒子_PYTHON实现DES加密及base64源码
- 新一代 Python 包管理工具来了!
- Linux发行版新秀!风格对比苹果
- 如何用 Python + Scrapy 爬取视频?
- Python 之父:别等了,Python 4.0 可能不会来了
- 【机器学习】朴素贝叶斯
- GitHub 标星 5000+!学生党学编程,有这份资料就够了!
- 深度学习-Tensorflow2.2-卷积神经网络{3}-电影评论数据分类/猫狗数据集实例-15
- navicat连接mysql闪退_Navicat连接MySql8.0的各种问题及解决方法
- 在java中 int类型对应的包装类是_Java SE-基本数据类型对应包装类