不是故意迫害新浪微博,也不是对新浪微博不满,在这里指手画脚。我是一个过路人,秉承技术学习的态度,来和大家分析新浪微博搜索分词的不足。

迭词是非常重要的测试元素,我们以“阿里巴 巴”作为测试词汇,去评测效果:

效果是惊人的不令人满意。那么真实的测试“阿里巴巴”效果应该是这样子的:

可见“阿里巴 巴”和“阿里巴巴”这两个看似相同的词,但是在新浪微博的搜索中,差异竟然这么明显。其原因据我推测是:没有做全局分词。例如,“阿里巴 巴”至少应该分为三个词组,但是通过观察,它只用了专业名词词库。阿里巴巴应该切分的5个词组“阿里”,“巴”,“巴”,“巴巴”“阿里巴巴”。如果没有这样做,将会直接导致搜索“阿里巴 巴”效果非常差,几乎搜索不到“阿里巴 巴”相关词汇。

同理,搜索“阿里  巴巴”效果也会很差,事实也证明如此:

当然,他们这样分词也有自己的道理,那就是用户给定的空格,那一定是词与词的分隔符,或者他们自己分词用的分隔符就是空格。在以前可以这样解释,但是搜索在N年前就进入了语义时代,如果还保留以前思想,那一定会落伍。尤其是:你把这三个case放入到百度、360、搜狗搜索里面去,他们都能很好处理。让若你把“QQ”、“Q Q”放入新浪微博搜索,结果会更差。可见新浪微博的搜索非常依赖于词库,可是呢,往往是细节决定成败

转载于:https://www.cnblogs.com/liufanping/p/3391004.html

过路人分析:新浪微博搜索的分词技术不足相关推荐

  1. 京东搜索框的汉语分词技术太牛了!!!---------js的番外拓展 (二)

    系列文章目录 JS的垃圾回收机制-----------------------------js的番外拓展 (一) https://blog.csdn.net/weixin_44070254/artic ...

  2. 悟空分词的搜索和排序源码分析之——搜索

    转自:http://blog.codeg.cn/2016/02/02/wukong-source-code-reading/ 搜索过程分析 下面我们来分析一下搜索的过程.首先构造一个SearchReq ...

  3. 悟空分词与mysql结合_悟空分词的搜索和排序源码分析之——搜索

    转自:http://blog.codeg.cn/2016/02/02/wukong-source-code-reading/ 搜索过程分析 下面我们来分析一下搜索的过程.首先构造一个SearchReq ...

  4. 抖音SEO优化源码,搜索排名系统,技术理论分析,抖音矩阵,抖音seo系统。

    前言:抖音SEO优化源码,搜索排名系统,技术理论分析,抖音矩阵,抖音seo系统.抖音seo矩阵系统底层框架上支持了ai视频混剪,视频产出,视频AI制作,多账号多平台矩阵,视频一键内部分发,站内实现搜索 ...

  5. 文本分析——分词技术

    ---恢复内容开始--- 1.分词: 基于规则的分词方法 1)正向最大匹配法(由左到右的方向) 2)逆向最大匹配法(由右到左的方向) 3)最少切分(使每一句中切出的词数最小) 4)双向最大匹配法(进行 ...

  6. 浅谈搜索引擎百度分词技术

    scottlinn为了让大家更好的理解如何去选择关键字词,特意做了一些分词测试试验,归纳了一些关于搜索引擎百度分词的经验向大家分享.希望可以帮助站长们更深层的理解搜索引擎分词技术,做好自己的网站,获得 ...

  7. 美团搜索中NER技术的探索与实践

    1. 背景 命名实体识别(Named Entity Recognition,简称NER),又称作"专名识别",是指识别文本中具有特定意义的实体,主要包括人名.地名.机构名.专有名词 ...

  8. 【新功能】开放搜索多路召回技术解读

    简介:多路召回就是指采用不同的策略.特征或者简单模型,分别召回一部分候选集,然后再把这些候选集混合在一起后供后续排序模型使用的策略,本文将介绍开放搜索平台上的多路召回技术是如何深度提升搜索效果的~ 背 ...

  9. 【摘抄】百度分词算法详解:查询处理以及分词技术

    随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能.技术和日流量.作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等:作为 普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引 ...

最新文章

  1. iOS自动布局(AutoLayout)之 NSLayoutAnchor
  2. python ssl模块用法详解_一看就懂,Python 日志模块详解及应用!
  3. 来自codeblock 贴吧
  4. 微信小程序学习笔记(4)--------框架之逻辑层
  5. 计算机学院考勤管理办法,计科学院进一步加强课堂考勤实施意见(试行)
  6. Event Recommendation Engine Challenge分步解析第五步
  7. centos8搭建glusterfs服务
  8. 2021-2025年中国电子液体处理系统行业市场供需与战略研究报告
  9. linux硬链接符号,Linux — 硬链接与符号链接
  10. Oracle 数字与空值的排序问题
  11. 邮件里直接显示图片_利用邮件合并带图片功能批量制作准考证、工作证、成绩通知单等...
  12. arduino的esp32程序无法上传_【arduino】arudino开发ESP32 SPIFFS文件上传方法
  13. java编写蠕虫病毒_网络蠕虫病毒代码分析
  14. python第三方库pip安装失败,无法使用pip命令安装python第三方库的原因及解决方法...
  15. resnet101网络结构
  16. 汽车抛负载7637-5A/5B测试介绍
  17. GET和POST请求的区别详解
  18. 《人格心理学》读书笔记
  19. 《文言文复兴系列 5 人之道》(江湖一剑客)
  20. Errors occurred during the build. Errors running builder 'JavaScript Validator'

热门文章

  1. Elasticsearch:理解 Elasticsearch Percolate 查询
  2. 世界上最大的赌局?!!
  3. 使用HttpClient登录微博开放平台,获取授权code
  4. php中Session使用方法详解
  5. 【Rust日报】2022-09-14 使用 Rust 构建简单博客 华为实习生招募
  6. 振兴民族软件,险恶的江湖该如何仗剑走天涯
  7. 优化切尔诺贝利灾难模型——附matlab代码
  8. 塞梅普雷斯 如是说 (第一部/8.烧纸的记忆) (草)
  9. 忘记Windows XP系统登录用户的密码
  10. 论文阅读:Efficient Estimation of Word Representations in Vector Space