scottlinn为了让大家更好的理解如何去选择关键字词,特意做了一些分词测试试验,归纳了一些关于搜索引擎百度分词的经验向大家分享。希望可以帮助站长们更深层的理解搜索引擎分词技术,做好自己的网站,获得更好的排名。

一、搜索引擎中文分词技术

搜索引擎中文分词技术简单来说,就是把中文的汉字序列切分成有意义的词组。

分词例子:我/是/一个/学生

二、搜索引擎分词技术简述

1.基于字符串匹配的分词方法

按照一定的策略将待分析的汉字串与一个极其词库中的词条进行匹配。

常用分词的方法:

正向最大匹配法(由左到右的方向)

分词测试例子:我/有意/见/分歧

反向最大匹配法(由右到左的方向)

分词测试例子:我/有/意见/分歧

据大量测试数据统计结果表明:单纯使用正向最大匹配的错误率为1/169,单纯使用反

向最大匹配的错误率为1/245。逆向匹配的切分精度略高于正向匹配。

2.基于统计的分词方法

相邻的字同时出现的次数越多,就越有可能构成一个词。用于系统自动识别新词。

3.基于理解的分词方法

在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧异现象。

三、百度搜索引擎分词技术分析

1.最大分词词长

分词测试查询:当然以

分词技术归纳:少于等于3个中文字不切割

分词测试查询:电影下载

分词技术归纳:对于大于等于4个汉字的词将被分词

2.分词匹配算法

分词测试查询:查询:“工地方向导”

正向最大匹配:工地/方向/导

反响最大匹配:工/地方/向导

百度采用 正向最大匹配算法

分词测试查询:×××安定军山

正向最大匹配:×××/安定/军/山

百度分词结果:×××/安/定军山

分词结论:百度识别人名、影视、戏剧名等专用词,转用词库分词时优先。

分词测试查询:何润东西南北(“何润东”、“东西南北”两个词)

正向最大匹配:何润东/西/南北

分词技术归纳:首先用专用词典采用最大正向匹配分词,切出部分结果;剩余没有切分交给普通词典,同样采取正向最大匹配分词。

关于搜索引擎分词技术,scottlinn这次就先写到这。但是搜索引擎的分词技术远远不止这些,分词中的一些难题,如歧义识别、新词识别、拼写检查错误提示、拼音提示功能、相关搜索提示等深一些的日后有机会再向大家一一介绍。

转载于:https://blog.51cto.com/scottlinn/485399

浅谈搜索引擎百度分词技术相关推荐

  1. 浅谈搜索引擎——SEO

    浅谈搜索引擎--SEO 浅谈SEO 如何快速提高网站的权值及浏览量 有效方式,专业检测网站的流量 SEO 与SEM的区别 SEO(Search Eneginee Optimization) 搜索引擎优 ...

  2. 浅谈软件定义网络(SDN)技术研究现状和发展趋势

                       浅谈软件定义网络(SDN)技术研究现状和发展趋势 友情全文PDF链接:浅谈软件定义网络(SDN)技术研究现状和发展趋势.pdf-网络基础文档类资源-CSDN下载 ...

  3. tcp转串口_浅谈串口转以太网技术

    浅谈串口转以太网技术 1.概述串口转以太网目前可以采用串口转以太网模块来实现,变得非常简单易用,但是在该技术中出现的一些新问题.使用误区需要引起注意.串口转以太网并不是简单传输媒介的变化,而是串口到T ...

  4. 5月3日云栖精选夜读:乾隆会判阿尔法狗死刑吗 ——浅谈当前人工智能的技术进化...

    人生自古谁无死,乾隆会判阿尔法狗去死?一个能打败李世石的阿尔法狗并不可怕,而一个具备打败李世石实力,但却在某些场景下故意输给李世石的阿尔法狗,那才真正可怕! 技术分享 必须使用301重定向的运用场景 ...

  5. 浅谈搜索引擎技术原理与架构

    转载自:https://www.cnblogs.com/faruxue/p/4932009.html 搜索引擎是我们非常熟悉的互联网产品,上网都离不开搜索,毫无疑问,在pc端,是多数流量的入口.大家都 ...

  6. 计算机网络技术企业环境,浅谈高职院校计算机网络技术专业教学环境建设

    共享型专业教学资源库是指以课程为中心将各个专业作为教学资源库的基本单位,下面是小编搜集整理的高职院校计算机网络技术专业教学环境建设探究的论文范文,欢迎阅读参考. [摘 要] 高职院校计算机网络技术专业 ...

  7. 计算机网络技术专业环境评估,浅谈高职院校计算机网络技术专业教学环境建设...

    [摘 要] 高职院校计算机网络技术专业以培养具备"组网.管网.用网"能力的高素质技能性人才为目标,以计算机网络技术专业职业岗位的能力要求为依据,以岗位工作过程为导向,建设软硬结合. ...

  8. 浅谈elasticsearch的分词原理

    这篇文章主要是来浅谈一下elasticsearch的分词原理,让各位同学对分词不再陌生~ 废话不多说,我们直接上干货 前言一 我们创建一个文档 PUT test/_doc/1 {"msg&q ...

  9. 浅谈2019百度搜索引擎核心算法及优化建议

    近几年来,百度对用户体验的重视度越来越高,出台了很多算法来打击恶意影响用户体验的行为,这里提炼出截止2019年1月1日,对我们影响比较大的十大算法的核心内容和优化建议. 百度的算法是随着时间逐渐叠加, ...

最新文章

  1. java案例——字符串反转
  2. python 字符串前面加 f
  3. java基础-类加载学习笔记
  4. 分类器交叉验证java_使用交叉验证的KNN分类器
  5. pycharm运行模型时怎么设置权重?_使用AMP和Tensor Cores得到更快速,更节省内存的PyTorch模型...
  6. 万字总结Keras深度学习中文文本分类
  7. testlink php nginx,linux环境部署testlink步骤说明
  8. 或许是 Nginx 上配置 HTTP2 最实在的教程了
  9. 零基础 Java 学习笔记
  10. Windows解压文件名乱码解决方法
  11. 记忆训练 0-100的110个数字对应编码
  12. 实验1 小信号调谐放大器(单调谐与双调谐放大器)
  13. vue 动态 Prop
  14. Android 在分享列表添加自己的应用
  15. Awesome Free ChatGPT(免费的chatgpt镜像网站)
  16. 什么是嵌入式 如何理解嵌入式系统开发
  17. 1.【Linux】如何在Ubuntu18.04上安装微信
  18. 看板方法:向交警蜀黍学习怎么做软件
  19. 运用Python+Pygame开发坦克大战游戏_版本V1.01
  20. 通过实战测试无线网络的速度

热门文章

  1. 利用 BASE64Encoder 对字符串进行加密 BASE64Decoder进行解密
  2. 产生BFC环境的几种方式
  3. LCLFramework框架之Service模式
  4. rhel 5 检测软件awstats,cacti,ntop搭建
  5. 如何运用组策略禁用U盘
  6. cisco3550交换机配置手册
  7. 邮件回复功能失效 谁遇到过?
  8. 到今天了,今天又结束了
  9. 大受褒扬,BCH中国开发者走向世界!
  10. tez 0.9.0 配置