百度分词技术[编辑]

简介

分词技术就是搜索引擎针对用户提交查询的关键串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。

分词的原理

对于等于或小于三个字符的,百度不做切割;而对于三个字符以上的,则会按照以下方向进行切割。

1.字符串匹配的分词方法

①、正向最大匹配法 :把一个词从左至右来分词。

如:“工地方向导”

采用正向最大匹配法是 “工地、方向、导”。

②、反向最大匹配法:把一个词从右至左来分词 。

如:“工地方向导”

采用反向匹配法是: “工、地方、向导”

③、采用最短路径分词法:就是说一段话里面要求切出的词数是最少的。

正向最大匹配法和反向最大匹配法组合起来就可以叫做双向最大匹配法。

2.词义分词法

一种机器语音判断的分词方法,进行句法、语义分析,利用句法信息和语义信息来处理歧义现象来分词。

这种分词方法,现在还不成熟,处在测试阶段。

3.统计分词法

根据词组的统计,就会发现两个相邻的字出现的频率最多,那么这个词就很重要。就可以作为用户提供字符串中的分隔符,这样来分词。

比如,“我的,你的,许多的,这里,这一,那里”等等,这些词出现的比较多,就从这些词里面分开来。

总结:

①、百度采用的分词技术大多为正向匹配法。

②、全字匹配得到的词的权重会高于分开的词的权重。

③、根据搜索量切词,搜索量大的分词的权重比字符匹配的权重要高

④、人名和地面优先匹配

⑤、使用双向最大匹配。

参考资料:

扩展阅读:

相关词条:

合作编辑:

分享到:

更多

网络营销词典内容均由网友提供,仅供参考。如发现词条内容有问题,请发邮件至info # wm23.com。

百度分词ai php,百度分词技术相关推荐

  1. java项目使用百度云AI完成刷脸登录

    刷脸登录 理解刷脸登录的需求 理解刷脸登录的开发流程 实现刷脸登录功能 1 浅谈人工智能 1.1 人工智能的概述 人工智能(Artificial Intelligence),英文缩写为AI.它是研究. ...

  2. 【登录】刷脸登录(java语言-百度云ai)

    刷脸登录(java语言-百度云ai) pdf文件 一. 浅谈人工智能 人工智能(Artificial Intelligence),英文缩写为AI.它是研究.开发用于模拟.延伸和扩展人的智能的理论.方法 ...

  3. 【AI】百度ai人脸识别

    文章目录 前言 1 浅谈人工智能 1.1 人工智能的概述 1.2 人工智能的应用领域 1.3 基于人工智能的刷脸登录介绍 2 百度云AI概述 2.1 概述 2.3 百度云AI的注册与认证 3 百度云A ...

  4. 《 百度大脑AI技术成果白皮书》,介绍百度大脑5.0,附48页PDF下载

    来源:专知 [导读]百度大脑是百度AI集大成者,自2010年起开始积累基础能力,2019年升级为5.0,成为软硬件一体的AI大生产平台.百度发布< 百度大脑AI技术成果白皮书>,详细介绍了 ...

  5. 【报告分享】百度大脑AI技术成果白皮书2018-2019.pdf

    今天分享的报告来自百度研究院于2019年10月发布的<百度大脑AI技术成果白皮书2018-2019.pdf>,本报告总结了百度大脑在2018-2019年度取得的部分技术成果:第一章主要概述 ...

  6. 百度AI语音语义一体化技术 识别的同时进行语义分析

    7月4日,百度AI开发者大会(Baidu Create 2018)盛大召开,在下午的百度大脑论坛上,百度语音技术部总监高亮公布了百度基于远场的语音语义一体化技术的三项重大突破,包括基于远场的语音语义一 ...

  7. 百度的AI技术定力终见真章

    2020年9月15日,以"万物智能"为主题的"百度世界2020"大会正式召开.大会中Apollo自动驾驶.智能设备小度.百度移动生态,百度大脑.智能云等人工智能 ...

  8. 首届百度商业AI技术创新大赛重磅启动,以前沿科技革新生产力

    随着生成式AI在全球范围的热议,你可以想象在不远的将来AI将与你的工作.生活.出行等各种场景紧密相连.正如百度创始人.董事长兼CEO李彦宏所说:"以深度学习.算法为代表的人工智能革命是第四次 ...

  9. 首届百度商业AI技术创新大赛启动 点燃AIGC革新“星火”

    随着生成式AI在全球范围的热议,AIGC前沿技术也在快速迭代,正如百度CEO李彦宏所说 "人工智能发生了方向性改变,从辨别式AI走向生成式AI,生成式AI会带来极大的效率提升" . ...

  10. 相约未名湖畔,百度商业AI技术创新大赛携手北大学子共探AI发展

    火热六月,百度商业AI技术创新大赛正在如火如荼的进行,百度商业与高校合作展开全国巡回宣讲会,吸引高校学子参与,激发创新思维,为科技发展注入源源不断的新生力量.6月6日,百度商业AI技术创新大赛走进北京 ...

最新文章

  1. 设计模式实战 - 责任链模式
  2. android 视频开发sd卡,Android开发之SD卡文件操作分析
  3. python画二次函数图像的顶点_画二次函数图像的步骤
  4. collection 多态 会自动转型为子类 继承多态需要显示转型
  5. 7 PP配置-生产主数据-工作中心相关-定义工作中心标准值码
  6. 手机UI界面模板psd源文件格式!
  7. 剑指offer系列33:和为S的两个数字VS何为S的连续正数
  8. caffe入门教程1-环境搭建
  9. 计算机多媒体基础应用,《计算机应用基础》典型多媒体课件简介
  10. 目标检测中region proposal的作用?
  11. 【HDU4622】Reincarnation-后缀自动机
  12. Airtest微信朋友圈自动点赞
  13. 对智能电视的几个看法和观点
  14. HTML5游戏化互动学习平台,h5游戏平台_触摸型互动slg黄油手游
  15. 高等数学 —— 映射与函数 —— 映射
  16. Fluent案例:肾动脉RDN治疗过程的仿真
  17. Pycharm专业版最新版下载安装(社区版和专业版并存)
  18. Elasticsearch7.6(windows版单机版)api使用及JD搜索高亮显示
  19. MATLAB和c#混合编程实现心电图显示软件
  20. 通过王者来帮你理解脏读、不可重复读和幻读

热门文章

  1. dbever数据库如何导入excel数据
  2. aptana eclipse linux,eclipse Aptana 插件介绍以及安装
  3. 服务器安全-避免被攻击者查到服务器源 IP与对攻击者ID信息收集
  4. SPSS数据分析-交叉表分析
  5. 计算机用户名怎么改好听,电脑版本优酷视频如何设置呢称_昵称起名
  6. 移动Win7用户文件夹(我的文档)默认位置至D盘
  7. 局域网,手机与电脑文件共享
  8. 6成人跳槽为钱,最新裸辞调查报告出炉!
  9. 启动Maven项目 死活报404 配置文件都没问题
  10. MAC中LateX出字体问题