什么是中文分词

中文分词指将一个汉字序列切分成一个个单独的词。

中文分词的难题

  1. 分词规则(粒度)问题:不同应用对粒度的要求不一样,比如“百度搜索”可以是一个词也可以是两个词
  2. 消除歧义问题:比如“小吃店关门了”
  3. 未登录词识别问题:比如“hold”住

分词方法分类

中文分词主要分为:基于规则分词、基于概率统计分词。

基于规则分词

原理:按照一定策略将待分析的汉字串与词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。

按照扫描方向的不同分为:正向匹配 & 逆向匹配 & 双向匹配

  • 正向最大匹配法(forward maximum matching method, FMM)

参考博客:https://blog.csdn.net/AimeeLee01/article/details/48881543

  • 逆向最大匹配法(backward maximum matching method, BMM)

参考博客:https://blog.csdn.net/lalalawxt/article/details/75477931

  • 双向最大匹配法(Bi-directction Matching method,BM)

参考博客:https://blog.csdn.net/chenlei0630/article/details/40710441

基于概率统计分词

原理:统计分词的主要思想是把每个词看做是由字组成的,如果相连的字在不同文本中出现的次数越多,就证明这段相连的字很有可能就是一个词。

  • 统计语言模型(n-gram)(基于统计)

参考博客:https://blog.csdn.net/App_12062011/article/details/88353423

  • 隐马尔科夫模型(HMM),条件随机场(CRF)等(基于序列标注)

参考博客:https://blog.csdn.net/App_12062011/article/details/88353423

简单理解NLP中文分词相关推荐

  1. 自然语言处理NLP中文分词,词性标注,关键词提取和文本摘要

    NLP相关工具包的介绍 1.1 jieba "结巴"中文分词,理念是做最好的 Python 中文分词组件. 支持三种分词模式: (1)精确模式,试图将句子最精确地切开,适合文本分析 ...

  2. NLP中文分词工具比较

    THULAC 四款python中中文分词的尝试.尝试的有:jieba.SnowNLP(MIT).pynlpir(大数据搜索挖掘实验室(北京市海量语言信息处理与云计算应用工程技术研究中心)).thula ...

  3. 【数据挖掘】NLP中文分词概述

    在大数据时代,信息量越来越大,给你一篇百万文字的文章,你保证你有耐心慢慢看完吗?如果是热点新闻,我们当然会希望通过一段简洁明了的文字来概述整个文章,这时候就需要提取文章的关键字:每当我们遇到不会的问题 ...

  4. 详细介绍NLP中文分词原理及分词工具

    基于词表的分词方法 正向最大匹配算法FMM 从左到右扫描文本,得到词的最大匹配. 案例分析: 用正向最大匹配法对"秦皇岛今天晴空万里"进行中文分词,见下表. 词典 :"秦 ...

  5. NLP|中文分词技术及应用

    摘要:中文分词是中文信息处理的重要基础,本文详细阐述了目前主要的几种中文分词算法的技术原理 .中文分词目前的瓶颈和评价准则,以及中文分词的具体应用. 中文分词指将一个汉字序列切分成一个个单独的词.现有 ...

  6. NLP 中文分词-双向匹配算法(理论+Python实现)

    一.理论描述 1.中文分词的概念: 是指把没有明显分界标志的字串切分为词串,包括标点符号.数字.数学符号.各种标记.人名.地名.机构名等未登录词的识别.汉语自动分词主要包括:(1)根据分词规范,建立机 ...

  7. NLP模型笔记2022-03:简单理解nlp句法分析

    句法分析(syntactic parsing)是自然语言处理中的关键技术之一,它是对输入的文本句子进行分析以得到句子的句法结构的处理过程.对句法结构进行分析,一方面是语言理解的自身需求,句法分析是语言 ...

  8. 全文检索lucene中文分词的一些总结

    为什么80%的码农都做不了架构师?>>>    全文检索几乎是所有内容管理系统软件(CMS)必备的功能,在对公司的CMS产品的开发维护过程中,全文检索始终是客户重点关注的模块,为满足 ...

  9. laravel 分词搜索匹配度_SEO除了“中文分词”还有“文本分析”- 搜狗蜘蛛池博客...

    原出处:蜘蛛池博客 原文链接:SEO除了"中文分词"还有"文本分析" - 蜘蛛池博客 对于刚入职的SEO人员,日常工作中,我们很少谈论"中文分词&qu ...

最新文章

  1. 美国防部官员讨论量子科学、5G和定向能的发展
  2. vba excel 开发游戏_为什么要学习VBA?
  3. 浅析React之事件系统(二)
  4. Spring JDBC整合
  5. git安装与配置_git 安装及基本配置
  6. js 时间戳转换成时间_JavaScript 时间戳转成日期格式
  7. iPhone ARC 宏定义
  8. C语言变量unsafe,Java中Unsafe使用详解
  9. 计算机原理实验的35h,微机原理及接口技术习题解答与实验指导
  10. Centos-显示文件类型-file
  11. poj1511 最短路
  12. mysql urlencode 中文_php url中文转码的方法
  13. gbase里的分布表与复制表
  14. 2020年低压电工模拟考试题及低压电工实操考试视频
  15. mybatis plus(包米豆)json存储Mysql数据库
  16. android日记app常用,这款知名极简日记 APP,终于有了 Android 版!
  17. c语言基础知识大全 pdf,c语言基础知识点概述.pdf
  18. Android 相机预览 横屏竖屏 -- 显示
  19. 如何在Linux(Ubuntu 14.04 LTS)上安装搜狗拼音输入法
  20. 轻松申请美区Apple ID教学

热门文章

  1. linux 物理内存释放,swap释放
  2. 全球与中国制冷压缩机润滑油市场深度研究分析报告
  3. 四十七、使用bootstrap中的选项卡制作产品特色页面
  4. 客户标签不能只是个“标签”
  5. 网站对接支付宝进行支付
  6. 如何将华氏转换为摄氏
  7. 力扣第十五题-三数之和
  8. 常用的数据库统计SQL语句(2)
  9. 报错Field Mapper in xxx.xxxServiceImpl required a bean of type ‘dao.xxxMapper‘ that could not be found
  10. 大数据时代的安全威胁