简单理解NLP中文分词
什么是中文分词
中文分词指将一个汉字序列切分成一个个单独的词。
中文分词的难题
- 分词规则(粒度)问题:不同应用对粒度的要求不一样,比如“百度搜索”可以是一个词也可以是两个词
- 消除歧义问题:比如“小吃店关门了”
- 未登录词识别问题:比如“hold”住
分词方法分类
中文分词主要分为:基于规则分词、基于概率统计分词。
基于规则分词
原理:按照一定策略将待分析的汉字串与词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。
按照扫描方向的不同分为:正向匹配 & 逆向匹配 & 双向匹配
- 正向最大匹配法(forward maximum matching method, FMM)
参考博客:https://blog.csdn.net/AimeeLee01/article/details/48881543
- 逆向最大匹配法(backward maximum matching method, BMM)
参考博客:https://blog.csdn.net/lalalawxt/article/details/75477931
- 双向最大匹配法(Bi-directction Matching method,BM)
参考博客:https://blog.csdn.net/chenlei0630/article/details/40710441
基于概率统计分词
原理:统计分词的主要思想是把每个词看做是由字组成的,如果相连的字在不同文本中出现的次数越多,就证明这段相连的字很有可能就是一个词。
- 统计语言模型(n-gram)(基于统计)
参考博客:https://blog.csdn.net/App_12062011/article/details/88353423
- 隐马尔科夫模型(HMM),条件随机场(CRF)等(基于序列标注)
参考博客:https://blog.csdn.net/App_12062011/article/details/88353423
简单理解NLP中文分词相关推荐
- 自然语言处理NLP中文分词,词性标注,关键词提取和文本摘要
NLP相关工具包的介绍 1.1 jieba "结巴"中文分词,理念是做最好的 Python 中文分词组件. 支持三种分词模式: (1)精确模式,试图将句子最精确地切开,适合文本分析 ...
- NLP中文分词工具比较
THULAC 四款python中中文分词的尝试.尝试的有:jieba.SnowNLP(MIT).pynlpir(大数据搜索挖掘实验室(北京市海量语言信息处理与云计算应用工程技术研究中心)).thula ...
- 【数据挖掘】NLP中文分词概述
在大数据时代,信息量越来越大,给你一篇百万文字的文章,你保证你有耐心慢慢看完吗?如果是热点新闻,我们当然会希望通过一段简洁明了的文字来概述整个文章,这时候就需要提取文章的关键字:每当我们遇到不会的问题 ...
- 详细介绍NLP中文分词原理及分词工具
基于词表的分词方法 正向最大匹配算法FMM 从左到右扫描文本,得到词的最大匹配. 案例分析: 用正向最大匹配法对"秦皇岛今天晴空万里"进行中文分词,见下表. 词典 :"秦 ...
- NLP|中文分词技术及应用
摘要:中文分词是中文信息处理的重要基础,本文详细阐述了目前主要的几种中文分词算法的技术原理 .中文分词目前的瓶颈和评价准则,以及中文分词的具体应用. 中文分词指将一个汉字序列切分成一个个单独的词.现有 ...
- NLP 中文分词-双向匹配算法(理论+Python实现)
一.理论描述 1.中文分词的概念: 是指把没有明显分界标志的字串切分为词串,包括标点符号.数字.数学符号.各种标记.人名.地名.机构名等未登录词的识别.汉语自动分词主要包括:(1)根据分词规范,建立机 ...
- NLP模型笔记2022-03:简单理解nlp句法分析
句法分析(syntactic parsing)是自然语言处理中的关键技术之一,它是对输入的文本句子进行分析以得到句子的句法结构的处理过程.对句法结构进行分析,一方面是语言理解的自身需求,句法分析是语言 ...
- 全文检索lucene中文分词的一些总结
为什么80%的码农都做不了架构师?>>> 全文检索几乎是所有内容管理系统软件(CMS)必备的功能,在对公司的CMS产品的开发维护过程中,全文检索始终是客户重点关注的模块,为满足 ...
- laravel 分词搜索匹配度_SEO除了“中文分词”还有“文本分析”- 搜狗蜘蛛池博客...
原出处:蜘蛛池博客 原文链接:SEO除了"中文分词"还有"文本分析" - 蜘蛛池博客 对于刚入职的SEO人员,日常工作中,我们很少谈论"中文分词&qu ...
最新文章
- 美国防部官员讨论量子科学、5G和定向能的发展
- vba excel 开发游戏_为什么要学习VBA?
- 浅析React之事件系统(二)
- Spring JDBC整合
- git安装与配置_git 安装及基本配置
- js 时间戳转换成时间_JavaScript 时间戳转成日期格式
- iPhone ARC 宏定义
- C语言变量unsafe,Java中Unsafe使用详解
- 计算机原理实验的35h,微机原理及接口技术习题解答与实验指导
- Centos-显示文件类型-file
- poj1511 最短路
- mysql urlencode 中文_php url中文转码的方法
- gbase里的分布表与复制表
- 2020年低压电工模拟考试题及低压电工实操考试视频
- mybatis plus(包米豆)json存储Mysql数据库
- android日记app常用,这款知名极简日记 APP,终于有了 Android 版!
- c语言基础知识大全 pdf,c语言基础知识点概述.pdf
- Android 相机预览 横屏竖屏 -- 显示
- 如何在Linux(Ubuntu 14.04 LTS)上安装搜狗拼音输入法
- 轻松申请美区Apple ID教学
热门文章
- linux 物理内存释放,swap释放
- 全球与中国制冷压缩机润滑油市场深度研究分析报告
- 四十七、使用bootstrap中的选项卡制作产品特色页面
- 客户标签不能只是个“标签”
- 网站对接支付宝进行支付
- 如何将华氏转换为摄氏
- 力扣第十五题-三数之和
- 常用的数据库统计SQL语句(2)
- 报错Field Mapper in xxx.xxxServiceImpl required a bean of type ‘dao.xxxMapper‘ that could not be found
- 大数据时代的安全威胁