目录

中文分词的难点

中文分词方法

简单使用

三种分词模式

结巴分词使用

结巴分词使用


目前中文分词一共有三种方式进行实现:
jieba (结巴分词)
THULAC(清华大学自然语言处理与社会人文计算实验室)
pkuseg (北京大学语言计算与机器学习研究组)

中文分词的难点

  1. 分词不规范,词的定义还不明确,容易误分
  2. 歧义切分问题,交集型切分问题,多义组合型切分歧义等,容易找出分出的词语有歧义

中文分词方法

  1. 基于字典、词库匹配的分词方法(基于规则)
  2. 基于词频度统计的分词方法(基于统计)
  3. 基于知识理解的分词方法

简单使用

import jiebatext = "聚焦鲜活农产品主产区、特色农产品优势区,支持建设农产品产地小型仓储保鲜冷链设施,
到2025年,全市新增田间地头冷藏保鲜项目60个以上。市财政对完成项目建设任务的区级政府,
按照每个项目属地财政补助额度的50%,给予不超过50万元的奖励"
word_list = jieba.cut(text)
print(word_list)

# 转换为list
print(list(word_list))

 直接使用需要将其转换为list才能看到结果

三种分词模式

① 精确模式:试图将句子最精确地切开,适合文本分析

# 精确模式
word_list = jieba.cut(text,cut_all=False)
print("精准模式分词结果为:" + "/ ".join(word_list)) 

 ② 全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义

把词语分的很细,分的不能在分的样子

# 全模式
word_list = jieba.cut(text,cut_all=True)
print("全模式分词结果为:"+"/ ".join(word_list)) 

③ 搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词

• 支持繁体分词

• 支持自定义词典

# 搜索引擎模式
word_list = jieba.cut_for_search(text)
print("搜索引擎模式分词结果为:"+ "/ ".join(word_list))

结巴分词使用

• jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型

• jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词

• jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的generator,可以使用 for 循环来获得分词后得到的每一个词语,或者jieba.lcut 以及 jieba.lcut_for_search 直接返回 list

使用此方法会直接得到列表,列表里面为已经分好了的词。不需要再次进行转换

word_list = jieba.lcut(text)
print(word_list)word_list = jieba.lcut_for_search(text)
print(word_list)

结巴分词使用

• 开发者可以指定自己自定义的词典,以便包含 jieba 词库里没有的词

• 用法: jieba.load_userdict(file_name)

• file_name 为文件类对象或自定义词典的路径

• 词典格式:一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。

• file_name 若为路径或二进制方式打开的文件,则文件必须为 UTF-8编码

jieba.load_userdict("data.txt")
word_list = jieba.lcut(text)
print(word_list)

自己定义的词典,可以在分词时不会分开自己定义的词语,如:我不想让”农产品“这三个字分开,就写入词典中并进行加载,拿在之后分词时就不会把这三个字分开了。而没有加载这个词典,jieba就可能会将其分开

Tensorflow2.0(2):中文分词(jieba)相关推荐

  1. 中文分词jieba学习笔记

    中文分词jieba学习笔记 一.分词模式 二.自定义词典 2.1 命令 2.2 使用方式 三.关键词抽取(基于TF-IDF算法) 3.1 用jieba.analyse.extract_tags() 3 ...

  2. Python中文分词--jieba的基本使用

    中文分词的原理 1.中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词. 分词就是将连续的字序列按照一定的规范重新组合成词序列的过程 2.现有的 ...

  3. Python中文分词 jieba 十五分钟入门与进阶

    文章目录 整体介绍 三种分词模式与一个参数 关键词提取 中文歧义测试与去除停用词 三种可以让分词更准确的方法 并行计算 整体介绍 jieba 基于Python的中文分词工具,安装使用非常方便,直接pi ...

  4. 中文分词jieba python 学习

    中文分词工具,结巴分词很好用,以下是验证小结. import jieba import jieba.analyse import jieba.posseg as pseg import time fi ...

  5. python中文分词---jieba

    原文地址:http://blog.csdn.net/sherlockzoom/article/details/44566425 jieba "结巴"中文分词:做最好的 Python ...

  6. 中文分词(jieba)

    中文分词 中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词.分词就是将连续的字序列按照一定的规范重新组合成词序列的过程.jieba 是目前Py ...

  7. python中文分词jieba总结

    1. GitHub:https://github.com/fxsjy/jieba 2.分词 jieba.cut 方法接受三个输入参数: 需要分词的字符串:cut_all 参数用来控制是否采用全模式:H ...

  8. Lucene6.5.0 下中文分词IKAnalyzer编译和使用

    前言 lucene本省对中文分词有支持,不过支持的不好,其分词方式是机械的将中文词一个分成一个进行存储,例如:成都信息工程大学,最终分成为::成|都|信|息|工|程|大|学,显然这种分词方式是低效且浪 ...

  9. linux tf2 中文,ocrcn_tf2: TensorFlow2.0的中文汉字手写体识别!OCR必备,欢迎star!

    TensorFlow 2.0 中文手写字识别(汉字OCR) 在开始之前,必须要说明的是,本教程完全基于TensorFlow2.0 接口编写,请误与其他古老的教程混为一谈,本教程除了手把手教大家完成这个 ...

  10. 中文分词jieba库

    pip install jieba # 安装jieba库 jieba库的分词原理是利用一个中文词库,将待分词的内容与分词词库进行对比,通过图结构和动态规划方法找到最大概率的词组,除了分词,jieba还 ...

最新文章

  1. SSH无需密码密钥登录
  2. 中国游戏中心让计算机死机,win10玩游戏不定时死机
  3. 2.3.8 吸烟者问题
  4. CDQ 分治算法模板
  5. [ZJOI2007] 时态同步(拓扑序)
  6. 安装php独立环境,0507-php独立环境的安装与配置 Web程序 - 贪吃蛇学院-专业IT技术平台...
  7. PPTP与Open×××区别
  8. 变形 圆形_中山125T圆形玻璃钢冷却塔现场安装
  9. 【转载】怎样成为优秀的电子工程师?另外求本文出处
  10. 【JAVA】synchronized关键字
  11. sql2000下 分页存储过程(一)
  12. FISCO BCOS(十二)——— 区块链关键概念
  13. phpQuery - PHP 处理 HTML DOM 的好帮手
  14. python非参数检验
  15. 1W字看懂互联网知识经济
  16. 会计专业应用计算机操作,中职会计专业计算机应用基础教学
  17. 生鲜电商前置仓模式何去何从?
  18. vc应用程序——个性化的工具条图标
  19. Word2003表格内容无法居中的几种解决方案
  20. 腾讯公司高层的QQ---马化腾

热门文章

  1. webbrowser 访问iframe拒绝访问_Win10系统下Documents and Settings系统文件夹拒绝访问解决方法...
  2. c++ 定时器_Linux C/C++定时器的实现原理和使用方法
  3. c matlab 引擎调用,【MATLAB与C的混合编程】之【C程序调用Matlab计算引擎】(1)
  4. 爬虫获取不到网页完整源码_你的第一只网络爬虫
  5. 年味十足的手绘年画风新年春节海报PSD模板
  6. 设计师必备导航类网站,内有宝藏!
  7. java之点击一次之后失效_JavaScript 事件绑定只能执行一次了,再次点击就变得无效 ,求助怎么回事...
  8. 爬虫项目之爬取页面并按界面样式导入excel表格
  9. Ftrace Kernel Hooks: More than just tracing
  10. Linux BPF hello world C语言示例代码