简单介绍:

近年来,随着NLP自然语言处理技术的日益成熟,开源实现的分词工具也越来越多,比如NLTK:其在英文分词较为成熟,分词效果较好,在处理中文分词方面则显得力不足;在处理中文分词时,Jieba这一工具普遍为大家所接受,很多企业也都是利用这一工具来处理涉及中文分词的项目;其他的开源分词工具比如Ansj、盘古分词等,感兴趣的小伙伴可以去搜索一下,下面重点介绍Jieba分词工具。

使用Jieba分词工具主要基于以下几点:

  • 1、社区活跃。GitHub上Jieba社区活跃度高,表明该项目会一直得到维护并持续更新,适合长期使用。
  • 2、功能丰富。其不仅可以进行分词处理,还可以进行词性标注,关键词提取等。
  • 3、使用简单。基于Python语言来说,其配置非常简单,方便上手。

Jieba分词工具的安装
作为Python的第三方库,和其他库的安装方式一样,打开cmd命令窗口,执行以下命令,等待一段时间即可完成安装:

pip install jieba

jieba分词支持三种分词模式:

  • 精确模式, 试图将句子最精确地切开,适合文本分析:
  • 全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;
  • 搜索引擎模式,在精确模式的基础上,对长词再词切分,提高召回率,适合用于搜索引擎分词。

jieba学习链接:

https://github.com/fxsjy/jieba

jieba中文分词 代码:

全部文本:

# -*- encoding=utf-8 -*-import jieba.analyse
import  jieba
import  pandas as pd# 载入自定义词典
jieba.load_userdict('F:\\标签库\\第一类赛事主体标签.txt')
jieba.load_userdict('F:\\标签库\\第二类网络主体标签.txt')## 载入自定义停止词
jieba.analyse.set_stop_words('C:\\Users\\xiaohu\\Desktop\\文本挖掘\\赛事主题内容标签\\excel\\stop_words.txt')#  去掉中英文状态下的逗号、句号def clearSen(comment):comment = comment.strip(' ')comment = comment.replace('、','')comment = comment.replace('~','。')comment = comment.replace('~','')comment = comment.replace('…','')comment = comment.replace('\r', '')comment = comment.replace('\t', ' ')comment = comment.replace('\f', ' ')comment = comment.replace('/', '')comment = comment.replace('、', ' ')comment = comment.replace('/', '')comment = comment.replace(' ', '')comment = comment.replace(' ', '')comment = comment.replace('_', '')comment = comment.replace('?', ' ')comment = comment.replace('?', ' ')comment = comment.replace('了', '')comment = comment.replace('➕', '')comment = comment.replace(':', '')return comment# 读取数据
tl_dongli_comment_content=pd.read_table('F:/下载/content/tl_dongli_reply_content.txt',sep=',')# 数据重命名
tl_dongli_comment_content.columns=['content']# 取前5条
# tl_dongli_comment_content=tl_dongli_comment_content.head()# 文件读写
outputfile = open('F:/下载/content/comment.replay.weibo.txt', 'a+',encoding="utf-8")for each in tl_dongli_comment_content['content']:# 清除标点符号kk = clearSen(each)# 精确模式切词seg_list = jieba.cut(kk)comment=" ".join(seg_list)print(comment)# 写出数据outputfile.write(comment + '\n')# 关闭文件
outputfile.close()

单行文本:

# coding: utf-8import jiebatext = '''新乡SEO 昊天 seo 168seo.cn 免费分享最新的SEO技术,本站的目的是与同行交流SEO知识,并提供企业网站优化、企业网站诊断等服务,白帽SEO从我做起,专注用户体验研究''
'''# 搜索引擎模式
seg_list = jieba.cut_for_search(text)# 对于要处理的文本进行搜索引擎分词处理
data = list(seg_list)# 分词后 转化成list
stopwords = [line.rstrip() for line in open('stopwords.txt', 'r', encoding="gbk").readlines()]# 读取停止词,生成list
data = [d for d in data if d not in stopwords]# 剔除 停止词
c = dict.fromkeys(data, 0)# 构造构造字典,并且默认值为0
for x in data:c[x] += 1# 统计频次
newc = sorted(c.items(), key=lambda x: x[1], reverse=True)# 进行高频词排序
print(newc)

【python 走进NLP】利用jieba技术中文分词并写入txt相关推荐

  1. python利用jieba实现中文分词

    jieba是一款强大的python第三方中文分词库.目前jieba已经支持四种分词模式: 精确模式:试图将句子最精确地切开,不存在冗余数据,适合文本分析. 全模式:把句子中所有的可以成词的词语都扫描出 ...

  2. [Python知识图谱] 三.Jieba工具中文分词、添加自定义词典及词性标注详解

    本系列文章主要结合Python语言实现知识图谱构建相关工程,具有一定创新性和实用性,非常希望各位博友交流讨论,相互促进成长.前面两篇文章详细讲解了哈工大Pyltp工具,包括中文分词.词性标注.实体识别 ...

  3. 利用python绘制简易词云图(使用jieba进行中文分词)

    词云(wordcloud)图能过滤掉大量的文本信息,使我们能抓住问题的集中点(一般集中点就是经常提到的点,也就是词频数会比较高).其实制作词云没什么技术含量,主要就是将用于绘制词云的所有词都传给软件, ...

  4. Python第三方库jieba(中文分词)入门与进阶(官方文档)

    jieba "结巴"中文分词:做最好的 Python 中文分词组件 github:https://github.com/fxsjy/jieba 特点 支持三种分词模式: 精确模式, ...

  5. Py之jieba:Python包之jieba包(中文分词最好的组件)简介、安装、使用方法之详细攻略

    Py之jieba:Python包之jieba包(中文分词最好的组件)简介.安装.使用方法之详细攻略 目录 jieba简介 jieba安装 jieba使用方法 1.进行分词 jieba简介 jieba应 ...

  6. python提取文本中的字符串到新的txt_Python实现jieba对文本分词并写入新的文本文件,然后提取出文本中的关键词...

    版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. Python实现jieba对文本分词并写入新的文本文件,然后提取出文本中的关键词思想 先对文本进行 ...

  7. python词云 wordcloud+jieba生成中文词云图

    简介 Python+jieba+wordcloud+txt+gif生成动态中文词云 本文基于爬虫爬取某微信号三个月的文章为例,展示了生成中文词云的完整过程.本文需要的两个核心Python类库: jie ...

  8. 用python进行自然语言处理_Python NLP自然语言处理之使用jieba进行中文分词实践

    自然语言处理的首要任务是分词,将一段文本分割成独立的词语. 中文分词介绍 已经归纳的三种分词如下: 规则分词.统计分词.混合分词规则分词: 通过设立人工词库,按照一定方式进行切分匹配. 正向最大匹配法 ...

  9. [python] 使用Jieba工具中文分词及文本聚类概念

    前面讲述了很多关于Python爬取本体Ontology.消息盒InfoBox.虎扑图片等例子,同时讲述了VSM向量空间模型的应用.但是由于InfoBox没有前后文和语义概念,所以效果不是很好,这篇文章 ...

最新文章

  1. android h5弹窗,Android嵌套html5页面中alert 弹出框问题
  2. python 自动填充表单,如何在Django / Python中自动填充PDF表单?
  3. 英伟达DALI加速技巧:使数据预处理比原生PyTorch运算速度快4倍
  4. 关于第十六届大学生智能汽车竞赛 华南赛区补赛办法
  5. 【错误记录】安卓 RecyclerView 报错 ( only use immediately and call holder.getAdapterPosition() to look it up )
  6. 前端学习笔记之DOM(一)
  7. 语言图片渐入代码_这个可能打败Python的编程语言,正在征服科学界
  8. php 正则匹配 文件,php – 正则表达式匹配.htaccess中的一系列文件类型
  9. 一文看懂P2P原理及UDP穿透
  10. linux 电源管理 power supply class
  11. 2021ACA世界大赛中国赛区完美收官,创意设计收获百万级关注
  12. 面向Java开发者的ChatGPT提示词工程(2)
  13. 骨传导耳机的音质怎么样?
  14. #每日一题 力扣第22题 黑白格子画
  15. HMI-66-【MeterDisplay for Arm Linux】液晶仪表Arm Linxu迁移
  16. 扣扣浏览器mini java_WebQQ Mini各种浏览器试用
  17. 【百问网7天物联网智能家居】训练营学习笔记(七)
  18. 空间计量经济学学习笔记(一)
  19. AUTOMATE THE BORING STUFF WITH PYTHON读书笔记 - 第2章:FLOW CONTROL
  20. 二、Node 多版本管理

热门文章

  1. 颈椎康复指南--桌面篇
  2. Bezier曲线曲面绘制
  3. 干货!Android快速转战Kotlin教程,BAT大厂面试总结
  4. JPA和MyBatis的优缺点对比,你是不是都不知道有哪些?
  5. vue中实现模糊搜索
  6. MRI图像处理——图片不均的校正
  7. 使用nwjs打开html页面,使用nwjs开发桌面应用之Hello,World!
  8. SpringBoot使用swagger-spring-boot-starter maven依赖包实现Swagger2
  9. Ubuntu16.04.6 安装 RT_PREEMPT 实时内核
  10. 使用gensim实现lda,并计算perplexity( gensim Perplexity Estimates in LDA Model)