本文实例讲述了Python中文分词工具之结巴分词用法。分享给大家供大家参考,具体如下:

结巴分词工具的安装及基本用法,前面的文章《Python结巴中文分词工具使用过程中遇到的问题及解决方法》中已经有所描述。这里要说的内容与实际应用更贴近——从文本中读取中文信息,利用结巴分词工具进行分词及词性标注。

示例代码如下:

#coding=utf-8

import jieba

import jieba.posseg as pseg

import time

t1=time.time()

f=open("t_with_splitter.txt","r") #读取文本

string=f.read().decode("utf-8")

words = pseg.cut(string) #进行分词

result="" #记录最终结果的变量

for w in words:

result+= str(w.word)+"/"+str(w.flag) #加词性标注

f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中

f.write(result)

f.close()

t2=time.time()

print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

其中t_with_splitter.txt文件内容如下:

脚本之家是国内专业的网站建设资源、脚本编程学习类网站,提供asp、php、asp.net、javascript、jquery、vbscript、dos批处理、网页制作、网络编程、网站建设等编程资料。

Python2.7.9平台运行后出现如下图所示的错误提示:

查阅相关资料后发现,需要在开头加上:

import sys

reload(sys)

sys.setdefaultencoding( "utf-8" )

最终代码应为:

#coding=utf-8

import jieba

import jieba.posseg as pseg

import time

import sys

reload(sys)

sys.setdefaultencoding( "utf-8" )

t1=time.time()

f=open("t_with_splitter.txt","r") #读取文本

string=f.read().decode("utf-8")

words = pseg.cut(string) #进行分词

result="" #记录最终结果的变量

for w in words:

result+= str(w.word)+"/"+str(w.flag) #加词性标注

f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中

f.write(result)

f.close()

t2=time.time()

print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

运行成功:

Editplus打开t_with_POS_tag.txt文件如下图所示:

希望本文所述对大家Python程序设计有所帮助。

python100例 分词-Python中文分词工具之结巴分词用法实例总结【经典案例】相关推荐

  1. [Python从零到壹] 六十四.图像识别及经典案例篇之图像傅里叶变换和傅里叶逆变换详解

    祝大家新年快乐,阖家幸福,健康快乐! 欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所 ...

  2. python命令行参数解析OptionParser类用法实例

    python命令行参数解析OptionParser类用法实例 本文实例讲述了python命令行参数解析OptionParser类的用法,分享给大家供大家参考. 具体代码如下:     from opt ...

  3. 【NLP】jieba分词-Python中文分词领域的佼佼者

    1. jieba的江湖地位 NLP(自然语言)领域现在可谓是群雄纷争,各种开源组件层出不穷,其中一支不可忽视的力量便是jieba分词,号称要做最好的 Python 中文分词组件. "最好的& ...

  4. python lcut精确分词_jieba分词-Python中文分词领域的佼佼者

    1. jieba的江湖地位 NLP(自然语言)领域现在可谓是群雄纷争,各种开源组件层出不穷,其中一支不可忽视的力量便是jieba分词,号称要做最好的 Python 中文分词组件. "最好的& ...

  5. python字频统计软件_python结巴分词以及词频统计实例

    python结巴分词以及词频统计实例 发布时间:2018-03-20 14:52, 浏览次数:773 , 标签: python # coding=utf-8 ''' Created on 2018年3 ...

  6. python与自然语言处理 2结巴分词

    特点 1,支持三种分词模式: a,精确模式,试图将句子最精确地切开,适合文本分析:      b,全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义:      c,搜索引 ...

  7. python asyncio回调函数_python回调函数用法实例分析

    python回调函数用法实例分析 本文实例讲述了python回调函数用法.分享给大家供大家参考.具体分析如下: 软件模块之间总是存在着一定的接口,从调用方式上,可以把他们分为三类:同步调用.回调和异步 ...

  8. python items函数用法,Python中dictionary items()系列函数的用法实例

    本文实例讲述了Python中dictionary items()系列函数的用法,对Python程序设计有很好的参考借鉴价值.具体分析如下: 先来看一个示例: import html # availab ...

  9. python的scatter函数_python scatter函数用法实例详解

    这篇文章主要介绍了python scatter函数用法实例详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 函数功能:寻找变量之间的关系. 调用签 ...

最新文章

  1. Docsify个人网站搭建详细教程
  2. Scala的异常处理
  3. 近期要推出的ISA2006系列文章
  4. 有没有python与机械结合的工作-用 Python 自动化办公,我与大神之间的差距一下就...
  5. mysql基础(全,必看)
  6. PHP校验ISBN码的函数
  7. windows 2008 域 删除不活动计算机账号,如何删除域内非活动计算机账号?
  8. linux gcc g++编译命令选项
  9. HTML5网站大观:分享8个精美的 HTML5 网站案例
  10. .NET Core Linux环境搭建(CentOS 7)
  11. 【原生JS】web原生文字轮播效果
  12. 单片机烧录文件的几种格式
  13. php bmp图片下载,[gd]生成bmp格式的图片(imagebmp)_php技巧
  14. 接口测试常用文档模板介绍
  15. 自动适配跳转电脑PC端和手机WAP端
  16. 【Blender Python】随手一记
  17. 百亿题典之C++编程题面试题
  18. Java:StringBuffer
  19. 一分钟学会如何给图片降噪,给图片降噪也可以很简单!
  20. 免费/中文/功能强大的Modbus调试软件:MThings

热门文章

  1. VBS基础篇 - 变量(4) - 变量的存活期
  2. 【iBoard电子学堂开发板例程】【12个 stm32 例程发布】
  3. 【Service】bindService调用流程
  4. 人生励志博文系列收集
  5. 阿里云服务器中挖矿病毒处理方法,centos7
  6. mysql的TIMESTAMPDIFF的简单使用
  7. 网页的重绘与重排以及重构
  8. VCSA访问web报错 503 Service Unavailable
  9. 【PCA与LDA】特征值分解与奇异值分解以及图像压缩处理原理
  10. C语言实现“人工智障”三子棋