python100例 分词-Python中文分词工具之结巴分词用法实例总结【经典案例】
本文实例讲述了Python中文分词工具之结巴分词用法。分享给大家供大家参考,具体如下:
结巴分词工具的安装及基本用法,前面的文章《Python结巴中文分词工具使用过程中遇到的问题及解决方法》中已经有所描述。这里要说的内容与实际应用更贴近——从文本中读取中文信息,利用结巴分词工具进行分词及词性标注。
示例代码如下:
#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果
其中t_with_splitter.txt文件内容如下:
脚本之家是国内专业的网站建设资源、脚本编程学习类网站,提供asp、php、asp.net、javascript、jquery、vbscript、dos批处理、网页制作、网络编程、网站建设等编程资料。
Python2.7.9平台运行后出现如下图所示的错误提示:
查阅相关资料后发现,需要在开头加上:
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
最终代码应为:
#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果
运行成功:
Editplus打开t_with_POS_tag.txt文件如下图所示:
希望本文所述对大家Python程序设计有所帮助。
python100例 分词-Python中文分词工具之结巴分词用法实例总结【经典案例】相关推荐
- [Python从零到壹] 六十四.图像识别及经典案例篇之图像傅里叶变换和傅里叶逆变换详解
祝大家新年快乐,阖家幸福,健康快乐! 欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所 ...
- python命令行参数解析OptionParser类用法实例
python命令行参数解析OptionParser类用法实例 本文实例讲述了python命令行参数解析OptionParser类的用法,分享给大家供大家参考. 具体代码如下: from opt ...
- 【NLP】jieba分词-Python中文分词领域的佼佼者
1. jieba的江湖地位 NLP(自然语言)领域现在可谓是群雄纷争,各种开源组件层出不穷,其中一支不可忽视的力量便是jieba分词,号称要做最好的 Python 中文分词组件. "最好的& ...
- python lcut精确分词_jieba分词-Python中文分词领域的佼佼者
1. jieba的江湖地位 NLP(自然语言)领域现在可谓是群雄纷争,各种开源组件层出不穷,其中一支不可忽视的力量便是jieba分词,号称要做最好的 Python 中文分词组件. "最好的& ...
- python字频统计软件_python结巴分词以及词频统计实例
python结巴分词以及词频统计实例 发布时间:2018-03-20 14:52, 浏览次数:773 , 标签: python # coding=utf-8 ''' Created on 2018年3 ...
- python与自然语言处理 2结巴分词
特点 1,支持三种分词模式: a,精确模式,试图将句子最精确地切开,适合文本分析: b,全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义: c,搜索引 ...
- python asyncio回调函数_python回调函数用法实例分析
python回调函数用法实例分析 本文实例讲述了python回调函数用法.分享给大家供大家参考.具体分析如下: 软件模块之间总是存在着一定的接口,从调用方式上,可以把他们分为三类:同步调用.回调和异步 ...
- python items函数用法,Python中dictionary items()系列函数的用法实例
本文实例讲述了Python中dictionary items()系列函数的用法,对Python程序设计有很好的参考借鉴价值.具体分析如下: 先来看一个示例: import html # availab ...
- python的scatter函数_python scatter函数用法实例详解
这篇文章主要介绍了python scatter函数用法实例详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 函数功能:寻找变量之间的关系. 调用签 ...
最新文章
- Docsify个人网站搭建详细教程
- Scala的异常处理
- 近期要推出的ISA2006系列文章
- 有没有python与机械结合的工作-用 Python 自动化办公,我与大神之间的差距一下就...
- mysql基础(全,必看)
- PHP校验ISBN码的函数
- windows 2008 域 删除不活动计算机账号,如何删除域内非活动计算机账号?
- linux gcc g++编译命令选项
- HTML5网站大观:分享8个精美的 HTML5 网站案例
- .NET Core Linux环境搭建(CentOS 7)
- 【原生JS】web原生文字轮播效果
- 单片机烧录文件的几种格式
- php bmp图片下载,[gd]生成bmp格式的图片(imagebmp)_php技巧
- 接口测试常用文档模板介绍
- 自动适配跳转电脑PC端和手机WAP端
- 【Blender Python】随手一记
- 百亿题典之C++编程题面试题
- Java:StringBuffer
- 一分钟学会如何给图片降噪,给图片降噪也可以很简单!
- 免费/中文/功能强大的Modbus调试软件:MThings