python结巴分词_Python中文分词工具之结巴分词用法实例总结【经典案例】
本文实例讲述了Python中文分词工具之结巴分词用法。分享给大家供大家参考,具体如下:
结巴分词工具的安装及基本用法,前面的文章《Python结巴中文分词工具使用过程中遇到的问题及解决方法》中已经有所描述。这里要说的内容与实际应用更贴近——从文本中读取中文信息,利用结巴分词工具进行分词及词性标注。
示例代码如下:
#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果
其中t_with_splitter.txt文件内容如下:
脚本之家是国内专业的网站建设资源、脚本编程学习类网站,提供asp、php、asp.net、javascript、jquery、vbscript、dos批处理、网页制作、网络编程、网站建设等编程资料。
Python2.7.9平台运行后出现如下图所示的错误提示:
查阅相关资料后发现,需要在开头加上:
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
最终代码应为:
#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果
运行成功:
Editplus打开t_with_POS_tag.txt文件如下图所示:
希望本文所述对大家Python程序设计有所帮助。
python结巴分词_Python中文分词工具之结巴分词用法实例总结【经典案例】相关推荐
- Python语言学习之图表可视化:python语言中可视化工具包的简介、安装、使用方法、经典案例之详细攻略
Python语言学习之图表可视化:python语言中可视化工具包的简介.安装.使用方法.经典案例之详细攻略 目录 python语言中可视化工具包的简介 python语言中可视化工具包的安装 pytho ...
- python 中文分词_python中文分词,使用结巴分词对python进行分词(实例讲解)
在采集 中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词. 其基本实现原理有三点: 1.基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) ...
- python统计词频_Python中文分词及词频统计
中文分词 中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组.英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是同个含义,因此,中文分词相比英文 ...
- python jieba库分词_Python基于jieba库进行简单分词及词云功能实现方法
本文实例讲述了Python基于jieba库进行简单分词及词云功能实现方法.分享给大家供大家参考,具体如下: 目标: 1.导入一个文本文件 2.使用jieba对文本进行分词 3.使用wordcloud包 ...
- python自然语言处理 分词_Python 自然语言处理(基于jieba分词和NLTK)
Python 自然语言处理(基于jieba分词和NLTK) 发布时间:2018-05-11 11:39, 浏览次数:1038 , 标签: Python jieba NLTK ----------欢迎加 ...
- python getopt使用_Python命令行参数解析模块getopt使用实例
这篇文章主要介绍了Python命令行参数解析模块getopt使用实例,本文讲解了使用语法格式.短选项参数实例.长选项参数实例等内容,需要的朋友可以参考下 格式 getopt(args, options ...
- python pygame鼠标点击_Python中pygame的mouse鼠标事件用法实例
本文实例讲述了Python中pygame的mouse鼠标事件用法.分享给大家供大家参考,具体如下: pygame.mouse提供了一些方法获取鼠标设备当前的状态 ''' pygame.mouse.ge ...
- python的拼音_python 中文分词和拼音首字母
昨天的算法课老师以中文分词为例讲了DP,换了种简单的方式(求分词后频率和最大)实现了一下,效果不错,频率词典是从这里找的: http://download.csdn.net/source/347899 ...
- python语料处理_Python中文语料批量预处理手记
手记实用系列文章: 语料预处理封装类: #coding=utf-8 import os import jieba import sys import re import time import jie ...
- python表达匹配_python 中文正则表达匹配
需求:由于某个n年前的工具的错误,在复制一批文件的时候产生了大量的"复件xxxxxxx""复件(2)XXXXX"等类似文件,由于目录结构深,文件多,预计在500 ...
最新文章
- html5 点击事件委托,jquery事件委托
- 协议模型的最底层是_CAN通信协议栈(二) 之对ISO11898-1的理解
- 阿里凑单算法首次公开!打包购商品挖掘系统解析
- 计算机学硕和专硕编码,2018考研报名:学会从专业代码判断学硕还是专硕
- layer.alert自定义关闭回调事件
- nginx php-fpm 输出php错误日志
- tomcatserver管理界面username和password忘记
- 最新!Oracle/ MySQL/ MSSQL 三大数据库集体跳水。。
- *第十五周*数据结构实践项目三【B-树的基本操作】
- python适用于哪些芯片_这些鲜为人知的Python功能,你值得拥有!
- 《时空幻境》Braid.v1.010.r2-RES-patch
- 如何得到给定序列的互补序列以及反向互补序列
- 计算机win10无法打开小键盘,小编告诉你win10开机小键盘不自动开启的解决伎俩...
- 计算机win10+上锁,win10系统给电脑屏幕上锁的操作方法
- 手机屏幕常见故障_手机屏幕失灵怎么回事 手机屏幕失灵解决办法
- break和continue、循环遍历
- 视频会议软件行业调研报告 - 市场现状分析与发展前景预测
- LeetCode:390. 消除游戏————中等
- 2022-2028年中国智慧社区建设行业市场专项调研及投资前景研究报告
- 中国文化及相关产业统计年鉴(2013-2022)
热门文章
- 四阶龙格库塔法解一维扩散方程
- 西柚SWPU新生赛(场外同步赛)miscAK 别的在混(
- 基于matlab人脸识别论文,基于matlab的人脸识别系统设计 毕业论文
- (matlab代码)绘制地震记录的F-K谱
- D-S envidence theory(DS 证据理论)的基本概念和推理过程
- 《《《翻译》》》avod 三维生成与目标检测
- java下载m3u8视频,解密并合并ts(一)
- Eclipse Spring Tool Suite常用配置
- matlab做瑞利信道仿真,瑞利信道怎么用 matlab做仿真
- hp原装usb无线打印服务器,从USB转换到无线 | 无线打印中心 | 惠普中国