python结巴分词_Python中文分词工具之结巴分词用法实例总结【经典案例】

2024-05-09 02:44:29

本文实例讲述了Python中文分词工具之结巴分词用法。分享给大家供大家参考，具体如下：

结巴分词工具的安装及基本用法，前面的文章《Python结巴中文分词工具使用过程中遇到的问题及解决方法》中已经有所描述。这里要说的内容与实际应用更贴近——从文本中读取中文信息，利用结巴分词工具进行分词及词性标注。

示例代码如下：

#coding=utf-8

import jieba

import jieba.posseg as pseg

import time

t1=time.time()

f=open("t_with_splitter.txt","r") #读取文本

string=f.read().decode("utf-8")

words = pseg.cut(string) #进行分词

result="" #记录最终结果的变量

for w in words:

result+= str(w.word)+"/"+str(w.flag) #加词性标注

f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中

f.write(result)

f.close()

t2=time.time()

print("分词及词性标注完成，耗时："+str(t2-t1)+"秒。") #反馈结果

其中t_with_splitter.txt文件内容如下：

脚本之家是国内专业的网站建设资源、脚本编程学习类网站，提供asp、php、asp.net、javascript、jquery、vbscript、dos批处理、网页制作、网络编程、网站建设等编程资料。

Python2.7.9平台运行后出现如下图所示的错误提示：

查阅相关资料后发现，需要在开头加上：

import sys

reload(sys)

sys.setdefaultencoding( "utf-8" )

最终代码应为：

#coding=utf-8

import jieba

import jieba.posseg as pseg

import time

import sys

reload(sys)

sys.setdefaultencoding( "utf-8" )

t1=time.time()

f=open("t_with_splitter.txt","r") #读取文本

string=f.read().decode("utf-8")

words = pseg.cut(string) #进行分词

result="" #记录最终结果的变量

for w in words:

result+= str(w.word)+"/"+str(w.flag) #加词性标注

f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中

f.write(result)

f.close()

t2=time.time()

print("分词及词性标注完成，耗时："+str(t2-t1)+"秒。") #反馈结果

运行成功：

Editplus打开t_with_POS_tag.txt文件如下图所示：

希望本文所述对大家Python程序设计有所帮助。

python结巴分词_Python中文分词工具之结巴分词用法实例总结【经典案例】相关推荐

Python语言学习之图表可视化：python语言中可视化工具包的简介、安装、使用方法、经典案例之详细攻略
Python语言学习之图表可视化:python语言中可视化工具包的简介.安装.使用方法.经典案例之详细攻略目录 python语言中可视化工具包的简介 python语言中可视化工具包的安装 pytho ...
python 中文分词_python中文分词,使用结巴分词对python进行分词(实例讲解)
在采集中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词. 其基本实现原理有三点: 1.基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) ...
python统计词频_Python中文分词及词频统计
中文分词中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组.英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是同个含义,因此,中文分词相比英文 ...
python jieba库分词_Python基于jieba库进行简单分词及词云功能实现方法
本文实例讲述了Python基于jieba库进行简单分词及词云功能实现方法.分享给大家供大家参考,具体如下: 目标: 1.导入一个文本文件 2.使用jieba对文本进行分词 3.使用wordcloud包 ...
python自然语言处理分词_Python 自然语言处理（基于jieba分词和NLTK）
Python 自然语言处理(基于jieba分词和NLTK) 发布时间:2018-05-11 11:39, 浏览次数:1038 , 标签: Python jieba NLTK ----------欢迎加 ...
python getopt使用_Python命令行参数解析模块getopt使用实例
这篇文章主要介绍了Python命令行参数解析模块getopt使用实例,本文讲解了使用语法格式.短选项参数实例.长选项参数实例等内容,需要的朋友可以参考下格式 getopt(args, options ...
python pygame鼠标点击_Python中pygame的mouse鼠标事件用法实例
本文实例讲述了Python中pygame的mouse鼠标事件用法.分享给大家供大家参考,具体如下: pygame.mouse提供了一些方法获取鼠标设备当前的状态 ''' pygame.mouse.ge ...
python的拼音_python 中文分词和拼音首字母
昨天的算法课老师以中文分词为例讲了DP,换了种简单的方式(求分词后频率和最大)实现了一下,效果不错,频率词典是从这里找的: http://download.csdn.net/source/347899 ...
python语料处理_Python中文语料批量预处理手记
手记实用系列文章: 语料预处理封装类: #coding=utf-8 import os import jieba import sys import re import time import jie ...
python表达匹配_python 中文正则表达匹配
需求:由于某个n年前的工具的错误,在复制一批文件的时候产生了大量的"复件xxxxxxx""复件(2)XXXXX"等类似文件,由于目录结构深,文件多,预计在500 ...

最新文章

热门文章