本文实例讲述了Python中文分词工具之结巴分词用法。分享给大家供大家参考,具体如下:

结巴分词工具的安装及基本用法,前面的文章《Python结巴中文分词工具使用过程中遇到的问题及解决方法》中已经有所描述。这里要说的内容与实际应用更贴近——从文本中读取中文信息,利用结巴分词工具进行分词及词性标注。

示例代码如下:

#coding=utf-8

import jieba

import jieba.posseg as pseg

import time

t1=time.time()

f=open("t_with_splitter.txt","r") #读取文本

string=f.read().decode("utf-8")

words = pseg.cut(string) #进行分词

result="" #记录最终结果的变量

for w in words:

result+= str(w.word)+"/"+str(w.flag) #加词性标注

f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中

f.write(result)

f.close()

t2=time.time()

print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

其中t_with_splitter.txt文件内容如下:

脚本之家是国内专业的网站建设资源、脚本编程学习类网站,提供asp、php、asp.net、javascript、jquery、vbscript、dos批处理、网页制作、网络编程、网站建设等编程资料。

Python2.7.9平台运行后出现如下图所示的错误提示:

查阅相关资料后发现,需要在开头加上:

import sys

reload(sys)

sys.setdefaultencoding( "utf-8" )

最终代码应为:

#coding=utf-8

import jieba

import jieba.posseg as pseg

import time

import sys

reload(sys)

sys.setdefaultencoding( "utf-8" )

t1=time.time()

f=open("t_with_splitter.txt","r") #读取文本

string=f.read().decode("utf-8")

words = pseg.cut(string) #进行分词

result="" #记录最终结果的变量

for w in words:

result+= str(w.word)+"/"+str(w.flag) #加词性标注

f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中

f.write(result)

f.close()

t2=time.time()

print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

运行成功:

Editplus打开t_with_POS_tag.txt文件如下图所示:

希望本文所述对大家Python程序设计有所帮助。

python结巴分词_Python中文分词工具之结巴分词用法实例总结【经典案例】相关推荐

  1. Python语言学习之图表可视化:python语言中可视化工具包的简介、安装、使用方法、经典案例之详细攻略

    Python语言学习之图表可视化:python语言中可视化工具包的简介.安装.使用方法.经典案例之详细攻略 目录 python语言中可视化工具包的简介 python语言中可视化工具包的安装 pytho ...

  2. python 中文分词_python中文分词,使用结巴分词对python进行分词(实例讲解)

    在采集 中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词. 其基本实现原理有三点: 1.基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) ...

  3. python统计词频_Python中文分词及词频统计

    中文分词 中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组.英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是同个含义,因此,中文分词相比英文 ...

  4. python jieba库分词_Python基于jieba库进行简单分词及词云功能实现方法

    本文实例讲述了Python基于jieba库进行简单分词及词云功能实现方法.分享给大家供大家参考,具体如下: 目标: 1.导入一个文本文件 2.使用jieba对文本进行分词 3.使用wordcloud包 ...

  5. python自然语言处理 分词_Python 自然语言处理(基于jieba分词和NLTK)

    Python 自然语言处理(基于jieba分词和NLTK) 发布时间:2018-05-11 11:39, 浏览次数:1038 , 标签: Python jieba NLTK ----------欢迎加 ...

  6. python getopt使用_Python命令行参数解析模块getopt使用实例

    这篇文章主要介绍了Python命令行参数解析模块getopt使用实例,本文讲解了使用语法格式.短选项参数实例.长选项参数实例等内容,需要的朋友可以参考下 格式 getopt(args, options ...

  7. python pygame鼠标点击_Python中pygame的mouse鼠标事件用法实例

    本文实例讲述了Python中pygame的mouse鼠标事件用法.分享给大家供大家参考,具体如下: pygame.mouse提供了一些方法获取鼠标设备当前的状态 ''' pygame.mouse.ge ...

  8. python的拼音_python 中文分词和拼音首字母

    昨天的算法课老师以中文分词为例讲了DP,换了种简单的方式(求分词后频率和最大)实现了一下,效果不错,频率词典是从这里找的: http://download.csdn.net/source/347899 ...

  9. python语料处理_Python中文语料批量预处理手记

    手记实用系列文章: 语料预处理封装类: #coding=utf-8 import os import jieba import sys import re import time import jie ...

  10. python表达匹配_python 中文正则表达匹配

    需求:由于某个n年前的工具的错误,在复制一批文件的时候产生了大量的"复件xxxxxxx""复件(2)XXXXX"等类似文件,由于目录结构深,文件多,预计在500 ...

最新文章

  1. html5 点击事件委托,jquery事件委托
  2. 协议模型的最底层是_CAN通信协议栈(二) 之对ISO11898-1的理解
  3. 阿里凑单算法首次公开!打包购商品挖掘系统解析
  4. 计算机学硕和专硕编码,2018考研报名:学会从专业代码判断学硕还是专硕
  5. layer.alert自定义关闭回调事件
  6. nginx php-fpm 输出php错误日志
  7. tomcatserver管理界面username和password忘记
  8. 最新!Oracle/ MySQL/ MSSQL 三大数据库集体跳水。。
  9. *第十五周*数据结构实践项目三【B-树的基本操作】
  10. python适用于哪些芯片_这些鲜为人知的Python功能,你值得拥有!
  11. 《时空幻境》Braid.v1.010.r2-RES-patch
  12. 如何得到给定序列的互补序列以及反向互补序列
  13. 计算机win10无法打开小键盘,小编告诉你win10开机小键盘不自动开启的解决伎俩...
  14. 计算机win10+上锁,win10系统给电脑屏幕上锁的操作方法
  15. 手机屏幕常见故障_手机屏幕失灵怎么回事 手机屏幕失灵解决办法
  16. break和continue、循环遍历
  17. 视频会议软件行业调研报告 - 市场现状分析与发展前景预测
  18. LeetCode:390. 消除游戏————中等
  19. 2022-2028年中国智慧社区建设行业市场专项调研及投资前景研究报告
  20. 中国文化及相关产业统计年鉴(2013-2022)

热门文章

  1. 四阶龙格库塔法解一维扩散方程
  2. 西柚SWPU新生赛(场外同步赛)miscAK 别的在混(
  3. 基于matlab人脸识别论文,基于matlab的人脸识别系统设计 毕业论文
  4. (matlab代码)绘制地震记录的F-K谱
  5. D-S envidence theory(DS 证据理论)的基本概念和推理过程
  6. 《《《翻译》》》avod 三维生成与目标检测
  7. java下载m3u8视频,解密并合并ts(一)
  8. Eclipse Spring Tool Suite常用配置
  9. matlab做瑞利信道仿真,瑞利信道怎么用 matlab做仿真
  10. hp原装usb无线打印服务器,从USB转换到无线 | 无线打印中心 | 惠普中国