python3怎么使用结巴分词

下面这个程序是对一个文里的内容进行分词序:test.py

[python] view plain copy

#!/usr/bin/python

#-*- encoding:utf-8 -*-

import jieba                                                    #导入jieba

def splitSentence(inputFile, outputFile):

fin = open(inputFile, 'r')                                  #以读的方式打开文件

fout = open(outputFile, 'w')                                #以写得方式打开文件

for eachLine in fin:

line = eachLine.strip().decode('utf-8', 'ignore')       #去除每行首尾可能出现的空格,并转为Unicode进行处理

wordList = list(jieba.cut(line))                        #用结巴分词,对每行内容进行分词

outStr = ''

for word in wordList:

outStr  = word

outStr  = '/ '

fout.write(outStr.strip().encode('utf-8')   '\n')       #将分词好的结果写入到输出文件

fin.close()

fout.close()

splitSentence('myInput.txt', 'myOutput.txt')

写完程序之后,在Linux重点输入:python test.py即可运行程序进行分词。

输入的文件内容如下所示:

经过结巴分词后,输出结果如下所示:

注意:第11行的 jieba.cut()返回的结构是一个可迭代的generator,可以用list(jieba.cut(...))转化为list

版权声明:本站所有文章皆为原创,欢迎转载或转发,请保留网站地址和作者信息。

结巴分词python教程_python结巴教程【python3怎么使用结巴分词】相关推荐

  1. 2019最新Python学习教程(Python视频教程_Python学习教程_Python学习路线):你心目中编程界的MVP是谁?

    2019最新Python学习教程(Python视频教程_Python学习教程_Python学习路线):你心目中编程界的MVP是谁?编程界的王者是渐落寞的Java还是大火的Python? 是不是你们也喜 ...

  2. python 3教程_Python 3 教程

    全屏 Python 3 教程 Python的3.0版本,常被称为Python 3000,或简称Py3k.相对于Python的早期版本,这是一个较大的升级.为了不带入过多的累赘,Python 3.0在设 ...

  3. ik分词和jieba分词哪个好_Python 中文 文本分析 实战:jieba分词+自定义词典补充+停用词词库补充+词频统计...

    最近项目需要,实现文本的词频分析,折腾了几天才完成任务,有点成就感,最后整理总结一下这部分的内容,希望更多同僚受益. 一.使用前准备 环境:Python3.6 安装结巴:pip install ji ...

  4. python多态_Python 简明教程 21,Python 继承与多态

    程序不是年轻的专利,但是,它属于年轻. 目录 目录 我们已经知道封装,继承和多态 是面向对象的三大特征,面向对象语言都会提供这些机制. 1,封装 在这一节介绍类的私有属性和方法的时候,我们已经讲到过封 ...

  5. 官网python安装教程_Python安装教程

    1.python3.7官网下载 1. 在python的官网下载python版本,需要下载对应版本(在计算机-属性中查看自己是32位操作系统还是64位操作系统),我是64位的,就下载64位对应的安装包了 ...

  6. python独立网站教程_python做网站教程_如何免费做网站的教程

    python学习指南教程 180x270 - 7KB - JPEG 图灵程序设计丛书:Python基础教程 260x317 - 12KB - JPEG 跳一跳python使用教程 微信跳一跳pytho ...

  7. python入门语言教程_Python入门教程(1)

    人生苦短,我用Python! Python(英语发音:/ˈpaɪθən/), 是一种面向对象.解释型计算机程序设计语言,由Guido van Rossum于1989年底发明,第一个公开发行版发行于19 ...

  8. python爬虫scrapy框架教程_Python爬虫教程-30-Scrapy 爬虫框架介绍

    从本篇开始学习 Scrapy 爬虫框架 Python爬虫教程-30-Scrapy 爬虫框架介绍 框架:框架就是对于相同的相似的部分,代码做到不出错,而我们就可以将注意力放到我们自己的部分了 常见爬虫框 ...

  9. python多态_Python面向对象教程之多态

    今天给大家介绍面向对象最后一个重要的特性--多态.如果想温习前两个重要特性(继承和封装),可以点开:<Python面向对象教程之基本概念>.<Python面向对象教程之单继承> ...

  10. python模块编程教程_python进阶教程之模块(module)介绍

    我们之前看到了函数和对象.从本质上来说,它们都是为了更好的组织已经有的程序,以方便重复利用. 模块(module)也是为了同样的目的.在Python中,一个.py文件就构成一个模块.通过模块,你可以调 ...

最新文章

  1. 祝贺自己itpub和csdn双双荣获专家博客标题
  2. python代码编辑器排行榜-写 Python 哪个编辑器 / IDE 最好用?
  3. XStream转换Java对象与XML
  4. 逆向工程核心原理学习笔记(五):实战“打补丁方法”修改字符串
  5. [湖南师大集训2018 7 26] hunger 解题报告 (SPFA)
  6. 第16课 开灯关灯 《小学生C++趣味编程》
  7. 怎么用ubuntu进入python_ubuntu 下python环境的切换使用
  8. [渝粤教育] 重庆工程职业技术学院 Linux服务器配置与管理(唐宏) 参考 资料
  9. 83.删除排序链表中的重复元素(力扣leetcode) 博主可答疑该问题
  10. ArcGIS Runtime SDK for Android 100开发环境部署
  11. 77---Python 计算Sin(x)的积分
  12. IE首页被劫持,桌面图标异常的个人综合清理方法
  13. 实验报告 三密码破解技术
  14. 小明左手拿着纸牌黑桃10,右手拿着纸牌红桃8, 现在交换手中的牌, 用程序模拟实现的过程, 并输出交换前后手中的纸牌的结果
  15. 用Watir测试QTP的Demo程序Mercury Tours
  16. 编写一程序,将两个字符串连接起来,结果取代第一个字符串。(三种方法)
  17. 鸿蒙适配机型小米,华为鸿蒙适配机型公布 P50首发/小米10S才是真正至尊版
  18. 一个嵌入式牛人学习经历
  19. 360校园招聘2015届技术类笔试题
  20. 假定计算机系统中R1设备3台,操作系统典型题目讲解

热门文章

  1. Windows Phone 8.1中AppBarToggleButton的绑定问题
  2. Android模拟器安装apk应用程序
  3. VC添加皮肤――SkinMagic msvcrtd.dll_本地测试
  4. 一些and知识 和ui
  5. C# Frequently Asked Questions From The C# team
  6. LinkedHashMap jdk1.8源码解析
  7. python reference理解
  8. 任务管理器杀不了的进程如何关闭
  9. ARTS打卡计划第5周-ALGORITHM
  10. 一起学Android之Storage