今天的任务是对txt文本进行分词,有幸了解到"结巴"中文分词,其愿景是做最好的Python中文分词组件。有兴趣的朋友请点这里。

jieba支持三种分词模式:

*精确模式,试图将句子最精确地切开,适合文本分析;

*全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;

*搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

主要采用以下算法:

*基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)

*采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合

*对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法

下面是我做的小尝试,对txt文本进行分词,并对获取的分词进行计数,最后将结果写入result.txt中。代码如下:

#-*- coding: utf-8 -*-#-----------------------------------------------------#功能:将txt文本进行分词处理#作者:chenbjin#日期:2014-07-14#语言:Python 2.7.6#环境:linux(ubuntu)#jieba(Must be installed)#使用:python fenci.py file.txt#-----------------------------------------------------

importjiebaimportsys

reload(sys)

sys.setdefaultencoding('utf8')deffenci(argv) :

filename= argv[1]

f= open(filename,'r+')

file_list=f.read()

f.close()

seg_list= jieba.cut(file_list,cut_all=True)

tf={}for seg inseg_list :#print seg

seg = ''.join(seg.split())if (seg != '' and seg != "\n" and seg != "\n\n") :if seg intf :

tf[seg]+= 1

else:

tf[seg]= 1f= open("result.txt","w+")for item intf:#print item

f.write(item+" "+str(tf[item])+"\n")

f.close()if __name__ == '__main__' : fenci(sys.argv)

参考资料:

1.结巴中文分词:https://github.com/fxsjy/jieba

2.Demo of jieba:http://jiebademo.ap01.aws.af.cm/

python结巴分词的缺点_Python 结巴分词相关推荐

  1. python关键词提取源码_Python 结巴分词 关键词抽取分析

    关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来.这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文的词语.因此,目前依然可以在论文中看到关键词这一项. ...

  2. python 分词工具训练_Python中文分词工具大合集:安装、使用和测试

    这篇文章事实上整合了前面两篇文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工具,这几款工具可以直接在AI ...

  3. python分词统计词频_python jieba分词并统计词频后输出结果到Excel和txt文档方法

    前两天,班上同学写论文,需要将很多篇论文题目按照中文的习惯分词并统计每个词出现的频率. 让我帮她实现这个功能,我在网上查了之后发现jieba这个库还挺不错的. 运行环境: 安装python2.7.13 ...

  4. python中面向对象的缺点_python中的面向对象和面向过程

    一.面向对象和面向过程 一.什么是面向过程 核心是过程二字:面向过程是一种流水线的工作流程,是先做什么在做什么 二.什么是面向对象 核心 是对象二字:是一种编程思想,上帝思维,一切皆对象,编程中负责调 ...

  5. python结巴分词代码_python结巴分词SEO的应用详解

    本帖最后由 为人生而奋斗 于 2019-10-15 16:19 编辑 结巴分词在SEO中可以应用于分析/提取文章关键词.关键词归类.标题重写.文章伪原创等等方面,用处非常多. 具体结巴分词项目:htt ...

  6. python结巴分词实例_python 结巴分词(jieba)详解

    "结巴"中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese ...

  7. 结巴分词python安装不上怎么回事_python结巴分词

    转载: http://www.cnblogs.com/jiayongji/p/7119065.html 结巴是一个功能强大的分词库. 安装jieba pip install jieba 简单用法 结巴 ...

  8. jieba结巴分词--关键词抽取_结巴中文分词原理分析2

    作者:白宁超,工学硕士,现工作于四川省计算机研究院,著有<自然语言处理理论与实战>一书,作者公众号:机器学习和自然语言处理(公众号ID:datathinks) 结巴分词详解1中文分词介绍 ...

  9. python统计词频_Python中文分词及词频统计

    中文分词 中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组.英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是同个含义,因此,中文分词相比英文 ...

  10. 结巴分词有前空格_NLP 分词的那些事儿

    作者: 乐雨泉(yuquanle),湖南大学在读硕士,研究方向机器学习与自然语言处理.欢迎志同道合的朋友和我在公众号"AI 小白入门"一起交流学习. 本文谈一谈分词的那些事儿,从定 ...

最新文章

  1. 认识jQuery及jQuery选择器
  2. CSS滤镜(Filters)
  3. 裘宗燕-数据结构与算法python描述-ppt及源代码
  4. private、protected、public、published 访问限制(或者叫类成员的可见性)
  5. java 的构造函数修饰符public private protected
  6. nginx只能访问80端口_nginx 访问不了非80端口
  7. 作业3:基于墨刀的短视频APP
  8. 怎么增加一个工位?ApiPost工位有什么用?
  9. python将文字转换为语音_python实现将文本转换成语音
  10. 高性能数据库集群:分库分表
  11. python怎么导入csv文件数据-机器学习Python实践——数据导入(CSV)
  12. SetupFactory 制作软件安装包使用详解
  13. 在vue中使用echarts之世界各地到中国某些城市的航线
  14. Ubuntu下载安装CUDA
  15. 民间借贷、网贷vs信用卡
  16. lcx 通过端口转发实现内网穿透
  17. 线粒体和叶绿体的基因组特点_线粒体基因组有什么特点?
  18. 1.2 神经网络的介绍
  19. 自然语言处理 # 中文分词技术 概述
  20. 动态改变Input和Textarea值Vue数据没有绑定的解决办法

热门文章

  1. CTCS列控系统原理--详细学习笔记
  2. 利用MATLAB实现人脸识别GUI程序设计
  3. 视频教程-汇编语言程序设计-其他
  4. Norton AntiVirus (诺顿杀毒)v9.0 简体中文企业版
  5. 一道经典的C++题,关于分钱的问题,适合新手阅读(黑客X档案论坛题目) [c#]...
  6. windows配置端口映射
  7. IE兼容/IE5兼容踩过的坑
  8. 360浏览器集成IE8内核
  9. 说说 JavaEye 网站架构
  10. 页面回到顶部的几种方法