jieba分词并做分析
Github:结巴分词地址
https://github.com/fxsjy/jieba
- 安装、示例
1 import jieba 2 3 str1 ='江州市长江大桥' 4 word_object = jieba.cut(str1) # 生成一个生成器对象 5 for each in word_object: 6 print each
jieba.load_userdict('userdict.txt')
jieba.cut(str1, cut_all=True) #全模式是将词可能生成的词完全切分出来
jieba.cut(str1, cut_all=False)
add_word(word, freq=None, tag=None) # 向词典添加词 del_word(word) # 删除词典中的词 suggest_freq(segment, tune=True) # 调整词频率
- 安装和使用
1 str1 = u'江州市长江大桥' 2 import thulac 3 thu = thulac.thulac() 4 word = thu.cut(str1, text=False) 5 for each in word: 6 print each[0], each[1]
1 str1 = u'江州市长江大桥' 2 import thulac 3 thu = thulac.thulac() 4 word = thu.cut(str1, text=False)
- 参数
- 安装、概述、示例
1 from snownlp import SnowNLP 2 str1 = u'江州市长江大桥' 3 snow_obj = SnowNLP(str1) 4 snow_obj.words # list 分词后返回一个分词结果的list 5 for each in snow_obj: 6 print each
- 参数、部分方法
1 from snownlp import SnowNLP 2 str1 = u'江州市长江大桥' 3 snow_obj = SnowNLP(str1) 4 snow_obj.words # list 分词后返回一个分词结果的list 5 for each in snow_obj: 6 print each 7 snow_obj.tags # 一维list,内含元组(词,词性) 8 snow_obj.sentiments # positive的概率 9 snow_obj.pinyin # 每个词转为拼音,每个词构成list
- 安装、简述、示例
1 str1 = u'江州市长江大桥' 2 from yaha import Cuttor 3 cuttor = Cuttor() # 然后会加载字典 4 word = cuttor.cut(str1) # 生成器对象 5 for each in word: 6 print word
import re
from collections import Counter
import jiebadef cut_word(datapath):with open(datapath,'r',encoding='utf-8')as fp:string = fp.read()data = re.sub(r"[\s+\.\!\/_,$%^*(【】:\]\[\-:;+\"\']+|[+——!,。?、~@#¥%……&*()]+|[0-9]+", "", string)word_list = jieba.cut(data)print(type(word_list))return word_listdef static_top_word(word_list,top=5):result = dict(Counter(word_list))print(result)sortlist = sorted(result.items(),key=lambda x:x[1],reverse=True)resultlist = []for i in range(0,top):resultlist.append(sortlist[i])return resultlistdef main():datapath = 'comment.txt'word_list = cut_word(datapath)Result = static_top_word(word_list)print(Result)
main()
jieba分词并做分析相关推荐
- 结巴分词关键词相似度_gensim和jieba分词进行主题分析,文本相似度
#coding=utf-8 importcodecsimportgensimimportjiebafrom gensim importcorpora,models,similaritiesfrom g ...
- ik分词和jieba分词哪个好_Python 中文 文本分析 实战:jieba分词+自定义词典补充+停用词词库补充+词频统计...
最近项目需要,实现文本的词频分析,折腾了几天才完成任务,有点成就感,最后整理总结一下这部分的内容,希望更多同僚受益. 一.使用前准备 环境:Python3.6 安装结巴:pip install ji ...
- python分词训练_python练习17:用jieba分词做关键词提取,用matplotlib做可视化
jieba分词 是一款开源的中文分词包,同时它还带有分析模块,可以用TF-IDF等算法进行关键词分析 jieba 下面的小程序的基本思路是: 通过jieba从 保存好的txt文本中提取关键词,根据关键 ...
- 关于《后浪》的B站弹幕分析总结(二)——jieba分词、常用词典、颜文字处理以及字符格式统一
目录 一.你需要知道的几个常用词典 - **停用词典(停用词,颜文字,emoji)** - 否定词典,程度副词词典 - 情感极性词典,多维情感词典 二.统一字符.统一大小写.统一繁简体 - 统一字符 ...
- jieba分词_从语言模型原理分析如何jieba更细粒度的分词
jieba分词是作中文分词常用的一种工具,之前也记录过源码及原理学习.但有的时候发现分词的结果并不是自己最想要的.比如分词"重庆邮电大学",使用精确模式+HMM分词结果是[&quo ...
- 自然语言处理之中文文本分析(jieba分词、词袋doc2bow、TFIDF文本挖掘)
中文分词常用的分词工具有jieba等,本文以jieba分词为例,讲解中文文本分析. 一.jieba分词 来源github:https://github.com/fxsjy/jieba 1.主要模式 支 ...
- 机器学习之---文本分析(jieba分词和词云绘制)
一.定义: 文本挖掘:从大量文本数据中抽取出有价值的知识,并且利用这些知识重新组织信息的过程. 二.语料库(Corpus) 语料库是我们要分析的所有文档的集合. import os import os ...
- 利用jieba分词分析小说二
在之前通过jieba分词统计出了各人物的出场次数的基础上,我们可以利用Gensim Word2vec进一步分析人物关系, Gensim是自然语言处理中的一款具备多种功能的神器.Gensim是一款开源的 ...
- 利用jieba分词分析小说一
准备工作 下载好需要分析的小说txt文件,这里我选择的是<龙族>的第一部. 小说人物名字的txt文件. 中文停用词txt文件. 安装好jieba库. 正式开始 用jieba.cut()完成 ...
最新文章
- GB2312、GBK与UTF-8的区别
- Performance comparison Raw device VS Ext2 VS Ext3 VS OCFS
- C#获取和设置环境变量
- 关于STM32F4的FMC CLK配置浅解
- jasmine单元测试_使用Jasmine,Spock和Nashorn测试JVM服务器端JavaScript
- du -sh 如何找到最大的文件夹_小白必看!手把手教你如何在linux上安装redis数据库...
- Spring(二)Spring IOC
- 【渝粤教育】电大中专电商运营实操 (7)作业 题库
- 备忘:BLOCK CORRUPTION IN SYSTEM DATAFILE
- Matlab仿真两种方法求圆周率π
- 稚辉君的Clion搭建STM32教程的自己实现,以及相关记录
- Echar柱状堆叠图X轴自定义显示功能
- 自研返利网源码、有需要的私信
- 浏览器油猴插件Tampermonkey下载安装
- c++中调用c编写的动态链接库出现undefined reference to `xxx‘的解决方法
- Entity Framework自定义迁移历史表(EF6以上)
- 数据库原理题型 - 选择题
- 平板作为主机扩展屏的实现
- libvirt 问题解决记录集
- 5c标准第二语言,美国语言教学5C标准对中文作为第二语言教学课堂的启示
热门文章
- Gmail的另类浏览法--RSS
- file_table.c 文件分析 linux1_0\linux\fs\file_table.c
- Boost智能指针——boost::scoped_ptr(使用及原理分析)
- Android bootchart分析
- xmlspy php,XMLSpy使用流程 - tnlzz31985的个人空间 - OSCHINA - 中文开源技术交流社区
- Datawhale-零基础入门NLP-新闻文本分类Task01
- camera中文版软件 ip_ip camera网络摄像机
- 经纬度坐标系转东北天_大地坐标系(WGS-84)、地心地固坐标系(ECEF)与东北天坐标系(ENU)的相互转换C语言代码分享...
- LeetCode 1799. N 次操作后的最大分数和(回溯 / 状态压缩DP)
- LeetCode 1007. 行相等的最少多米诺旋转