Jieba分词斗罗大陆
Jieba分词斗罗大陆
1.相关包导入
import jieba
import numpy as np
import pandas as pd
2.斗罗大陆词库导入
dldlck = pd.read_csv('F:\\cqie3.2\\NLP\\斗罗大陆词 库.txt',encoding='gbk')
Dldlck
3.斗罗大陆文本导入
with open('F:\\cqie3.2\\NLP\\斗罗大陆.txt',encoding='utf-8') as f:dldl = f.read()f.close()
(代码报错,点开文本另存为utf-8格式即可)
4.查看前五十
dldl[:50]
5.分词
test_word = jieba.cut(dldl)
print("/".join(test_word))
jieba.lcut(dldl)
newlist = [w for w in jieba.cut(dldl) if w not in [',','。']]
print(newlist)
6.停用词库导入
tmpdf = pd.read_csv('F:\\cqie3.2\\NLP\\停用词.txt',names = ['w'],sep = 'aaa',encoding='utf-8')
tmpdf.head()
7.停用词分词
finish_word = []
for i in jieba.cut(dldl) :if i not in list(tmpdf.w)+[" ","\n"]:finish_word.append(i)
finish_word
8.行列计数
raw = pd.read_table('F:\\cqie3.2\\NLP\\斗罗大陆.txt',names=['txt'],encoding='utf-8')
print(len(raw))
40552
9.按章节划分
def m_head(tmpstr):return tmpstr[:1]def m_mid(tmpstr):return tmpstr.find('章')raw['head'] = raw.txt.apply(m_head)
raw['mid'] = raw.txt.apply(m_mid)
raw['len'] = raw.txt.apply(len)
raw.head(50)
10.章节处理
chapnum = 0
for i in range(len(raw)):if raw['head'][i] == '第' and raw['mid'][i]>0 and raw['len'][i]<20:chapnum += 1if chapnum >= 20 and raw['txt'][i] == '引子 穿越的唐家三少':chapnum = 0raw.loc[i,'chap'] = chapnumdel raw['head']
del raw['mid']
del raw['len']raw.head(50)
11.章节验证
raw[raw.chap == 50].head()
12.画词云
from wordcloud import WordCloud
from PIL import Image
import numpy as np
wc = WordCloud(background_color='white',width=800,height=600,min_font_size=0,max_font_size=200,font_path= 'C:\Windows\Fonts\STXINGKA.TTF',)
wc.generate(' '.join(finish_word))
wc.to_image()
Jieba分词斗罗大陆相关推荐
- jieba分词流程及部分源码解读(一)
首先我们来看一下jieba分词的流程图: 结巴中文分词简介 1)支持三种分词模式: 精确模式:将句子最精确的分开,适合文本分析 全模式:句子中所有可以成词的词语都扫描出来,速度快,不能解决歧义 搜索引 ...
- 自然语言处理课程(二):Jieba分词的原理及实例操作
上节课,我们学习了自然语言处理课程(一):自然语言处理在网文改编市场的应用,了解了相关的基础理论.接下来,我们将要了解一些具体的.可操作的技术方法. 作为小说爱好者的你,是否有设想过通过一些计算机工具 ...
- jieba分词的使用
jieba分词的使用 import jieba tmpstr = '祝福我们伟大的祖国繁荣昌盛!' ret = jieba.cut(tmpstr) # 精确模式 ret # 是一个迭代的generat ...
- 中文分词工具jieba分词器的使用
1.常见的中文分词工具 中科院计算所的NLPIR 哈工大LTP 清华大学THULAC 斯坦福分词器 Hanlp分词器 jieba分词 IKAnalyzer 2.jieba分词算法主要有以下三种: 1. ...
- jieba分词_从语言模型原理分析如何jieba更细粒度的分词
jieba分词是作中文分词常用的一种工具,之前也记录过源码及原理学习.但有的时候发现分词的结果并不是自己最想要的.比如分词"重庆邮电大学",使用精确模式+HMM分词结果是[&quo ...
- jieba分词_自然语言NLP必备(1),jieba工具 5 行代码对整篇文章分词
自然语言是什么?下面来看看百度百科的介绍: 自然语言处理是计算机科学领域与人工智能领域中的一个重要方向.它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法.自然语言处理是一门融语言学.计 ...
- 自然语言处理之jieba分词
在处理英文文本时,由于英文文本天生自带分词效果,可以直接通过词之间的空格来分词(但是有些人名.地名等需要考虑作为一个整体,比如New York).而对于中文还有其他类似形式的语言,我们需要根据来特殊处 ...
- jieba分词实现原理(C++版 + python篇)(二)
目录 1. 基本概念 1.1 jieba功能介绍 1.2 结巴分词流程图 1.3 jieba实现算法 2. jieba分词流程详述
- 【NLP】jieba分词-Python中文分词领域的佼佼者
1. jieba的江湖地位 NLP(自然语言)领域现在可谓是群雄纷争,各种开源组件层出不穷,其中一支不可忽视的力量便是jieba分词,号称要做最好的 Python 中文分词组件. "最好的& ...
最新文章
- Java学习总结:12
- macbook和 windows共享文件
- Eclipse开发struts完全指南
- [已解决]window下Can't connect to MySQL server on 'localhost' (10061)与无法启动MYSQL服务”1067 进程意外终止”...
- EMNLP 2021 | ST-ToD:小样本场景下的任务型对话预训练
- 利用obfuscar对.NET应用进行混淆
- 怎样测量地图上曲线的长度_测量长度的特殊方法
- php静态属性和普通属性吗,php中静态属性和普通属性的区别
- Spring mvc @SessionAttribute
- JavaScript学习(八十五)—数据类型的转换
- 在chrome开发者工具中观察函数调用栈、作用域链、闭包
- 7-24 说反话-加强版 (20 分)
- linux支持usb打印机
- freeswitch cdr mysql_freeswitch支持g729编码
- 【HEC-RAS】02 软件下载及安装
- 张小龙4个小时演讲全文:每天有1亿人教我做产品(下)
- 2、基因树 与物种树的关系及建树
- 【视频】老外拍的阿里巴巴纪录片,讲述淘宝怎么打败eBay
- 单片机驱动直流电机c语言代码,单片机驱动带编码器直流电机 源程序
- 微信公众号的Api 一些说明 关于 WeixinJSBridge API
热门文章
- 工控协议(二):Modbus TCP/IP 学习笔记
- 【基于python+Django的博客系统-哔哩哔哩】 https://b23.tv/bmRfAMu
- 2018_10_24 模拟赛
- 大数据风控在信贷行业的应用
- 第十六讲:完美主义身心健康 第十七讲:身心健康:运动与冥想 第十八讲:睡眠,触摸和爱情的重要性
- 差异表达基因热图怎么看_获得差异表达基因后-基因功能注释
- Linux:ab 发送 POST、PUT 请求
- 三.webpack基本配置
- 服务器发来的信息手机收不到,收不到QQ好友发来的信息
- python安装cv2模块的方法_Python opencv模块cv2安装和部分函数使用