Jieba分词斗罗大陆

1.相关包导入

import jieba
import numpy as np
import pandas as pd

2.斗罗大陆词库导入

dldlck = pd.read_csv('F:\\cqie3.2\\NLP\\斗罗大陆词      库.txt',encoding='gbk')
Dldlck

3.斗罗大陆文本导入

with open('F:\\cqie3.2\\NLP\\斗罗大陆.txt',encoding='utf-8') as f:dldl = f.read()f.close()

（代码报错，点开文本另存为utf-8格式即可）

4.查看前五十

dldl[:50]

5.分词

test_word = jieba.cut(dldl)
print("/".join(test_word))
jieba.lcut(dldl)

newlist = [w for w in jieba.cut(dldl) if w not in ['，','。']]
print(newlist)

6.停用词库导入

tmpdf = pd.read_csv('F:\\cqie3.2\\NLP\\停用词.txt',names = ['w'],sep =   'aaa',encoding='utf-8')
tmpdf.head()

7.停用词分词

finish_word = []
for i in jieba.cut(dldl) :if i not in list(tmpdf.w)+[" ","\n"]:finish_word.append(i)
finish_word

8.行列计数

raw = pd.read_table('F:\\cqie3.2\\NLP\\斗罗大陆.txt',names=['txt'],encoding='utf-8')
print(len(raw))

9.按章节划分

def m_head(tmpstr):return tmpstr[:1]def m_mid(tmpstr):return tmpstr.find('章')raw['head'] = raw.txt.apply(m_head)
raw['mid'] = raw.txt.apply(m_mid)
raw['len'] = raw.txt.apply(len)
raw.head(50)

10.章节处理

chapnum = 0
for i in range(len(raw)):if raw['head'][i] == '第' and raw['mid'][i]>0 and raw['len'][i]<20:chapnum += 1if chapnum >= 20 and raw['txt'][i] == '引子 穿越的唐家三少':chapnum = 0raw.loc[i,'chap'] = chapnumdel raw['head']
del raw['mid']
del raw['len']raw.head(50)

11.章节验证

raw[raw.chap == 50].head()

12.画词云

from wordcloud import WordCloud
from PIL import Image
import numpy as np
wc = WordCloud(background_color='white',width=800,height=600,min_font_size=0,max_font_size=200,font_path= 'C:\Windows\Fonts\STXINGKA.TTF',)
wc.generate(' '.join(finish_word))
wc.to_image()

Jieba分词斗罗大陆相关推荐

jieba分词流程及部分源码解读（一）
首先我们来看一下jieba分词的流程图: 结巴中文分词简介 1)支持三种分词模式: 精确模式:将句子最精确的分开,适合文本分析全模式:句子中所有可以成词的词语都扫描出来,速度快,不能解决歧义搜索引 ...
自然语言处理课程（二）：Jieba分词的原理及实例操作
上节课,我们学习了自然语言处理课程(一):自然语言处理在网文改编市场的应用,了解了相关的基础理论.接下来,我们将要了解一些具体的.可操作的技术方法. 作为小说爱好者的你,是否有设想过通过一些计算机工具 ...
jieba分词的使用
jieba分词的使用 import jieba tmpstr = '祝福我们伟大的祖国繁荣昌盛!' ret = jieba.cut(tmpstr) # 精确模式 ret # 是一个迭代的generat ...
中文分词工具jieba分词器的使用
1.常见的中文分词工具中科院计算所的NLPIR 哈工大LTP 清华大学THULAC 斯坦福分词器 Hanlp分词器 jieba分词 IKAnalyzer 2.jieba分词算法主要有以下三种: 1. ...
jieba分词_从语言模型原理分析如何jieba更细粒度的分词
jieba分词是作中文分词常用的一种工具,之前也记录过源码及原理学习.但有的时候发现分词的结果并不是自己最想要的.比如分词"重庆邮电大学",使用精确模式+HMM分词结果是[&quo ...
jieba分词_自然语言NLP必备(1)，jieba工具 5 行代码对整篇文章分词
自然语言是什么?下面来看看百度百科的介绍: 自然语言处理是计算机科学领域与人工智能领域中的一个重要方向.它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法.自然语言处理是一门融语言学.计 ...
自然语言处理之jieba分词
在处理英文文本时,由于英文文本天生自带分词效果,可以直接通过词之间的空格来分词(但是有些人名.地名等需要考虑作为一个整体,比如New York).而对于中文还有其他类似形式的语言,我们需要根据来特殊处 ...
jieba分词实现原理（C++版 + python篇）（二）
目录 1. 基本概念 1.1 jieba功能介绍 1.2 结巴分词流程图 1.3 jieba实现算法 2. jieba分词流程详述
【NLP】jieba分词-Python中文分词领域的佼佼者
1. jieba的江湖地位 NLP(自然语言)领域现在可谓是群雄纷争,各种开源组件层出不穷,其中一支不可忽视的力量便是jieba分词,号称要做最好的 Python 中文分词组件. "最好的& ...

Jieba分词斗罗大陆

Jieba分词斗罗大陆

1.相关包导入

2.斗罗大陆词库导入

3.斗罗大陆文本导入

4.查看前五十

5.分词

6.停用词库导入

7.停用词分词

8.行列计数

9.按章节划分

10.章节处理

11.章节验证

12.画词云

Jieba分词斗罗大陆相关推荐

最新文章

热门文章