2019-12-12中文文本分词和词云图具体功能介绍与学习代码:

import jieba

a="由于中文文本的单词不是通过空格或者标点符号来进行分割"

#jieba.lcut()s是最常用的中文分词函数,用于精准模式,即将字符串分割为等量的中文词组,返回结果是列表类型

print(jieba.lcut(a))

#jieba.lcut(s,cut_all=True):用于全模式,即将字符串所有分词可能均列出来,返回结果是列表类型,冗余性较大,速度很快,但是不能解决歧义的问题

print(jieba.lcut(a,cut_all=True))

#jieba.lcut_for_search函数主要是返回搜索引擎模式,该模式首先精准执行精确模式,然后再对其中的长词进行进一步的切片获得最终结果

print(jieba.lcut_for_search(a))

#jieba.add_word()函数主要用来增加jieba库中的内容新的单词

jieba.add_word("燕江依")

#词云图的绘制

import wordcloud

import jieba

#英文的词云图生成比较简单,直接可以使用Wordcloud。generate()函数来进行,因为它是按照空格或者标点符号来进行划分

t="i like Python,i am studying python"

wd=wordcloud.WordCloud().generate(t) #Wordcloud类函数主要根据空格或者标点来进行划分和分词,主直接生成英文的词云图

wd.to_file("test.png") #生成简单的文本词云图

import matplotlib.pyplot as plt

#对于中文文本的词云图生成,由于不是空格来进行划分,所以需要进行先中文分词,再将其以空格连接,之后对其进行Wordcloud的generate函数,这样便可以实现中文文本的词云图的生成

a="程序设计语言是计算机能够理解和识别用户操作的一种交互体系,它可以按照规则组织计算机指令,是使得计算机进行目的的操作和实现"

b=jieba.lcut(a) #中文文本需要先进行文本分词,在进行空格分隔

newtext=" ".join(b)

print(newtext)

w=wordcloud.WordCloud(font_path="MSYH.TTF").generate(newtext) #font_path="msyh.ttc"词云图的字体设置,需要进行下载

w.to_file("python.png") #词云图的两种显示方式:w.to_file()和plt.imshow(w)

plt.imshow(w)

plt.axis("off")

plt.show()

import wordcloud

import imageio #可以使得词云图的输出和图片的样子一致

mask=imageio.imread("孙悟空图片.jpg")

with open("文本文档.txt","r") as f:

text=f.read()

wd=wordcloud.WordCloud(background_color="white",\

width=800,\

height=600,\

max_words=200,\

max_font_size=80,mask=mask,\

).generate(text)

plt.axis("off") #关掉坐标轴的显示

plt.imshow(wd)

wd.to_file("ciyuntu.png")

plt.show()

import jieba

from wordcloud import WordCloud

import matplotlib.pyplot as plt

s1 = """ 在克鲁伊夫时代,巴萨联赛中完成了四连冠,后三个冠军都是在末轮逆袭获得的。

在91/92赛季,巴萨末轮前落后皇马1分,结果皇马客场不敌特内里费使得巴萨逆转。

一年之后,巴萨用几乎相同的方式逆袭,皇马还是末轮输给了特内里费。

在93/94赛季中,巴萨末轮前落后拉科1分。

巴萨末轮5比2屠杀塞维利亚,拉科则0比0战平瓦伦西亚,巴萨最终在积分相同的情况下靠直接交锋时的战绩优势夺冠。

神奇的是,拉科球员久基奇在终场前踢丢点球,这才有了巴萨的逆袭。"""

s2 = """ 巴萨上一次压哨夺冠,发生在09/10赛季中。末轮前巴萨领先皇马1分,只要赢球就将夺冠。

末轮中巴萨4比0大胜巴拉多利德,皇马则与对手踢平。

巴萨以99分的佳绩创下五大联赛积分纪录,皇马则以96分成为了悲情的史上最强亚军。"""

s3 = """在48/49赛季中,巴萨末轮2比1拿下同城死敌西班牙人,以2分优势夺冠。

52/53赛季,巴萨末轮3比0战胜毕巴,以2分优势力压瓦伦西亚夺冠。

在59/60赛季,巴萨末轮5比0大胜萨拉戈萨。皇马巴萨积分相同,巴萨靠直接交锋时的战绩优势夺冠。"""

mylist = [s1, s2, s3]

word_list = [" ".join(jieba.cut(sentence)) for sentence in mylist]

new_text = ' '.join(word_list)

wordcloud = WordCloud(font_path="MSYH.TTF",background_color="black").generate(new_text)

plt.imshow(wordcloud)

plt.axis("off")

plt.show()

python中文词云图代码_python词云图与中文分词相关推荐

  1. python中文词云图代码_Python文本处理NLP:分词与词云图

    ​昨晚我们又做了一次技术分享,继续上次技术分享的话题"文本数据的处理".上次,我们分享了文本处理的方方面面的知识点,比较宏观,这次我们就其中的一点"分词"展开. ...

  2. python英文词云代码_Python 词云 【中/英】小白简单入门教程

    1. 分析 构建词云需要具备: 原料即文章等内容 将内容进行分词 将分词后的内容利用构建词云的工具进行构建 保存成图片 2. 需要的主要模块 jieba 中文分词 wordcloud 构建词云 3. ...

  3. python中文词云图代码_Python简单实现词云图代码及步骤解析

    一.安装 wordcloud pip install wordcloud 二.加载包.设置路径 import os from wordcloud import WordCloud import mat ...

  4. python中文词云生成_Python 词云生成

    图片来自网络所谓"词云"就是对网络文本中出现频率较高的"关键词"予以视觉上的突出,形成"关键词云层"或"关键词渲染",从 ...

  5. python词云乱码_python词云库wordCloud使用方法详解(解决中文乱码)

    文章中的例子主要借鉴wordColud的examples,在文章对examples中的例子做了一些改动. 一.wordColud设计中文词云乱码 使用wordColud设计词云的时候可能会产生乱码问题 ...

  6. python的总结与心得词云设计理念_Python词云展示十九大报告

    "不忘初心,牢记使命,高举中国特色社会主义伟大旗帜,决胜全面建成小康社会,夺取新时代中国特色社会主义伟大胜利,为实现中华民族伟大复兴的中国梦不懈奋斗." 十九大召开已过去近一个月, ...

  7. python编写小游戏代码_Python小游戏之300行代码实现俄罗斯方块

    Python小游戏之300行代码实现俄罗斯方块 来源:中文源码网 浏览: 次 日期:2019年11月5日 [下载文档: Python小游戏之300行代码实现俄罗斯方块.txt ] (友情提示:右键点上 ...

  8. python求平方根的代码_Python求解平方根的方法

    本文实例讲述了Python求解平方根的方法.分享给大家供大家参考.具体如下: 主要通过SICP的内容改写而来.基于newton method求解平方根.代码如下: #!/usr/bin/python ...

  9. python中怎么复制代码_Python对象怎么引用_Python对象怎么复制代码_一聚教程网

    本次文章要给大家讲解的是Python对象引用及复制代码,相信这也是大家问题比较大的一个点,下面为大家具体整理了操作过程,一起来了解下. 可以说Python没有赋值,只有引用.你这样相当于创建了一个引用 ...

最新文章

  1. 会看会吃还要会做——自制小摊上的鸡蛋卷饼
  2. 第十七届全国大学智能车竞赛STC芯片申请方法
  3. 为什么 Redis 单线程能支撑高并发?
  4. Mac android studio升级时提示 :Connection failed. Please check your network connection .
  5. leetcode刷题六z字形变换
  6. 华为张顺茂:华为工业互联网平台FusionPlant助力国家电网打造泛在电力物联网
  7. 登录文件传输服务器,生信小技巧之:在本地与服务器间快速传输文件,无密码登录远端服务器...
  8. sql优化基数和耗费_基数估计在SQL Server优化过程中的位置
  9. 系统学习深度学习(四十一)--AlphaGo Zero强化学习原理
  10. 苹果Mac专业级照片编辑器:RAW Power
  11. 【等保知识】等保三级要求多少分?几分能过?
  12. deepin 惠普打印驱动安装
  13. Kaptcha简单使用
  14. Android对H265和VP9的支持(十四)
  15. EXCEL 数据比对查询好用的指令——VLOOKUP 三种使用场景
  16. 天宇优配|混动车将告别上海免费绿牌 新能源多种技术路
  17. 计科实训 餐馆点菜系统
  18. state=08S01,code=0
  19. 粉笔公考——常识专项课——民法典
  20. 弘辽科技:淘宝客单价高好还是低好?如何提高客单价?

热门文章

  1. 1. java缓存-多级缓存概述
  2. xshell删除文件夹命令_XShell常用命令
  3. navicat 使用代理跳板机(nginx)连接远程服务器mysql数据库
  4. Matlab 在线性代数中的应用
  5. “知道”题库脚本——升级版
  6. SpringSocial之QQ登录
  7. 关心你周末生活的也只有码仔了
  8. \t\t北京社保卡 问题汇总 参保人 结算问题
  9. Android 的动作、广播、类别等标识大全
  10. virtio-vsock