爬取《政府工作报告》词云展示并做词频统计

爬取《政府工作报告内容代码:

from requests import *
from bs4 import BeautifulSoup
r=get("http://www.hgnu.edu.cn/2020/0531/c1112a61314/page.htm",timeout=10)
r.encoding="utf-8"
s=BeautifulSoup(r.text,"html.parser")
f=open("报告.txt","w",encoding="utf-8")
L=s.find_all("p")
for c in L:f.write("{}\n".format(c.text))f.close()

词云展示:

引用图:

词频统计

import re
import collections  # 词频统计库
import numpy as np # numpy数据处理库
import jieba  # 结巴分词
import wordcloud # 词云展示库
from PIL import Image  # 图像处理库
import matplotlib.pyplot as plt # 图像展示库
# 读取文件
fn = open("C:/python/pythonchengxu/报告.txt","r",encoding="utf-8")
string_data = fn.read()
fn.close()
# 文本预处理
# 定义正则表达式匹配模式
pattern = re.compile(u'\t|,|/|。|\n|\.|-|:|;|\)|\(|\?|"')
string_data = re.sub(pattern,'',string_data)  # 将符合模式的字符去除
# 文本分词
# 精确模式分词
seg_list_exact = jieba.cut(string_data,cut_all=False)
object_list = []
# 自定义去除词库
remove_words = [u'的',u'要', u'“',u'”',u'和',u',',u'为',u'是','以' u'随着', u'对于', u'对',u'等',u'能',u'都',u'。',u' ',u'、',u'中',u'在',u'了',u'通常',u'如果',u'我',u'她',u'(',u')',u'他',u'你',u'?',u'—',u'就',u'着',u'说',u'上',u'这', u'那',u'有', u'也',u'什么', u'·', u'将', u'没有', u'到', u'不', u'去'] for word in seg_list_exact:if word not in remove_words:object_list.append(word)
# 词频统计
# 对分词做词频统计
word_counts = collections.Counter(object_list)
# 获取前30最高频的词
word_counts_top30 = word_counts.most_common(30)
print(word_counts_top30)
# 词频展示
# 定义词频背景
mask = np.array(Image.open('E:/An3/2.png'))
wc = wordcloud.WordCloud(font_path='C:\\Windows\\Fonts\\msyh.ttc',# 设置字体mask = mask,# 背景图设置background_color="white",#设置背景图颜色width=1600, height=1200,#设置长宽max_words=300,# 最多显示词数max_font_size=100,min_font_size=4)# 字体最大最小值
wc.generate_from_frequencies(word_counts)# 从字典生成词云
image_colors = wordcloud.ImageColorGenerator(mask)# 从背景图建立颜色方案
wc.recolor(color_func=image_colors)  # 将词云颜色设置为背景图方案
plt.figure(dpi=300)# 通过分辨率放大或缩小图片
plt.imshow(wc)# 显示词云
plt.axis('off') # 关闭坐标轴
plt.show() # 显示图像

词频统计结果:

爬取《政府工作报告》词云展示并做词频统计相关推荐

  1. “政府工作报告词云”实例详解

    直观理解政策文件 需求:对于政府工作报告等政策文件如何直观理解 体会直观的价值:生成词云&优化词云 政府工作报告等文件----有效展示的词云 基本思路: 步骤1:读取文件,分词整理 步骤2:设 ...

  2. Python库:wordcloud库介绍、政府工作报告词云、自定义背景词云

    一.wordcloud库 二.使用wordcloud库 注:库名wordcloud全部是小写,而WordCloud对象W和C大写 简单说,绘制一个词云有三步: 第一.生成词云对象WordCloud,并 ...

  3. 政府工作报告词云实例

    政府工作报告词云实例 #GovRptWordCloudV1.pyimport jieba import wordcloud f = open('D:\TXT2019\新时代中国特色社会主义.txt', ...

  4. 【python实例6.5】一篇文章让你弄懂政府工作报告词云~总结笔记

    一篇文章让你弄懂政府工作报告词云 1.安装wordcloud库 2.新时代中国特色社会主义的词云 wordcloud下载链接: https://www.lfd.uci.edu/~gohlke/pyth ...

  5. python实现 政府工作报告词云的生成(嵩天老师)

    实例12:政府工作报告词云 基本思路 -步骤1:读取文件.分词整理 -步骤2:设置并输出词云 -步骤3:观察结果,优化迭代 代码: #GovRptWordCloudv1.py import jieba ...

  6. 【Python 】政府工作报告词云生成

    **#-需求:**对于政府工作报告等政策文件,如何直观理解 **#-体会直观的价值:**生成词云 & 优化词云. **#目的:**将政府工作报告等文件转换为有效展示的词云. **#文件来源:* ...

  7. 【Python】政府工作报告词云

    2019政府工作报告.txt https://www.lanzous.com/iby44eh 栗子1: import wordcloud import jieba f=open("2019政 ...

  8. Python 爬取京东商品评论 + 词云展示

    利用python爬虫爬取京东商品评论数据,并绘制词云展示. 原文链接:https://yetingyun.blog.csdn.net/article/details/107943979 创作不易,未经 ...

  9. 怎么用python爬小说统计词频_python小练习爬取《寻梦环游记》评论并做词频统计...

    本来其实是想爬豆瓣电影上10几万条评论的,但后来ip被封了,换代理ip之类的还不熟练,还在学习中,所以先做时光网上10页评论的分析吧,虽然时光网上粗粗一看评论就短了很多,水了很多.主要是继续练习Bea ...

最新文章

  1. 帝豪gs车机系统wince_有了帝豪GS,生活变得越来越好,很不错
  2. OpenCV图像缩放resize各种插值方式的比较
  3. SQLLite (三):sqlite3_get_table,sqlite3_free_table
  4. kubernetes实践之运行aspnetcore webapi微服务
  5. makefile 打印变量_[Makefile] 缩进与空格--记录踩过的坑
  6. P1967,ssl2267-货车运输【树上倍增LCA,最小生成树变形kruskal】
  7. c语言转换为python语言_python和c语言
  8. [2018.10.10 T3] 三米诺
  9. 数据挖掘-Apriori算法
  10. 线性代数辅导讲义(第三章 向量)
  11. 常用的非线性激励函数
  12. 98K歌词用计算机按的数字是什么,98k谐音中文歌词
  13. N33-Week 1-向日葵
  14. php 7.4 编译安装
  15. tomcat启动报错 exception_access_violation(0x0000005) at pc=0x000000006d9f904
  16. ttl传输种过期_TTL 传输中过期2、目标主机无法访问3、请求超时4、未知主机
  17. unity3d:win32api,托盘运行,开机自启动,浏览文件对话框,无标题栏,自定义标题栏拖动
  18. 云测试平台推荐与简单比较
  19. shopee首站入驻哪个国家?哪个国家更好卖?
  20. 一分钟读懂PDCA 循环

热门文章

  1. Unity学习笔记——Unity基础一:unity界面、场景、游戏物体、组件等基本概念
  2. 有效的信息安全意识培训
  3. libjpeg的使用
  4. Bosun中es表达语法
  5. 关于5G无线网络设备之间的连线总结
  6. 在Linux系统实现PTP时钟同步,查看网卡信息后发现网卡不支持PTP软硬件时间戳
  7. Ubuntu20.04 使用Python实现全过程离线语音识别(包含语音唤醒,语音转文字,指令识别,文字转语音)
  8. 避免重复造轮子,Java 程序员必备
  9. 最简单的使用python爬取图片
  10. Win10桌面我的电脑怎么调出来?最简单方法教学