2022年政府工作报告词频分析
2022年政府工作报告词频分析
a.获取网页文件(捕获异常)
b.筛选有用目标
c.写入文件
d.文件预处理:去除无用字符及停用词汇
e.词频统计,建立字典,按词频排序并输出
f.绘制词云
from bs4 import BeautifulSoup
from wordcloud import WordCloud
import matplotlib.pyplot as plt
import requests
import jieba
url=“http://www.gov.cn/premier/2022-03/12/content_5678750.htm”#2022年政府工作报告网址
try:
response=requests.get(url)
response.raise_for_status()# 如果响应状态码不是200,主动抛出异常
html=response.content.decode(“utf-8”)#爬取网页文件
except requests.requestException as e:
print(e) #打印异常信息内容
soup=BeautifulSoup(html,“html.parser”) #html文件解析
content=soup.find(“div”,class_=“pages_content”).text #筛选目标
fileName=“2022政府工作报告.txt”
with open(fileName,“w”) as f:
f.write(content)
#print(content)
with open(fileName,‘r’) as f1:
text1=f1.read()
#去除特殊符号
f
2022年政府工作报告词频分析相关推荐
- 2022年政府工作报告解读精华版
美好的周日从读研报开始,来自广发证券首席经济学家郭磊博士的最新报告:<对政府工作报告的几点理解>. 一,GDP目标5.5%,市场预期上限. 1,稳就业保民生防风险的需要:一个点的GDP在2 ...
- 2023全国两会政府工作报告中的“数据安全”
开局关乎全局,安全护航发展.2022年,是党和国家历史上极为重要的一年.这一年党的二十大胜利召开,为我们擘画了全面建设社会主义现代化国家的宏伟蓝图.2023年,是全面贯彻二十大精神的开局之年,也是&q ...
- 小猪的Python学习之旅 —— 15.浅尝Python数据分析:分析2018政府工作报告中的高频词...
一句话概括本文: 爬取2018政府工作报告,通过**jieba**库进行分词后做词频统计, 最后使用 wordcloud 库制作naive词云,非常有意思- 引言: 昨晚写完上一篇把爬取到的数据写入到 ...
- Python基于WordCloud词云图的数据可视化分析 词云图的基本使用 政府工作报告分析
Python基于WordCloud词云图的数据可视化分析 词云图的基本使用 政府工作报告分析 文章目录 1.词云图简介 2.wordcloud库的安装 3.WordCloud的主要参数说明 4.绘制词 ...
- 中电资讯-政府工作报告提出2022“金融新任务”;代表共话数字经济;代表提议建立全国统一金融信息数据库
聚焦两会 2022政府工作报告提出"金融新任务" 加大稳健的货币政策实施力度 发挥货币政策工具的总量和结构双重功能,为实体经济提供更有力支持.扩大新增贷款规模,保持货币供应量和社会 ...
- 爬取《政府工作报告》词云展示并做词频统计
爬取<政府工作报告>词云展示并做词频统计 爬取<政府工作报告内容代码: from requests import * from bs4 import BeautifulSoup r= ...
- python词频统计(2020政府工作报告)
# 导入扩展库 import re # 正则表达式库 import collections # 词频统计库 import numpy as np # numpy数据处理库 import jieba # ...
- python词云分析---政府工作报告关键词
首先安装jieba和wordcloud模块,我采用的是从清华镜像获取,pip install -i https://pypi.tuna.tsinghua.edu.cn/simple xxxx(xxxx ...
- Python库:wordcloud库介绍、政府工作报告词云、自定义背景词云
一.wordcloud库 二.使用wordcloud库 注:库名wordcloud全部是小写,而WordCloud对象W和C大写 简单说,绘制一个词云有三步: 第一.生成词云对象WordCloud,并 ...
- 从2023年31省级政府工作报告看数据安全赛道 | 附下载
数字经济是支撑我国经济增长的新动能.据中国信息通信研究院数据,2021年我国数字经济规模超45万亿元.在GDP已占比40%,到2025年我国数字经济规模预计超60万亿元.春节前夕,地方两会陆续召开,从 ...
最新文章
- Xcode 6 UITextField 键盘不弹出
- 探究C/C++可变参数
- PHP电商的sku,tech| 关于电商系统中sku与spu的一个难题
- Windows下rsync软件配置和使用【数据同步】
- 网络上常用的一些网站
- kickstart+TFTP+PXE+NFS+DHCP批量安装系统,raid
- 数据科学家教你用数据模型来泡妞
- PHP学习笔记之PDO
- DevExpress Office File API v20.1新版亮点:增强PDF Document API
- Endian 的由来
- Java-汉字字符串转拼音,包括首字母和全拼
- 店盈通电商:拼多多发货地址不一样有关系吗?
- 支付宝小程序 支付时订单处理失败 报ALI38173
- 心形图片php,jQuery心形图片签到墙代码
- 把一元硬币换成1分,2分5分的硬币有几种不同的方法
- Hutool PinyinUtil(拼音工具类)使用详解
- GAN网络学习入门之:A Beginner's Guide to Generative Adversarial Networks (GANs)-翻译
- 华为云何去何从:《听从你心,无问西东》
- QYT多链路融合通信网关(应急通讯、车载通讯、视频传输)应用
- 计算机与日常使用计算器的本质区别,计算机和计算器的区别