【Python网络爬虫与数据可视化实战案例】近15年的中国国内生产总值
需求描述
打开东方财富网的中国国内数据总值数据页,进入如下页面。
现在需要把页面上的国内生产总值数据表爬取下来,写入CSV文件以持久化存储。在这之后,将CSV文件内的数据做成折线图,实现数据可视化。
在爬取数据的过程中需要注意:数据表在该网页中分3页显示,我们需要在Python程序中实现换页的操作。
需求分析
任意选取数据表中的一行,单击鼠标右键检查元素(这里我使用的是Firefox浏览器,不同浏览器可能略有不同)进入查看器。我们得到了下图所示的HTML结构。
这里我们很容易发现,数据表中每一列的信息都存储在table
标签内的tr
标签中。那么,我们只需要定位到这个标签,对该标签内的文本进行提取,即可获得数据表中的数据。
下一个问题是如何实现换页操作。我们点击数据表下方的“下一页”,观察网址的变化。
网址只有“p=”后的数字发生了变化,其他的地方都没有改变。不难发现,“p=”后的数字所代表的就是当前的页数。
代码实现
1.数据爬取及持久化存储
首先导入要用到的模块。
from bs4 import BeautifulSoup
import csv
import requests
对网站发起请求,获取页面的数据。
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:75.0) Gecko/20100101 Firefox/75.0'}for page in range(1, 4):url = 'http://data.eastmoney.com/cjsj/grossdomesticproduct.aspx?p=' + str(page)response = requests.get(url=url, headers=headers)page_text = response.text
使用bs4对爬取到的内容进行筛选,留下有用的数据。
soup = BeautifulSoup(page_text, 'html.parser')
table = soup.find('table', id='tb')
tr_list = table.find_all('tr')
tr_list.pop(-1)
for i in range(2):tr_list.pop(0)for tr in tr_list:info = tr.text.replace(' ', '').replace('\r', '').replace('\n', ' ').lstrip().rstrip()info_list = info.split()
持久化存储,将数据写入CSV文件。
首先写入标题行。
with open('中国国内生产总值.csv', 'w', newline='') as csv_out_file:head_list = ['季度', '国内生产总值-绝对值(亿元)', '国内生产总值-同比增长', '第一产业-绝对值(亿元)', '第一产业-同比增长','第二产业-绝对值(亿元)', '第二产业-同比增长', '第三产业-绝对值(亿元)', '第三产业-同比增长']filewriter = csv.writer(csv_out_file)filewriter.writerow(head_list)
写入其余的数据行。
with open...:filewriter.writerow(info_list)
重构代码后,完整代码如下:
#!/usr/bin/env python3from bs4 import BeautifulSoup
import csv
import requestsheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:75.0) Gecko/20100101 Firefox/75.0'}with open('中国国内生产总值.csv', 'w', newline='') as csv_out_file:head_list = ['季度', '国内生产总值-绝对值(亿元)', '国内生产总值-同比增长', '第一产业-绝对值(亿元)', '第一产业-同比增长','第二产业-绝对值(亿元)', '第二产业-同比增长', '第三产业-绝对值(亿元)', '第三产业-同比增长']filewriter = csv.writer(csv_out_file)filewriter.writerow(head_list)for page in range(1, 4):url = 'http://data.eastmoney.com/cjsj/grossdomesticproduct.aspx?p=' + str(page)response = requests.get(url=url, headers=headers)page_text = response.textsoup = BeautifulSoup(page_text, 'html.parser')table = soup.find('table', id='tb')tr_list = table.find_all('tr')tr_list.pop(-1)for i in range(2):tr_list.pop(0)for tr in tr_list:info = tr.text.replace(' ', '').replace('\r', '').replace('\n', ' ').lstrip().rstrip()info_list = info.split()filewriter.writerow(info_list)
2.数据可视化
这一部分比较简单。首先导入需要的模块。
import csv
from pyecharts import Line
读取CSV文件中的数据,并对其进行处理。
Quarter = []
GDP = []
Primary_industry = []
Secondary_industry = []
Tertiary_industry = []with open('中国国内生产总值.csv', 'r', newline='') as csv_in_file:filereader = csv.reader(csv_in_file)head = next(filereader)for row_list in filereader:Quarter.append(row_list[0])gdp = round(eval(row_list[2][:-1]) / 100, 3)GDP.append(gdp)pri = round(eval(row_list[4][:-1]) / 100, 3)Primary_industry.append(pri)sec = round(eval(row_list[6][:-1]) / 100, 3)Secondary_industry.append(sec)ter = round(eval(row_list[8][:-1]) / 100, 3)Tertiary_industry.append(ter)
接下来是需要注意的一点。网站上的数据是根据时间排序的,2020年的数据在最前面,2006年的数据在最后面。即网站上的数据是根据时间“由近及远”排序的。在这里我们需要将处理好的数据列表进行逆序处理。
Quarter = Quarter[::-1]
GDP = GDP[::-1]
Primary_industry = Primary_industry[::-1]
Secondary_industry = Secondary_industry[::-1]
Tertiary_industry = Tertiary_industry[::-1]
最后一步是数据可视化,利用pyecharts绘制折线图。
line = Line('中国国内生产总值同比增长率', '时间:2006年第1季度-2020年第1季度 数据来源:东方财富网', width=1280, height=720)
line.add('国内生产总值', Quarter, GDP, is_smooth=False, mark_point=['max'], mark_line=['average'], legend_pos='right')
line.add('第一产业', Quarter, Primary_industry, is_smooth=False, mark_point=['max'], mark_line=['average'],legend_pos='right')
line.add('第二产业', Quarter, Secondary_industry, is_smooth=False, mark_point=['max'], mark_line=['average'],legend_pos='right')
line.add('第三产业', Quarter, Tertiary_industry, is_smooth=False, mark_point=['max'], mark_line=['average'],legend_pos='right')
line.render('中国国内生产总值.html')
完整代码如下:
#!/usr/bin/env python3import csv
from pyecharts import LineQuarter = []
GDP = []
Primary_industry = []
Secondary_industry = []
Tertiary_industry = []with open('中国国内生产总值.csv', 'r', newline='') as csv_in_file:filereader = csv.reader(csv_in_file)head = next(filereader)for row_list in filereader:Quarter.append(row_list[0])gdp = round(eval(row_list[2][:-1]) / 100, 3)GDP.append(gdp)pri = round(eval(row_list[4][:-1]) / 100, 3)Primary_industry.append(pri)sec = round(eval(row_list[6][:-1]) / 100, 3)Secondary_industry.append(sec)ter = round(eval(row_list[8][:-1]) / 100, 3)Tertiary_industry.append(ter)Quarter = Quarter[::-1]
GDP = GDP[::-1]
Primary_industry = Primary_industry[::-1]
Secondary_industry = Secondary_industry[::-1]
Tertiary_industry = Tertiary_industry[::-1]line = Line('中国国内生产总值同比增长率', '时间:2006年第1季度-2020年第1季度 数据来源:东方财富网', width=1280, height=720)
line.add('国内生产总值', Quarter, GDP, is_smooth=False, mark_point=['max'], mark_line=['average'], legend_pos='right')
line.add('第一产业', Quarter, Primary_industry, is_smooth=False, mark_point=['max'], mark_line=['average'],legend_pos='right')
line.add('第二产业', Quarter, Secondary_industry, is_smooth=False, mark_point=['max'], mark_line=['average'],legend_pos='right')
line.add('第三产业', Quarter, Tertiary_industry, is_smooth=False, mark_point=['max'], mark_line=['average'],legend_pos='right')
line.render('中国国内生产总值.html')
结果展示
保存有近15年中国GDP数据的CSV文件如下图所示:
绘制的折线图如下图所示(注:国内生产总值、第二产业、第三产业的平均值恰好都为0.09,故平均值线重合):
【Python网络爬虫与数据可视化实战案例】近15年的中国国内生产总值相关推荐
- 【Python网络爬虫与数据可视化实战案例】未来15天气温走势图
需求描述 打开天气网,点击上方城市名称,再点击"15天天气",进入如下页面.这里以天津为例. 可以看到,这里是有未来15天的天气和气温状况的.我们要做的就是把每天的最高和最 ...
- python pandas_Python库Pandas数据可视化实战案例
点击上方"爱好Python的胡同学",选择"星标"公众号 每晚八点,Python干货,不见不散! 数据可视化可以让我们很直观的发现数据中隐藏的规律,察觉到变量之 ...
- Python网络爬虫及数据可视化(软科中国大学专业排名|计算机科学与技术)
设计内容: 对中国大学专业排名网站中2021年,计算机科学与技术专业,进行数据爬取和数据可视化. URL地址:https://www.shanghairanking.cn/rankings/bcmr/ ...
- Python实验1——网络爬虫及数据可视化
Python实验1--网络爬虫及数据可视化 一.实验目标与基本要求 实验目标 基本要求 二.主要知识点.重点与难点 主要知识点 重点 难点 三.实验过程设计 获取网页 获取数据 保存到数据库 数据预处 ...
- Python 网络爬虫笔记11 -- Scrapy 实战
Python 网络爬虫笔记11 – Scrapy 实战 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程链接:Py ...
- Python库Pandas数据可视化实战案例
>关注公众号:大数据技术派,回复`资料`,领取`1024G`资料. 数据可视化可以让我们很直观的发现数据中隐藏的规律,察觉到变量之间的互动关系,可以帮助我们更好的给他人解释现象,做到一图胜千文的 ...
- Python网络爬虫基础进阶到实战教程
文章目录 认识网络爬虫 HTML页面组成 Requests模块get请求与实战 效果图 代码解析 Post请求与实战 代码解析 发送JSON格式的POST请求 使用代理服务器发送POST请求 发送带文 ...
- Python网络爬虫之数据解析(二)
学习笔记,续上篇 八.正则表达式解析HTML网页 8.1 正则表达式介绍 什么是正则表达式: 通俗理解:按照一定的规则,从某个字符串中匹配出想要的数据,这个规则就是正则表达式. 标准答案:https: ...
- 数据分析从零到精通第三课 python自动化和BI数据可视化实战
05 效率提升:如何通过邮件报表释放人力 本课时主要分享从零搭建数据邮件日报系统的方法,从而满足业务方的定期数据需求.希望通过本课时的介绍,你可以立刻在自己机器上实践定时邮件发送的任务. 邮件日报的业 ...
最新文章
- Linux文件压缩与归档
- Day 07 艺术家是靠天赋还是努力
- python有道翻译-Python版有道翻译
- Python 爬虫开发:Ajax请求响应json案例
- MySQL数据库:drop、truncate、delete的区别
- [存档]CxServer的项目周期管理
- vue router 路由鉴权(非动态路由)
- 第三十六课:告别演出
- 【BZOJ2429】聪明的猴子
- Tenorshare iCareFone for mac如何修复iPhone手机系统?
- 利用php利用root权限执行shell脚本必须进行以下几个步骤
- 高清电脑壁纸2k图片,4k批量免费下载,壁纸打包下载,美女壁纸
- 计算机word怎么写,电脑word怎么用?
- 转:让员工的信念跟上组织的发展
- 数算(Python)——牛顿迭代法(巴比伦算法)求解平方根
- 拉黑的微信好友怎么恢复,拉黑的微信好友聊天记录还在吗
- 智能红外遥控器(五):手机蓝牙控制格力空调
- python中------decode解码出现的0xca问题解决方法
- 用python写情书_《使用Python进行自然语言处理》学习笔记一 | 学步园
- linux下git安装和配置
热门文章
- php勋章,phpwind v8.7 勋章体系2.0
- windows 通过ftp更新系统
- oracle的学习Ⅵ(存储过程、函数、包、触发器、简单的用户管理和权限管理)
- 口播神器,基于Edge,微软TTS(text-to-speech)文字转语音免费开源库edge-tts实践(Python3.10)
- linux如何在网关里添加路由表,Linux下配置路由表
- 解决“Cradle project sync failed. Basic functionality(e.g.editing.debugging)”will not work properly
- 山东省软考报名时间成绩查询山东省教育考试院山东人事考试网报名入口
- Linux操作系统-标准IO库(3)
- Golang 使用 gorm 错误: reflect: reflect.Value.Set using unaddressable value
- umi 加载导航_堵车车车车车车车…坦克为你语音导航推荐最优路线