如何爬取中国近十年的GDP，并写入csv文件，对数据进行处理？

上一链接：https://blog.csdn.net/m0_50628114/article/details/112561146我们讲到如何提取到中国近十年gdp数据，但是数据是不规整的，这节给大家讲一下如何提取我们真正想要的数据。
年份,中国,GDP(美元),占世界%
2019,“14.34万亿 (14,342,902,842,915)”,16.3550%
2018,“13.89万亿 (13,894,817,110,036)”,16.0900%
2017,“12.31万亿 (12,310,408,652,423)”,15.1552%
2016,“11.23万亿 (11,233,277,146,512)”,14.7156%
2015,“11.06万亿 (11,061,552,790,044)”,14.7098%
2014,“10.48万亿 (10,475,682,846,632)”,13.1851%
2013,“9.57万亿 (9,570,405,758,739)”,12.3805%
2012,“8.53万亿 (8,532,230,724,141)”,11.3542%
2011,“7.55万亿 (7,551,500,425,597)”,10.2814%
2010,“6.09万亿 (6,087,164,527,421)”,9.2072%
以上数据，对GDP进行处理，有两种，一种是精确提取，将括号内部的数据提取出来，二是将万亿前面的数据提取出来，可以用正则，也可以用分割，我这里用的是分割。占世界%则是把%去掉，只留下数字，用的是正则。之前的步骤不再赘述，需要可查看上方链接。

数据处理部分

这里是将原来返回的data_header,data_detail进行处理，其中用到了split，正则，以及reversed，zip等函数，不懂得可去官网进行学习。

# 获取年份year = []for i in range(0, len(data_detail), 3):year.append(data_detail[i])year1 = reversed(year)# 获取GDP，并将GDP中的数字提取出来，转化为数值China_GDP = []for i in range(1, len(data_detail), 3):a = (data_detail[i])# 若是想取得括号里的数据则是以下这一步# b = a.split('(')[1]# 取得空格前的数字（这里是提取万亿前面的数据）b = a.split(' ')[0]data = b[0: len(b)-2]China_GDP.append(data)China_GDP1 = reversed(China_GDP)# 获取占世界%China_percentage = []for i in range(2, len(data_detail), 3):remove2 = '%'data2 = re.sub(remove2, '', data_detail[i])China_percentage.append(data2)China_percentage1 = reversed(China_percentage)#zip函数,还原成原来格式的数据zipped_GDP = zip(year1, China_GDP1, China_percentage1)GDP = list(zipped_GDP)# 删除标题中的国家del data_header[1]# 将标题（美元）改为为（万亿美元）data_header[1] = 'GDP(万亿美元)'# 返回值return (GDP, data_header)

对应的写文件函数

def data_write(GDP, header):with open('china_data1_1.csv', mode='w', encoding='utf-8', newline='') as f:# 基于文件对象构建csv写入对象csv_writer = csv.writer(f)# 将头部写入列表csv_writer.writerow(header)# 将具体数值写入csv_writer.writerows(GDP)

这样获取到的数据便是我们想要的，经过处理好的，如下
年份,GDP(万亿美元),占世界%
2010,6.09,9.2072
2011,7.55,10.2814
2012,8.53,11.3542
2013,9.57,12.3805
2014,10.48,13.1851
2015,11.06,14.7098
2016,11.23,14.7156
2017,12.31,15.1552
2018,13.89,16.0900
2019,14.34,16.3550

数据可视化

接下来做出可视化图：柱形图和折线图。

1.柱形图

def bar_view():
# 解决中文无法正确显示的问题plt.rcParams['font.sans-serif'] = ['SimHei']plt.rcParams['axes.unicode_minus'] = Falsewith open('china_data1_1.csv', mode='r', encoding='utf-8') as f:china_data = pd.read_csv(f)xdata = china_data.loc[:, '年份']ydata = china_data.loc[:, 'GDP(万亿美元)']plt.bar(xdata, ydata)# 添加数据标签# matplotlib.pyplot.text(x, y, s, fontdict=None, withdash=False, **kwargs)for x, y in zip(xdata, ydata):plt.text(x, y+0.2, y,ha='center', va='bottom',backgroundcolor='green',rotation=30,fontsize=8)plt.title('中国2010-2019的GDP')plt.xlabel('年份')plt.ylabel('单位/万亿美元')plt.savefig('china_GDP.png')plt.show()

2. 折线图

def line_view():# 解决中文无法正确显示的问题plt.rcParams['font.sans-serif'] = ['SimHei']plt.rcParams['axes.unicode_minus'] = Falsewith open('china_data1_1.csv', mode='r', encoding='utf-8') as f:china_data = pd.read_csv(f)xdata = china_data.loc[:, '年份']ydata = china_data.loc[:, '占世界%']plt.plot(xdata, ydata, marker='o',label=u'', color='blue', linewidth=1)for x, y in zip(xdata, ydata):plt.text(x, y, y,ha='center', va='bottom',rotation=30,fontsize=8)plt.title(u'中国近十年GDP占世界百分比', size=10)plt.xlabel(u'年份', size=20)plt.ylabel(u'占世界%', size=10)plt.savefig('china_percentage.png')plt.show()

主函数

url = "https://www.kylc.com/stats/global/yearly_per_country/g_gdp/chn.html"html = exception_handling(url)if html != None:get_data(html)GDP, header = get_data(html)data_write(GDP, header)bar_view()line_view()

总结

以上便是全部内容，下一链接我们将会讲述，如何用不同得方式获取世界各地数据。感谢大家阅读菜鸟远远的博客。喜欢的小伙伴收藏加点赞叭。

如何爬取中国近十年的GDP，对数据进行处理，并写入csv文件？相关推荐

数据可视化（python）----中国近十年就业GDP对比
前言必读读者手册(必读)_云边的快乐猫的博客-CSDN博客中国近十年就业GDP的发展状况一二三四总分一.选题的背景介绍(15分) 为什么要选择该主题?要达到的数据分析目标是什么?从社会 ...
爬取全国未来十五天的天气数据（python3）
爬取全国未来十五天的天气数据一.网页分析 (一)请求分析(url) 1.观察 2.分析 3.结论 (二)行政区域分析 1.观察 2.分析 3.结论 (三)未来15日天气数据分析 1.观察 2.分析 ...
python爬取中国空气质量在线监测平台分析数据【已更新】
**本文介绍如何爬取诸如北京等城市的空气污染物浓度数据,并附有完整代码,统统解决你们找不到数据的科研问题!干货满满!!! 2021年1月12日更新看了很多小伙伴的评论,发现我的代码被官方给" ...
利用 Python 爬取了近 3000 条单身女生的数据，究竟她们理想的择偶标准是什么？
灵感来源与学习:利用 Python 爬取了 13966 条运维招聘信息,我得出了哪些结论? 本文原创作者:壹加柒本文来源链接:https://blog.csdn.net/yu1300000363/a ...
【Python】爬取了近3000条单身女生的数据，究竟她们理想的择偶标准是什么？
灵感来源与学习:<利用 Python 爬取了 13966 条运维招聘信息,我得出了哪些结论?> 本文原创作者:壹加柒前几天手机上CSDN推荐了一篇文章<利用 Python 爬取了 ...
【附上解释】爬取A股所有上市公司的信息并存储到数据库或者是csv文件中
文章目录输入到mysql版输出到csv文件版本输入到mysql版输出会有警告,但是不影响. 附上了详细的解释~ import pandas as pd import requests impo ...
R语言爬取中国天气网单个城市实时天气预报数据
在传统零售行业,雨天天气大概会影响晴天30%-40%的销售业绩,所以从网上获取天气数据来作分析,并根据天气数据作出预测,提前做好预防措施和提醒业务人员,把损失减少到最低就显得十分重要,用R语言的rve ...
python爬取本地天气信息_用Python写一个爬取中国天气网的终端版天气预报爬虫
导语前几篇文章介绍了爬取静态网站的主要方法.今天写一个小项目实践一下.本项目可以在终端窗口查询全国3400多个区县的当日天气信息和近七天天气信息. 实现效果 [Python爬虫]写一个爬取中国天气网 ...
爬虫爬取中国大学排名top100并简单可视化分析
爬虫爬取中国大学排名top100并简单可视化分析. 目标链接 http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html 实践环境 pycharm201 ...
Python实战案例：爬取中国执行信息公开网
从面试题谈起谈到这个项目的爬虫,就要从一道面试题谈起了. 这道面试题是: 请写一个爬虫从网址 http://zxgk.court.gov.cn/shixin/,检索被执行人姓名:"阿里&q ...

如何爬取中国近十年的GDP，对数据进行处理，并写入csv文件？