Day01-图像处理原理与深度学习入门

文章目录

Day01-图像处理原理与深度学习入门
- 作业说明
- 一、数据准备
- 二、疫情地图
- 完成作业
- - paddle的本地安装
  - 绘制疫情饼图

作业说明

今天的实战项目是“新冠疫情可视化”。

作业1：飞桨本地安装并提交安装成功的截图
作业2：请根据课上所学内容，爬取3月31日当天丁香园公开的统计数据，根据累计确诊数，使用pyecharts绘制疫情分布图（饼图），如下图所示，提交截图。

Pycharts api可参考：https://pyecharts.org/#/zh-cn/

一、数据准备

上网的全过程：

普通用户
- 打开浏览器 --> 往目标站点发送请求 --> 接收响应数据 --> 渲染到页面上。
爬虫程序
- 模拟浏览器 --> 往目标站点发送请求 --> 接收响应数据 --> 提取有用的数据 --> 保存到本地/数据库。

爬虫的过程：

发送请求（requests模块）
获取响应数据（服务器返回）
解析并提取数据（re正则）
保存数据

request模块是python实现的简单易用的HTTP库，官网地址：http://cn.python-requests.org/zh_CN/latest/。

re模块：re模块是python用于匹配字符串的模块，该模块中提供的很多功能是基于正则表达式实现的，

爬虫整体如下：

import json
import re
import requests
import datetimetoday = datetime.date.today().strftime('%Y%m%d')   #20200315def crawl_dxy_data():"""爬取丁香园实时统计数据，保存到data目录下，以当前日期作为文件名，存JSON文件"""response = requests.get('https://ncov.dxy.cn/ncovh5/view/pneumonia') #request.get()用于请求目标网站print(response.status_code)                                          # 打印状态码try:url_text = response.content.decode()                             #更推荐使用response.content.deocde()的方式获取响应的html页面#print(url_text)url_content = re.search(r'window.getAreaStat = (.*?)}]}catch',   #re.search():扫描字符串以查找正则表达式模式产生匹配项的第一个位置 ，然后返回相应的match对象。url_text, re.S)                          #在字符串a中，包含换行符\n，在这种情况下：如果不使用re.S参数，则只在每一行内进行匹配，如果一行没有，就换下一行重新开始;#而使用re.S参数以后，正则表达式会将这个字符串作为一个整体，在整体中进行匹配。texts = url_content.group()                                      #获取匹配正则表达式的整体结果content = texts.replace('window.getAreaStat = ', '').replace('}catch', '') #去除多余的字符json_data = json.loads(content)                                         with open('data/' + today + '.json', 'w', encoding='UTF-8') as f:json.dump(json_data, f, ensure_ascii=False)except:print('<Response [%s]>' % response.status_code)def crawl_statistics_data():"""获取各个省份历史统计数据，保存到data目录下，存JSON文件"""with open('data/'+ today + '.json', 'r', encoding='UTF-8') as file:json_array = json.loads(file.read())statistics_data = {}for province in json_array:response = requests.get(province['statisticsData'])try:statistics_data[province['provinceShortName']] = json.loads(response.content.decode())['data']except:print('<Response [%s]> for url: [%s]' % (response.status_code, province['statisticsData']))with open("data/statistics_data.json", "w", encoding='UTF-8') as f:json.dump(statistics_data, f, ensure_ascii=False)if __name__ == '__main__':crawl_dxy_data()crawl_statistics_data()

这里因为我们的作业是使用的累计确诊数，所以其实爬虫程序只需要一半就够了，即我们只需要 crawl_dxy_data()函数。至于历史统计数据，也一起生成了，但暂时还用不到。

通过反序列化实现文件的存储，我们绘制疫情图时需要的就是 20200331.json文件的数据。

二、疫情地图

Echarts 是一个由百度开源的数据可视化工具，凭借着良好的交互性，精巧的图表设计，得到了众多开发者的认可。而 Python 是一门富有表达力的语言，很适合用于数据处理。当数据分析遇上数据可视化时，pyecharts 诞生了。pyecharts api可以参考：https://pyecharts.org/#/zh-cn/chart_api。

使用 options 配置项，在 pyecharts 中，一切皆 Options。主要分为全局配置组件和系列配置组件。
（1）系列配置项 set_series_opts(),可配置图元样式、文字样式、标签样式、点线样式等；
（2）全局配置项 set_global_opts()，可配置标题、动画、坐标轴、图例等

使用Pyecharts描绘全国疫情地图

import json
import datetime
from pyecharts.charts import Map
from pyecharts import options as opts# 读原始数据文件
# 这里也可以直接读取我们已经爬取的202003331.json文件
today = datetime.date.today().strftime('%Y%m%d')   #20200331
datafile = 'data/'+ today + '.json'
with open(datafile, 'r', encoding='UTF-8') as file:json_array = json.loads(file.read())# 分析全国实时确诊数据：'confirmedCount'字段
china_data = []
for province in json_array:china_data.append((province['provinceShortName'], province['confirmedCount']))
china_data = sorted(china_data, key=lambda x: x[1], reverse=True)                 #reverse=True,表示降序，反之升序print(china_data)
# 全国疫情地图# 自定义的每一段的范围，以及每一段的特别的样式。
pieces = [{'min': 10000, 'color': '#540d0d'},{'max': 9999, 'min': 1000, 'color': '#9c1414'},{'max': 999, 'min': 500, 'color': '#d92727'},{'max': 499, 'min': 100, 'color': '#ed3232'},{'max': 99, 'min': 10, 'color': '#f27777'},{'max': 9, 'min': 1, 'color': '#f7adad'},{'max': 0, 'color': '#f7e4e4'},
]
labels = [data[0] for data in china_data]
counts = [data[1] for data in china_data]m = Map()
m.add("累计确诊", [list(z) for z in zip(labels, counts)], 'china')#系列配置项,可配置图元样式、文字样式、标签样式、点线样式等
m.set_series_opts(label_opts=opts.LabelOpts(font_size=12),is_show=False)
#全局配置项,可配置标题、动画、坐标轴、图例等
m.set_global_opts(title_opts=opts.TitleOpts(title='全国实时确诊数据',subtitle='数据来源：丁香园'),legend_opts=opts.LegendOpts(is_show=False),visualmap_opts=opts.VisualMapOpts(pieces=pieces,is_piecewise=True,   #是否为分段型is_show=True))       #是否显示视觉映射配置#render（）会生成本地 HTML 文件，默认会在当前目录生成 render.html 文件，也可以传入路径参数，如 m.render("mycharts.html")
m.render(path='output/全国实时确诊数据.html')

打开html文件即可看到绘制的疫情地图

完成作业

paddle的本地安装

AIStudio平台上已经帮我们装好了 PaddlePaddle，我们现在需要在本地安装上Paddle。

本地安装 Python的过程我就不赘述了，直接去官网下载即可。这里我安装的是 Python3.6。

使用 pip安装 Paddle时遇到了问题，无法直接安装上 Paddle。

pip install paddle

安装过程中伴随着一堆报错，比如我的pip版本是9.0.1，安装别的包像 numpy这些是一点问题没有，安装 Paddle时系统一直提示我要更新版本。于是我就通过命令更新了pip版本。

更新完之后再尝试安装 Paddle，结果提示当前 pip版本和 Python版本不匹配，无法执行操作，真是让人吐血。在网上搜索了不少博客，尝试了不少方法都不行，我又把 pip版本回退到了9.0.3，最后是在官方链接的方法中得到解决。

官方链接百度官方-飞桨快速安装，对于新手，CUDA 版本选择为 CPU版本，跟着提示一步一步装就行了。

这个错误和 pip并没有任何关系，只是在安装 Paddle时必须进行换源，官方推荐使用百度源或者清华源。我使用百度源之后就安装成功了。

python -m pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple

安装完成之后，我们可以通过命令行进行检查，看看paddle是否安装成功

我们可以看到，“Your Paddle is installed successfully！”，本地安装 paddle已经成功。

绘制疫情饼图

我先是仔细阅读了老师给的 pyecharts绘图的全国疫情地图实例，一步一步地推导了这个图是怎么画出来的，大致上是清楚我们需要怎么绘制。

然后仿照着老师的全国疫情地图的例子，照猫画虎绘制了一个全国各省确诊疫情的饼图

import json
from pyecharts.charts import Pie
from pyecharts import options as opts# 读取数据
datafile = 'data/20200331.json'
with open(datafile, 'r', encoding='utf-8') as f:json_array = json.loads(f.read())# 从json中取数据，分析json文件可以发现，provinceShortName是省份名称，confirmedCount是确诊数量
# 按从大到小的顺序排序
china_data = []
for province in json_array:china_data.append((province['provinceShortName'], province['confirmedCount']))
china_data = sorted(china_data, key=lambda x:x[1], reverse=True)# 自定义范围及样式
pieces = [{'min': 10000, 'color': '#A52A2A'},{'max': 9999, 'min': 1000, 'color': '#CD4F39'},{'max': 999, 'min': 500, 'color': '#CD6090'},{'max': 499, 'min': 100, 'color': '#CD853F'},{'max': 99, 'min': 10, 'color': '#C6E2FF'},{'max': 9, 'min': 0, 'color': '#C1FFC1'},
]# 将attr和value单独取出
labels = [data[0] for data in china_data]
counts = [data[1] for data in china_data]p = Pie()
p.add("累计确诊", [list(z) for z in zip(labels, counts)], center=["40%", "62%"])
#系列配置项
p.set_series_opts(label_opts=opts.LabelOpts(font_size=10),is_show=False)
#全局配置项
p.set_global_opts(title_opts=opts.TitleOpts(title='全国实时确诊数据',subtitle='数据来源：丁香园'),legend_opts=opts.LegendOpts(is_show=False),visualmap_opts=opts.VisualMapOpts(pieces=pieces,is_piecewise=True,is_show=True))
#生成本地文件
p.render(path='output/Pie.html')

这个饼图就是通过对疫情地图的模仿实现的，给人的视觉效果确实不如老师给的图片好。

于是乎，我又去官方文档中仔细学习了饼图的画法和使用技巧，重新绘制了一个饼图

这次绘制的更新在于

更换了主题
放缩了饼图的大小
重新设置了Label格式
去掉了VisualMap设置

import json
from pyecharts.charts import Pie
from pyecharts import options as opts
from pyecharts.globals import ThemeType# 读取数据
datafile = 'data/20200331.json'
with open(datafile, 'r', encoding='utf-8') as f:json_array = json.loads(f.read())# 从json中取数据，分析json文件可以发现，provinceShortName是省份名称，confirmedCount是确诊数量
# 按从大到小的顺序排序
china_data = []
for province in json_array:china_data.append((province['provinceShortName'], province['confirmedCount']))
china_data = sorted(china_data, key=lambda x:x[1], reverse=True)
# print(china_data)# 将attr和value单独取出
provinceName = [data[0] for data in china_data]
confirmCounts = [data[1] for data in china_data]# 设置主题
p = Pie(init_opts=opts.InitOpts(theme=ThemeType.SHINE))
# 添加数据
p.add("累计确诊", [list(z) for z in zip(provinceName, confirmCounts)], radius='50%', center=["40%", "70%"])
#系列配置项
p.set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"),is_show=False)
#全局配置项
p.set_global_opts(title_opts=opts.TitleOpts(title='全国各省累计确诊数据',subtitle='数据来源：丁香园'),legend_opts=opts.LegendOpts(is_show=False))
#生成本地文件
p.render(path='output/ChinaPie.html')

不得不感叹 Pyechart，也就是 Echarts的强大，仅仅修改了几个配置组件，图表就大变样了，焕然一新。

OK，我们如法炮制，又可以绘制出湖北省各市确诊的饼图

import json
from pyecharts.charts import Pie
from pyecharts import options as opts
from pyecharts.globals import ThemeTypedatafile = 'data/20200331.json'
with open(datafile, 'r', encoding='utf-8') as f:json_array = json.loads(f.read())province_name = '湖北'
for province in json_array:if province['provinceName'] == province_name or province['provinceShortName'] == province_name:json_array_province = province['cities']hubei_data = [(city['cityName'], city['confirmedCount']) for city in json_array_province]hubei_data = sorted(hubei_data, key=lambda x: x[1], reverse=True)# print(hubei_data)cityNames = [data[0] for data in hubei_data]
confirmCounts = [data[1] for data in hubei_data]p = Pie(init_opts=opts.InitOpts(ThemeType.SHINE))
p.add("累计确诊", [list(z) for z in zip(cityNames, confirmCounts)], radius="50%", center=["20%", "50%"])
p.set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"),is_show=False)
p.set_global_opts(title_opts=opts.TitleOpts(title='湖北省各地级市累计确诊数据',subtitle="数据来源：丁香园"),legend_opts=opts.LegendOpts(is_show=False))
p.render(path='output/HubeiPie.html')

到这里我们已经学会了绘制饼图的方法和一些设置技巧，如果说想绘制疑似病例数据之类的饼图，也可以自己进行操作了。