基于python Flak谷歌自动化工具的爬虫(爬取疫情数据)
开发环境简介:
- Python 3.7.3。
- Flask (pip install flask),BeautifulSoup(pip install BeautifulSoup)等。
- 谷歌自动化工具–>下载链接----->寻找对应版本下载。
数据来源:
- https://voice.baidu.com/act/newpneumonia/newpneumonia/?from=osari_pc_1#tab2
- https://view.inews.qq.com/g2/getOnsInfo?name=disease_other
- https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5
谷歌自动化工具使用
- 模拟鼠标点击
# 模拟浏览器点击btn = brower.find_element_by_xpath('//*[@id="ptab-2"]/div[1]/div/p/a')btn.click()time.sleep(1)btn = brower.find_element_by_xpath('//*[@id="ptab-0"]/div/div[2]/section/div')btn.click()time.sleep(1)
按钮事件对应的xpath:@id="ptab-0"]/div/div[2]/section/div
获取历史数据
def get_history():history = {}url = "https://view.inews.qq.com/g2/getOnsInfo?name=disease_other"headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Safari/537.36"}resp = requests.get(url,headers)jsondata = resp.text# 把json字符串转换为字典datas = json.loads(jsondata)data = json.loads(datas['data'])for day in data['chinaDayList']:# 时间dt = '2020.'+day['date']tup = time.strptime(dt, "%Y.%m.%d")dt = time.strftime("%Y-%m-%d", tup)# 确诊confirm = day['confirm']# 疑似suspect = day['suspect']# 出院heal = day['heal']# 死亡dead = day['dead']# f放入字典history[dt]={"confirm":confirm,"suspect":suspect,"heal":heal,"dead":dead}
对网上的数据进行整合,运用json将字符串转化为字典,得到相应的数据。
数据入库
def insert_details():conn,cursor = utils.get_conn()details = get_details()# 执行插入数据sql = 'insert into details(update_time,province,city,confirm,confirm_add,heal,dead) values(%s,%s,%s,%s,%s,%s,%s)'# 查询数据库中的数据是否需要更新,如果需要更新就更新,不需要就提示sql_query = 'select %s=(select update_time from details order by id desc limit 1)'cursor.execute(sql_query,details[0][0])if not cursor.fetchone()[0]:print("开始更新数据!")for item in details:cursor.execute(sql,item)conn.commit()print("数据更新成功!")else:print("已经是最新数据,不需要更新!")
此处的数据库类已经被封装,可以直接使用。
此代码在东方瑞通培训学习总结而来
基于python Flak谷歌自动化工具的爬虫(爬取疫情数据)相关推荐
- Python爬虫爬取疫情数据并可视化展示
这篇文章主要介绍了Python利用爬虫爬取疫情数据并进行可视化的展示,文中的示例代码讲解清晰,对工作或学习有一定的价值,需要的朋友可以参考一下.编程资料点击领取 目录 知识点 开发环境 爬虫完整代码 ...
- python 爬虫爬取疫情数据,爬虫思路和技术你全都有哈(一)
python 爬虫爬取疫情数据,爬虫思路和技术你全都有哈(二.数据清洗及存储) 爬起疫情数据,有两个网址: 1.百度:链接 2.丁香园疫情:链接 在这两个中,丁香园的爬虫相对简单一点,所以今天就展示一 ...
- python 爬虫爬取疫情数据,爬虫思路和技术你全都有哈(二)
上一章: python 爬虫爬取疫情数据,爬虫思路和技术你全都有哈(一.爬虫思路及代码) 第三步:数据清洗 清洗数据很简单,就是数据太乱的话,就得花些时间,所以一定要有一个好的方法,才能避免在清洗数据 ...
- Java实现简单爬虫——爬取疫情数据
1.项目准备 在项目中使用到了jsoup和fastjson jsoup用于创建一个连接(绘画) 用于获取和解析HTML页面 而fastjson对数据进行一个格式化 在pom.xml导入坐标 <d ...
- python爬虫数据分析可以做什么-python爬虫爬取的数据可以做什么
在Python中连接到多播服务器问题,怎么解决你把redirect关闭就可以了.在send时,加上参数allow_redirects=False 通常每个浏览器都会设置redirect的次数.如果re ...
- Python爬虫爬取网页数据并存储(一)
Python爬虫爬取网页数据并存储(一) 环境搭建 爬虫基本原理 urllib库使用 requests库使用 正则表达式 一个示例 环境搭建 1.需要事先安装anaconda(或Python3.7)和 ...
- python爬表格数据_python爬虫,爬取表格数据
python爬虫,爬取表格数据 python爬虫,爬取表格数据 python爬虫,爬取全国空气质量指数 编程环境:Jupyter Notebook 所要爬取的网页数据内容如下图 python爬虫代码及 ...
- java爬虫抓取nba_利用Python爬虫爬取NBA数据功能实例分享
Python实现爬虫爬取NBA数据功能示例 本文实例讲述了Python实现爬虫爬取NBA数据功能.分享给大家供大家参考,具体如下: 爬取的网站为:stat-nba.com,这里爬取的是NBA2016- ...
- 基于爬虫爬取的数据,完成数据展示网站
文章目录 前言 一.列表 分页 二.注册 登录 三.查询支持布尔表达式 四.图表 五.入口创建 总结 前言 学期进入尾声 web编程课程迎来了期末大作业 作业要求如下: 基于第一个项目爬虫爬取的数据, ...
最新文章
- 分库分表之后,主键的处理方法
- 工业相机和镜头说明与图像采集
- #39;git pull#39;和#39;git fetch#39;有什么区别?
- python的优缺点-Python 有什么一般人不知道的缺点?
- Emai乱码——解决的“迂回”战术
- ubuntu server搭建svn server
- jface_使用JFace Viewer延迟获取模型元素
- VUE 项目中引入 json 配置
- oracle批量把小写转换成大写,oracle数据库批量将表名小写转大写
- 查询ElasticSearch:用SQL代替DSL
- 【英语学习】【WOTD】vox populi 释义/词源/示例
- RecycleView实现多布局可展开列表
- python库之pandas
- 【操作系统】银行家算法
- QT高级编程技巧(一)-- 编写高效的signal slot通信代码
- matlab绘图和python绘图
- VMware WorKstation虚拟机上	Linux 6最小化安装和基本网络环境配置
- [1025]python地理处理包shapely
- 参数调优:K折交叉验证与GridSearch网格搜索
- vue3.x 中使用 vant <van-image>图片不显示的问题