python爬取丁香园首页疫情json数据，尝试存入mysql数据库

新手练python爬虫

# -*- coding:utf-8 -*-
"""
作者：孙敏
日期：2022年01月01日
"""
import requests
import re
from bs4 import BeautifulSoup
import json
import pymysql
from tqdm import tqdm
import jsonpathresponse = requests.get('https://ncov.dxy.cn/ncovh5/view/pneumonia')#请求
home_page = response.content.decode()#获取数据
soup = BeautifulSoup(home_page,'lxml')#开始解析
scrip = soup.find(id="getListByCountryTypeService2true")#寻找特定标签的数据
text = scrip.text#获取对应数据
json_str = re.findall(r'\[.+\]',text)[0]#正则提取所需数据
data = json.loads(json_str)#将str类型的数据转换成dict，即方便存入python文件#以下两行为保存数据为json文件的代码部分
# with open('D:/python/测试/yiqing.json','w',encoding='utf-8') as fp:
#     json.dump(data,fp,ensure_ascii=False)db = pymysql.connect(host='localhost',port=3306,user='root',password='1234',database='sunmin',charset='utf8')#连接数据库
cursor = db.cursor()#创建游标continents_list = jsonpath.jsonpath(data,'$..continents')#使用jsonpath模块的跨节点方法提取continents对应字段的列表
provinceName_list = jsonpath.jsonpath(data,'$..provinceName')#同理，提取continents对应字段的列表
statisticsData_list = jsonpath.jsonpath(data,'$..statisticsData')#同理，提取continents对应字段的列表sql = "insert into test(continents,provinceName,statisticsData,url_id) values(%s,%s,%s,111)"#编写插入的sql语句
for i in tqdm(range(len(continents_list)),'数据采集进度'):#在列表长度范围内进行循环，并加入进度条cursor.execute(sql,(continents_list[i],provinceName_list[i],statisticsData_list[i]))#执行sql语句db.commit()#提交
cursor.close()#游标对象关闭连接
db.close()#数据库对象关闭连接

以下是进度条界面展示：

以下是mysql爬取界面展示：

python爬取丁香园首页疫情json数据，尝试存入mysql数据库相关推荐

python爬取丁香园的疫情数据绘制Echarts地图
2020.2.4更新完整的项目工程地址https://github.com/Arithmeticjia/wuhan 2020.1.26更新几乎每天页面都在变,放一下最新的爬虫代码,由于页面需要滚动 ...
利用python爬取丁香医生上新型肺炎数据，并下载到本地，附带经纬度信息
新增:国外疫情网站介绍已更新:爬取国外疫情数据已更新:新型肺炎历史数据下载 2020年3月27日补充: 制作了一个全球肺炎数据查询下载网站,效果如下: 访问地址:http://119.3.227. ...
python爬取电脑本地数据_利用python爬取丁香医生上新型肺炎数据，并下载到本地，附带经纬度信息...
原标题:利用python爬取丁香医生上新型肺炎数据,并下载到本地,附带经纬度信息新型肺炎肆虐全国,可以预知,最近一两年地理学中会有一部分论文研究新型肺炎的空间分布及与其他指标的关联分析.获取其患病人 ...
Python爬取新冠肺炎疫情实时数据(丁香园)
腾讯和丁香园疫情数据爬虫脚本和近2个月数据可自行下载: https://download.csdn.net/download/vdrere/12400191 https://download.csdn ...
用scrapy+selenium + phantomjs 爬取vip网页,保存为json格式,写入到mysql数据库,下载图片(二)
接上一编 weipin.py文件的代码 : # -*- coding: utf-8 -*- import scrapy from weipinhui.items import WeipinhuiIte ...
爬取网贷之家平台数据保存到mysql数据库
# coding utf-8 import requests import json import datetime import pymysqluser_agent = 'User-Agent: M ...
用scrapy+selenium + phantomjs 爬取vip网页,保存为json格式,写入到mysql数据库,下载图片(一)
用命令在终端创建一个项目: scrapy startproject myvipspider 进入到myvipspider项目下运行命令: scrapy genspider weipin "v ...
python抓取html中特定的数据库,Python抓取网页中内容，正则分析后存入mysql数据库...
firefox+httpfox可以查看post表单首先在http://www.renren.com/这个地址输入用户名和密码, 输入用户名和密码之后post到下面这个网址: http://www.r ...
[转载] python+selenium定时爬取丁香园的新冠病毒每天的数据，并制作出类似的地图（部署到云服务器）
参考链接: Python vars() python+selenium定时爬取丁香园的新冠病毒每天的数据,并制作出类似的地图(部署到云服务器) 声明:仅供技术交流,请勿用于非法用途,如有其它非法用途造 ...

python爬取丁香园首页疫情json数据，尝试存入mysql数据库

python爬取丁香园首页疫情json数据，尝试存入mysql数据库相关推荐

最新文章

热门文章