新手练python爬虫

# -*- coding:utf-8 -*-
"""
作者:孙敏
日期:2022年01月01日
"""
import requests
import re
from bs4 import BeautifulSoup
import json
import pymysql
from tqdm import tqdm
import jsonpathresponse = requests.get('https://ncov.dxy.cn/ncovh5/view/pneumonia')#请求
home_page = response.content.decode()#获取数据
soup = BeautifulSoup(home_page,'lxml')#开始解析
scrip = soup.find(id="getListByCountryTypeService2true")#寻找特定标签的数据
text = scrip.text#获取对应数据
json_str = re.findall(r'\[.+\]',text)[0]#正则提取所需数据
data = json.loads(json_str)#将str类型的数据转换成dict,即方便存入python文件#以下两行为保存数据为json文件的代码部分
# with open('D:/python/测试/yiqing.json','w',encoding='utf-8') as fp:
#     json.dump(data,fp,ensure_ascii=False)db = pymysql.connect(host='localhost',port=3306,user='root',password='1234',database='sunmin',charset='utf8')#连接数据库
cursor = db.cursor()#创建游标continents_list = jsonpath.jsonpath(data,'$..continents')#使用jsonpath模块的跨节点方法提取continents对应字段的列表
provinceName_list = jsonpath.jsonpath(data,'$..provinceName')#同理,提取continents对应字段的列表
statisticsData_list = jsonpath.jsonpath(data,'$..statisticsData')#同理,提取continents对应字段的列表sql = "insert into test(continents,provinceName,statisticsData,url_id) values(%s,%s,%s,111)"#编写插入的sql语句
for i in tqdm(range(len(continents_list)),'数据采集进度'):#在列表长度范围内进行循环,并加入进度条cursor.execute(sql,(continents_list[i],provinceName_list[i],statisticsData_list[i]))#执行sql语句db.commit()#提交
cursor.close()#游标对象关闭连接
db.close()#数据库对象关闭连接

以下是进度条界面展示:

以下是mysql爬取界面展示:

python爬取丁香园首页疫情json数据,尝试存入mysql数据库相关推荐

  1. python爬取丁香园的疫情数据绘制Echarts地图

    2020.2.4更新 完整的项目工程地址https://github.com/Arithmeticjia/wuhan 2020.1.26更新 几乎每天页面都在变,放一下最新的爬虫代码,由于页面需要滚动 ...

  2. 利用python爬取丁香医生上新型肺炎数据,并下载到本地,附带经纬度信息

    新增:国外疫情网站介绍 已更新:爬取国外疫情数据 已更新:新型肺炎历史数据下载 2020年3月27日补充: 制作了一个全球肺炎数据查询下载网站,效果如下: 访问地址:http://119.3.227. ...

  3. python爬取电脑本地数据_利用python爬取丁香医生上新型肺炎数据,并下载到本地,附带经纬度信息...

    原标题:利用python爬取丁香医生上新型肺炎数据,并下载到本地,附带经纬度信息 新型肺炎肆虐全国,可以预知,最近一两年地理学中会有一部分论文研究新型肺炎的空间分布及与其他指标的关联分析.获取其患病人 ...

  4. Python爬取新冠肺炎疫情实时数据(丁香园)

    腾讯和丁香园疫情数据爬虫脚本和近2个月数据可自行下载: https://download.csdn.net/download/vdrere/12400191 https://download.csdn ...

  5. 用scrapy+selenium + phantomjs 爬取vip网页,保存为json格式,写入到mysql数据库,下载图片(二)

    接上一编 weipin.py文件的代码 : # -*- coding: utf-8 -*- import scrapy from weipinhui.items import WeipinhuiIte ...

  6. 爬取网贷之家平台数据保存到mysql数据库

    # coding utf-8 import requests import json import datetime import pymysqluser_agent = 'User-Agent: M ...

  7. 用scrapy+selenium + phantomjs 爬取vip网页,保存为json格式,写入到mysql数据库,下载图片(一)

    用命令在终端创建一个项目: scrapy startproject myvipspider 进入到myvipspider项目下运行命令: scrapy genspider weipin "v ...

  8. python抓取html中特定的数据库,Python抓取网页中内容,正则分析后存入mysql数据库...

    firefox+httpfox可以查看post表单 首先在http://www.renren.com/这个地址输入用户名和密码, 输入用户名和密码之后post到下面这个网址: http://www.r ...

  9. [转载] python+selenium定时爬取丁香园的新冠病毒每天的数据,并制作出类似的地图(部署到云服务器)

    参考链接: Python vars() python+selenium定时爬取丁香园的新冠病毒每天的数据,并制作出类似的地图(部署到云服务器) 声明:仅供技术交流,请勿用于非法用途,如有其它非法用途造 ...

最新文章

  1. TensorFlow——入门基础
  2. 20181023-3 每周例行报告
  3. 13---Net基础加强
  4. Boost:异步操作,涉及重新打包多个操作,但选择仅调用其中一个的测试程序
  5. Docker(五)如何构建Dockerfile
  6. Activiti工作流引擎的使用
  7. JavaScript 进阶问题列表
  8. javascript原生代码取单选框的值
  9. openbsd下实现双网卡负载均衡
  10. mysql改根用户_MySQL数据库中复位根用户密码的方法 | 很文博客
  11. macOS Monterey 12.4 (21F79) 虚拟机 ISO 镜像
  12. python读取pdf提取文字和图片
  13. linux怎么创建swap分区,linux下创建swap分区
  14. JarvisOJ 逆向Writeup
  15. 转载:《星际争霸》星际争霸战略战术的发展和创新
  16. java 句柄无效_java.io.IOException:句柄无效
  17. nsga 的java实现_Java – Scala遗传算法(GA)库中的模拟二进制交叉(SBX)交叉运算符
  18. vite + ts + eslint全局变量配置
  19. 微信小程序-创建自己的小程序帐号
  20. CentOS中使用VeraCrypt(二):加密卷类型

热门文章

  1. 大陆汽车:汽车电子电器架构的发展及其对车载以太网的影响
  2. java注解检验集合对象_Java 对list对象进行属性校验
  3. mixins(混入)
  4. vue项目中引入Luckysheet
  5. 大数据项目-1.安装虚拟机vm16+CentOs(七:安装vim,永久修改linux主机名,同步时间)
  6. C++的封装、继承和多态
  7. c语言运行后tecplot云图,tecplot执行fluent后处理截面云图显示-20210327085801.docx-原创力文档...
  8. 【阿里云-容器】阿里云容器服务Kubernetes版快速入门
  9. 学习笔记——Kaggle_Digit Recognizer (Random Forest算法 Python实现)
  10. Android下载地址