爬取背景:福建省发布了选考要求数据,想要获取数据进行分析,无奈数据量太大

需求分析:要爬取数据的网站为 http://fj.101.com/gaokao/#/,需要将数据存储为csv格式。

爬取代码如下

# coding=gbk
import requests  # 引入爬虫所需的requests模块
from bs4 import BeautifulSoup  # 引入BS模块
import json
import csvfor index_num in range(876):index_num = str(index_num + 1)base_url = 'https://wjt-subject-tool-api.sdp.101.com/v1/actions/manage?_=1567736178037&page={}&page_size=30&school_name=&subject_name='target_url = base_url.format(index_num)  # 拼接完整的目标URLheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36"}response = requests.get(url=target_url, headers=headers)if response.status_code == 200:# 状态码200,获取成功,则返回获取到的HTML数据school_items = response.content.decode("utf-8")else:# 获取不成功则return Noneschool_items = None# print(school_items)# print(type(school_items)) # 注意:此时items的格式是strjsons = json.loads(school_items)  # 转为json格式# print(jsons)# print(type(jsons)) # 此时json的格式为dictss = jsons['items']# print(ss)school_data_result=[]for s in ss:  # 字典遍历取值school_list = [s['id'], s['school_name'], s['subject_name'], s['subject_detail'], s['fsubject'], s['ssubject']]# print(school_list) # 直接在屏幕上打印高校选科要求数据# 将高校名称写入csv文件with open ('fujian_data.csv',"a+",newline='',encoding="utf-8-sig") as f: # 注意此处写encoding="utf-8"会出现乱码;此外,使用newline=''避免出现空行writer = csv.writer(f)writer.writerow(list(school_list))print('第'+ index_num + '页抓取完成')

利用python爬取网页选考要求数据相关推荐

  1. python爬取股票信息_利用Python爬取网易上证所有股票数据(代码

    利用Python爬取网易上证所有股票数据(代码 发布时间:2018-04-14 17:30, 浏览次数:1261 , 标签: Python import urllib.request import r ...

  2. 利用python爬取网页图片

    学习python爬取网页图片的时候,可以通过这个工具去批量下载你想要的图片 开始正题: 我从尤物网去爬取我喜欢的女神的写真照,我们这里主要用到的就两个模块 re和urllib模块,有的时候可能会用到t ...

  3. 利用Python爬取网页美女图片,哇太多了,我U盘装满了!

    最近几天,研究了一下一直很好奇的爬虫算法.这里写一下最近几天的点点心得.下面进入正文: 你可能需要的工作环境: Python 3.9官网下载 我们这里以sogou作为爬取的对象. 首先我们进入搜狗图片 ...

  4. 利用Python爬取网易上证所有股票数据(代码

    import urllib.request import re##def downback(a,b,c): ## '''' ## a:已经下载的数据块 ## b:数据块的大小 ## c:远程文件的大小 ...

  5. 通过爬取天猫商品评论实例分析Python爬取ajax动态生成的数据

    本文主要通过爬取天猫商品kindle的评论为例来说明利用python爬取ajax动态生成的数据的方式,本文使用的工具如下: 工具 chrome浏览器[寻找评论的动态链接] python3.5[执行代码 ...

  6. 利用Python爬取一加云服务的所有照片(原图)

    利用Python爬取一加云服务的所有照片(原图) 一.使用工具 二.cookies和headers提取 三.Python源代码下载 一.使用工具 1.Python3.8(理论上Python3都可使用) ...

  7. python爬取网页公开数据_如何用Python爬取网页数据

    使用Python爬取网页数据的方法: 一.利用webbrowser.open()打开一个网站:>>> import webbrowser >>> webbrowse ...

  8. 编程python爬取网页数据教程_实例讲解Python爬取网页数据

    一.利用webbrowser.open()打开一个网站: >>> import webbrowser >>> webbrowser.open('http://i.f ...

  9. python 翻译库本地库_利用python爬取并翻译GEO数据库

    原标题:利用python爬取并翻译GEO数据库 GEO数据库是NCBI创建并维护的基因表达数据库,始于2000年,收录了世界各国研究机构提交的高通量基因表达数据,现芯片集数据量高达12万以上.想要从这 ...

最新文章

  1. SAP MM 采购发票上的价格与采购订单上价格的差异
  2. 织梦手机网站建设 并配置二级域名
  3. [导入]第 3 章 Enterprise Library 的设计
  4. 计算机科学概论ppt免费,计算机科学概论(第9版)Lecture_slide07.ppt
  5. php xml 增删改查,PHP实现对xml进行简单的增删改查(CRUD)操作示例
  6. java中synized_ConcurrentHashMap和Collection s.SynizedMap(Map)
  7. 最新简约轻量版H5手机微商城运营源码对接最新Z支付个人免签接口
  8. VOIP系统开源实现PCMA/PCMU/AMR/G729常用格式解码服务
  9. PTA 乙级 【1005】继续(3n+1)猜想
  10. 截止失真放大电路_数字电路基础(一)
  11. CentOS 7安装ELK(三):安装logstash
  12. Electron-vueda打包EXE文件,打开后白屏
  13. 公司口碑及待遇评价的网站
  14. xlrd.biffh.XLRDError: Excel xlsx file; not supported 。我也来蹭一下热度~
  15. 图解HTTP(四)—— 返回结果的HTTP状态码
  16. ✨英语学习|如何高效做英语阅读笔记
  17. 好记性不如烂笔头——Vuex篇
  18. mif2png(QQGame 专用 mif 格式转 png 格式)
  19. python 京东 价格监控_【Python】京东商品价格监控
  20. 时间服务器【chrony】小练习

热门文章

  1. CentOS安装Docker详细步骤
  2. 小程序-阻止手机自动锁屏
  3. oracle rowID切片,Oracle中rowid的用法
  4. NGS测序基础梳理01-文库构建(Library Preparation)
  5. weex android 地图,weex之百度地图组件开发
  6. mysql curdate()结果不正确_mysql-在MySQL中添加数据用到CURDATE()遇到的问题
  7. 菜鸟首次配置php环境教程
  8. 如何高效合理自如的回应面试时HR问出的一些人生规划,人生哲理,前途发展等问题(非技术性问题)
  9. 西工大 计算机科学与工程系,西北工业大学
  10. php中session的概念,什么是session