利用python爬取网页选考要求数据

爬取背景：福建省发布了选考要求数据，想要获取数据进行分析，无奈数据量太大

需求分析：要爬取数据的网站为 http://fj.101.com/gaokao/#/，需要将数据存储为csv格式。

爬取代码如下

# coding=gbk
import requests  # 引入爬虫所需的requests模块
from bs4 import BeautifulSoup  # 引入BS模块
import json
import csvfor index_num in range(876):index_num = str(index_num + 1)base_url = 'https://wjt-subject-tool-api.sdp.101.com/v1/actions/manage?_=1567736178037&page={}&page_size=30&school_name=&subject_name='target_url = base_url.format(index_num)  # 拼接完整的目标URLheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36"}response = requests.get(url=target_url, headers=headers)if response.status_code == 200:# 状态码200，获取成功，则返回获取到的HTML数据school_items = response.content.decode("utf-8")else:# 获取不成功则return Noneschool_items = None# print(school_items)# print(type(school_items)) # 注意：此时items的格式是strjsons = json.loads(school_items)  # 转为json格式# print(jsons)# print(type(jsons)) # 此时json的格式为dictss = jsons['items']# print(ss)school_data_result=[]for s in ss:  # 字典遍历取值school_list = [s['id'], s['school_name'], s['subject_name'], s['subject_detail'], s['fsubject'], s['ssubject']]# print(school_list) # 直接在屏幕上打印高校选科要求数据# 将高校名称写入csv文件with open ('fujian_data.csv',"a+",newline='',encoding="utf-8-sig") as f: # 注意此处写encoding="utf-8"会出现乱码;此外，使用newline=''避免出现空行writer = csv.writer(f)writer.writerow(list(school_list))print('第'+ index_num + '页抓取完成')

利用python爬取网页选考要求数据相关推荐

python爬取股票信息_利用Python爬取网易上证所有股票数据（代码
利用Python爬取网易上证所有股票数据(代码发布时间:2018-04-14 17:30, 浏览次数:1261 , 标签: Python import urllib.request import r ...
利用python爬取网页图片
学习python爬取网页图片的时候,可以通过这个工具去批量下载你想要的图片开始正题: 我从尤物网去爬取我喜欢的女神的写真照,我们这里主要用到的就两个模块 re和urllib模块,有的时候可能会用到t ...
利用Python爬取网页美女图片，哇太多了，我U盘装满了！
最近几天,研究了一下一直很好奇的爬虫算法.这里写一下最近几天的点点心得.下面进入正文: 你可能需要的工作环境: Python 3.9官网下载我们这里以sogou作为爬取的对象. 首先我们进入搜狗图片 ...
利用Python爬取网易上证所有股票数据（代码
import urllib.request import re##def downback(a,b,c): ## '''' ## a:已经下载的数据块 ## b:数据块的大小 ## c:远程文件的大小 ...
通过爬取天猫商品评论实例分析Python爬取ajax动态生成的数据
本文主要通过爬取天猫商品kindle的评论为例来说明利用python爬取ajax动态生成的数据的方式,本文使用的工具如下: 工具 chrome浏览器[寻找评论的动态链接] python3.5[执行代码 ...
利用Python爬取一加云服务的所有照片（原图）
利用Python爬取一加云服务的所有照片(原图) 一.使用工具二.cookies和headers提取三.Python源代码下载一.使用工具 1.Python3.8(理论上Python3都可使用) ...
python爬取网页公开数据_如何用Python爬取网页数据
使用Python爬取网页数据的方法: 一.利用webbrowser.open()打开一个网站:>>> import webbrowser >>> webbrowse ...
编程python爬取网页数据教程_实例讲解Python爬取网页数据
一.利用webbrowser.open()打开一个网站: >>> import webbrowser >>> webbrowser.open('http://i.f ...
python 翻译库本地库_利用python爬取并翻译GEO数据库
原标题:利用python爬取并翻译GEO数据库 GEO数据库是NCBI创建并维护的基因表达数据库,始于2000年,收录了世界各国研究机构提交的高通量基因表达数据,现芯片集数据量高达12万以上.想要从这 ...

利用python爬取网页选考要求数据

利用python爬取网页选考要求数据相关推荐

最新文章

热门文章