爬虫基本步骤

拿到要爬取网站的url，user-agent，必要时爬取其他网站时按要求加上cookie，proxies（固定操作）

    headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36",}

获取网页响应信息

 response = requests.get(url, headers=headers)# print(response.text)     text为str类型# print(response.content)  content为二进制

数据提取

# 将html源码创建成element对象# html.xpath()得到的数据类型是列表，列表里面的内容是element对象：该对象可当作字符串使用html = etree.HTML(response.content.decode('utf-8'))  # 二进制解码# etree.HTML()得到的数据是列表数据content_list_len = len(html.xpath('//*[@id="content-box"]/div[2]/table/tbody/tr/td[2]/a'))universities_list = []for index in range(content_list_len):university = {"年份": year,"排名": html.xpath('//*[@id="content-box"]/div[2]/table/tbody/tr/td[1]/text()')[index].replace("\n          ", ''),"大学名": (html.xpath('//*[@id="content-box"]/div[2]/table/tbody/tr/td[2]/a/text()')[index]).replace("\n          ", ''),"省市": (html.xpath('//*[@id="content-box"]/div[2]/table/tbody/tr/td[3]/text()')[index]).replace("\n          ", ''),"种类": (html.xpath('//*[@id="content-box"]/div[2]/table/tbody/tr/td[4]/text()')[index]).replace("\n          ", ''),"总分": (html.xpath('//*[@id="content-box"]/div[2]/table/tbody/tr/td[5]/text()')[index]).replace("\n          ", ''),}universities_list.append(university)

下载数据

def download(data, type1):with open(f'03_中国大学排行榜/{type1}.csv', "a", encoding="utf-8", newline="")as file:writerCsv = csv.writer(file)for item in data:  # item为字典writerCsv.writerow([item["年份"], item["排名"], item["大学名"], item["省市"], item["种类"], item["总分"]])

主函数

 years = [2016, 2017, 2018, 2019, 2020]search_list = [11, 21, 22, 23, 25, 24, 26, 30, 14, 13, 12, 10]type_list = ["中国大学排名（主榜)", "中国医药类大学排名", "中国财经类大学排名", "中国语言类大学排名", "中国政法类大学排名", "中国民族类大学排名", "中国体育类大学排名", "中国艺术类高校名单","中国合作办学大学排名", "中国独立学院排名", "中国民办高校排名", "中国大学排名（总榜)"]for year in years:for type1 in type_list:url = f'https://www.shanghairanking.cn/rankings/bcur/{year}' + str(search_list[type_list.index(type1)])data = China_university(url, type1, year)download(data, type1)print(f'{year}年加载完成！')

中国大学排行榜网站的爬取相关推荐

中国大学MOOC课程信息爬取与数据存储
版权声明:本文为博主原创文章,转载请注明出处: https://blog.csdn.net/sc2079/article/details/82016583 10月18日更:MOOC课程信息D3.js ...
Selenium + Python + Chrome 中国大学慕课网视频爬取
准备放寒假啦,爬取一些MOOC上的课程爬回家去看. 爬取的课程是北京大学的离散数学概论其实GitHub有可以直接用的程序但是我半路出家不怎么会提交HTTP请求所以直接用selenium简单粗暴 ...
2.python爬虫实战：爬取近5年的中国大学排行榜信息【Python】（测试代码+api例程）
目录 API说明: 思路注意事项完整代码总结欢迎关注『Python』系列,持续更新中欢迎关注『Python』系列,持续更新中爬取近5年的中国大学排行榜信息,在python爬虫爬取2 ...
批量爬取中国大学MOOC网站的媒体资源
质量声明:原创文章,内容质量问题请评论吐槽.如对您产生干扰,可私信删除. 主要参考:https://github.com/Dayunxi/getMOOCmedia 三点说明: 感谢中国大学MOOC ...
[Python]网站数据爬取任务
Python爬虫作业:网站数据爬取任务从以下网址(包括但不限于下列网络或应用)中爬取数据,以核实的形式存储数据,并进行分析(不一定是计算机角度的分析,可写分析报告),或制作词云图. 一.文本数据酷 ...
最新中国大学排行榜:北大清华浙大竞争力列前三
http://tech.tom.com 2006年05月15日 07时22分来源:中国青年报本报北京5月14日电(记者李涛)中国科学评价研究中心今天发布了一系列最新的中国大学排行榜.在重点大学综合 ...
计算机研究生院校全国排名2015,2018年武书连中国大学排行榜（完整版）_计算机考研院校...
2018年2月,随着武书连主持的<2018中国大学评价>的结题,新一年的高校排行榜又出来了,该排行榜聚集了中国一流大学名单.研究型大学名单以及非双一流却在综合实力进入前100强的大学名单. ...
基于python的数据爬取与分析_基于Python的网站数据爬取与分析的技术实现策略
欧阳元东摘要:Python为网页数据爬取和数据分析提供了很多工具包.基于Python的BeautifulSoup可以快速高效地爬取网站数据,Pandas工具能方便灵活地清洗分析数据,调用Python ...
python爬取豆瓣排行榜电影(静态爬取)(二次爬取)
目录 python爬取豆瓣排行榜电影(静态爬取) 获取网站url 获取网站headers get请求访问url BeautifulSoup解析网站爬取html数据完整代码 python爬取豆瓣排行 ...
Python3--爬取数据之911网站信息爬取
上代码: #*************************************************** #这份代码用于从911网站上爬取信息 #其中的IP.txt文件为我本地存IP的文件 ...

中国大学排行榜网站的爬取

爬虫基本步骤

中国大学排行榜网站的爬取相关推荐

最新文章

热门文章