爬虫基本步骤

  1. 拿到要爬取网站的url,user-agent,必要时爬取其他网站时按要求加上cookie,proxies(固定操作)
    headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36",}
  1. 获取网页响应信息
 response = requests.get(url, headers=headers)# print(response.text)     text为str类型# print(response.content)  content为二进制
  1. 数据提取
# 将html源码创建成element对象# html.xpath()得到的数据类型是列表,列表里面的内容是element对象:该对象可当作字符串使用html = etree.HTML(response.content.decode('utf-8'))  # 二进制解码# etree.HTML()得到的数据是列表数据content_list_len = len(html.xpath('//*[@id="content-box"]/div[2]/table/tbody/tr/td[2]/a'))universities_list = []for index in range(content_list_len):university = {"年份": year,"排名": html.xpath('//*[@id="content-box"]/div[2]/table/tbody/tr/td[1]/text()')[index].replace("\n          ", ''),"大学名": (html.xpath('//*[@id="content-box"]/div[2]/table/tbody/tr/td[2]/a/text()')[index]).replace("\n          ", ''),"省市": (html.xpath('//*[@id="content-box"]/div[2]/table/tbody/tr/td[3]/text()')[index]).replace("\n          ", ''),"种类": (html.xpath('//*[@id="content-box"]/div[2]/table/tbody/tr/td[4]/text()')[index]).replace("\n          ", ''),"总分": (html.xpath('//*[@id="content-box"]/div[2]/table/tbody/tr/td[5]/text()')[index]).replace("\n          ", ''),}universities_list.append(university)
  1. 下载数据
def download(data, type1):with open(f'03_中国大学排行榜/{type1}.csv', "a", encoding="utf-8", newline="")as file:writerCsv = csv.writer(file)for item in data:  # item为字典writerCsv.writerow([item["年份"], item["排名"], item["大学名"], item["省市"], item["种类"], item["总分"]])
  1. 主函数
 years = [2016, 2017, 2018, 2019, 2020]search_list = [11, 21, 22, 23, 25, 24, 26, 30, 14, 13, 12, 10]type_list = ["中国大学排名(主榜)", "中国医药类大学排名", "中国财经类大学排名", "中国语言类大学排名", "中国政法类大学排名", "中国民族类大学排名", "中国体育类大学排名", "中国艺术类高校名单","中国合作办学大学排名", "中国独立学院排名", "中国民办高校排名", "中国大学排名(总榜)"]for year in years:for type1 in type_list:url = f'https://www.shanghairanking.cn/rankings/bcur/{year}' + str(search_list[type_list.index(type1)])data = China_university(url, type1, year)download(data, type1)print(f'{year}年加载完成!')

中国大学排行榜网站的爬取相关推荐

  1. 中国大学MOOC课程信息爬取与数据存储

    版权声明:本文为博主原创文章,转载 请注明出处: https://blog.csdn.net/sc2079/article/details/82016583 10月18日更:MOOC课程信息D3.js ...

  2. Selenium + Python + Chrome 中国大学慕课网视频爬取

    准备放寒假啦,爬取一些MOOC上的课程爬回家去看. 爬取的课程是北京大学的离散数学概论 其实GitHub有可以直接用的程序 但是我半路出家 不怎么会提交HTTP请求 所以直接用selenium简单粗暴 ...

  3. 2.python爬虫实战:爬取近5年的中国大学排行榜信息【Python】(测试代码+api例程)

    目录 API说明: 思路 注意事项 完整代码 总结 欢迎关注 『Python』 系列,持续更新中 欢迎关注 『Python』 系列,持续更新中 爬取近5年的中国大学排行榜信息,在python爬虫爬取2 ...

  4. 批量爬取中国大学MOOC网站的媒体资源

    质量声明:原创文章,内容质量问题请评论吐槽.如对您产生干扰,可私信删除. 主要参考:https://github.com/Dayunxi/getMOOCmedia 三点说明: 感谢 中国大学MOOC ...

  5. [Python]网站数据爬取任务

    Python爬虫作业:网站数据爬取任务 从以下网址(包括但不限于下列网络或应用)中爬取数据,以核实的形式存储数据,并进行分析(不一定是计算机角度的分析,可写分析报告),或制作词云图. 一.文本数据 酷 ...

  6. 最新中国大学排行榜:北大清华浙大竞争力列前三

    http://tech.tom.com 2006年05月15日 07时22分来源:中国青年报 本报北京5月14日电(记者李涛)中国科学评价研究中心今天发布了一系列最新的中国大学排行榜.在重点大学综合 ...

  7. 计算机研究生院校全国排名2015,2018年武书连中国大学排行榜(完整版)_计算机考研院校...

    2018年2月,随着武书连主持的<2018中国大学评价>的结题,新一年的高校排行榜又出来了,该排行榜聚集了中国一流大学名单.研究型大学名单以及非双一流却在综合实力进入前100强的大学名单. ...

  8. 基于python的数据爬取与分析_基于Python的网站数据爬取与分析的技术实现策略

    欧阳元东 摘要:Python为网页数据爬取和数据分析提供了很多工具包.基于Python的BeautifulSoup可以快速高效地爬取网站数据,Pandas工具能方便灵活地清洗分析数据,调用Python ...

  9. python爬取豆瓣排行榜电影(静态爬取)(二次爬取)

    目录 python爬取豆瓣排行榜电影(静态爬取) 获取网站url 获取网站headers get请求访问url BeautifulSoup解析网站 爬取html数据 完整代码 python爬取豆瓣排行 ...

  10. Python3--爬取数据之911网站信息爬取

    上代码: #*************************************************** #这份代码用于从911网站上爬取信息 #其中的IP.txt文件为我本地存IP的文件 ...

最新文章

  1. linux终端terminal个性化配置(转)
  2. MySQL自定义函数(CREATE FUNCTION)
  3. python tkinter chk
  4. MISC-BUUCTF-9题-九连环-佛系青年等
  5. cortex m0启动代码详解
  6. scipy.ndimage.filters.gaussian_filter()
  7. .npy文件_python——文件读写
  8. 机器人操作系统二(ROS2)- 修行 Taoism
  9. 使用Mapviz、中科图新 进行机器人GPS轨迹卫星地图绘制
  10. php ci 优化,CodeIgniter 性能优化
  11. 如何用优盘安装服务器操作系统,使用优盘安装服务器
  12. NLP学习路径(三):NLP中文分词技术
  13. linux两个光驱,llinux挂载多个光驱
  14. linkedList手写
  15. python一键替换_python 实现批量替换文本中的某部分内容
  16. webkit 博客推荐
  17. 总结使用libwebsockets开发接入层
  18. 【开源项目学习】源码剖析,学习仿网易云音乐app代码
  19. go-cqhttp,QQ机器人发语音+视频+表情+接入chatgpt
  20. 分位点-逆累积分布函数

热门文章

  1. 矩阵标准型的系数是特征值吗_「线性代数」根据特征值,将二次型化为标准形、规范形...
  2. 功率 db 和dbm 的区别
  3. 获取计算机用户名称的方法,javascript读取用户名和计算机名
  4. 所罗门王的宝藏 思维
  5. linux 找不到vmdk,找不到文件vmdk虚拟磁盘
  6. 2021 知来者之可追
  7. 腾讯T4级架构师用21个项目带你吃透379页深度学习TensorFlow实践pdf
  8. 雅俗共赏——广告词之很美很强大的汉语言
  9. foxmail设置,服务器备份(很实用)
  10. excel设置行高和列宽_Excel使用小技巧-Excel里设置列宽和行高