目录

  • 一.准备工作
  • 二.进行分析
  • 三.完整代码

一.准备工作

引入如下库:

import requests
from bs4 import BeautifulSoup
import bs4

二.进行分析

根据网址http://www.gaosan.com/gaokao/241219.html我们找到对应网页,按F12打开开发者界面。

点击左上角图标:

然后就可以查找指定内容,我们随便点击一个大学,可以看到对应的HTML内容:

我们发现所有信息都被写在tbody标签下的tr中,每个tr表示一个学校,tr下的每一个td表示一个具体信息。注意第一个tr中的信息表示表格索引头,这样我们就可以进行爬虫了。

三.完整代码

import requests
from bs4 import BeautifulSoup
import bs4def getHtmlText(url):try:r = requests.get(url,timeout=30)r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:return "爬取失败!"def fillUlist(ulist,html):soup = BeautifulSoup(html,'html.parser')for tr in soup.find('tbody').children:tds=tr('td')ulist.append([tds[0].string,tds[1].string,tds[2].string,tds[3].string,tds[4].string,tds[5].string])    def printUlist(ulist,num):for i in range(num):u=ulist[i]print("{:^10}\t{:^20}\t{:^10}\t{:^10}\t{:^10}\t{:^10}".format(u[0],u[1],u[2],u[3],u[4],u[5],chr(12288)))if __name__=="__main__":ulist=[]url = "http://www.gaosan.com/gaokao/241219.html"html = getHtmlText(url)fillUlist(ulist,html)printUlist(ulist,500)

得到结果:

【Python爬虫实战】爬取2021中国大学排名(简单)相关推荐

  1. Python爬虫实战爬取租房网站2w+数据-链家上海区域信息(超详细)

    Python爬虫实战爬取租房网站-链家上海区域信息(过程超详细) 内容可能有点啰嗦 大佬们请见谅 后面会贴代码 带火们有需求的话就用吧 正好这几天做的实验报告就直接拿过来了,我想后面应该会有人用的到吧 ...

  2. python爬虫实战---爬取大众点评评论

    python爬虫实战-爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多 ...

  3. python爬虫实战-爬取视频网站下载视频至本地(selenium)

    #python爬虫实战-爬取视频网站下载视频至本地(selenium) import requests from lxml import etree import json from selenium ...

  4. python爬虫实战-爬取微信公众号所有历史文章 - (00) 概述

    http://efonfighting.imwork.net 欢迎关注微信公众号"一番码客"获取免费下载服务与源码,并及时接收最新文章推送. 最近几年随着人工智能和大数据的兴起,p ...

  5. python爬虫实战--爬取猫眼专业版-实时票房

    小白级别的爬虫入门 最近闲来无事,发现了猫眼专业版-实时票房,可以看到在猫眼上映电影的票房数据,便验证自己之前学的python爬虫,爬取数据,做成.svg文件. 爬虫开始之前 我们先来看看猫眼专业版- ...

  6. python爬虫实战-爬取小说

    今天做一个爬虫练手的小实战:爬取顶点小说网的小说,实现下载到本地(虽然网站上本来就可以下载,不过还是自己写代码来有成就感嘛!) 爬取网站 进入官网后,点击元尊,就爬取这本书了. 我们先把整个网页爬下来 ...

  7. Python爬虫实战- 爬取整个网站112G-8000本pdf epub格式电子书下载

    (整个代码附在最后) 目录: 爬虫准备 - 某电子书网站内容架构分析 爬虫前奏 - 网站Html代码分析,如何获取需要的链接? 爬虫高潮 - 测试是否有反爬虫措施,测试是否能正常下载一个sample ...

  8. python爬虫淘宝实例-Python——爬虫实战 爬取淘宝店铺内所有宝贝图片

    之前用四篇很啰嗦的入门级别的文章,带着大家一起去了解并学习在编写爬虫的过程中,最基本的几个库的用法. 那么今天,我们就正式开始我们的第一篇实战内容,爬取一整个淘宝店铺里的所有宝贝的详情页,并且把详情页 ...

  9. Python爬虫实战——爬取RUNOOB.COM的Python3教程

    说明 关于Python开发环境搭建,可参考博主的另一篇博文-Visual Studio 2017搭配OpenCV之Python环境,省去其中的OpenCV配置及安装即可.另外,在做Python爬虫项目 ...

最新文章

  1. Nat. Mach. Intell. | 集成深度学习在生物信息学中的发展与展望
  2. 【Android APT】注解处理器 ( 配置注解依赖、支持的注解类型、Java 版本支持 )
  3. python函数列表永久修改_python 禁止函数修改列表的实现方法
  4. 号外号外!自动化测试工具AutoRunner V4.2 新版本升级预告!
  5. C#编写程序操作数据库如何防止SQL注入漏洞的发生
  6. 阿里系微服务进阶指南
  7. iPhone Instruments工具使用_检测内存泄露(转)
  8. 2021年人口普查结果分析
  9. 清华计算机系人工智能学院,CoAI - 清华大学交互式人工智能课题组
  10. 李迅雷:大城市化和居民加杠杆能支撑房价多久
  11. 手机支付宝密码存储机制分析
  12. go语言和c运行效率,Go语言执行效率
  13. ubuntu18.4 浏览器无法上网
  14. python pandas excle 把两列合并新的一列
  15. matlab在概率统计中的应用
  16. servercat IOS Linux监控 SSH客户端
  17. pytest自动化测试
  18. 【ESP系列】ESP8266-12F
  19. 软件盗版与非商业使用
  20. python泰坦尼克号数据分析_Python数据分析|泰坦尼克逻辑回归

热门文章

  1. 在web页面预览PDF文件
  2. 纽约2050交通发展战略——高效移动性
  3. mysql grant all on_mysql 赋给用户权限 grant all privileges on
  4. Python3读txt,UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xd0 in position 0: invalid continu
  5. 基于centos部署的 漏洞扫描工具(afrog)
  6. 最近有股强烈的挫败感
  7. LYTRO图像文件数据包
  8. Linux命令--nc (测试服务器端口是否打开)
  9. 从知道到懂得,从懂得到做到
  10. 华清远见-STM32 SPI笔记