【Python爬虫实战】爬取2021中国大学排名(简单)

一.准备工作

引入如下库：

import requests
from bs4 import BeautifulSoup
import bs4

二.进行分析

根据网址http://www.gaosan.com/gaokao/241219.html我们找到对应网页，按F12打开开发者界面。

点击左上角图标：

然后就可以查找指定内容，我们随便点击一个大学，可以看到对应的HTML内容：

我们发现所有信息都被写在tbody标签下的tr中，每个tr表示一个学校，tr下的每一个td表示一个具体信息。注意第一个tr中的信息表示表格索引头，这样我们就可以进行爬虫了。

三.完整代码

import requests
from bs4 import BeautifulSoup
import bs4def getHtmlText(url):try:r = requests.get(url,timeout=30)r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:return "爬取失败！"def fillUlist(ulist,html):soup = BeautifulSoup(html,'html.parser')for tr in soup.find('tbody').children:tds=tr('td')ulist.append([tds[0].string,tds[1].string,tds[2].string,tds[3].string,tds[4].string,tds[5].string])    def printUlist(ulist,num):for i in range(num):u=ulist[i]print("{:^10}\t{:^20}\t{:^10}\t{:^10}\t{:^10}\t{:^10}".format(u[0],u[1],u[2],u[3],u[4],u[5],chr(12288)))if __name__=="__main__":ulist=[]url = "http://www.gaosan.com/gaokao/241219.html"html = getHtmlText(url)fillUlist(ulist,html)printUlist(ulist,500)

得到结果：

【Python爬虫实战】爬取2021中国大学排名(简单)相关推荐

Python爬虫实战爬取租房网站2w+数据-链家上海区域信息（超详细）
Python爬虫实战爬取租房网站-链家上海区域信息(过程超详细) 内容可能有点啰嗦大佬们请见谅后面会贴代码带火们有需求的话就用吧正好这几天做的实验报告就直接拿过来了,我想后面应该会有人用的到吧 ...
python爬虫实战---爬取大众点评评论
python爬虫实战-爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多 ...
python爬虫实战-爬取视频网站下载视频至本地(selenium)
#python爬虫实战-爬取视频网站下载视频至本地(selenium) import requests from lxml import etree import json from selenium ...
python爬虫实战-爬取微信公众号所有历史文章 - (00) 概述
http://efonfighting.imwork.net 欢迎关注微信公众号"一番码客"获取免费下载服务与源码,并及时接收最新文章推送. 最近几年随着人工智能和大数据的兴起,p ...
python爬虫实战--爬取猫眼专业版-实时票房
小白级别的爬虫入门最近闲来无事,发现了猫眼专业版-实时票房,可以看到在猫眼上映电影的票房数据,便验证自己之前学的python爬虫,爬取数据,做成.svg文件. 爬虫开始之前我们先来看看猫眼专业版- ...
python爬虫实战-爬取小说
今天做一个爬虫练手的小实战:爬取顶点小说网的小说,实现下载到本地(虽然网站上本来就可以下载,不过还是自己写代码来有成就感嘛!) 爬取网站进入官网后,点击元尊,就爬取这本书了. 我们先把整个网页爬下来 ...
Python爬虫实战- 爬取整个网站112G-8000本pdf epub格式电子书下载
(整个代码附在最后) 目录: 爬虫准备 - 某电子书网站内容架构分析爬虫前奏 - 网站Html代码分析,如何获取需要的链接? 爬虫高潮 - 测试是否有反爬虫措施,测试是否能正常下载一个sample ...
python爬虫淘宝实例-Python——爬虫实战爬取淘宝店铺内所有宝贝图片
之前用四篇很啰嗦的入门级别的文章,带着大家一起去了解并学习在编写爬虫的过程中,最基本的几个库的用法. 那么今天,我们就正式开始我们的第一篇实战内容,爬取一整个淘宝店铺里的所有宝贝的详情页,并且把详情页 ...
Python爬虫实战——爬取RUNOOB.COM的Python3教程
说明关于Python开发环境搭建,可参考博主的另一篇博文-Visual Studio 2017搭配OpenCV之Python环境,省去其中的OpenCV配置及安装即可.另外,在做Python爬虫项目 ...

【Python爬虫实战】爬取2021中国大学排名(简单)

目录

一.准备工作

二.进行分析

三.完整代码

【Python爬虫实战】爬取2021中国大学排名(简单)相关推荐

最新文章

热门文章