【Python爬虫实战】爬取2021中国大学排名(简单)
目录
- 一.准备工作
- 二.进行分析
- 三.完整代码
一.准备工作
引入如下库:
import requests
from bs4 import BeautifulSoup
import bs4
二.进行分析
根据网址http://www.gaosan.com/gaokao/241219.html
我们找到对应网页,按F12打开开发者界面。
点击左上角图标:
然后就可以查找指定内容,我们随便点击一个大学,可以看到对应的HTML内容:
我们发现所有信息都被写在tbody标签下的tr中,每个tr表示一个学校,tr下的每一个td表示一个具体信息。注意第一个tr中的信息表示表格索引头,这样我们就可以进行爬虫了。
三.完整代码
import requests
from bs4 import BeautifulSoup
import bs4def getHtmlText(url):try:r = requests.get(url,timeout=30)r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:return "爬取失败!"def fillUlist(ulist,html):soup = BeautifulSoup(html,'html.parser')for tr in soup.find('tbody').children:tds=tr('td')ulist.append([tds[0].string,tds[1].string,tds[2].string,tds[3].string,tds[4].string,tds[5].string]) def printUlist(ulist,num):for i in range(num):u=ulist[i]print("{:^10}\t{:^20}\t{:^10}\t{:^10}\t{:^10}\t{:^10}".format(u[0],u[1],u[2],u[3],u[4],u[5],chr(12288)))if __name__=="__main__":ulist=[]url = "http://www.gaosan.com/gaokao/241219.html"html = getHtmlText(url)fillUlist(ulist,html)printUlist(ulist,500)
得到结果:
【Python爬虫实战】爬取2021中国大学排名(简单)相关推荐
- Python爬虫实战爬取租房网站2w+数据-链家上海区域信息(超详细)
Python爬虫实战爬取租房网站-链家上海区域信息(过程超详细) 内容可能有点啰嗦 大佬们请见谅 后面会贴代码 带火们有需求的话就用吧 正好这几天做的实验报告就直接拿过来了,我想后面应该会有人用的到吧 ...
- python爬虫实战---爬取大众点评评论
python爬虫实战-爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多 ...
- python爬虫实战-爬取视频网站下载视频至本地(selenium)
#python爬虫实战-爬取视频网站下载视频至本地(selenium) import requests from lxml import etree import json from selenium ...
- python爬虫实战-爬取微信公众号所有历史文章 - (00) 概述
http://efonfighting.imwork.net 欢迎关注微信公众号"一番码客"获取免费下载服务与源码,并及时接收最新文章推送. 最近几年随着人工智能和大数据的兴起,p ...
- python爬虫实战--爬取猫眼专业版-实时票房
小白级别的爬虫入门 最近闲来无事,发现了猫眼专业版-实时票房,可以看到在猫眼上映电影的票房数据,便验证自己之前学的python爬虫,爬取数据,做成.svg文件. 爬虫开始之前 我们先来看看猫眼专业版- ...
- python爬虫实战-爬取小说
今天做一个爬虫练手的小实战:爬取顶点小说网的小说,实现下载到本地(虽然网站上本来就可以下载,不过还是自己写代码来有成就感嘛!) 爬取网站 进入官网后,点击元尊,就爬取这本书了. 我们先把整个网页爬下来 ...
- Python爬虫实战- 爬取整个网站112G-8000本pdf epub格式电子书下载
(整个代码附在最后) 目录: 爬虫准备 - 某电子书网站内容架构分析 爬虫前奏 - 网站Html代码分析,如何获取需要的链接? 爬虫高潮 - 测试是否有反爬虫措施,测试是否能正常下载一个sample ...
- python爬虫淘宝实例-Python——爬虫实战 爬取淘宝店铺内所有宝贝图片
之前用四篇很啰嗦的入门级别的文章,带着大家一起去了解并学习在编写爬虫的过程中,最基本的几个库的用法. 那么今天,我们就正式开始我们的第一篇实战内容,爬取一整个淘宝店铺里的所有宝贝的详情页,并且把详情页 ...
- Python爬虫实战——爬取RUNOOB.COM的Python3教程
说明 关于Python开发环境搭建,可参考博主的另一篇博文-Visual Studio 2017搭配OpenCV之Python环境,省去其中的OpenCV配置及安装即可.另外,在做Python爬虫项目 ...
最新文章
- Nat. Mach. Intell. | 集成深度学习在生物信息学中的发展与展望
- 【Android APT】注解处理器 ( 配置注解依赖、支持的注解类型、Java 版本支持 )
- python函数列表永久修改_python 禁止函数修改列表的实现方法
- 号外号外!自动化测试工具AutoRunner V4.2 新版本升级预告!
- C#编写程序操作数据库如何防止SQL注入漏洞的发生
- 阿里系微服务进阶指南
- iPhone Instruments工具使用_检测内存泄露(转)
- 2021年人口普查结果分析
- 清华计算机系人工智能学院,CoAI - 清华大学交互式人工智能课题组
- 李迅雷:大城市化和居民加杠杆能支撑房价多久
- 手机支付宝密码存储机制分析
- go语言和c运行效率,Go语言执行效率
- ubuntu18.4 浏览器无法上网
- python pandas excle 把两列合并新的一列
- matlab在概率统计中的应用
- servercat IOS Linux监控 SSH客户端
- pytest自动化测试
- 【ESP系列】ESP8266-12F
- 软件盗版与非商业使用
- python泰坦尼克号数据分析_Python数据分析|泰坦尼克逻辑回归
热门文章
- 在web页面预览PDF文件
- 纽约2050交通发展战略——高效移动性
- mysql grant all on_mysql 赋给用户权限 grant all privileges on
- Python3读txt,UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xd0 in position 0: invalid continu
- 基于centos部署的 漏洞扫描工具(afrog)
- 最近有股强烈的挫败感
- LYTRO图像文件数据包
- Linux命令--nc (测试服务器端口是否打开)
- 从知道到懂得,从懂得到做到
- 华清远见-STM32 SPI笔记