Python爬虫--爬取最好大学网学校信息

欢迎参观我的个人博客：L'ZXX_Blog

首先给出网址：最好大学网

1.我们先来看网站信息：

2.我们再来审查元素，发现我们所需要的信息都在tbody标签中，一条信息在一个tr标签中，tr中的td标签这就是单个信息的存在：

3.编写代码，在这里我们用到了requests库和BeautifulSoup库，都是Python的第三方库，需要pip安装。

import requests
from bs4 import BeautifulSoup
import bs4
def getHtmlText(url):try:r = requests.get(url,timeout=30)r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:print('响应失败')return ""
def fillUnivList(ulist,html):soup = BeautifulSoup(html,'html.parser')for tr in soup.find('tbody').children:if isinstance(tr,bs4.element.Tag):#过滤掉非tag类型tds = tr.find_all('td')#tds为tr标签的列表ulist.append([tds[0].string,tds[1].string,tds[3].string])
def displayUivList(ulist,num):tqlt = "{0:^10}\t{1:{3}^10}\t{2:^10}"#控制中文对齐print(tqlt.format('排名','学校','分数',chr(12288)))for i in range(num):u = ulist[i]print(tqlt.format(u[0],u[1],u[2],chr(12288)))print('Suo'+str(num))
def main():uinfo = []url = 'http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html'html = getHtmlText(url)fillUnivList(uinfo,html)displayUivList(uinfo,20)
main()

获得的结果：这处理结果的时候需要注意一下，关于中文对齐的问题，在这里我们用chr(12288)来作为填充字符，就可以很好地解决中文对齐问题。

排名       　　　　学校　　　　      分数    1         　　　清华大学　　　     94.6   2         　　　北京大学　　　     76.5   3         　　　浙江大学　　　     72.9   4         　　上海交通大学　　     72.1   5         　　　复旦大学　　　     65.6   6         　中国科学技术大学　     60.9   7         　　华中科技大学　　     58.9   7         　　　南京大学　　　     58.9   9         　　　中山大学　　　     58.2   10        　哈尔滨工业大学　　     56.7   11        　北京航空航天大学　     56.3   12        　　　武汉大学　　　     56.2   13        　　　同济大学　　　     55.7   14        　　西安交通大学　　     55.0   15        　　　四川大学　　　     54.4   16        　　北京理工大学　　     54.0   17        　　　东南大学　　　     53.6   18        　　　南开大学　　　     52.8   19        　　　天津大学　　　     52.3   20        　　华南理工大学　　     52.0
Suo20

Python爬虫--爬取最好大学网学校信息相关推荐

python爬虫爬取最好大学网排名分析地区大学数量分布并绘制柱状图和词云
本人也是初学者,本博客用于python初学者参考使用. 分析网页本次爬取的是最好大学网软科中国最好大学排名2018:http://www.zuihaodaxue.cn/zuihaodaxuepaim ...
使用python爬虫爬取最好大学网大学排名实例
使用requests库和BeautifulSoup库实现对最好大学网大学排名信息爬取链接:http://www.zuihaodaxue.com/Greater_China_Ranking2019_0 ...
使用python爬虫爬取卷皮网背包信息实例
使用requests和BeautifulSoup实现对卷皮网背包名称与价格的爬取链接:www.juanpi.com 代码: import requests import re from bs4 im ...
Python 爬虫爬取安智网应用信息
2019独角兽企业重金招聘Python工程师标准>>> 爬取目标网站安卓应用的信息,爬取分类.更新时间.系统要求.下载量以及下载链接等描述信息 http://www.anzhi.co ...
python爬虫爬取链家网房价信息
打开链家网页:https://sh.lianjia.com/zufang/ :用F12以页面中元素进行检查 <a target="_blank" href="/z ...
Python爬虫——爬取阳光高考网高校信息
在本次学习中主要爬取的内容如下就简单粗暴直接献上代码吧 import requests import time import json from bs4 import BeautifulSoupde ...
python爬虫爬取彼岸图网图片
python爬虫爬取彼岸图网图片话不多说,直接上代码! import requests from PIL import Image from io import BytesIO import re ...
python爬虫图片实例-Python爬虫爬取煎蛋网图片代码实例
这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下今天,试着爬取了煎蛋网的图片. 用到的包: ...
Python爬虫爬取煎蛋网图片代码实例
这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下今天,试着爬取了煎蛋网的图片. 用到的包: ...

Python爬虫--爬取最好大学网学校信息

欢迎参观我的个人博客：L'ZXX_Blog

1.我们先来看网站信息：

2.我们再来审查元素，发现我们所需要的信息都在tbody标签中，一条信息在一个tr标签中，tr中的td标签这就是单个信息的存在：

3.编写代码，在这里我们用到了requests库和BeautifulSoup库，都是Python的第三方库，需要pip安装。

Python爬虫--爬取最好大学网学校信息相关推荐

最新文章

热门文章