python中国最好大学排名_三分钟实现爬取中国前20大学排名

一、中国大学排名爬虫案例的步骤如下：

步骤1：从网络上获取大学排名网页内容 getHTMLText()

步骤2：提取网页内容中信息到合适的数据结构 fillUnivList()

步骤3：利用数据结构展示并输出结果 printUnivList()

实例代码

import requests

import bs4

from bs4 import BeautifulSoup

def getHTMLText(url):

'''从网络上获取大学排名网页内容'''

try:

r = requests.get(url, timeout=30)

# #如果状态不是200，就会引发HTTPError异常

r.raise_for_status()

r.encoding = r.apparent_encoding

return r.text

except:

return ""

def fillUnivList(ulist, html):

'''提取网页内容中信息到合适的数据结构'''

soup = BeautifulSoup(html, "html.parser")

# 查找html中tbody标签的所有

子标签

for tr in soup.find('tbody').children:

if isinstance(tr, bs4.element.Tag):

tds = tr('td')

# tds[0].string 是排名，tds[1].string 是学校名称，tds[3].string 是学校的总分

ulist.append([tds[0].string, tds[1].string, tds[3].string])

def printUnivList(ulist, num):

''' 打印前 num 名的大学'''

# {1:{3}^10} 中的 {3} 代表取第三个参数

tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}"

print(tplt.format("排名","学校名称","总分",chr(12288))) # chr(12288) 代表中文空格

for i in range(num):

u=ulist[i]

print(tplt.format(u[0],u[1],u[2],chr(12288))) # chr(12288) 代表中文空格

def main():

uinfo = []

url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html'

html = getHTMLText(url)# 获取大学排名网页内容

fillUnivList(uinfo, html)#提取网页内容中信息

printUnivList(uinfo, 20) #输出结果

main()

结果如下

python中国最好大学排名_三分钟实现爬取中国前20大学排名相关推荐

python爬虫遇到验证码的处理方法（以爬取中国执行信息公开网为例）
朋友们大家好,python爬虫是在学习python时比较容易上手的学习方式,爬虫的思路简要以下几点: 1.获取需要爬取页面的网址,并且对网页内容进行分析.(主要就源代码讨论,如果我们需要的内容没有在源 ...
python爬虫携程酒店_携程酒店爬取分享
该楼层疑似违规已被系统折叠隐藏此楼查看此楼 import urllib.request from bs4 import BeautifulSoup import csv import re def ...
python词云代码手机_【云计算】爬取淘宝手机品牌词云分析（python）
本文主要向大家介绍了[云计算]爬取淘宝手机品牌词云分析(python),通过具体的内容向大家展现,希望对大家学习云计算有所帮助. 淘宝手机信息的爬取,请看这边博客(点击这里),然后我们利用其中保存的文 ...
python 批量下载网页图片_手把手教你爬取天堂网1920*1080大图片（批量下载）——实战篇|python基础教程|python入门|python教程...
https://www.xin3721.com/eschool/pythonxin3721/ /1 前言/ 上篇文章手把手教你爬取天堂网1920*1080大图片(批量下载)--理论篇我们谈及了天堂网 ...
python怎么快速打括号_三分钟，让你弄清楚Python中函数的括号使用
一直以来对python中函数括号的使用,有点分不清楚,到底什么时候用括号,什么时候不用括号,造成了很大困惑. 执行结果: 根据结果来分析: 1. x = aaa aaa是一个类名,后面没加括号,打印结 ...
python爬虫之bs4库_三分钟搞定bs4库的解析器
The Dormouse's story Once upon a time there were three little sisters; and their names were Elsie, L ...
python爬虫搜狐新闻_应用案例2:爬取搜狐体育的新闻信息
爬虫学习使用指南 Auth: 王海飞 Data:2018-06-25 Email:779598160@qq.com github:https://github.com/coco369/knowledg ...
Python爬虫新手入门教学（十七）：爬取yy全站小视频
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...
Python爬虫新手入门教学（十）：爬取彼岸4K超清壁纸
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...

python中国最好大学排名_三分钟实现爬取中国前20大学排名

python中国最好大学排名_三分钟实现爬取中国前20大学排名相关推荐

最新文章

热门文章