一、中国大学排名爬虫案例的步骤如下:

步骤1:从网络上获取大学排名网页内容 getHTMLText()

步骤2:提取网页内容中信息到合适的数据结构 fillUnivList()

步骤3:利用数据结构展示并输出结果 printUnivList()

实例代码

import requests

import bs4

from bs4 import BeautifulSoup

def getHTMLText(url):

'''从网络上获取大学排名网页内容'''

try:

r = requests.get(url, timeout=30)

# #如果状态不是200,就会引发HTTPError异常

r.raise_for_status()

r.encoding = r.apparent_encoding

return r.text

except:

return ""

def fillUnivList(ulist, html):

'''提取网页内容中信息到合适的数据结构'''

soup = BeautifulSoup(html, "html.parser")

# 查找html中tbody标签的所有

子标签

for tr in soup.find('tbody').children:

if isinstance(tr, bs4.element.Tag):

tds = tr('td')

# tds[0].string 是排名,tds[1].string 是学校名称,tds[3].string 是学校的总分

ulist.append([tds[0].string, tds[1].string, tds[3].string])

def printUnivList(ulist, num):

''' 打印前 num 名的大学'''

# {1:{3}^10} 中的 {3} 代表取第三个参数

tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}"

print(tplt.format("排名","学校名称","总分",chr(12288))) # chr(12288) 代表中文空格

for i in range(num):

u=ulist[i]

print(tplt.format(u[0],u[1],u[2],chr(12288))) # chr(12288) 代表中文空格

def main():

uinfo = []

url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html'

html = getHTMLText(url)# 获取大学排名网页内容

fillUnivList(uinfo, html)#提取网页内容中信息

printUnivList(uinfo, 20) #输出结果

main()

结果如下

python中国最好大学排名_三分钟实现爬取中国前20大学排名相关推荐

  1. python爬虫遇到验证码的处理方法(以爬取中国执行信息公开网为例)

    朋友们大家好,python爬虫是在学习python时比较容易上手的学习方式,爬虫的思路简要以下几点: 1.获取需要爬取页面的网址,并且对网页内容进行分析.(主要就源代码讨论,如果我们需要的内容没有在源 ...

  2. python爬虫携程酒店_携程酒店爬取分享

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 import urllib.request from bs4 import BeautifulSoup import csv import re def ...

  3. python词云代码手机_【云计算】爬取淘宝手机品牌词云分析(python)

    本文主要向大家介绍了[云计算]爬取淘宝手机品牌词云分析(python),通过具体的内容向大家展现,希望对大家学习云计算有所帮助. 淘宝手机信息的爬取,请看这边博客(点击这里),然后我们利用其中保存的文 ...

  4. python 批量下载网页图片_手把手教你爬取天堂网1920*1080大图片(批量下载)——实战篇|python基础教程|python入门|python教程...

    https://www.xin3721.com/eschool/pythonxin3721/ /1 前言/ 上篇文章 手把手教你爬取天堂网1920*1080大图片(批量下载)--理论篇我们谈及了天堂网 ...

  5. python怎么快速打括号_三分钟,让你弄清楚Python中函数的括号使用

    一直以来对python中函数括号的使用,有点分不清楚,到底什么时候用括号,什么时候不用括号,造成了很大困惑. 执行结果: 根据结果来分析: 1. x = aaa aaa是一个类名,后面没加括号,打印结 ...

  6. python爬虫之bs4库_三分钟搞定bs4库的解析器

    The Dormouse's story Once upon a time there were three little sisters; and their names were Elsie, L ...

  7. python爬虫搜狐新闻_应用案例2:爬取搜狐体育的新闻信息

    爬虫学习使用指南 Auth: 王海飞 Data:2018-06-25 Email:779598160@qq.com github:https://github.com/coco369/knowledg ...

  8. Python爬虫新手入门教学(十七):爬取yy全站小视频

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...

  9. Python爬虫新手入门教学(十):爬取彼岸4K超清壁纸

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...

最新文章

  1. 基于Go的语义解析开源库FMR,“屠榜”模型外的NLP利器
  2. python开发要学哪些?
  3. 车辆检测,车牌识别WPOD-NET OCR-Net
  4. java 中的几种 通用方法“
  5. import和require的区别
  6. 【AS3代码】添加/删除XML子元素及属性
  7. Spring Cloud基础教程
  8. 使用poi统计工作职责
  9. TestAndSet实现互斥锁
  10. Find the safest road(HDU-1596)
  11. 信息学奥赛一本通C++语言——1078:求分数序列和
  12. 一文搞懂RSOP偏振态旋转
  13. java nio oio_Java NIO框架Netty教程(十四) Netty中OIO模型(对比NIO)
  14. 股票中买1、买2、买3和卖1、卖2、卖3
  15. 华为手机像素密度排行_最新手机性能排行榜出炉:高通骁龙865霸榜,前十不见华为!...
  16. 智能优化算法应用:基于GWO优化的Renyi熵图像多阈值分割 - 附代码
  17. css样式的属性包括,css字体样式属性有哪些
  18. 计算机桌面图标变小了,电脑桌面图标变小了怎么办
  19. 哈哈,没有什么能阻止得了这届父母要卷的决心
  20. NFT和游戏化的革命-通过 Play Earn 尝试世界上第一个国际象棋游戏

热门文章

  1. 亚马逊云科技 AI For Good-2022优秀方案开源分享——望楼
  2. 唐山初中计算机考试知识点,唐山:2017小升初英语必考的十个知识点(推荐)...
  3. Linux:查看服务器信息,CPU、内存、系统版本、内核版本等
  4. 单身程序员的福利!快来加入全国最大的硕博交友群,手慢无!
  5. ASP .NET MVC项目研发总结
  6. 玻尔兹曼机BM 受限玻尔兹曼机 RBM
  7. Android 超简单音乐播放器(九)搜索网络歌曲,获得热门榜单(GridView)(易源api的使用)(JSON的解析)(刷新)
  8. JS 获取当前日期时间/时间日期格式化(时间戳 转 yyyy-MM-dd HH:mm:ss)
  9. java过滤器修改响应,在过滤器中实现修改http请求体和响应体
  10. Golang 基础二