欢迎参观我的个人博客:L'ZXX_Blog

首先给出网址: 最好大学网

1.我们先来看网站信息:

2.我们再来审查元素,发现我们所需要的信息都在tbody标签中,一条信息在一个tr标签中,tr中的td标签这就是单个信息的存在:

3.编写代码,在这里我们用到了requests库和BeautifulSoup库,都是Python的第三方库,需要pip安装。

import requests
from bs4 import BeautifulSoup
import bs4
def getHtmlText(url):try:r = requests.get(url,timeout=30)r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:print('响应失败')return ""
def fillUnivList(ulist,html):soup = BeautifulSoup(html,'html.parser')for tr in soup.find('tbody').children:if isinstance(tr,bs4.element.Tag):#过滤掉非tag类型tds = tr.find_all('td')#tds为tr标签的列表ulist.append([tds[0].string,tds[1].string,tds[3].string])
def displayUivList(ulist,num):tqlt = "{0:^10}\t{1:{3}^10}\t{2:^10}"#控制中文对齐print(tqlt.format('排名','学校','分数',chr(12288)))for i in range(num):u = ulist[i]print(tqlt.format(u[0],u[1],u[2],chr(12288)))print('Suo'+str(num))
def main():uinfo = []url = 'http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html'html = getHtmlText(url)fillUnivList(uinfo,html)displayUivList(uinfo,20)
main()

获得的结果:这处理结果的时候需要注意一下,关于中文对齐的问题,在这里我们用chr(12288)来作为填充字符,就可以很好地解决中文对齐问题。

排名           学校          分数    1            清华大学        94.6   2            北京大学        76.5   3            浙江大学        72.9   4           上海交通大学       72.1   5            复旦大学        65.6   6          中国科学技术大学      60.9   7           华中科技大学       58.9   7            南京大学        58.9   9            中山大学        58.2   10         哈尔滨工业大学       56.7   11         北京航空航天大学      56.3   12           武汉大学        56.2   13           同济大学        55.7   14          西安交通大学       55.0   15           四川大学        54.4   16          北京理工大学       54.0   17           东南大学        53.6   18           南开大学        52.8   19           天津大学        52.3   20          华南理工大学       52.0
Suo20

Python爬虫--爬取最好大学网学校信息相关推荐

  1. python爬虫爬取最好大学网排名分析地区大学数量分布并绘制柱状图和词云

    本人也是初学者,本博客用于python初学者参考使用. 分析网页 本次爬取的是最好大学网软科中国最好大学排名2018:http://www.zuihaodaxue.cn/zuihaodaxuepaim ...

  2. 使用python爬虫爬取最好大学网大学排名实例

    使用requests库和BeautifulSoup库实现对最好大学网大学排名信息爬取 链接:http://www.zuihaodaxue.com/Greater_China_Ranking2019_0 ...

  3. 使用python爬虫爬取卷皮网背包信息实例

    使用requests和BeautifulSoup实现对卷皮网背包名称与价格的爬取 链接:www.juanpi.com 代码: import requests import re from bs4 im ...

  4. Python 爬虫 爬取安智网应用信息

    2019独角兽企业重金招聘Python工程师标准>>> 爬取目标网站安卓应用的信息,爬取分类.更新时间.系统要求.下载量以及下载链接等描述信息 http://www.anzhi.co ...

  5. python爬虫爬取链家网房价信息

    打开链家网页:https://sh.lianjia.com/zufang/  :用F12以页面中元素进行检查 <a target="_blank" href="/z ...

  6. Python爬虫——爬取阳光高考网高校信息

    在本次学习中主要爬取的内容如下 就简单粗暴直接献上代码吧 import requests import time import json from bs4 import BeautifulSoupde ...

  7. python爬虫爬取彼岸图网图片

    python爬虫爬取彼岸图网图片 话不多说,直接上代码! import requests from PIL import Image from io import BytesIO import re ...

  8. python爬虫图片实例-Python爬虫爬取煎蛋网图片代码实例

    这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...

  9. Python爬虫爬取煎蛋网图片代码实例

    这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...

最新文章

  1. CVPR2019:无人驾驶3D目标检测论文点评
  2. threejs加载obj模型_Vulkan编程指南(章节31-载入模型)
  3. controller接收json数据_SpringBoot实战(二):SpringMvc接收xml请求
  4. 小白猿简洁好看的个人介绍单页HTML5源码
  5. 扎克伯格再售9500万美元股票 向裸捐目标迈近一步
  6. 河南高中计算机会考excl,高中信息技术会考EXCEL知识点.pdf
  7. 驱动程序(13) 将Windriver编写的程序制成DLL供其他程序调用
  8. 禅道----产品经理创建产品
  9. 2022-2028全球智能门锁系统行业调研及趋势分析报告
  10. 【倒计时1天】PPP全球数字资产投资峰会-中国区北京首站之金融科技区块链支持可持续发展...
  11. Android studio中出现keeps stopping现象
  12. MySQL day()函数
  13. 腾讯视频二面【附常见HR面试问题】
  14. 基于AM5728 linux开源ethercat运动控制一体机解决方案
  15. nvcc和nvidia-smi显示的版本不一致?
  16. Dbeaver报错:The server time zone value ‘etd‘ is unrecognized
  17. HTML-form表单
  18. sklearn_逻辑回归制作评分卡_菜菜视频学习笔记
  19. 什么是BGP多线,与普通双线的区别
  20. 点云(刚性)配准--icp

热门文章

  1. 遇事没有眼力见,反应不灵活,该怎么改善?
  2. 我自己学习做的“即时通”
  3. Java 语言的开发和执行过程_开发与运行Java程序需要经过的三个主要步骤为 和 。...
  4. 前端 Html 基础
  5. ModelSim仿真Intel FPGA的DDR3问题
  6. 记录 无法识别USB串口设备以及由于 Windows 无法加载这个设备所需的驱动程序,导致这个设备工作异常。 (代码 31)
  7. 一、编译器构造一般原理
  8. [展览人周刊]华展云20170717期
  9. 注册表导入失败 只能导入二进位注册文件
  10. JS缓存与浏览器缓存技术详解 学习笔记