一.步骤

1.从网络获取大学排名网页内容
2.提取网页内容的信息到合适的数据结构
3.利用数据结构展示并输出结果
4.分析Robot协议
http://www.zuihaodaxue.cn/robots.txt


可知网站对爬虫没有限制;

5.分析网页源代码结构

在要爬取的网页右键查看网页源代码,本人复制到pycharm IDE中,格式化后可见如下;

所有的排名包含在一个tbody标签中,每一个大学以一个tr分隔,每个大学的信息以td组织;有以上信息之后便可以编写如下代码

二.代码

import  requests
import  bs4
from bs4 import BeautifulSoupdef getHTMLText(url):  # 从网页获取大学排名网页内容try:r = requests.get(url,timeout=30)r.raise_for_status()r.encoding = r.apparent_encodingreturn  r.textexcept:return ""def fillUnivList(ulist,html): # 提取网页内容中信息到合适的数据结构soup = BeautifulSoup(html,"html.parser")for tr in soup.find('tbody').children:if isinstance(tr,bs4.element.Tag): # 类似type,判断一个类型是否是一个已知的类型tds = tr('td') # tr.find_all('td')的简写ulist.append([tds[0].string,tds[1].string,tds[3].string])def printUnivList(ulist,num): # 利用数据结构展示并输出结果tplt = "{0:^10}\t{1:{3}^20}\t{2:^10}"print(tplt.format("排名","学校名称","总分",chr(12288)))for i in range(num):u = ulist[i]print(tplt.format(u[0],u[1],u[2],chr(12288))) # 采用中文字符的空格填充 chr(12288) # 采用中文字符的空格填充 chr(12288)def main():uinfo = []url = "http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html"html = getHTMLText(url)fillUnivList(uinfo,html)printUnivList(uinfo,num=20)main()
#

三.运行结果

python 中国大学排名相关推荐

  1. python中国大学排名爬虫写明详细步骤-python中国大学排名爬虫

    python 中国大学排名爬虫 首先,给一个最好大学网URL:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html, 点击这里进入 . 功能描述 ...

  2. python中国大学排名爬虫写明详细步骤-python网络爬虫入门实例:中国大学排名定向爬虫...

    中国大学排名定向爬虫的 设计和实现 一.环境安装: 1.选择一个适合自己的IDE(以下代码用Jupyter Notebook编写) 2.打开cmd,安装requests库和beautifulsoup4 ...

  3. python中国大学排名爬虫写明详细步骤-python爬虫爬取2020年中国大学排名

    from bs4 import BeautifulSoup # 网页解析 获取数据 import re # 正则表达式 进行文字匹配 import urllib.request, urllib.err ...

  4. python中国大学排名爬虫写明详细步骤-Python爬虫 2020中国大学排名

    爬取中国大学排名 request 获取 html beautiful soup 解析网页 re 正则表达式匹配内容 新建并保存 excel 1 2 3 4 -*- codeing = utf-8 -* ...

  5. python中国大学排名爬虫写明详细步骤-Python爬虫——定向爬取“中国大学排名网”...

    内容整理自中国大学MOOC--北京理工大学-蒿天-Python网络爬虫与信息提取 相关实战章节 我们预爬取的url如下 网页节选 在浏览器中读取网页源代码 可以 发现表格数据信息是直接写入HTML页面 ...

  6. python中国大学排名爬虫写明详细步骤-Python之爬虫-中国大学排名

    #!/usr/bin/env python # coding: utf-8 import bs4 import requests from bs4 import BeautifulSoup # 通过传 ...

  7. python中国大学排名爬虫写明详细步骤-Python爬虫--2019大学排名数据抓取

    Python爬虫--2019大学排名数据抓取 准备工作 输入:大学排名URL连接 输出:大学排名信息屏幕输出 所需要用到的库:requests,bs4 思路 获取网页信息 提取网页中的内容并放到数据结 ...

  8. python中国大学排名爬虫写明详细步骤-【Python爬虫】从html里爬取中国大学排名...

    from bs4 import BeautifulSoup import requests import bs4 #bs4.element.Tag时用的上 #获取网页页面HTML def getHTM ...

  9. Python爬取中国大学排名,并且保存到excel中

    前言 以下文章来源于数据分析和Python ,作者冈坂日川 今天发的是python爬虫爬取中国大学排名,并且保存到excel中,当然这个代码很简单,我用了半小时就写完了,我的整体框架非常清晰,可以直接 ...

最新文章

  1. postgres sql 多表联合查询_从零学会SQL-多表查询
  2. 信息学奥赛一本通(C++)在线评测系统——基础(一)C++语言——1112:最大值和最小值的差
  3. [SpringSecurity]web权限方案_用户认证_设置用户名密码
  4. Python 数据科学入门教程:NLTK
  5. poj 1651区间dp
  6. .NET项目工程生成一份项目帮助文档chm--Sandcastle工具
  7. java常见面试考点(九):SSM面试题
  8. rapidminer java_在Java应用程序中集成RapidMiner
  9. 【微信聊天机器人】基于python实现的PC端个人微信聊天机器人
  10. Direct3D透视教程,教你做出属于自己的透视
  11. 【语音信号处理】3语音信号可视化——prosody
  12. word分节符,分页符的区别,链接到上一页
  13. 两组的数据平均值合并_数据平均值合并计算 合并计算求平均值
  14. 人脸识别——OpenCV调取摄像头识别人脸
  15. 表示学习(特征学习)
  16. 制造业数字化转型内涵和过程
  17. Linux常用60个命令用法
  18. Linux系统库函数之strsep
  19. Mac终端加入IDEA命令
  20. Android之人品计算器教程

热门文章

  1. 达人评测 i5 12500h和r7 6800h 选哪个好
  2. 办公知识:有关如何PDF转Word文档的方法分享
  3. 【转贴】每月一个游戏
  4. 《数字化的力量》入选瞭望智库“思·享读书会”推荐图书
  5. 电子证据如何有效辨真伪?微版权“在线验证”电子数据的真实性
  6. 怎么样在Excel单元格里批量加小数点和单位?
  7. 应用内版本更新库UpdateVersion
  8. RT-Thread stm32 spi 使用笔记
  9. ITK图像itk::Image指针参数传递失败
  10. 记录使用nginx部署静态资源流程,以及遇到的访问静态资源404问题