国内大学排名如何?用Python爬取中国大学排名准备阶段需要的库robots协议上代码代码框架*获取url信息*解析信息*输出数据*主函数结果

准备阶段

新手入门,不喜勿喷,这篇文章的内容其实也是在中国大学MOOC 北理工 嵩天老师的课程基础上完成。由于大学排名有众多不同的影响因素,根据指标不同,有很多排名,我们就选取最好大学网的排名。

需要的库import requests

from bs4 import BeautifulSoup

import bs4

robots协议

如下图,显然,这个网站没有robots协议,也就是说,我们可以认为它是允许所有的爬虫进行爬取任何内容的。

上代码

代码框架def getHTMLtext(url):

try:

return r.text

except:

return ""

def fillunivlist(ulist,html):

return ""

def printlist(ulist,num):

return ""

def main():

return ""

main()

大概就是这样,我们定义四个函数。

其大体作用分别为获取url信息;解析信息并填写在列表中;输出信息;提供url并执行函数……

*获取url信息def getHTMLtext(url):

try:

r=requests.get(url,timeout=30)

r.raise_for_status()

r.encoding=r.apparent_encoding

return r.text

except:

return ""

*解析信息

def fillunivlist(ulist,html):

soup=BeautifulSoup(html,"lxml")

for tr in soup.find('tbody').children:

if isinstance(tr,bs4.element.Tag):

tds=tr('td')

ulist.append([tds[0].string,tds[1].string,tds[3].string])

*输出数据

def printlist(ulist,num):

tplt="{0:^10}t{1:{3}^10}t{2:^10}"

print(tplt.format("排名","学校名称","总分",chr(12288)))

for i in range(num):

u=ulist[i] print(tplt.format(u[0],u[1],u[2],chr(12288)))

*主函数

def main():

uinfo=[] url='http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html'

html=getHTMLtext(url)

fillunivlist(uinfo,html)

printlist(uinfo,20)

main()

结果

由于数据比较多,我们就取前20看一下效果吧!

python中国最好大学排名_国内大学排名如何?用Python爬取中国大学排名相关推荐

  1. python 第一行 报错_初学Python-只需4步,爬取网站图片

    很多人学习Python很重要的一个原因是,可以很简单的把一个网站的数据爬下来. 尤其是做我们这一行,产品经理,电商行业. 领导:弄一个买卖游戏周边商品的交易APP出来.我:行,那我们卖什么呀?领导:看 ...

  2. python微信公众号爬虫_微信公众号推送信息爬取---python爬虫

    问题描述 利用搜狗的微信搜索抓取指定公众号的最新一条推送,并保存相应的网页至本地. 注意点 搜狗微信获取的地址为临时链接,具有时效性. 公众号为动态网页(JavaScript渲染),使用request ...

  3. python伪装浏览器什么意思_用python2和python3伪装浏览器爬取网页

    python网页抓取功能非常强大,使用urllib或者urllib2可以很轻松的抓取网页内容.但是很多时候我们要注意,可能很多网站都设置了防采集功能,不是那么轻松就能抓取到想要的内容. 今天我来分享下 ...

  4. python进阶(二)——request 爬取中国最好大学排名

    这是要爬取的网址 http://www.zuihaodaxue.com/zuihaodaxuepaiming2018.html 效果如下,代码思路均来自于中国大学mooc python嵩老师的课程(推 ...

  5. Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)

    今天我们来爬取一下豆瓣网上排名前250的电影. 需求:爬取豆瓣网上排名前250的电影,然后将结果保存至一个记事本里. 开发环境: python3.9 pycharm2021专业版 我们先观察网页,看看 ...

  6. Python爬取中国大学排名,并且保存到excel中

    前言 以下文章来源于数据分析和Python ,作者冈坂日川 今天发的是python爬虫爬取中国大学排名,并且保存到excel中,当然这个代码很简单,我用了半小时就写完了,我的整体框架非常清晰,可以直接 ...

  7. python爬取中国大学排名

    教程来自:[Python网络爬虫与信息提取].MOOC. 北京理工大学 目标:爬取最好大学网前50名大学 代码如下: import requests from bs4 import Beautiful ...

  8. 使用Python爬取“最好大学网”软科中国最好大学排名2019并做可视化分析

    使用Python爬取"最好大学网"软科中国最好大学排名2019并做可视化分析 简介 开发环境 爬取数据 1.获取网站页面 2.解析网页内容 3.存储数据 可视化分析 基本设置 显示 ...

  9. Python爬虫系列(二):爬取中国大学排名丁香园-用户名和回复内容淘宝品比价

    Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品比价 目录 Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品 ...

最新文章

  1. python socket编程:实现redirect函数、cookie和session
  2. retryexec.java 94_解决feign调用接口不稳定的问题
  3. Wireshark文档阅读笔记-TCP 4 times close解析与实例
  4. python 调用控制台_如何使用Python的交互控制台
  5. d3-force 力导图 源码解读与原理分析【一】
  6. Linux Shell 使用技巧
  7. 教育部 计算机类专业代码,全国本科专业代码查询
  8. SHP格式以及SHP矢量数据编辑软件ShpEditor介绍
  9. Xcode slicing 精解
  10. 相关系数——皮尔逊相关系数的公式及其理解
  11. 利用Chrome翻译搞定大部分英文文件翻译的工作流
  12. 二等水准数据平差_二等水准测量方法与步骤
  13. 安卓开发Material Design ToolBar的DrawerLayout 学习经验
  14. java调用帆软cpt文件_报表中心FineReport中java如何直接调用报表打印
  15. 网站被劫持到其它网站如何解决
  16. Java开源生鲜电商平台-深刻理解电商的库存架构与解决方案(源码可下载)
  17. ​即将过去的2021年。
  18. 西瓜怎么切才能方便去掉西瓜籽
  19. SpringBoot设置全局上传文件路径并上传文件
  20. Java单个文件下载

热门文章

  1. 统计学的Python实现-016:变异系数
  2. 解决Paragon NTFS for Mac安装分卷失败的办法
  3. jvm深入理解:内存分配与回收策略(优先在Eden分配、大对象直接进入老年代、长期存活的对象将进入老年代、动态对象年龄判定、空间分配担保)
  4. python爬取图片链接标签的src属性值_python爬取图片遇见src乱码: data:image/png;base64...
  5. 一文搞定Docker(内含docker-compose及docker核心原理)
  6. CAA教程——CATIA二次开发环境搭建
  7. 计算机动画专业教学大纲,3d-Max动画制作课程教学大纲
  8. 《机器学习:实用案例解析》,读书笔记
  9. 完整 ycrcb转rgb
  10. 系统架构设计(3)-可扩展性