python中国最好大学排名_国内大学排名如何?用Python爬取中国大学排名
国内大学排名如何?用Python爬取中国大学排名准备阶段需要的库robots协议上代码代码框架*获取url信息*解析信息*输出数据*主函数结果
准备阶段
新手入门,不喜勿喷,这篇文章的内容其实也是在中国大学MOOC 北理工 嵩天老师的课程基础上完成。由于大学排名有众多不同的影响因素,根据指标不同,有很多排名,我们就选取最好大学网的排名。
需要的库import requests
from bs4 import BeautifulSoup
import bs4
robots协议
如下图,显然,这个网站没有robots协议,也就是说,我们可以认为它是允许所有的爬虫进行爬取任何内容的。
上代码
代码框架def getHTMLtext(url):
try:
return r.text
except:
return ""
def fillunivlist(ulist,html):
return ""
def printlist(ulist,num):
return ""
def main():
return ""
main()
大概就是这样,我们定义四个函数。
其大体作用分别为获取url信息;解析信息并填写在列表中;输出信息;提供url并执行函数……
*获取url信息def getHTMLtext(url):
try:
r=requests.get(url,timeout=30)
r.raise_for_status()
r.encoding=r.apparent_encoding
return r.text
except:
return ""
*解析信息
def fillunivlist(ulist,html):
soup=BeautifulSoup(html,"lxml")
for tr in soup.find('tbody').children:
if isinstance(tr,bs4.element.Tag):
tds=tr('td')
ulist.append([tds[0].string,tds[1].string,tds[3].string])
*输出数据
def printlist(ulist,num):
tplt="{0:^10}t{1:{3}^10}t{2:^10}"
print(tplt.format("排名","学校名称","总分",chr(12288)))
for i in range(num):
u=ulist[i] print(tplt.format(u[0],u[1],u[2],chr(12288)))
*主函数
def main():
uinfo=[] url='http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html'
html=getHTMLtext(url)
fillunivlist(uinfo,html)
printlist(uinfo,20)
main()
结果
由于数据比较多,我们就取前20看一下效果吧!
python中国最好大学排名_国内大学排名如何?用Python爬取中国大学排名相关推荐
- python 第一行 报错_初学Python-只需4步,爬取网站图片
很多人学习Python很重要的一个原因是,可以很简单的把一个网站的数据爬下来. 尤其是做我们这一行,产品经理,电商行业. 领导:弄一个买卖游戏周边商品的交易APP出来.我:行,那我们卖什么呀?领导:看 ...
- python微信公众号爬虫_微信公众号推送信息爬取---python爬虫
问题描述 利用搜狗的微信搜索抓取指定公众号的最新一条推送,并保存相应的网页至本地. 注意点 搜狗微信获取的地址为临时链接,具有时效性. 公众号为动态网页(JavaScript渲染),使用request ...
- python伪装浏览器什么意思_用python2和python3伪装浏览器爬取网页
python网页抓取功能非常强大,使用urllib或者urllib2可以很轻松的抓取网页内容.但是很多时候我们要注意,可能很多网站都设置了防采集功能,不是那么轻松就能抓取到想要的内容. 今天我来分享下 ...
- python进阶(二)——request 爬取中国最好大学排名
这是要爬取的网址 http://www.zuihaodaxue.com/zuihaodaxuepaiming2018.html 效果如下,代码思路均来自于中国大学mooc python嵩老师的课程(推 ...
- Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)
今天我们来爬取一下豆瓣网上排名前250的电影. 需求:爬取豆瓣网上排名前250的电影,然后将结果保存至一个记事本里. 开发环境: python3.9 pycharm2021专业版 我们先观察网页,看看 ...
- Python爬取中国大学排名,并且保存到excel中
前言 以下文章来源于数据分析和Python ,作者冈坂日川 今天发的是python爬虫爬取中国大学排名,并且保存到excel中,当然这个代码很简单,我用了半小时就写完了,我的整体框架非常清晰,可以直接 ...
- python爬取中国大学排名
教程来自:[Python网络爬虫与信息提取].MOOC. 北京理工大学 目标:爬取最好大学网前50名大学 代码如下: import requests from bs4 import Beautiful ...
- 使用Python爬取“最好大学网”软科中国最好大学排名2019并做可视化分析
使用Python爬取"最好大学网"软科中国最好大学排名2019并做可视化分析 简介 开发环境 爬取数据 1.获取网站页面 2.解析网页内容 3.存储数据 可视化分析 基本设置 显示 ...
- Python爬虫系列(二):爬取中国大学排名丁香园-用户名和回复内容淘宝品比价
Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品比价 目录 Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品 ...
最新文章
- python socket编程:实现redirect函数、cookie和session
- retryexec.java 94_解决feign调用接口不稳定的问题
- Wireshark文档阅读笔记-TCP 4 times close解析与实例
- python 调用控制台_如何使用Python的交互控制台
- d3-force 力导图 源码解读与原理分析【一】
- Linux Shell 使用技巧
- 教育部 计算机类专业代码,全国本科专业代码查询
- SHP格式以及SHP矢量数据编辑软件ShpEditor介绍
- Xcode slicing 精解
- 相关系数——皮尔逊相关系数的公式及其理解
- 利用Chrome翻译搞定大部分英文文件翻译的工作流
- 二等水准数据平差_二等水准测量方法与步骤
- 安卓开发Material Design ToolBar的DrawerLayout 学习经验
- java调用帆软cpt文件_报表中心FineReport中java如何直接调用报表打印
- 网站被劫持到其它网站如何解决
- Java开源生鲜电商平台-深刻理解电商的库存架构与解决方案(源码可下载)
- ​即将过去的2021年。
- 西瓜怎么切才能方便去掉西瓜籽
- SpringBoot设置全局上传文件路径并上传文件
- Java单个文件下载
热门文章
- 统计学的Python实现-016:变异系数
- 解决Paragon NTFS for Mac安装分卷失败的办法
- jvm深入理解:内存分配与回收策略(优先在Eden分配、大对象直接进入老年代、长期存活的对象将进入老年代、动态对象年龄判定、空间分配担保)
- python爬取图片链接标签的src属性值_python爬取图片遇见src乱码: data:image/png;base64...
- 一文搞定Docker(内含docker-compose及docker核心原理)
- CAA教程——CATIA二次开发环境搭建
- 计算机动画专业教学大纲,3d-Max动画制作课程教学大纲
- 《机器学习:实用案例解析》,读书笔记
- 完整 ycrcb转rgb
- 系统架构设计(3)-可扩展性