python 中国大学排名
一.步骤
1.从网络获取大学排名网页内容
2.提取网页内容的信息到合适的数据结构
3.利用数据结构展示并输出结果
4.分析Robot协议
http://www.zuihaodaxue.cn/robots.txt
可知网站对爬虫没有限制;
5.分析网页源代码结构
在要爬取的网页右键查看网页源代码,本人复制到pycharm IDE中,格式化后可见如下;
所有的排名包含在一个tbody标签中,每一个大学以一个tr分隔,每个大学的信息以td组织;有以上信息之后便可以编写如下代码
二.代码
import requests
import bs4
from bs4 import BeautifulSoupdef getHTMLText(url): # 从网页获取大学排名网页内容try:r = requests.get(url,timeout=30)r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:return ""def fillUnivList(ulist,html): # 提取网页内容中信息到合适的数据结构soup = BeautifulSoup(html,"html.parser")for tr in soup.find('tbody').children:if isinstance(tr,bs4.element.Tag): # 类似type,判断一个类型是否是一个已知的类型tds = tr('td') # tr.find_all('td')的简写ulist.append([tds[0].string,tds[1].string,tds[3].string])def printUnivList(ulist,num): # 利用数据结构展示并输出结果tplt = "{0:^10}\t{1:{3}^20}\t{2:^10}"print(tplt.format("排名","学校名称","总分",chr(12288)))for i in range(num):u = ulist[i]print(tplt.format(u[0],u[1],u[2],chr(12288))) # 采用中文字符的空格填充 chr(12288) # 采用中文字符的空格填充 chr(12288)def main():uinfo = []url = "http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html"html = getHTMLText(url)fillUnivList(uinfo,html)printUnivList(uinfo,num=20)main()
#
三.运行结果
python 中国大学排名相关推荐
- python中国大学排名爬虫写明详细步骤-python中国大学排名爬虫
python 中国大学排名爬虫 首先,给一个最好大学网URL:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html, 点击这里进入 . 功能描述 ...
- python中国大学排名爬虫写明详细步骤-python网络爬虫入门实例:中国大学排名定向爬虫...
中国大学排名定向爬虫的 设计和实现 一.环境安装: 1.选择一个适合自己的IDE(以下代码用Jupyter Notebook编写) 2.打开cmd,安装requests库和beautifulsoup4 ...
- python中国大学排名爬虫写明详细步骤-python爬虫爬取2020年中国大学排名
from bs4 import BeautifulSoup # 网页解析 获取数据 import re # 正则表达式 进行文字匹配 import urllib.request, urllib.err ...
- python中国大学排名爬虫写明详细步骤-Python爬虫 2020中国大学排名
爬取中国大学排名 request 获取 html beautiful soup 解析网页 re 正则表达式匹配内容 新建并保存 excel 1 2 3 4 -*- codeing = utf-8 -* ...
- python中国大学排名爬虫写明详细步骤-Python爬虫——定向爬取“中国大学排名网”...
内容整理自中国大学MOOC--北京理工大学-蒿天-Python网络爬虫与信息提取 相关实战章节 我们预爬取的url如下 网页节选 在浏览器中读取网页源代码 可以 发现表格数据信息是直接写入HTML页面 ...
- python中国大学排名爬虫写明详细步骤-Python之爬虫-中国大学排名
#!/usr/bin/env python # coding: utf-8 import bs4 import requests from bs4 import BeautifulSoup # 通过传 ...
- python中国大学排名爬虫写明详细步骤-Python爬虫--2019大学排名数据抓取
Python爬虫--2019大学排名数据抓取 准备工作 输入:大学排名URL连接 输出:大学排名信息屏幕输出 所需要用到的库:requests,bs4 思路 获取网页信息 提取网页中的内容并放到数据结 ...
- python中国大学排名爬虫写明详细步骤-【Python爬虫】从html里爬取中国大学排名...
from bs4 import BeautifulSoup import requests import bs4 #bs4.element.Tag时用的上 #获取网页页面HTML def getHTM ...
- Python爬取中国大学排名,并且保存到excel中
前言 以下文章来源于数据分析和Python ,作者冈坂日川 今天发的是python爬虫爬取中国大学排名,并且保存到excel中,当然这个代码很简单,我用了半小时就写完了,我的整体框架非常清晰,可以直接 ...
最新文章
- postgres sql 多表联合查询_从零学会SQL-多表查询
- 信息学奥赛一本通(C++)在线评测系统——基础(一)C++语言——1112:最大值和最小值的差
- [SpringSecurity]web权限方案_用户认证_设置用户名密码
- Python 数据科学入门教程:NLTK
- poj 1651区间dp
- .NET项目工程生成一份项目帮助文档chm--Sandcastle工具
- java常见面试考点(九):SSM面试题
- rapidminer java_在Java应用程序中集成RapidMiner
- 【微信聊天机器人】基于python实现的PC端个人微信聊天机器人
- Direct3D透视教程,教你做出属于自己的透视
- 【语音信号处理】3语音信号可视化——prosody
- word分节符,分页符的区别,链接到上一页
- 两组的数据平均值合并_数据平均值合并计算 合并计算求平均值
- 人脸识别——OpenCV调取摄像头识别人脸
- 表示学习(特征学习)
- 制造业数字化转型内涵和过程
- Linux常用60个命令用法
- Linux系统库函数之strsep
- Mac终端加入IDEA命令
- Android之人品计算器教程
热门文章
- 达人评测 i5 12500h和r7 6800h 选哪个好
- 办公知识:有关如何PDF转Word文档的方法分享
- 【转贴】每月一个游戏
- 《数字化的力量》入选瞭望智库“思·享读书会”推荐图书
- 电子证据如何有效辨真伪?微版权“在线验证”电子数据的真实性
- 怎么样在Excel单元格里批量加小数点和单位?
- 应用内版本更新库UpdateVersion
- RT-Thread stm32 spi 使用笔记
- ITK图像itk::Image指针参数传递失败
- 记录使用nginx部署静态资源流程,以及遇到的访问静态资源404问题