python 中国大学排名

一.步骤

1.从网络获取大学排名网页内容

2.提取网页内容的信息到合适的数据结构

3.利用数据结构展示并输出结果

4.分析Robot协议

http://www.zuihaodaxue.cn/robots.txt

可知网站对爬虫没有限制；

5.分析网页源代码结构

在要爬取的网页右键查看网页源代码，本人复制到pycharm IDE中，格式化后可见如下；

所有的排名包含在一个tbody标签中，每一个大学以一个tr分隔，每个大学的信息以td组织；有以上信息之后便可以编写如下代码

二.代码

import  requests
import  bs4
from bs4 import BeautifulSoupdef getHTMLText(url):  # 从网页获取大学排名网页内容try:r = requests.get(url,timeout=30)r.raise_for_status()r.encoding = r.apparent_encodingreturn  r.textexcept:return ""def fillUnivList(ulist,html): # 提取网页内容中信息到合适的数据结构soup = BeautifulSoup(html,"html.parser")for tr in soup.find('tbody').children:if isinstance(tr,bs4.element.Tag): # 类似type，判断一个类型是否是一个已知的类型tds = tr('td') # tr.find_all('td')的简写ulist.append([tds[0].string,tds[1].string,tds[3].string])def printUnivList(ulist,num): # 利用数据结构展示并输出结果tplt = "{0:^10}\t{1:{3}^20}\t{2:^10}"print(tplt.format("排名","学校名称","总分",chr(12288)))for i in range(num):u = ulist[i]print(tplt.format(u[0],u[1],u[2],chr(12288))) # 采用中文字符的空格填充 chr(12288) # 采用中文字符的空格填充 chr(12288)def main():uinfo = []url = "http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html"html = getHTMLText(url)fillUnivList(uinfo,html)printUnivList(uinfo,num=20)main()
#

三.运行结果

python 中国大学排名相关推荐

python中国大学排名爬虫写明详细步骤-python中国大学排名爬虫
python 中国大学排名爬虫首先,给一个最好大学网URL:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html, 点击这里进入 . 功能描述 ...
python中国大学排名爬虫写明详细步骤-python网络爬虫入门实例：中国大学排名定向爬虫...
中国大学排名定向爬虫的设计和实现一.环境安装: 1.选择一个适合自己的IDE(以下代码用Jupyter Notebook编写) 2.打开cmd,安装requests库和beautifulsoup4 ...
python中国大学排名爬虫写明详细步骤-python爬虫爬取2020年中国大学排名
from bs4 import BeautifulSoup # 网页解析获取数据 import re # 正则表达式进行文字匹配 import urllib.request, urllib.err ...
python中国大学排名爬虫写明详细步骤-Python爬虫 2020中国大学排名
爬取中国大学排名 request 获取 html beautiful soup 解析网页 re 正则表达式匹配内容新建并保存 excel 1 2 3 4 -*- codeing = utf-8 -* ...
python中国大学排名爬虫写明详细步骤-Python爬虫——定向爬取“中国大学排名网”...
内容整理自中国大学MOOC--北京理工大学-蒿天-Python网络爬虫与信息提取相关实战章节我们预爬取的url如下网页节选在浏览器中读取网页源代码可以发现表格数据信息是直接写入HTML页面 ...
python中国大学排名爬虫写明详细步骤-Python之爬虫-中国大学排名
#!/usr/bin/env python # coding: utf-8 import bs4 import requests from bs4 import BeautifulSoup # 通过传 ...
python中国大学排名爬虫写明详细步骤-Python爬虫--2019大学排名数据抓取
Python爬虫--2019大学排名数据抓取准备工作输入:大学排名URL连接输出:大学排名信息屏幕输出所需要用到的库:requests,bs4 思路获取网页信息提取网页中的内容并放到数据结 ...
python中国大学排名爬虫写明详细步骤-【Python爬虫】从html里爬取中国大学排名...
from bs4 import BeautifulSoup import requests import bs4 #bs4.element.Tag时用的上 #获取网页页面HTML def getHTM ...
Python爬取中国大学排名，并且保存到excel中
前言以下文章来源于数据分析和Python ,作者冈坂日川今天发的是python爬虫爬取中国大学排名,并且保存到excel中,当然这个代码很简单,我用了半小时就写完了,我的整体框架非常清晰,可以直接 ...

python 中国大学排名

一.步骤

1.从网络获取大学排名网页内容

2.提取网页内容的信息到合适的数据结构

3.利用数据结构展示并输出结果

4.分析Robot协议

5.分析网页源代码结构

二.代码

三.运行结果

python 中国大学排名相关推荐

最新文章

热门文章