来自mooc

import requests
from bs4 import BeautifulSoup
import bs4
def getHTMLText(url):try:r = requests.get(url, timeout = 30)r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:return ""def fillUnivList(ulist, html):soup = BeautifulSoup(html,"html.parser")#转换成html的形式for tr in soup.find('tbody').children:  #每个tr就是一所大学对应的信息if isinstance(tr, bs4.element.Tag): #检测标签的类型是够是bs4的啥的类型如果不是的话那么就过滤掉tds = tr('td') #将所有的td标签作为列表类型放在tds里面ulist.append([tds[0].string, tds[1].string,tds[2].string])def printUnivList(ulist, num):tplt = "{0:^10}\t{1:{3}^10}\t{2:{3}^10}"print(tplt.format("排名","学校名称","总分",chr(12288)))for i in range(num):u = ulist[i]print(tplt.format(u[0],u[1],u[2],chr(12288)))
def main():uinfo = [] #列表中的列表url = "http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html"html = getHTMLText(url) #返回源代码fillUnivList(uinfo, html) #提取关键数据并且添加到列表中printUnivList(uinfo,20)#输出
main()

Python爬虫入门学习--中国大学排名相关推荐

  1. Python爬虫入门学习实战项目(一)

    静态数据的采集 第一个项目我们来抓取拉勾网的招聘信息,话不多说直接开始吧! 1.首先我们导入相关库: import requests from lxml import etree import pan ...

  2. 爬虫爬取中国大学排名top100并简单可视化分析

    爬虫爬取中国大学排名top100并简单可视化分析. 目标链接 http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html 实践环境 pycharm201 ...

  3. 慕课网python零基础入门教程_零基础Python爬虫入门学习一之综述

    原标题:零基础Python爬虫入门学习一之综述 大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章 ...

  4. Python爬虫入门学习例子之煎蛋网(福利哦)

    初学Python爬虫,学习资料是这篇博客:Python爬虫入门教程 经过前边两个例子(糗事百科爬虫和百度贴吧爬虫)的学习,我自己写了一个练习的例子:爬煎蛋网的妹子图,福利哦(*^__^*) #煎蛋网爬 ...

  5. 爬虫爬取中国大学排名

    爬取该网站的排名并输出 首先查看网页的源代码 找到大学排名所在的位置 然后写代码 import requests from bs4 import BeautifulSoup import bs4 de ...

  6. Python爬虫入门学习(一)

    1.requets 爬虫的一般步骤: 指定url 发起请求 获取响应 持久储存 爬取搜狗首页 import requests# 爬取搜狗的首页 if __name__ == '__main__':ur ...

  7. python爬虫入门学习

    1.什么是爬虫? 爬虫是一种自动化程序,可以批量对指定网页发送请求并得到数据. 2.爬虫流程 1)对网页发送请求并获得网页响应 ①使用urllib.request中的urlopen方法得到http.c ...

  8. Python爬取中国大学排名,并且保存到excel中

    前言 以下文章来源于数据分析和Python ,作者冈坂日川 今天发的是python爬虫爬取中国大学排名,并且保存到excel中,当然这个代码很简单,我用了半小时就写完了,我的整体框架非常清晰,可以直接 ...

  9. python爬去百度百科词条_Python爬虫入门学习实践——爬取小说

    本学期开始接触python,python是一种面向对象的.解释型的.通用的.开源的脚本编程语言,我觉得python最大的优点就是简单易用,学习起来比较上手,对代码格式的要求没有那么严格,这种风格使得我 ...

  10. python 爬虫 标签文本beautifullsoup_【Python爬虫】学习BeautifulSoup

    Beautiful Soup 基本介绍Beautiful Soup 是一个HTML/XML 的解析器,主要用于解析和提取 HTML/XML 数据. 它是基于HTML DOM 的,会载入整个文档,解析整 ...

最新文章

  1. 使用druid【使用官方的stater】||集成JdbcTemplate
  2. python 查询文本文件的层次
  3. WinSock的recv返回值处理
  4. mysql网页后台_MySQL(PHP网站后台数据库)
  5. php变量在哪定义,PHP变量定义及工作原理
  6. 网络安全管理的“模拟人生”
  7. 设计模式入门,工厂模式,c++代码实现
  8. Atitit  深入理解命名空间namespace  java c# php js
  9. csdn积分怎么获取?
  10. alienfx无法与计算机,戴尔G3无法检测到AlienFX设备怎么办
  11. Angular属性绑定,class绑定,事件绑定,属性样式绑定
  12. 反向的css动画,反向使用CSS动画(通过重置状态?)
  13. 国企央企OFFER收割全攻略 | 银行篇之差额体检答疑
  14. 清空linux+history_linux清除history命令
  15. 人物抠图 php,php抠图教程(混合模式+剪切蒙版)
  16. Towards Efficient and Scale-Robust
  17. P5459 [BJOI2016]回转寿司(动态开点)
  18. Android串口编程
  19. 【AXU3EG】UltraScale+ MPSoC以及开发板介绍
  20. 【计算机英语词汇和词组-持续更新中】

热门文章

  1. mysql主主互备模式配置
  2. css媒体查询和居中
  3. 利用 Kubernetes Service 的 selector 无痛运维在线 pod
  4. HttpClient配置
  5. jdbc 连接oracle 数据库格式
  6. Linux设备模型(总线、设备、驱动程序和类)
  7. popen函数的实现
  8. 《DNS与BIND(第5版)》——第10章 高级功能10.1 地址匹配列表和ACL
  9. MySQL--mysqldump的权限说明
  10. 技术晨读_20160217