上半年在学bs4时的一个爬虫,主要是针对table标签的,可用于爬取其他类似网站,代码比较好更改

# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup
import bs4def getHTMLText(url):try:r = requests.get(url, timeout=30)r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:return ""def fillUnivList(ulist, html):soup = BeautifulSoup(html, "html.parser")#soup.find('tbody').children是列表迭代类型,而如果是soup.find('tbody')则是标签for tr in soup.find('tbody').children:if isinstance(tr, bs4.element.Tag):tds = tr('td')ulist.append([tds[0].string, tds[1].string, tds[3].string])print(ulist)def printUnivList(ulist, num):    tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}"print(tplt.format("排名","学校名称","总分",chr(12288)))for i in range(num):u=ulist[i]print(tplt.format(u[0],u[1],u[2],chr(12288)))def main():uinfo = []url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'html = getHTMLText(url)fillUnivList(uinfo, html)printUnivList(uinfo, 20) # 20 univs
main()

爬取最好大学网站大学排名相关推荐

  1. 爬取的是最好大学网软科中国最好大学排名2019

    1.分析网页 本次爬取的是最好大学网软科中国最好大学排名2019:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html 2.爬取可行性分析: 理论 ...

  2. 中国大学排名python爬虫_Python爬虫入门实例三之爬取软科中国大学排名

    写在前面 这个例子是笔者今天在中国大学MOOC(嵩天 北京理工大学)上学习的时候写下来的.但是很快写完之后我就发现不对劲,首先课程给的例子是中国好大学网站的排名,但是现在这个网站已经重构了,原来的链接 ...

  3. Python爬虫练习:爬取软科世界大学学术排名

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于云边镇 ,作者花花 前言 软科世界大学学术排名(ShanghaiRa ...

  4. 爬虫攻守道 - 2023最新 - Python Selenium 实现 - 数据去伪存真,正则表达式谁与争锋 - 爬取某天气网站历史数据

    前言 前面写过3篇文章,分别介绍了反爬措施,JS逆向+ajax获取数据,以及正则表达式匹配开头.结尾.中间的用法.第3篇算是本文 Python Selenium 爬虫实现方案的子集,大家可以参照阅读. ...

  5. Python轻松爬取Rosimm写真网站全部图片

    RosimmImage 爬取Rosimm写真网站图片 有图有真相 def main_start(url):"""爬虫入口,主要爬取操作""" ...

  6. 实战 | WebMagic 爬取某保险经纪人网站经纪人列表之网站列表爬取

    小小,这次开始使用webmagic爬取相关的网站,这里爬取的网站为 https://member.vobao.com/  将会对该网站进行爬取,并进行实战. 分析网站 打开devtool查看网站相关的 ...

  7. java爬虫爬取主流房屋网站

    最近博主要做一些分析课题,所以使用java爬取了主流的房屋网站,搞些事情,下面是我搞事情的思路,在结尾处我会投放我的源码文件,供大家下载: 导航: 设计思路 项目的包与类详解 部分重要代码展示 源码下 ...

  8. 使用requests爬取实习僧网站数据

    任务要求: 爬取实习僧网站的招聘公司信息和职位信息,并存储到数据库中,对应的数据库表和需要爬取的字段见下面表一和表二(注意:爬取存在的字段) 代码以上传带github上:使用requests爬取实习僧 ...

  9. 爬虫实战-爬取房天下网站全国所有城市的新房和二手房信息(最新)

    看到https://www.cnblogs.com/derek1184405959/p/9446544.html项目:爬取房天下网站全国所有城市的新房和二手房信息和其他博客的代码,因为网站的更新或者其 ...

最新文章

  1. 2021年大数据常用语言Scala(十一):基础语法学习 方法参数
  2. sql服务器登录名为电脑名如何修改,如何恢复数据库的账号 登录名/用户名等
  3. 来电掉队,共享充电宝或许只是外表光鲜
  4. 经典C语言程序100例之十六
  5. 学习 wxpython_序
  6. express 路由中间件_Express通过示例进行解释-安装,路由,中间件等
  7. 广东人大常委会党组会议强调:要加快人工智能等领域的相关立法工作。【Python】
  8. 线段树、优先队列、单调队列小结
  9. ios 获取固件版本_觉得iOS测试版本BUG太多?系统降级试一试?
  10. 苹果切换系统按哪个键_Mac如何切换系统?
  11. 平面设计师如何利用图片素材提升工作效率
  12. 人均阅读18本,揭露2022全国职场人阅读报告
  13. 送给年轻人创业的经典好文章
  14. php 5.0 新字符串
  15. vue 表单验证 支持6位小写字母和数字组合,必须包含2位字母
  16. 你能卖什么,决定了你的收入落在什么档次
  17. C# 启动与停止进程
  18. 蓝桥杯国信长天单片机--原理图详解(四)
  19. postman中变量设置
  20. 指数解读:沪深300(CSI300)[000300](续)

热门文章

  1. mysql master thread_mysql innodb master_thread伪代码整理
  2. 数据结构实验之数组三:快速转置
  3. 100个JavaScript代码片段
  4. jQuery最佳实践
  5. Java SE7新特性之try-with-resources语句
  6. 《JAVA与模式》之工厂方法模式
  7. 「无中生有」计算机视觉探奇
  8. Fun Chat 饭聊手机软件
  9. 【深度学习】基于深度学习的目标检测研究进展
  10. 【OpenCV3】几何图形(直线、矩形、圆、椭圆、多边形等)绘制