小白初入python,在博客上借鉴了一些源码,然后改进了一下,选了湖大硕士招生分数线的一个表格进行爬取。成功是成功了,咳咳,还有很多改进的地方。啥也不说了,直接上源码~

# -*- coding:utf-8 -*-
# The author is Sympathy
from bs4 import BeautifulSoup
import requests
import csv
import bs4
# 用于抓取湖大硕士生招生初试线表格数据
def check_link(url):try:r = requests.get(url)r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:print('无法连接服务器')def get_contents(ulist, rurl):soup = BeautifulSoup(rurl, 'lxml')trs = soup.find_all('tr')for tr in trs:ui = []for td in tr:ui.append(td.string)ulist.append(ui)def save_contents(urlist):with open("E:/code/captureweb/2018年湖大初试成绩线.csv", 'w',newline='') as f:writer = csv.writer(f)writer.writerow(['2018湖大初试成绩'])for i in range(len(urlist)):for p in range(1,10):urlist[i].append(' ')if i not in [0,1,15,32,34,35,36,37]:for p in range(2):urlist[i].insert(0,' ')elif i in [32,34,36]:for p in range(4):urlist[i].insert(0,' ')elif i in [35,37]:for p in range(6):urlist[i].insert(0,' ')writer.writerow([urlist[i][1], urlist[i][3], urlist[i][5], urlist[i][7], urlist[i][9], urlist[i][11],urlist[i][13]])
def main():urli = []url = "http://gra.hnu.edu.cn/info/1075/4129.htm"rs = check_link(url)get_contents(urli, rs)save_contents(urli)
main()

python抓取网页表格数据相关推荐

  1. excel两个表格数据对比_用Excel一键抓取网页表格数据

    无需插件或编程,Excel自带一键抓取网页表格数据,你会用吗?省去从网页复制甚至手工抄写的麻烦,极大提高工作效率! 首先在浏览器打开想要抓取表格的网页(例如:中国银行外汇牌价),复制地址栏网址,然后打 ...

  2. Python案例学习:抓取网页表格数据解析并写入Excel

    三年多没写博客了,原因是因为我转行了,经历了很长的低谷,那段时间从不看博客,今天打开来看,回复了一些评论,很抱歉,有些网友的评论没有及时回复.最近开始想写代码了~ 最近看基金股票,想抓取一些行业当天的 ...

  3. python爬取网页表格数据匹配_爬取表格类网站数据并保存为excel文件

    本文转载自以下网站:50 行代码爬取东方财富网上市公司 10 年近百万行财务报表数据 https://www.makcyun.top/web_scraping_withpython6.html 主要学 ...

  4. python爬取网页表格数据匹配,python爬虫——数据爬取和具体解析

    标签:pattern   div   mat   txt   保存   关于   json   result   with open 关于正则表达式的更多用法,可参考链接:https://blog.c ...

  5. python求excel平均数_#python抓取excel表格数据#使用python3读取处理excel表的数据内容如何对内容求平均值...

    使用python3读取处理excel表的数据内容如何对内容求平均值 先说下概述: 值就是集合平均数. (a1 a2 --an)/n为a1,a2,--,an术平均值. 简单算均数.有这么一组数字10.2 ...

  6. python 爬虫 表格,python爬虫爬取网页表格数据

    用python爬取网页表格数据,供大家参考,具体内容如下 from bs4 import BeautifulSoup import requests import csv import bs4 #检查 ...

  7. python爬虫表格table_Python基于pandas爬取网页表格数据

    以网页表格为例:https://www.kuaidaili.com/free/ 该网站数据存在table标签,直接用requests,需要结合bs4解析正则/xpath/lxml等,没有几行代码是搞不 ...

  8. python 抓取网页数据

    python 抓取网页数据 此文解决如何从不同网页爬取数据的问题及注意事项,重点说明requests库的应用. 在开始之前,要郑重说明一下,不是每一个网页都可以爬取数据哦.有的网页涉及个人隐私或其他敏 ...

  9. Python抓取网页中的动态序列化数据

    Python抓取网页中的动态序列化数据 动态序列化数据经常应用于前后端分离的页面.或者通过VUE.JS等HTML页面环境,常规的爬虫抓取方法并不能满足数据采集的要求,因此需要其他的方式进行数据的采集. ...

最新文章

  1. C语言题解:用二分法思想求解10个元素中某个元素的下标(包含函数方法)
  2. 面试官:连框架都没用熟练,就这还来面试?
  3. 用上 RocketMQ,系统性能提升了 10 倍!
  4. PowerShell入门(三):如何快速地掌握PowerShell?
  5. 误删了计算机桌面回收站,我电脑回收站里的东西已经被删除几天了?怎么可以找回!谢谢...
  6. 直击“上云”痛点的 MSP 新生意,万博智云发布云原生迁移工具 HyperMotion 3.0
  7. hbuilder怎么做登录界面_新手会计不懂如何报税?一套标准网上报税流程演示,教你怎么纳税申报...
  8. 断点帧数测试软件,《幽灵行动:断点》PC版性能表现分析
  9. 有道Java_有道词典java版下载-有道词典java豪华版v1.0.7 安卓版 - 极光下载站
  10. Mysql递归查询优化记录
  11. 在线markdown文件转pdf
  12. Steam 游戏服务器无法连接 steam 游戏无法启动 打开 microsoft store 错误代码 0x80131500
  13. 盘点 Java 线程池配置的常见误区
  14. 微信公众平台菜单编辑php,如何使用Vue.js实现微信公众号菜单编辑器(思路详解)...
  15. 【Fracturing Destruction】Unity3D的物体爆裂、炸裂、碎裂效果
  16. 【vue教程】来自JSpang 技术胖的视频
  17. 云南民大java期中考试_云南省中央民大附中芒市国际学校2017-2018学年高一下学期期中考试英语试题(含听力)...
  18. Pandas描述性统计
  19. qemu内存模型(3) 内存布局初始化
  20. Python爬虫之验证码处理

热门文章

  1. cesium实现立体墙(垂直、水平)渐变泛光效果
  2. pandas文件保存操作
  3. Assignment | 05-week3 -Part_1-Neural Machine Translation
  4. 自然拼读(程序员必备技能)
  5. 【Python】官方文档中文版
  6. Pytho解析器的安装及配置
  7. 将UTC、EST时区的时间转化成北京时间(python)
  8. 电子科大辅助挂课、秒挂(付费)
  9. BAT批处理如何去写Windows防火墙规则
  10. AutoCAD .Net 程序自动加载 AutoLoader