文章目录

  • 步骤一:selenium爬虫代码
  • 步骤2:清洗数据
  • 步骤3. 整理格式并导出excel
  • 附:百度网盘-信息考评数据文件

网址:http://www.szse.cn/disclosure/supervision/check/index.html

步骤一:selenium爬虫代码

import time
from selenium import webdriveroption = webdriver.ChromeOptions()option.add_argument('--disable-gpu')
option.add_argument('lang=zh_CN.UTF-8')
# option.add_argument('headless') # 无界面
prefs = {"profile.managed_default_content_settings.images": 2,  # 禁止加载图片# 'permissions.default.stylesheet': 2,  # 禁止加载css
}
option.add_experimental_option("prefs", prefs)
browser = webdriver.Chrome(options=option)
browser.implicitly_wait(10)  # 等待元素最多10s
browser.set_page_load_timeout(10)  # 页面10秒后强制中断加载
browser = webdriver.Chrome(options=option)browser.get("http://www.szse.cn/disclosure/supervision/check/index.html")
time.sleep(3)
all_page = 866 # 全部的界面数量
i = 1
while all_page != 0:# 得到数据try:data_div = browser.find_element_by_id("1760_zsn_nav1").find_element_by_class_name("reporttboverfow-out")with open("supervision.csv", 'a') as file:for tr_data in data_div.find_elements_by_tag_name("tr")[1:]:text = tr_data.textfile.write(",".join(text.split(' ')) + '\n')except Exception as e:print(e)# 下一页next_page_button = browser.find_element_by_class_name("next")next_page_button.click() # 这里模拟点击all_page -= 1print("finish page " + str(i))i += 1time.sleep(3)  # 程序中断3秒,这是为了限制爬虫的速率

步骤2:清洗数据

由于爬取后的数据有很多数据被split(" ")误伤了,因此这里是为了解决这个问题

with open("supervision.csv") as file:lines = file.readlines()with open("super.csv", 'w') as write_file:for line in lines:line = line.split(',')if len(line) == 4:write_file.write(",".join(line))else:my_list = []my_list.append(line[0])my_list.append("".join(line[1:line.__len__() - 2]))my_list.append(line[line.__len__() - 2])my_list.append(line[line.__len__() - 1])write_file.write(",".join(my_list))print(line)

步骤3. 整理格式并导出excel

import pandas as pddf = pd.read_csv("super.csv", header=None, )
df.columns = ['公司代码', '公司简称', '考评结果', '考评年度']
df.drop_duplicates(inplace=True)
df.to_excel("supervision.xlsx", index=False)

附:百度网盘-信息考评数据文件

链接: https://pan.baidu.com/s/1s9n5pD1pUsldWM_zAl6BYg 提取码: 3fsf

scrapy使用selenium抓取深圳证券交易所考评表数据相关推荐

  1. 【需求】Python利用selenium抓取顺丰的地址数据

    文章目录 目的 代码 数据爬取 运行效果 目的 通过抓取顺丰的地址填写信息,获取全国的省市区数据 代码 # encoding:utf-8 # FileName: AreaCity # Date: 20 ...

  2. 使用selenium抓取华尔街见闻和新浪财经数据

    # 新浪财经数据采集import requests import pymongo import timefrom selenium import webdriver from bs4 import B ...

  3. Python+selenium 抓取美团单页接口数据里的用户评论和用户名称以及打分数据

    一.原理 selenium的原理很简单,就是模拟人对浏览器的操作,人是怎么操作的,在编写代码时就以这个为逻辑来进行编写.编写起来很是简单,并且也能够很容易纠错. 缺点是,速度比较慢,抓取起来耗时,并且 ...

  4. python爬虫篇2——爬取深圳证券交易所股票金融数据

    程序运行截图: mysql代码: create database financial; use financial; CREATE TABLE `lrb` (`id` int(11) NOT NULL ...

  5. selenium抓取_使用Selenium的网络抓取电子商务网站

    selenium抓取 In this article we will go through a web scraping process of an E-Commerce website. I hav ...

  6. Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺

    其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语 ...

  7. [Python] python + selenium 抓取 京东商品数据(商品名称,售价,店铺,分类,订单信息,好评率,评论等)

    目录 一.环境 二.简介 三.京东网页分析 1.获取商品信息入口--商品列表链接获取 2.获取商品信息入口--商品详情链接获取 3.商品详情获取 4.商品评论获取 四.代码实现 五.运行结果 六.结语 ...

  8. 【读书笔记】抓取深圳或上海股市,或香港美国等有关股市某时间段内全部股票行情数据,进行主成分分析构造你个人的股市指数

    抓取深圳或上海股市,或香港美国等有关股市某时间段内全部股票行情数据,进行主成分分析构造你个人的股市指数,然后分析你的私家指数和该股市常用官方股票指数的相关性,判断主成分分析在构造股市指数上是否可用. ...

  9. scrapy爬虫之抓取《芳华》短评及词云展示

    简介 在scrapy爬虫之<琅琊榜2>话题title收集及词云展示 及scrapy爬虫之模拟登录豆瓣l 两篇博文中,我们分别实现了直接爬取内容及模拟登陆豆瓣,现在我们将这两个功能整合到一起 ...

最新文章

  1. 宇宙是一个无始无终的循环?
  2. 适配器模式(Adapter)和外观模式(Facade)
  3. python版本切换_Ubuntu18.04下python版本完美切换的解决方法
  4. 关于SAP Spartacus重载(override)UserAuthenticationTokenService的问题
  5. 在客户端为UltraWebGrid增加行
  6. 在ubuntu中使用MYBASE
  7. oracle设置表的主键和外键,Oracle中给表添加主键、外键
  8. 中国捆矛行业市场供需与战略研究报告
  9. iOS学习笔记(1)— UIView 渲染和内容管理
  10. L2TP 配置实例——Client-Initiated
  11. 基于Socket网络编程
  12. java实例是什么_java 什么是实例
  13. 亚马逊测评账号关联因素有哪些?
  14. windows10自带我的文档等路径修改
  15. CSS(PS切图、学成在线案例)
  16. 运维:你们 JAVA 服务怎么又又又又出问题了,内存降不下来。
  17. kubectl认证 授权 准入控制
  18. C语言计算大写字母的个数
  19. 【1015】计算并联电阻的电阻
  20. C++模拟与高精度——玩具谜题

热门文章

  1. 导出参考文献是ciw格式_参考文献排版,这几点非常重要!
  2. 查看python进程_[原创] 如何查看一个Python进程在”干什么”: py-spy 来帮忙 – 编码无悔 / Intent Focused...
  3. Custom Depth in Unreal Engine 4
  4. 高性能Web服务器Nginx使用指南
  5. CentOS6.5升级内核到3.10.28
  6. (原创)面向对象的系统对接接口编写。第4篇
  7. Mounting A Windows Share On AIX Using CIFS
  8. js 单精度浮点数转10进制_确保前端 JavaScript 浮点数精度的四则运算方法
  9. html如何整齐排列选择框,html – 如何均匀地排列多个内嵌块元素?
  10. python查找指定文件夹并重命名_python获取指定文件夹下的所有文件名,并删选指定类型文件进行重命名以及撤销重命名...