步骤一：selenium爬虫代码

import time
from selenium import webdriveroption = webdriver.ChromeOptions()option.add_argument('--disable-gpu')
option.add_argument('lang=zh_CN.UTF-8')
# option.add_argument('headless') # 无界面
prefs = {"profile.managed_default_content_settings.images": 2,  # 禁止加载图片# 'permissions.default.stylesheet': 2,  # 禁止加载css
}
option.add_experimental_option("prefs", prefs)
browser = webdriver.Chrome(options=option)
browser.implicitly_wait(10)  # 等待元素最多10s
browser.set_page_load_timeout(10)  # 页面10秒后强制中断加载
browser = webdriver.Chrome(options=option)browser.get("http://www.szse.cn/disclosure/supervision/check/index.html")
time.sleep(3)
all_page = 866 # 全部的界面数量
i = 1
while all_page != 0:# 得到数据try:data_div = browser.find_element_by_id("1760_zsn_nav1").find_element_by_class_name("reporttboverfow-out")with open("supervision.csv", 'a') as file:for tr_data in data_div.find_elements_by_tag_name("tr")[1:]:text = tr_data.textfile.write(",".join(text.split(' ')) + '\n')except Exception as e:print(e)# 下一页next_page_button = browser.find_element_by_class_name("next")next_page_button.click() # 这里模拟点击all_page -= 1print("finish page " + str(i))i += 1time.sleep(3)  # 程序中断3秒，这是为了限制爬虫的速率

步骤2：清洗数据

由于爬取后的数据有很多数据被split(" ")误伤了，因此这里是为了解决这个问题

with open("supervision.csv") as file:lines = file.readlines()with open("super.csv", 'w') as write_file:for line in lines:line = line.split(',')if len(line) == 4:write_file.write(",".join(line))else:my_list = []my_list.append(line[0])my_list.append("".join(line[1:line.__len__() - 2]))my_list.append(line[line.__len__() - 2])my_list.append(line[line.__len__() - 1])write_file.write(",".join(my_list))print(line)

步骤3. 整理格式并导出excel

import pandas as pddf = pd.read_csv("super.csv", header=None, )
df.columns = ['公司代码', '公司简称', '考评结果', '考评年度']
df.drop_duplicates(inplace=True)
df.to_excel("supervision.xlsx", index=False)

附：百度网盘-信息考评数据文件

链接: https://pan.baidu.com/s/1s9n5pD1pUsldWM_zAl6BYg 提取码: 3fsf

scrapy使用selenium抓取深圳证券交易所考评表数据相关推荐

【需求】Python利用selenium抓取顺丰的地址数据
文章目录目的代码数据爬取运行效果目的通过抓取顺丰的地址填写信息,获取全国的省市区数据代码 # encoding:utf-8 # FileName: AreaCity # Date: 20 ...
使用selenium抓取华尔街见闻和新浪财经数据
# 新浪财经数据采集import requests import pymongo import timefrom selenium import webdriver from bs4 import B ...
Python+selenium 抓取美团单页接口数据里的用户评论和用户名称以及打分数据
一.原理 selenium的原理很简单,就是模拟人对浏览器的操作,人是怎么操作的,在编写代码时就以这个为逻辑来进行编写.编写起来很是简单,并且也能够很容易纠错. 缺点是,速度比较慢,抓取起来耗时,并且 ...
python爬虫篇2——爬取深圳证券交易所股票金融数据
程序运行截图: mysql代码: create database financial; use financial; CREATE TABLE `lrb` (`id` int(11) NOT NULL ...
selenium抓取_使用Selenium的网络抓取电子商务网站
selenium抓取 In this article we will go through a web scraping process of an E-Commerce website. I hav ...
Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语 ...
[Python] python + selenium 抓取京东商品数据（商品名称，售价，店铺，分类，订单信息，好评率，评论等）
目录一.环境二.简介三.京东网页分析 1.获取商品信息入口--商品列表链接获取 2.获取商品信息入口--商品详情链接获取 3.商品详情获取 4.商品评论获取四.代码实现五.运行结果六.结语 ...
【读书笔记】抓取深圳或上海股市，或香港美国等有关股市某时间段内全部股票行情数据，进行主成分分析构造你个人的股市指数
抓取深圳或上海股市,或香港美国等有关股市某时间段内全部股票行情数据,进行主成分分析构造你个人的股市指数,然后分析你的私家指数和该股市常用官方股票指数的相关性,判断主成分分析在构造股市指数上是否可用. ...
scrapy爬虫之抓取《芳华》短评及词云展示
简介在scrapy爬虫之<琅琊榜2>话题title收集及词云展示及scrapy爬虫之模拟登录豆瓣l 两篇博文中,我们分别实现了直接爬取内容及模拟登陆豆瓣,现在我们将这两个功能整合到一起 ...

scrapy使用selenium抓取深圳证券交易所考评表数据

文章目录

步骤一：selenium爬虫代码

步骤2：清洗数据

步骤3. 整理格式并导出excel

附：百度网盘-信息考评数据文件

scrapy使用selenium抓取深圳证券交易所考评表数据相关推荐

最新文章

热门文章