爬取上市公司财务数据
python爬取上市公司财务数据
爬取入口
http://data.eastmoney.com/bbsj/201112/yjbb.html
使用selenium进行爬取的,本来参考其他博主的代码,但是有人反馈遇到乱码问题,我使用pandas read_html()进行解析的,没有碰到,效率还是很高的,也比较通用。
上代码吧
from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
import time
import pandas as pd
import os
from time import sleepchrome_options = webdriver.ChromeOptions()
browser = webdriver.Chrome(chrome_options=chrome_options)
browser.maximize_window() # 最大化窗口
wait = WebDriverWait(browser, 10)
df=pd.DataFrame()
for p in range(2010,2021):url = 'http://data.eastmoney.com/bbsj/'+str(p)+'12/yjbb.html'print(url)browser.get(url)i=1page=0while True:element = browser.find_elements_by_class_name("dataview-body")tb = pd.read_html(element[0].get_attribute("outerHTML"))[0]tb["年份"]=pdf=df.append(tb)#判断是否最后一页nextpage = browser.find_elements_by_link_text("下一页")if len(nextpage)==0:breaki=i+1
#翻页功能while True:try:next_page =wait.until(EC.presence_of_element_located((By.LINK_TEXT,"下一页")))wait.until(EC.element_to_be_clickable((By.LINK_TEXT,"下一页")) )next_page.click()if wait.until(EC.text_to_be_present_in_element((By.CLASS_NAME,"active"), str(i))):breakexcept:passdf.to_excel("C:\\Users\\CT\\Desktop\\222.xlsx")
爬取上市公司财务数据相关推荐
- python爬取上市公司套期保值公告(巨潮网)--使用Selenium方法
python爬虫爬取上市公司套期保值公告(巨潮网) 摘要 巨潮资讯网的网页是通过JavaScript动态加载的,因此本文利用Selenium方法爬取该网站上市公司的套期保值公告. 主要技术路线: 1. ...
- 【爬虫】使用beautifulsoup、requests爬取网页上的图片;循环爬取上市公司高管信息
**声明:本篇博文只用于对于爬虫技术的学习交流.如果侵犯到相关网站利益,请联系我删除博文.造成不便还请见谅.希望各位同学在学习的时候不要过于频繁的去请求. 最近博主在学习前端开发和网页相关的东西,这些 ...
- php批量爬取上市公司高管持股变动信息
php批量爬取上市公司高管持股变动信息 用php的爬虫功能 批量爬取上市公司高管的持股信息,我们只需要知道最近一年的持股变动,还需要知道有几位高管持股有变动,人数越多,才说明这个变动和公司的发展是高度 ...
- selenium爬取上市公司全部行业及分行业股票行情数据
上次制作了输入股票代码,显示股票行情.历史数据.股评词云图的网页,但是,想要判断一只股票的投资价值仅看它自己的历史走势是不够的,还要与其他个股尤其是同行业个股进行比较.当然,行业轮动时选对行业是投资成 ...
- 雪球网爬取上市公司信息(一):爬取上市公司代号
条件:有一批5g相关公司,只知道公司名字或是简称,不知道公司是否上市以及股票代码,需要爬取公司信息. 网站:雪球网 思路:上传关键字,爬取搜索结果网页,将有结果的公司信息抓取下来并存入数据库 1.在雪 ...
- 用Python爬取上市公司数据、分析数据
前言 在很多网站上,都会以表格的形式展示数据,而我们获取这种数据只需通过十几行爬虫代码就可以搞定,轻松搞定网页爬虫,实现高效办公 知识点: 爬虫基本原理 requests的简单使用 pandas库 p ...
- 中财网爬取上市公司第一大股东持股比例
1.目标 在中财网(https://www.cfi.cn/) 获取给定上市股票.给定年分的第一大股东持股比例,如下图所示: 分析xhr请求 查看payload需要三个参数,但是非常简单哈,conten ...
- 爬取上市公司第一大股东持股比例
1.目标 获取给定上市股票.给定年分的第一大股东持股比例,如下图所示: 分析xhr请求 查看payload需要三个参数,但是非常简单哈,contenttype.jzrq非常简单,主要是stockid为 ...
- python财务报表分析-用Python爬取东方财富网上市公司财务报表
♚ 作者:苏克,零基础.转行python爬虫与数据分析 博客:https://www.makcyun.top 摘要: 现在很多网页都采取JavaScript进行动态渲染,其中包括Ajax技术.有的网页 ...
最新文章
- android源代码居中字体,Android (布局优化) TextView实现drawable图标大小 位置与第一行文本居中...
- 创建docker用户组并加入
- c#控制IE浏览器自动点击等事件WebBrowser,mshtml.IHTMLDocument2
- c# 连接Redis报错:WRONGTYPE Operation against a key holding the wrong kind of value:类型搞混弄出的错误...
- 音频处理一:(音频基本信息)
- 下周见| 重量级演讲阵容首曝光DTCC 2020阿里云议题抢鲜看
- java 的HashMap底层数据结构
- 为虚幻引擎4设置Visual Studio
- STB Reason: can‘t fopen
- Wannafly挑战赛19:C. 多彩的树(状压+容斥)
- [Codeforces 920E]Connected Components?
- java 求高精度幂_POJ 1001 求高精度幂【JAVA】
- vue-cli 安装
- 算法笔记-差分和前缀和
- thinkphp学习简易教程(一) thinkphp创建项目
- 密西西比河谷州立大学:Android应用程序开发(一)
- 漫谈中国数字电视标准的诞生
- Webpack:Loader学习—— Pitching Loader
- Kettle基本使用(四) —— 应用的使用
- 推荐9个适合Python开发的IDE。